Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Линейная тактика — залог успеха



 

Первой конструкцией такого типа был автомат с линейной тактикой, предложенный М. Л. Цетлиным. На рис. 2.3 показан принцип функционирования по­добного устройства. Число лепестков «ромашки»

 

равно числу действий, доступных автомату. На ри­сунке для простоты показан случай, когда число таких действий равно трем. В каждом лепестке вы­делено четыре устойчивых состояния, в которых мо­жет находиться автомат. В любом из состояний, образующих лепесток ромашки, устройство выдает в среду сигнал действия, приписанного этому лепестку. Смена состояний происходит с учетом сигналов оце­нок за действия, поступающих от внешней среды. Как уже говорилось, эти сигналы двоичные. При поступлении сигнала нештраф наступает смена со­стояний, показанная на рис. 2.3 сплошными стрелка­ми. Автомат как бы переходит к внешнему краю ле-

83

 

пестка, а когда достигает последнего состояния в лепестке, то остается в нем. Если же на вход авто­мата приходит сигнал штраф, то состояния сменяют­ся в соответствии с пунктирными стрелками на рисунке. Автомат идет в глубь лепестка, в какой-то момент под влиянием сигнала штраф переходит «а другой лепесток ромашки и происходит смена дей­ствий автомата. Смена лепестков, как видно из рисунка, происходит поочередно.

Поясним теперь принцип работы устройства по­добного типа. Пусть оно взаимодействует со стаци­онарной средой, характеризуемой вектором вида Е = (0,9, 0,0001, 0,8). И пусть в начальный момент наше устройство находилось в состоянии, показанном на рис. 2.3 штриховкой. Понаблюдаем за его функ­ционированием. Находясь в заштрихованном состоя­нии, устройство выполнит действие d1. За это дей­ствие среда с вероятностью 0,9 оштрафует нашу зверушку и лишь с вероятностью 0,1 поощрит ее. Тогда устройство с вероятностью 0,9 перейдет из заштрихованного состояния в состояние 1 в том же лепестке, а с вероятностью 0,1 — в состояние 3 в том же лепестке. В любом случае оно снова произведет в среде действие d1. И опять неумолимая среда с вероятностью 0,9 выдаст сигнал штраф и лишь с ве­роятностью 0,1 поощрит устройство. Как следует из формул теории вероятностей для независимых собы­тий (а выработка сигналов средой на каждом шаге происходит независимо от других шагов), вероят­ность получения от среды двух сигналов штрафа подряд за действие d1 есть 0,9*0,9 == 0,81, вероят­ность получения двух поощрений подряд равна 0,1*0,1 = 0,01, а вероятность получить один штраф и одно поощрение — 0,9*0,1+0,1*0,9=0,18. Это означает, что после двух тактов взаимодействия со средой наше устройство с вероятностью 0,01 ока­жется в состоянии 4 группы состояний, соответствую­щих действию d1, с вероятностью 0,18 останется в заштрихованном состоянии и, наконец, с вероят­ностью 0,81 перейдет в состояние 1 той группы, ко­торой соответствует действие d3. С ростом числа взаимодействий качественная картина не изменится. Вероятность покинуть группу состояний, в которой совершается действие d1, неуклонно возрастает, а вероятность остаться в ней — падает,

84

Что произойдет, когда устройство перейдет в состояние 1 того лепестка, который соответствует действию d3? После формирования этого действия среда с вероятностью 0,8 оштрафует устройство, и оно перейдет в состояние 1 того лепестка, которому соответствует действие d2. С вероятностью же 0,2 будет получен сигнал поощрения, который заставит наше устройство перейти в состояние 2 лепестка, соотносимого с действием d3. Но, как и в предшест­вующем случае, вероятность остаться в состояниях этого лепестка будет убывать с ростом числа взаимо­действий, и автомат в конце-концов покинет и этот лепесток, перейдя в группу состояний, соответствую­щих действию d2. Здесь наблюдается иная картина. Поскольку величина вероятности штрафа за действие d2 весьма мала, то с большой вероятностью автомат заберется в последнее состояние лепестка и почти не будет покидать его. Вероятность уйти на другие лепестки ничтожно мала. По порядку величин она равна 10*E-15. А это значит, что после некоторого периода обучения автомат, имитирующий поведение зверушки, будет вести себя почти самым наилучшим образом. «Почти» связано с тем, что существует не­нулевая, хотя и очень малая, вероятность ухода авто­мата из состояния, соответствующего действию d2. Тогда после очередного периода блуждания по ле­песткам действий d1 и d3 автомат вновь вернется на благоприятный лепесток действия d2 и вновь надолго останется в нем. Однако за это «отступничество» ему придется накопить некоторый дополнительный штраф, которого не было бы, если бы всегда выполнялось действие d2.

На нашем рисунке в каждом лепестке ромашки по четыре состояния. Выбор этого числа состояний про­изволен. Каждый лепесток может содержать не четыре, а большее или меньшее число состояний. Обозначим это число через q. Оно называется глубиной памяти автомата. Смысл этого параметра заключается в следующем. Чем больше q, тем более инерционен автомат, ибо тем большая последова­тельность штрафов вынуждает его к смене действий. Интуитивно ясно, что, чем больше инерционность автомата, тем ближе он к тому, чтобы, выбрав на­илучшее в данной среде действие, продолжать вы­полнять только его.

85

Читателю должно быть ясно, что с ростом глубины памяти растет при функционировании в стационарных средах и целесообразность поведения автомата. И, наоборот, при малом значении q функционирование автомата подвержено воздействию сигналов штрафа, часто выводящих автомат на лепестки с невыгодны­ми действиями.

Конструкция автомата, рассмотренная нами, бы­ла названа М. Л. Цетлиным автоматом с линейной тактикой. И эта весьма простая в технической реа­лизации система (набор сдвигающих регистров, соот­носимых с лепестками и тривиальная логическая схема для организации сдвига единички в этих ре­гистрах и перехода с регистра на регистр) решает сложную задачу о целесообразном поведении в лю­бой заранее не фиксированной стационарной среде. Факт этот вызывает глубокое изумление. Сколь же просты оказываются конструкции, способные выпол­нять процедуры адаптации, представляющиеся на первый взгляд весьма сложными.

Но оказывается, что целесообразное поведение это еще не все. Можно показать (и М. Л. Цетлин сде­лал это), что если minP, не превосходит 0,5, то при росте величины q мы получим последовательность автоматов с линейной тактикой со все увеличиваю­щейся глубиной памяти, которая является асим­птотически оптимальной. Это означает, что при q -->бесконечность имеет место M(q,E) —>М, где М—минималь­ный суммарный штраф, который можно получить в данной стационарной случайной среде. Таким об­разом, во многих таких средах конструкция, предло­женная М. Л. Цетлиным, обеспечивает при достаточ­но больших значениях q поведение, сколь угодно близкое к наилучшему. А это уже совсем фантастично.

После автоматов с линейной тактикой было най­дено еще много конструкций зверушек, которые мог­ли вести себя целесообразно, а зачастую асимптоти­чески оптимально в любых стационарных случайных средах. О них мы расскажем ниже.

§ 2.4. «Личные» качества автоматов

Автомат с линейной тактикой аккуратен и педан­тичен. Неторопливо движется он по состояниям ле­пестков, отсчитывая число поступивших на его вход

36

 

наказаний и поощрений. Но возможны и другие авто­маты. Вот один из них, предложенный В. И. Кринским. Он похож на автомат с линейной тактикой и действует при поступлении сигнала штраф аналогич­но автомату с линейной тактикой. Но при сигнале поощрение его поведение резко отлично от педан­тизма автомата с линейной тактикой. В каком бы

состоянии лепестка в этот момент не был автомат В. И. Кринского, он тут же меняет его на самое глу­бокое для данного лепестка состояние. Соответствую­щая картина показана на рис. 2.4 (пока не следует обращать внимание на штрихпунктирные линии). Такой автомат можно назвать «доверчивым». Он всегда «верит» в хорошее. И всякий положительный сигнал от среды приводит его в состояние «эйфории». Казалось бы, подобный способ поведения ничего кроме неприятностей автомату не сулит. Но мир ав­томатов оригинален и странен. Строго доказано, что доверчивые автоматы В. И. Кринского ведут себя

37

целесообразно в любых стационарных случайных сре­дах, а последовательность подобных автоматов с рос­том их глубины памяти q образует асимптотически оптимальную последовательность.

Оказывается, что и автоматы, предложенные Г. Роббинсом, которые отличаются от доверчивых ав­томатов тем, что при переходе с лепестка на лепесток они переходят не в начальное состояние лепестка, а в конечное его состояние (на рис. 2.4 эти переходы по­казаны штрихпунктирными стрелками), также ведут себя целесообразно в любой стационарной случайной среде и при росте глубины памяти q образуют асим­птотически оптимальную последовательность автома­тов. Создается такое впечатление, что любые меры по повышению инерционности автомата, задержке его в группе состояний, принадлежащих одному лепестку, улучшат качество его функционирования в среде. Пояснить это можно следующим примером. Заядлый рыболов, обнаружив однажды место, где был хоро­ший клев, может ходить сюда довольно долго, хотя результаты могут быть нулевыми. И часто при дос­таточном терпении он бывает вознагражден сторицей за предшествующие неудачи. А, сменив место ловли и не поймав ни одной рыбешки, такой рыболов не отчаивается и еще много раз приходит сюда, чтобы попытать счастья. И окончательно разочаруется в об­любованном месте лишь тогда, когда довольно много раз уйдет отсюда без какой-либо добычи. И, как по­казывает жизненный опыт многих поколений любите­лей рыбной ловли, средний улов такого рыболова всегда выше, чем у его коллеги, придерживающегося тактики менять место ловли, как только при первой же рыбалке его улов оказывается незначительным.

Опишем еще одну конструкцию автомата, обеспе­чивающего целесообразное поведение в любой ста­ционарной среде и дающего возможность построить асимптотически оптимальную последовательность ав­томатов, позволяющую получать минимальный воз­можный штраф в данной среде с любой наперед заданной точностью. В отличие от ранее рассмотрен­ных конструкций этот автомат будет не детермини­рованным, а вероятностным. Устроен он подобно ав­томату с линейной тактикой. При поступлении сиг­нала нештраф смена состояний в нем происходит так, как показано на рис. 2.3. Но при сигнале штраф та-

38

кой автомат не спешит менять состояние. Сначала он «подбрасывает монетку» и по результату подбрасы­вания либо переходит в состояние по пунктирной стрелке, показанной на рис. 2.3, либо сохраняет то состояние, в котором автомат получил сигнал штраф. Эта конструкция, предложенная В. Ю. Крыловым, может быть названа «осторожным» автоматом.

Интересен вопрос о том, насколько модели зве­рушек, построенные в рамках теории коллективного поведения, идентичны тем моделям, которые лежат в основе поведенческих актов, наблюдавшихся в опы­тах Торндайка, или в ситуациях альтернативного вы­бора, характерных для человека. М. А. Алексеев, М. С. Залкинд и В. М. Кушнарев провели серию экспериментов с людьми. Они проводили опыты в изолированной комнате, где ничего нет, кроме пуль­та с двумя кнопками, перед которым стоит стул. Ис­пытуемый садится на него и надевает наушники. Ес­ли нажать ту или иную кнопку, то с некоторой фик­сированной вероятностью, неизвестной испытуемым, в наушниках раздастся щелчок. Это сигнал поощре­ния. Отсутствие щелчка — аналог сигнала штраф. Цель испытуемого максимизировать сигналы нештра­фа путем правильного выбора нажимаемых кнопок. Внешне все выглядит так же, как в опытах Торн­дайка, т. е. альтернативный выбор из двух возмож­ностей и неизвестные заранее значения вероятностей поощрения и наказания. Как же ведут себя люди в этой экспериментальной ситуации? В простейших случаях, когда вероятность щелчка при нажатии одной из кнопок была равна единице, а при нажатии второй имелась ненулевая вероятность штрафа, люди быстро постигали ситуацию и нажимали лишь ту кнопку, которая гарантировала им стопроцентную удачу. Однако в более сложных случаях поведение испытуемых не было столь простым, как можно было бы предполагать.

Если стационарная среда задавалась, например, вектором Е == (0,2, 0,8), то, вместо того чтобы после некоторого периода обучения нажимать всегда пер­вую кнопку (здесь вероятность щелчка есть 0,8, так как вероятность штрафа для первой кнопки задана равной 0,2), человек нажимал то одну кнопку, то другую. На рис. 2.5 показан фрагмент действий ис­пытуемого. Верхняя цепь кружочков соответствует

39

 

нажатию первой кнопки, а нижняя — второй кнопки. Зачерненные кружки соответствуют нажатию, при ко­тором испытуемый услышал щелчок, светлые — исхо­ду испытания со штрафом. Как видно из рисунка, испытуемый правильно считает, что надо нажимать на первую кнопку, но время от времени он пробует нажимать и на вторую. Появление штрафа при этом переходе с кнопки на кнопку (с лепестка на лепес­ток) приводит к возвращению к первой кнопке. Срав­нивая поведение людей с функционированием автома­тов с линейной тактикой, авторы эксперимента при­

шли к выводу, что людей можно уподобить таким ав­томатам с небольшой глубиной памяти (q = 1, 2, 3). Это приводит к тому, что люди решают задачу аль­тернативного выбора (особенно при близких значе­ниях вероятностей Pi друг к другу) хуже, чем авто­маты с линейной тактикой. И, конечно, хуже ос­тальных рассмотренных нами автоматов. Интересно, что И. Б. Мучник и О. Я. Кобринская показали, что крысы в условиях опыта Торндайка действуют с го­раздо большей глубиной памяти и превосходят в этом отношении человека. Но в средах с близкими значе­ниями вероятности штрафов за действия пальма пер­венства остается не за биологическими организмами, а за не знающими эмоций простейшими автоматными устройствами.


Поделиться:



Последнее изменение этой страницы: 2019-05-06; Просмотров: 257; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.025 с.)
Главная | Случайная страница | Обратная связь