Сети с симметричными связями

Ансамблевые нейронные сети.

Минский и Пейперт высказывали мнение, что недостатки простых персептронов могут быть преодолены посредством многослойных сетей, так и введением в нейросеть обратных связей, которые допускают циркуляцию сигналов по замкнутым контурам. Использовать свойства такого типа сетей при моделировании функций мозга еще в 1949 г. предложил ученый Хебб.

По взглядам Хебба, нервные клетки мозга соединены между собой огромным количеством прямых и обратных возбуждающих связей и тем самым образуют нейронную сеть. Каждый из нейронов осуществляет пространственно-временное суммирование приходящих к нему сигналов от возбужденных нейронов, и определяет потенциал на своей мембране. Когда потенциал на мембране становится выше некоторого порогового значения, нейрон приходит в состояние возбуждения. Нейрон как элемент обладает рефрактерностью и усталостью. Эффективность связей может изменяться во время функционирования сети, повышаясь среди единовременно возбужденными нейронами. Такое явление приводит к объединению нейронов в так называемые клеточные ансамбли группы клеток, которые чаще всего возбуждались совместно, и к отдалению ансамблей друг от друга. При возбуждении необходимой части ансамбля он возбуждается целиком. Разные ансамбли могут и пересекаться: один и тот же нейрон способен вхо- дить в различные ансамбли. Электрическая активность мозга объясняется прежде всего последовательным возбуждением отдельных ансамблей.

Теории Хебба оказали огромное влияние на представления о функционировании мозга и стали основой для генерирования нейронных моделей долговременной памяти. В самом деле, ансамблевую нейронную сеть принято рассматривать как систему, проводящую функции распределенной ассоциативной памяти. Создание ансамблей в подобной сети похоже на запоминание образов (признаков, объектов, событий, понятий), зашифрованных паттерном активности нейронов, а сгенерированные ансамбли являются их собственным представлением. Процесс возбуждения всего ансамбля во время активации части его нейронов можно рассматривать как извлечение запомненной информации по ее части ключу памяти. Структура памяти, построенная на основе ансамблевой нейронной сети, имеет некоторые свойства, которые присущи биологической памяти, например как ассоциативность, распределенность, параллельность, устойчивость к шуму и сбоям, надежность. Имеются также структурные связи между ансамблевыми моделями нейронных сетей и составом коры головного мозга человека. Рассматриваются экспериментальные данные о синаптической пластичности, сформулированной Хеббом.

Структура модели ансамблевой нейросети состоит из довольнь большого количества нейроподобных элементов, каждый из которых как правило соединен с другими элементами сети. Входной сигнал подается на сеть методом активации необходимых нейроподобных элементов. В отличие от персептрона, ансамблевая сеть способна обучаться и с учителем, и без него. Обучение происходит по уравнению Хебба (1.5) или одной из его вариаций. Модуль коэффициента α в законе (1.5) при обучении с учителем показывает величину подкрепления, а при обучении без учителя этот коэффициент может быть установлен, например, неизменяемым. Обратим внимание, что формула Хебба формирует симметричную матрицу связей.

Во время обучения при подаче на нейросеть совокупности входных образов – элементов среды – в ней создаются ансамбли, которые способны иметь довольно сложную структуру, показывающую свойства среды. В самом деле, целостность внутри групп нейроподобных элементов, которые довольно часто возбуждались единовременно, будет на порядок выше, чем в среднем по нейросети. Таким образом образуются ядра ансамблей, которые накапливают комбинации признаков, наиболее постоянно встречающиеся во входных образах. Их все можно рассматривать как внутрисистемное представление образов-прототипов классов, существующих во внешнем мире. Самые редкие наборы возбужденных нейроподобных элементов создают бахрому ансамблей, в которой фиксируются собственные особенности образов, внутренний и внешний контексты и т. д.

Сумму образов, которую возможно запомнить в сети, находится в зависимости от их размера, т. е. от набора нейроподобных элементов, которое активизируется образом, в том числе от степени корреляции образов. Эмпирически и математически показано, что количество стохастических образов, которое возможно запомнить и восстановить в ансамблевой нейросети, при достаточно маленьком размере образа может сильно превышать количество нейроподобных элементов сети.

Во время передачи на обученную ансамблевую сеть абстрактного входного образа методом установки начального паттерна активности выполняется восстановлением иболее близкого к нему образа из набора запомненных в сети. Нейросеть оставляют самой себе, и в ней формирутся обычный процесс (синхронный или асинхронный – зависит от используемого метода) модификаций состояний нейроподобных структур. При всем этом по причине наличия одних только возбуждающих связей появляется проблема регулирования степени активности сети, т. е. количества единовременно активных элементов. Для решения этой проблемы был сформирован ряд внутрисетевых и внешних правил. Если степень активности сети остается примерно равной величине ансамбля, то межансамблевая конфронтация приводит к расслаблению сети от начального к конечному устойчивому состоянию, которое соответствует запомненному образу.

Несколькими работами аналитически и экспериментально исследуются количественные характеристики работы ансамблевых сетей, например качество отображения образа в зависимости от числа хранящихся в сети образов и их габаритов, а также от степени нахождения к ним входного образа и т. д. Любопытный метод аналитического исследования нейросетей с обратными связями был предложен Хопфилдом.

Сеть Хопфилда.

Хотя многие результаты исследования показывали стабильность ансамблевых сетей с обратными связями и хеббовским правилом обучения (преобразование сети к устойчивому состоянию), отсутствие аналитического объяснения такого введения мешало их распространенности. Ситуация изменилась с публикацией работ, в которых было определено подмножество нейронных сетей с обратными связями, которые в любом случае достигают устойчивого состояния.

В 1982 г. Биофизик из Америки Джон Хопфилд выпустил в свет статью [39] основанной на похожести между нейронными сетями и отдельным классом физических систем – спиновыми стеклами – у него получилось привлечь к анализу нейросетевых моделей сильный математический аппарат статистической физики. Это способствовало вторжению в сферу моделирования нейронных сетей большого количества ученых-физиков, которыми в наши дни получено довольно много любопытных аналитических результатов.

Хопфилд в вышеуказанной статье рассмотрел свойства модели полносвязной сети бинарных нейроподобных элементов с симметричными связями (w_ij = w_ji). Элементы работали в асинхронном режиме, т. е. каждый отдельный нейрон в произвольные моменты времени с некоей средней частотой определял свое состояние в соответствии с формулой (1.3). Это явление позволило рассмотреть поведение сети как процесс релаксации, при котором минимизируется энергетическая функция Е (функция Ляпунова, гамильтониан) модели:

где w_ij – матрица связей; у и θ – состояние и порог модельного нейрона. В самом деле, изменение Е при изменении состояния нейрона (беря во внимание симметрию w_ij и предполагая θ = 0)

Потому как знак ∆ y_i одинаков со знаком понятно, что Е по мере активации нейронов будет постепенно убывать, а так как Е ограничена, будет получено значение ее минимума. Следовательно, эволюция сети из произвольного начального состояния ведет к состоянию, которое соответствует локальному минимуму Е. Можно соотнести аналогию поведения сети с траекторией движения легкой частицы по произвольной вязкой поверхности под действием силы тяготения.

В своей статье Хопфилд анализировал сеть с нейроподобными элементами, которые имеют сигмоидную характеристику. Состояния нейронов такой сети меняются единовременно и постоянно, и такая сеть может быть описана системой дифференциальных уравнений. Хопфилд обосновал сходимость такой сети к неим постоянным энергетическим минимумам и открыл соответствие между ее стационарными состояниями и устойчивыми состояниями сети с бинарными элементами. Это стало подспорьем для генерации аппаратных моделей, в которых сеть реализуется как аналоговая электронная схема, состоящая из операционных усилителей, моделирующих нейроны, соединенных сопротивлениями с проводимостями w_ij, и с порогами, которые заданы входными токами θ (рисунок 1.2).

Ясно, что если сделать минимумами энергии заданную совокупность паттернов нейронной активности (образов), оба варианта модели Хопфилда в принципе смогут исполнять функции ассоциативной памяти, «скатываясь» к тому образу, в чей «бассейн притяжения» попадает изначальный паттерн активности нейронов сети. К примеру, на рисунке 1.3 отображено восстановление сетью из 40 нейронов, расположеных в виде матрицы 5 × 8, запомненного в сети изображения буквы Е.

Активному нейрону соотносится заштрихованный кусок изображения. Из поданного на сеть искаженного изображения (слева) восстанавливается верное изображение. Вследствие всего это, одним из методов получения необходимой энергетической функции является составление матрицы связей в соответствии с вариантом хеббовского правила:

где z ^p – образы, которые необходимо запомнить в сети; L – их количество. Это утверждение, как и утверждение, предложенное Хеббом, дает возможность для формирования симметричной матрицы связей, но постулирует нарастание веса связей между не только удиновременно активными, но также и одновременно невозбужденными нейронами, а также его спад между нейронами, находящимися в различном состоянии. Это правило разрешает существование тормозящих изменяемых связей между элементами сети, а также переход возбуждающих связей в противоположные. Оно разрешает сети автоматическим образом саморегулировать уровень возбужденности и контактировать с нулевыми порогами нейронов. Но в этом случае заметно снижается вместимость памяти сети: количество случайных образов, которое возможно записать в сеть с наличием возможности восстановления, становится не выше 0, 14 от количества нейронов. Так же следует отметить, в дополнение к энергетическим минимумам, которые соответствуют запомненным образам, появляются так называемые ложные минимумы функции Е. Ситуация еще более усложняется для скоррелированных образов, которые после процесса запоминания не становятся минимумами Е.

В наши дни ведется активная работа по улучшению характеристик теории Хопфилда, предлагаются ее интересные расширения и обобщения. Осуществляются попытки создать методы обучения, которые позволяют работать со скоррелированными образами. В нескольких работах озвучены обучающие правила, осуществляющие ортогонализацию и позволяющие сохранять в матрице связей некоторый вектор линейно независимых образов. Такие особенности, как правило, ведут к сложной нелокальной зависимости матрицы связей от сохраняемых образов. Озвучиваются методы отображения иерархии скоррелированных образов, которая существует в реальном мире, в иерархическом дереве типичных состояний нейронной сети.

В нескольких работах произведен анализ регистрации в сети Хопфилда ложных образов. Они появляются из за присущего нейроннойсети свойства аккумулировать в ходе обучения наиболее часто встречающиеся вариации входных сигналов, генерируя прототипные образы. Но это свойство, крайне полезное для ансамблевых сетей с низким уровнем активности, в сети Хопфилда ведет к отрицательному эффекту посредством огромного уровня активности находящихся в ней образов, и, как правило, заметного их перекрытия.

Также ведутся поиски методов увеличения набора образов, которое возможно записать в сети Хопфилда. Предлагалось внедрить в модель «забывание» (к примеру, ограничением значения весов). В этом случае новые запоминаемые в сеть образы начнут вытеснять старые. Можно достичь увеличения количества записанных образов ценой введения многочисленных связей. Но кардинального улучшения информационных составляющих сети Хопфилда, как показывает практика, позволяет добиться изначальный вариант хеббовского закона в сети с маленьким уровнем активности. Это доказывается также данными ученых, проводящих исследования ансамблевых сетей.

Любопытным достижением закончилась работа по преодолению таких сложных, с биологической точки зрения, запретов модели, как полносвязность и симметрия. Выяснилось, что много разреженная асимметричная версия сети Хопфилда способна решаться математически, и ее характер качественно похож на характер полносвязной сети в режиме хорошего восстановления.

Для модели сети Хопфилда существует также совокупность методов работы с последовательностями. Главная трудность заключается в том, чтобы при записывании показать в статической структуре матрицы связей закон следования входных образов, а при восстановлении обеспечить их воспроизведение в правильном порядке. Достигнуть этого получается созданием матрицы связей, в которой вместе со стационарными состояниями (симметричные связи) записаны передвижения между ними (асимметричные связи от предшествующего образа к последующему). Чтобы разделить два разных вида динамики – расслабление к устойчивому состоянию, которое соответствует одному из записанных образов последовательности, и переход к последующему образу, было сделано предложение фиксировать переходы между состояниями в особой матрице связей и установить временные задержки на сигналы, идущие на входы нейронов через эту матрицу. Из за этого этого сеть вначале стабилизируется в некоем состоянии, а уже после начинает «ощущать» нарастающее влияние следующего состояния и начнет переходить в него. На примере таких сетей была продемонстрирована генерация, узнавание и подсчет количества элементов простых последовательностей, но пока не имеет решения проблема подсчета более сложных последовательностей, имеющих общие части, разветвления и повторения.

Продолжая свои мысли о «коллективных вычислениях» в нейронных сетях, Хопфилд выдвинул теорию о использовании свойства сети минимизировать энергетическую функцию для расчета оптимизационных задач. В соответствии с этой теорией сначала находится «нейронное» представление для поставленной задачи, т. е. рассуждая из ее условий состоянию нейронов назначается смысл. После с учетом рамок, налагаемых на задачу, создается энергетическая функция таким методом, чтобы в состояниях, показывающих возможные решения, она была зависима от стоимостной функции задачи. Последовательно из формулы энергетической функции извлекаются связи w_ij и пороги θ _i, и создается необходимая сеть. В связи с тем, что в процессе работы сеть стремит к минимуму свою энергию, процесс в пространстве состояний направлен на минимизацию этой стоимостной функции. Процесс поиска минимума энергии отнимает всего несколько постоянных времени нейронов, и поэтому сеть довольно быстро достигает корректного состояния, из которого потом дешифруется решение задачи. В этом случае, в отличие от проблемы ассоциативной памяти, необходимо нахождение не местного, а глобального энергетического минимума, довольно существенной становится сигмоидность характеристик нейронов (бинарные нейроны здесь не подходят) и плавный характер их взаимодействия. Значения, находимые такой аналоговой сетью, не самые правильные, но достаточно близки к ним.

Невзирая на недостатки сети Хопфилда, осуществляются попытки использования ее аппаратной реализации для решения проблем, которые требуют быстрого узнавания небольшого набора простых образов.

Машина Больцмана.

Машина Больцмана являет собой стохастический вариант сети Хопфилда. Бинарные нейроподобные блоки понимаются здесь как представители элементарных теорий, а веса – как слабые бинарные взаимоограничения между этими блоками. Положительный вес связи показывает, что пара гипотез стремится поддерживать друг друга, а отрицательный – на на несовместимость этой пары. Симметрия связей помогает проанализировать работу сети с использованием энергетической функции:

Энергию взятого паттерна активности можно понимать как степень нарушения ограничений, существующих в проблемной области, со стороны данной комбинации гипотез или как стоимостную функцию, которая обязана быть минимизирована для решения оптимизационной проблемы.

Если установить постоянными состояния некоторых блоков, подав таким методом на сеть входной сигнал, остальные блоки будут менять свое состояние так, чтобы устремить к минимуму энергию Е. В таком случае, приходящая на каждый блок взвешенная сумма воздействий от активных элементов из-за симметрии связей будет совпадать с величиной различия между значениями энергетической функции, которая зависит от его собственного состояния:

В связи с этим правило изменения состояния бинарных нейроподобных элементов логически приводит к минимизации энергии Е. Важно отметить, что при этом сеть может оказаться в локальном минимуме, что крайне нежелательно для решения оптимизационных задач. Для того, чтобы сеть смогла выйти из локального энергетического минимума, в машине Больцмана используется вероятностное правило срабатывания блоков:

где рi – вероятность нахождения i-гo блока в единичном состоянии;

Р (х) – сигмоидная функция;

T – величина, аналогичная температуре.

При значениях Т → 0 это правило перетекает в правило срабатывания детерминированных бинарных элементов, а при повышении значения температуры возрастает вероятность миграции системы в состояние с боль- шей энергией.

Если нейросеть с подобным вероятностным правилом придет в состояние «теплового равновесия», относительные вероятности ее нахождения в двух глобальных состояниях будут работать по распределению Больцмана:

где Р_A – вероятность нахождения сети в глобальном состоянии A;

Е_A – энергия глобального состояния.

При низких температурах система «предпочитает» состояния с довольно низкой энергией, но для этого требуется много времени для достижения состояния равновесия. При довольно высоких температурах достижение равновесия становится проще, однако нет сильного предпочтения низким энергетическим состояниям.

Отличный способ отыскания глобального минимума имеет название «имитация отжига» из-за параллелей с медленным охлаждением металла для получения низкоэнергетической кристаллической решетки. Для этого сначала в сети достигается высокая температура, при которой ее поведение становится случайным, а после медленно снижают тепературу со скоростью, гарантирующей, что система почти всегда будет близка к тепловому равновесию и не сможет попасть в локальный минимум. При высоких температурах сеть довольно быстро отыскивает зону энергетического ландшафта, где может находится хороший минимум. При понижении температуры сеть ищет в этой зоне наиболее близкий к глобальному минимум энергии.

Машина Больцмана может быть использована для задачи классификации образов. При этом в ней, аналогично многослойному персептрону, есть входные, выходные и внутренние блоки, но для каждой прямой связи между этими блоками есть равная ей по модулю обратная (симметричная) связь. Само распознавание состоит из нескольких шагов:

− на входных блоках четко фиксируют входной образ;

− делают случайным состояние скрытых и выходных блоков, а потом медленно понижают температуру;

− наблюдают состояние сети при конечной низкой температуре и записывают статистику для состояний выходных блоков. Учитывая эту статистику делают выводы о входном образе.

Для модели Больцмана есть алгоритм обучения, который, как и для многослойного персептрона, генерирует путем изменения связей внутреннюю модель среды, которая позволяет достаточно точно классифицировать входные образы. Для корректной работы данного метода требуется обучающая выборка, которая состоит из пар вход – выход, которые сеть должна уметь сопоставлять. И если после такого обучения установить на входных блоках один из множества входных образов, на выходных блоках обязан появиться соответствующий выходной образ. Если подать на вход неизвестный сигнал, система на основании выявленных в обучающей выборке законов должна произвести правильное обобщение.

На практике каждый цикл обучения делится на три шага.

1. Этап тренировки. Для каждой пары образов устанавливаются состояния входных и выходных блоков, а другая часть сети будет подвержена отжигу к низкой температуре. После для каждой связи собираются данные, какой момент времени p_ij были единовременно активны соединяемые ею блоки.

2. Этап проверки. Производится вычисление аналогичной величины p_ij, но теперь выходные блоки не установлены и свободно изменяют состояние.

3. Изменение связей. В хорошо обученной сети ее поведение будет одинаково для обеих фаз. Если р ⁺ и р^– не равны для конкретной связи, ее меняют: ∆ , где ε показывает размер изменения.

Каждый из циклов нужно повторить несколько раз, до тех пор пока матрица связей не станет стабильной в достаточной степени.

Как и все методы, алгоритм обучения машины Больцмана имеет существенные недостатки, которые присущи процедурам градиентного спуска в многопараметрических пространствах. Самое главное это неточность вычисления градиента, которая обуславливается неполным достижением теплового равновесия и фиксированным временем сбора данных. В меру своей стохастичности метод требует сравнительно больших временных затрат относительно алгоритма обучения многослойного персептрона алгоритмом обратного распространения ошибки. Данная аппаратная реализация, однако, минимизирует этот недостаток, во всяком случае, для относительно небольших сетей. Наука знает примеры использования машины Больцмана для отыскания решения классических персептронных задач, таких как задача «исключающего ИЛИ», обнаружение симметрии во входном образе и т. д., а также для распознавания речи.

⇐ Предыдущая 123 4 5 Следующая ⇒