Информационный подход и психофизические аспекты распознавания текстур

⇐ ПредыдущаяСтр 8 из 31Следующая ⇒

Строго с точки зрения психофизики трудно точно определить, что именно означает словосочетание распознавание текстур. В своей широко известной серии статей, посвященной этой проблеме, Б. Джулес (см., например, [114]) ввел разделение на текстуры, допускающие мгновенное разделение (так называемое мгновенное восприятие), и текстуры, не поддающиеся разделению без тщательного и часто продолжительного изучения (так называемое восприятие-изучение). Он ограничился изучением распознавания текстур первого типа, т. е. таких, которые удается разделить за время, не превышающее 200 мс (грубо говоря, речь идет о текстурах, распознаваемых без движения глаз).

Вероятно, следует отметить, что подход, предлагаемый мною, ограничен в еще большей степени, так как включает требование формирования воспринимаемых границ там, где проходят границы, разделяющие текстуры. Этому условию удовлетворяют не все текстуры, предложенные Джулесом. В частности, ему не удовлетворяет ни один из приведенных на рис. 2.35 примеров; в то же время все примеры рис. 2.34 соответствуют этому требованию. Следовательно, в психофизическом смысле наш подход предусматривает быстроту распознавания (скажем, менее чем за 160 мс) и получение явной зрительно различимой границы. Известны различные критерии, реализующие второе требование. Один из них помимо возможности устанавливать наличие двух текстур в использовавшихся Джулесом текстурных изображениях (типа приведенных на рис. 2.34) предусматривает возможность получения информации о форме выделенной области. Шац, например, включил это условие в один из своих экспериментальных критериев [210].

Другая возможность, о которой сообщил мне С. Уллман, состоит в том, чтобы попытаться получить видимое движение границ текстур, определенных различными способами и представленных на двух отдельных кадрах. Первым кздром может служить, скажем, рис. 2.34, д, а вторым, предъявляемым после некоторого промежутка времени, например 100 мс, — рис. 2.34, е. Если у испытуемого возникает отчетливое впечатление, что границы перемещаются, это служит свидетельством, подтверждающим установление границ. Если же границы подчиняются тем же правилам локального соответствия, которым удовлетворяют яркостные границы [238], то это является очень важным доказательством того, что границы действительно выделены. Примеры, приведенные на рис. 2.34, удовлетворяют критерию получения информации о форме и критерию видимого движения.

Третий критерий зрительной различимости границы можно, вероятно, вывести из результатов, полученных Киддом, Фриоби иМейхью [120]. Используя соответствующие стереоскопические изображения, они установили, что некоторые типы границ текстур могут вызывать дизъюнктивные движения глаз, при которых две прямые, находящиеся в поле зрения, начинают сходиться или расходиться.

Если все эти критерии одновременно дают положительные или отрицатель-

но

ные результаты для различных типов границ, то это означает, что мы располагаем мощным инструментом, позволяющим устанавливать факт построения зрительно различимой границы, порожденной некоторым изменением на рассматриваемой текстуре. Кроме того, аналогичные комбинированные методы могут оказаться полезными для того, чтобы определить, действительно ли исходя из типов характерных объектов изображения, выделенных с помощью мгновенного восприятия из изображения, получено нечто вроде полного первоначального эскиза.

И наконец, как мне кажется, психофизические исследования сравнительной разделяющей мощности различных процессов распознавания наибольшую убедительность могут приобрести при использовании в них критериев типа абсолютных оценок эффективности, предложенных Барлоу [10]. Это исследование Барлоу посвятил изучению чувствительности, доступной человеку при обнаружении целей, представляющих собой множества плотно расположенных точек, включенных в фон, образованный случайно и менее плотно расположенными точками. Он установил, что на предъявляющихся им изображениях испытуемые в его экспериментах оказались в состоянии использовать около двух третей истинного отношения сигнал-шум, а это соответствовало приблизительно половине имевшейся статистической информации. Для объяснения полученных результатов он предложил также интересную и экономичную модель, которая содержала элементы " для оценивания количества точек"; эти элементы имеют приблизительно круглую форму и различные размеры. Количество точек позволяет заполнить ими центральную часть зрительного поля с окрестностями диаметром 1 — 4°, причем в среднем незаполненные промежутки и перекрытия составляют около 50 %. Они временно объединяются на период около ОД с. Я рассчитываю, что аналогичные исследования можно провести и для других задач распознавания.

На этом наше обсуждение способов представления изображений заканчивается. Теперь мы займемся использованием этих представлений для получения информации о поверхностях.

ГЛАВА 3 ОТ ИЗОБРАЖЕНИЙ К ПОВЕРХНОСТЯМ

3 1 МОДУЛЬНАЯ ОРГАНИЗАЦИЯ СИСТЕМЫ ОБРАБОТКИ ЗРИТЕЛЬНОЙ

ИНФОРМАЦИИ У ЧЕЛОВЕКА

Наша конечная цель — понять феномен зрения в целом, т. е. то, каким образом можно эффективно и надежно извлекать описания реального мира из его изображений. Зрительная система человека представляет собой пример работающего механизма, который может вырабатывать такие описания. Как мы уже убедились, одной из наших целей является достижение полного понимания этого механизма на всех уровнях: какого рода информация представляется в зрительной системе человека? Какого рода обработку информации

111

эта система осуществляет и зачем? Каким образом информация представляется в зрительной системе человека? Каким образом осуществляется в ней обработка инфомации и с помощью каких алгоритмов? Получив ответы на эти вопросы, можно задать последний вопрос: как эти специфические представления и алгоритмы реализуются на нейрофизиологическом уровне?

Изучение действующих зрительных систем может помочь нам в этом предприятии, и нигде не проявляется более явно, чем при исследовании зрительных процессов. В рамках информационной теории первый вопрос исследователя звучит следующим образом: какие задачи обработки информации решаются и какая информация требуется для их решения?

Как обычно, для изложения тезиса лучше всего воспользоваться примером. Наш мозг благодаря специфическому расположению наших глаз и способу управления их действием обычно получает аналогичные изображения некоторой сцены, " сделанные" с двух соседних точек, находящихся на одном и том же горизонтальном уровне. Если глубина двух объектов относительно положения наблюдателя различна, то взаимное расположение этих объектов в каждом из глаз будет различным. В справедливости этого замечания можно убедиться, поместив большой палец руки на различных расстояниях от глаз, и таким образом, чтобы за ним находился какой-либо фон. Закрывая сначала один, а затем другой глаз, Вы обнаруживаете, что положения, занимаемые объектами реального мира на изображениях, возникающих на каждой из сетчаток Ваших глаз, отличаются друг от друга. Это относительное различие позиций объекта на изображениях называется диспаратностью, которую обычно измеряют в минутах дуги. По мере приближения пальца к лицу диспарат-ность между его изображениями (относительно фона) в обоих глазах увеличивается. Одна минута диспаратности приблизительно соответствует различию по глубине в 2, 54 см для объекта, находящегося на расстоянии 152, 4 см.

Мозг обладает возможностью измерять диспаратность и использовать ее для создания ощущения глубины. Воспользуемся в качестве иллюстрации игрушечным стереоскопом. Когда с помощью стереоскопа изображения предъявляются левому и правому глазам по отдельности, они воспринимаются как плоские. Если же, однако, Вы смотрите обоими глазами и у Вас хорошее стереозрение, ситуация кардинально изменяется. Изображение перестает казаться плоским: ландшафт мгновенно превращается в рельеф и восприятие определенно приобретает полностью трехмерный характер.

Как же работает стереозрение? К сожалению, опираясь лишь на описанные выше наблюдения, мы не в состоянии даже поставить правильные вопросы. Дело в том, что повседневный опыт, как и маленький эксперимент со стереоскопом, не вносит никакой ясности в то, каким образом можно отделить стереоскопическую обработку от обычного монокулярного анализа каждого изображения в отдельности. Если бы стереоскопическая обработка была бы сосредоточена в каком-либо отдельном модуле, то ее можно было бы анализировать как таковую. Стереоскопическая обработка, однако, может и не вестись изолированно: стереозрение, например, может практиковать сложное и постепенно растущее взаимодействие процессов обработки, используемых каждым из двух глаз в отдельности, и сопоставление результатов такой обра-112

Рис. 3.1. Интерпретация некоторых изображений гребует учета более сложных факторов, а также привлечения более простых зрительных навыков. Здесь дано одно из таких изображений, предложенное Р. Джеймсом. Подобные изображения в книге не рассматриваются

ботки, получаемых в каждом из глаз. Это предположение не столь уж абсурдно, как может показаться. Для того чтобы представить себе, как могла бы действовать организованная подобным образом система, не нужно чрезмерно напрягать воображение. Для начала можно было бы обратиться, скажем, к изображениям дуба, получаемым левым и правым глазами независимо. Затем можно было бы отыскать на каждом изображении ствол и, допустим, самую нижнюю правую ветвь. Очень скоро были бы установлены соответствия между мелкими деталями изображений левого и правого глаз, диспарат-ность которых поддается точному измерению. И поскольку соответствия устанавливаются дедуктивным (от общего к частному) способом, при определении того, что ему должно соответствовать, проблем, в сущности, не возникает.

Этот метод, между прочим, типичен для так называемого " подхода сверху вниз", преобладавшего в области машинного зрения в 1960-х и начале 1970-х годов. Наш подход в значительной мере является реакцией на него. Вообще, я считаю, что, хотя иногда информация, получаемая в процессе анализа, выполняемого сверху вниз, оказывается и полезной, и необходимой (см. рис. 3.1 и [145, рис. 14]), ее роль в предварительной обработке информации в

113

зрительной системе всего лишь второстепенна. Доказательства справедливости такой точки зрения представляет психофизика, причем в силу целого ряда причин они игнорировались специалистами, работавшими в области машинного зрения. Тезис, следующий из соответствующих психофизических данных, весьма прост. Если в эксперименте в системе обработки зрительной информации у человека мы можем выделить некоторый процесс и продемонстрировать его удовлетворительную работу, то такой процесс не должен нуждаться в сложных взаимодействиях с другими частями зрительной системы и, следовательно, можно добиться достаточно хорошего понимания его функционирования как некоторого отдельно взятого процесса.

Одним из способов выделения некоторого зрительного процесса является использование изображений, из которых, насколько это возможно, устранены все разновидности информации, за исключением какой-то одной, после чего можно попытаться применить именно эту информацию. Б. Джулес воспользовался этим способом для исследования стереопсиса, предложив применять вычислительную машину для порождения стереограмм, состоящих из случайных точек; с такими стереограммами мы уже встречались (см. рис. 1.1). Оба представленные на этом рисунке изображения (и правое, и левое) — это совокупности черных и белых квадратиков, которые порождены с помощью вычислительной машины и идентичны, если не считать, что расположенная в центре квадратная область на одном изображении смещена по горизонтали относительно другого. Это означает, что соответствующие диспарат-ности различны. Помимо диспаратности данная стереопара не содержит никакой информации о видимых поверхностях.

При стереоскопическом рассмотрении этой стереопары после слияния изображений человек отчетливо и безошибочно воспринимает некоторый квадрат, " плавающий" в пространстве над плоским фоном. Этот эксперимент служит доказательством следующих двух утверждений: 1) диспаратность как таковая может вызывать ощущение глубины; 2) если в обработке действительно используется какая-либо процедура анализа сверху вниз (на самом деле я считаю, что вероятность этого весьма мала), то это должно иметь чрезвычайно ограниченный характер, поскольку ни одно из изображений не содержит различимой крупномасштабной монокулярной организации.

Эти результаты — скорее качественные, а не количественные — совсем не являются чисто техническими и (подобно большинству экспериментов Джу-леса полностью и чрезвычайно убедительно демонстрирует то, что следует увидеть) имеют для нашего подхода фундаментальное значение, поскольку позволяют приступить к разделению зрительных процессов на части, поддающиеся независимому изучению. Специалисты по вычислительной технике называют отдельные части некоторого процесса модулями. Идея, что некоторый крупный вычислительный процесс можно делить на части и реализовы-вать его в виде некоторой совокупности независимых подпроцессов в той степени, в какой это допускает решаемая задача в целом, показалась мне столь важной, что побудила сформулировать ее в виде отдельного принципа — принципа модульной конструкции. Его значение столь велико потому, что при иной организации процесса небольшое изменение, возникающее в одном 114

из его элементов, отражается на многих других элементах процесса. В результате процесс в целом чрезвычайно трудно поддается отладке и усовершенствованию как человеком, так и в ходе естественной эволюции, поскольку небольшая модификация, вносимая в один из его элементов, должна одновременно сопровождаться множеством других изменений, крмпенсирующих влияние первого на остальные элементы процесса. Принцип модульной конструкции не исключает наличия слабых взаимодействий между различными моделями, участвующими в решении некоторой задачи, однако требует, чтобы общая организация имела в первом приближении модульный характер.

Наблюдения, подобные сделанным Б. Джулесом, обладают исключительной ценностью в теоретическом отношении, поскольку они дают нам возможность четко формулировать вопросы информационного характера, на которые, как нам известно, должны существовать ответы, так как зрительная система человека соответствующую задачу решить может. Именно результаты Джулеса позволили нам разработать теорию стереопсиса у человека [155]. Аналогичные результаты Майлса [167] и Уоллака и О'Коннелла [240] позволили Уллману создать его теорию определения структуры по данным о движении [238]. Некоторые эксперименты Джулеса [113, гл. 4], а также выделение Браддиком [23] в видимом движении мелкомасштабных краткосрочных процессов сыграли определенную роль в построении нашей теории избирательности по направлению.

Наличие модульной организации в системе обработки зрительной информации у человека служит подтверждением того, что различные типы информации можно анализировать независимо. Как отмечал X. К. Нисихара [178], информация о геометрических свойствах и отражательной способности видимых поверхностей кодируется в изображении различными способами и может извлекаться из него с помощью почти независимых процессов. После того как это обстоятельство было по достоинству оценено, началось бурное развитие теорий, посвященных возможным процессам декодирования информации. В данной главе описываются информационные теории таких процессов декодирования, которые сейчас уже достаточно хорошо изучены. Речь идет о процессах, обеспечивающих: 1) стерео пейс, 2) избирательность по направлению, 3) определение структуры по видимому движению, 4) определение глубины по оптическому переносу, 5) определение ориентации поверхности по ее контурам, 6) определение ориентации поверхности по ее текстуре, 7) определение формы объекта по данным о затенении поверхности, 8) получение стереоскопических изображений с помощью фотометрии (определение ориентации и коэффициентов отражения поверхности по данным о светимости сцены, которая регистрируется некоторым датчиком при различных условиях освещения); 9) определение освещенности и цвета как некоторой аппроксимации отражательной способности. Конечно, существуют и другие источники получения дополнительной информации — такие, например, как загораживание одних объектов другими. Однако до тех пор, пока я не в состоянии буду дать некоторому процессу достаточно целостную трактовку, я его обсуждать не буду. Не все из описанных здесь процессов интересны с биологической точки зрения (несомненно, фотометрический способ получе-

115

ния стереоскопических изображений), но все они существенны в качестве способов получения информации о геометрических свойствах и отражательной способности видимых поверхностей по их изображениям.

3 2 ПРОЦЕССЫ, ОГРАНИЧЕНИЯ И ВОЗМОЖНОСТИ ПРЕДСТАВЛЕНИЯ

ИЗОБРАЖЕНИЙ

Прежде чем приступить к подробному описанию различных теорий, следует сделать несколько замечаний, касающихся их общего характера, а также того, на что читатель должен обращать внимание и что он может ожидать от них.

Во-первых, читателю следует вспомнить, что процессы мы собираемся анализировать на трех уровнях (см. рис. 1.4) — информационной теории, алгоритмов и реализации. Поскольку проблема зрения еще не разрешена полностью, мы, конечно, не можем каждый процесс, функционирующий в зрительной системе человека, анализировать на всех трех уровнях. Однако для некоторых процессов это возможно, а для многих из них необходим один или два уровня — вероятно, это относится даже к большинству процессов, обеспечивающих получение информации о поверхностях по их изображениям.

Во всяком случае начинать всегда мы будем с первого уровня — уровня информационной теории, поскольку наша книга посвящена информационному подходу к проблеме зрения. При этом читателя должны интересовать те физические ограничения, которые обеспечивают соответствующему процессу возможность " делать" то, что он " делает". Эта ситуация полностью аналогична той, которая имела место в гл. 2. Там речь шла о способах представления изображений, и, для того чтобы указать, что полезно, а что — нет, мы постоянно обращались к взаимосвязи между процессами формирования изображений и теми свойствами материального мира, которые являются основой порождения структуры изображений. В этой главе мы имеем дело не с представлениями, а с процессами, но ситуация совершенно аналогична предыдущей, однако возникает она иначе. Мы уже сталкивались с проявлением этой новой ситуации, создавая теоретические основы объединения пересечений нулевого уровня, полученных с помощью фильтров с рецептивными полями разного размера, с целью формирования непроизводных элементов необработанного первоначального эскиза, допускающих физическую интерпретацию. Вообще проблема состояла в том, что оснований для установления связи между пересечениями нулевого уровня, получаемыми по двум различным каналам, которые не имеют перекрытия в частотной области, нет. На нижнем уровне зрения связь между такими пересечениями нулевого уровня устанавливается в силу того, что изменения яркости вызываются неоднородностями — специфической " разметкой" поверхности, яркосгными переходами объектов и т. д. Именно они играют решающую роль в процессе пространственной локализации.

Подобная связь процесса формирования изображения с существенными особенностями материального мира обычно возникает при изучении зритель-

116

ных процессов, и в данной главе мы встретимся с несколькими примерами этой связи. Часто возникают, казалось бы, неразрешимые задачи, например определение того, между какими именно точками на левом и правом изображениях рис. 1.1 должно иметь место соответствие. Ответ на этот вопрос нельзя дать на основании только изображения. В построении информационной теории стереопсиса решающее значение имеет определение дополнительных естественных условий, налагающих на искомый результат ограничения, которые позволяют получать однозначное решение. Отыскание таких ограничений является настоящим открытием: эти значения имеют непреходящую ценность, они могут накапливаться и составлять основу для дальнейших изысканий, в сущности, именно они делают данную область исследований научной [147].

Определив источник дополнительной информации, т. е. установив, если угодно, каким образом материальный мир налагает на такую информацию ограничения, мы можем использовать ее при задании некоторого процесса. Например, при объединении пересечений нулевого уровня мы воспользовались допущением о совпадении в пространстве, утверждающем, что совпадение пересечений нулевого уровня служит достаточным доказательством реального яркостного перехода. Итак, использование ограничений сводится к преобразованию их в некоторое допущение, которое может поддаваться, а может и не поддаваться внутренней проверке.

Таков, следовательно, один аспект информационной теории высшего уровня, описывающей некоторый зрительный процесс, но существует и другой почти столь же важный аспект. В гл. 1 мы убедились в том, что некоторый процесс можно рассматривать как некоторое преобразование, обеспечивающее переход от одного представления к другому. Сложение, например, представляет собой отображение некоторой пары чисел в некоторое число. На вход всех процессов, которые будут нами рассматриваться, поступают признаки изображений, а на выходе этих процессов воспроизводятся признаки поверхностей, дающие нам некоторые сведения либо о геометрических свойствах поверхностей, л ибо об их отражательных способностях.

В следующей главе мы рассмотрим способы представления выходной информации- этих процессов, сейчас же займемся входной информацией. Что же должно подаваться на вход таких процессов? Мы уже располагаем четырьмя возможностями: собственное изображение, пересечения нулевого уровня, необработанный первоначальный эскиз и полный первоначальный эскиз. Часть информационной теории должна быть посвящена выбору одной из этих четырех возможностей (подходящей, вероятно, окажется какая-то совершенно от них отличная) и его обоснованию, и, следовательно, часть исследования каждого процесса будет связана с этой проблемой.

В конечном счете психофизика сообщает нам, какое представление входной информации используется, если соответствующий процесс действительно функционирует в зрительной системе человека. Следует, однако, иметь в виду один важный момент [144]: в сущности, поскольку ограничения обеспечивают работоспособность процессов и поскольку они порождаются реальным миром, непроизводные элементы, которыми оперируют процессы, в

117

целом должны соответствовать реальным объектам, обладающим поддающимися идентификации физическими свойствами и занимающими некоторое определенное положение на некоторой поверхности в реальном мире. Таким образом, не следует пытаться при построении стереоскопического изображения устанавливать соответствие между тоновыми матрицами яркостей именно потому, что некоторый пиксел соответствует некоторой точке видимой поверхности неявным образом.

Это — важное обстоятельство. Так, неспособность Уоллака и ОТСоннелла [240] осознать его, по их собственному признанию, задержала работу на годы. Они не могли понять, почему тень изогнутой проволочки должна отличаться от тени, отбрасываемой гладким твердым телом. Если проволочка вращается, то ее тень движется и человек мгновенно воспринимает ее трехмерную форму; если же вращается твердое тело, его тень движется, однако его форма человеком не воспринимается. Дело в том, что тень проволочки порождает очертания, находящиеся во взаимно однозначном соответствии с фиксированными точками проволочки. Все эти точки имеют определенные местоположения, которые, естественно, изменяются от кадра к кадру, но тем не менее всегда соответствуют одному и тому же месту проволочки. При вращении твердого тела ситуация меняется. В различные моменты времени точки силуэта соответствуют совершенно различным точкам, расположенным на поверхности тела. Эффективная связь непроизводных элементов изображения с неизменным физическим объектом теряется. Следовательно, процесс восстановления формы не работает.

С другой стороны, чем сложнее процесс получения некоторого представления изображения, тем продолжительнее он обычно оказывается. При решении практических задач фактор времени часто является чрезвычайно существенным. Так, при анализе движения ответ требуется получить как можно скорее — прежде чем изображение перестанет соответствовать истинному положению дел или прежде чем движущийся " сожрет" наблюдателя. Поэтому эволюция обычно благоприятствовала тому, чтобы все совершилось так быстро, как только возможно.

Итак, хотя, вообще говоря, процессы, оперирующие информацией, содержащейся в изображении, могут использовать любое из обширного набора представлений исходной информации, реально они работают с теми представлениями, которые могут получить быстрее всего. В сферу нашего обсуждения входят такие представления, как тоновое изображение, пересечения ну-/ левого уровня, необработанный первоначальный эскиз и полный первоначальный эскиз. Самые " быстрые" представления еще не являются физическими и потому в какой-то степени ненадежны, следовательно, их использование чревато ошибками. В некоторых случаях, однако, такая потенциальная ошибка окупается выигрышем во времени, например при управлении движением глаз в ответ на возникновение на изображении неожиданного изменения или при обнаружении неясно вырисовывающихся объектов (эта проблема рассматривается в теории избирательности по направлению в разд. 3.4). Более того, именно потому, что граница является физической, ее использование не всегда оканчивается благополучно. Края цилиндрического фонарного столб» 118

порождают очень четкие яркостные переходы на изображениях, наблюдаемых левым и правым глазами, но эти яркостные переходы соответствуют на реальной поверхности разным прямым. Это обстоятельство вызывает осложнения в процессе стереопсиса, когда при сопоставлении изображений предпринимается попытка определить расстояние до фонарного столба.

Таким образом, наш постулат о том, что информация, поступающая на вход некоторого процесса, должна состоять из элементов, достаточно точно соответствующих определенным физическим объектам, имеет лишь принципиальный характер. Он явно не соответствует специфике ряда процессов, скажем, таких, как получение фотометрического стереоскопического изображения или определение формы объекта по данным о затенении поверхностей, но, вероятно, достаточно существен для таких процессов, как установление соответствий для видимого движения [236] или анализ формы объекта по данным о контурах или текстуре поверхности. Следование этому постулату таит определенные опасности, а для некоторых процессов он справедлив лишь в предельном смысле: я, в частности, полагаю, что пересечения нулевого уровня как в процессе стереопсиса, так и при выборе по направлению могут использоваться непосредственно. Важно, однако, иметь в виду, что это — достаточно сильный и явно справедливый постулат, и, следовательно, любые отступления от него нельзя оставлять без внимания — они должны обосновываться.

Итак, с уровнем информационной теории на этом можно покончить. Вторым из трех уровней, способствующих пониманию некоторого процесса, является уровень алгоритма. На этом уровне формулируется некоторая конкретная процедура, реализующая некоторую информационную теорию. Известны два принципа, определяющие " конструкцию" алгоритма, и, очевидно, им должен отвечать любой " кандидат", серьезно претендующий на роль процесса, участвующего в предварительной обработке информации в зрительной системе человека. Один из этих принципов утверждает, грубо говоря, что алгоритм должен обладать устойчивостью, другой — что его характеристики должны быть гладкими. Формулируются же эти принципы следующим образом [145].

1. Принцип пристойного ухудшения. При ухудшении качества исходных данных этот принцип должен по возможности обеспечивать получение по крайней мере варианта ответа. Он эквивалентен условию непрерывности связи отдельных этапов обработки. Так, требуется, чтобы некоторое двухмерное приближенное описание рисунка, которое зрительная система может для этого рисунка построить, позволяло этой системе строить приближенное трехмерное описание изображения на рисунке.

2. Принцип наименьшего вреда. Этот принцип состоит в том, что не следует делать ничего, потенциально подверженного порче. Я считаю, что он применим во всех тех случаях, когда рабочие характеристики изменяются. Указанный принцип утверждает, что следует избегать использования алгоритмов, построенных в соответствии с методом проб и ошибок, поскольку, вероятно, существует лучший метод. Мой опыт' вообще подсказывает мне,

119

что нарушение принципа наименьшего вреда служит признаком того, что делается что-то не то либо чрезвычайно трудное.

Было бы прекрасно, если бы мы могли сформулировать некие общие правила для процессов, относящихся к третьему уровню анализа — нейронному уровню реализации. К сожалению, лишь несколько теорий разработано в той степени, которая позволила бы говорить о конкретных реализациях соответствующих процессов на нейронном уровне, причем ни для одной из таких реализаций не имеется достаточно детальных экспериментальных подтверждений. Таким образом, мы не в состоянии сформулировать подобные правила.

Однако одно гипотетическое правило можно ввести, опираясь на наш опыт, касающийся роли кооперативных алгоритмов в процессе стереопсиса и установлении локально-параллельной организации [153, 220]". Но это всего лишь гипотетическое правило, и к нему следует относиться с осторожностью. Оно предполагает, что нервная система по возможности избегает использования итеративных методов, точнее, чисто итеративных процедур, при которых новая информация не вводится в процесс ни на одном шаге. Наоборот, создается впечатление, что нервная система предпочитает использовать процедуры, обеспечивающие получение решения после их однократного применения — типа неитерационного алгоритма Стивенса [220], предназначенного для определения локальных ориентации в конфигурациях Гласса. Кроме того, нервная система, очевидно, " отдает предпочтение" процедурам, продвигающимся от приближенных решений к более точным, делая на каждом шаге одно и то же, но без чистой итерации благодаря введению новой информации в каждом цикле. Как мы убедимся в следующем разделе, именно таким образом организованы наши алгоритмы установления соответствия между изображениями стереопары. И этот принцип также можег составлять вполне разумную основу для построения алгоритмов, поскольку он легко включает принцип пристойного ухудшения и наименьшего вреда.

И все же использование кооперативных методов (некоторой разновидности нелинейного итерационного алгоритма) с некоторых точек зрения представляется очень правдоподобным. Они, в частности, очень устойчивы, а их структура часто допускает перенос в систему тормозящих и возбуждающих связей гипотетически правдоподобной нервной сети. Почему же в таком случае они не используются?

Одним из возможных объяснений может служить то обстоятельство, что кооперативные методы требуют слишком много времени для получения результата и для любой их непосредственной реализации необходимо слишком много нейронного материала. Трудности, связанные с итерационными процессами, заключаются в том, что при этом необходима организация циркуляции чисел по некоторому контуру, для чего может быть использована некоторая система, построенная на возвратных коллатералей, или замкнутые контуры, образованные нервными связями. Если, однако, эти числа в процессе циркуляции не представляются достаточно точно, наблюдается характерная тенденция быстрого нарастания ошибок. Использование нейрона для представления некоторой величины даже со столь низкой точностью, как 1-10, требует достаточно продолжительного интервала времени с тем, чтобы он мог свободно включать от одного до десяти пиков. Это означает, что для одной нервной клетки среднего размера на одну итерацию требуется затратить по меньшей мере 50 мс, что соответствует 200 мс на четыре итера-

120

ции, - минимальное время, за которое наш кооперативный алгоритм в состоянии обработать стереограмму, и оно слишком велико.

Этот довод против использования чисто итерационных алгоритмов не является неоспоримым. Он, однако, настолько убедителен, что заставляет меня скептически относиться к чисто итерационным алгоритмам как кандидатам на роль процессов, используемых в системе обработки зрительной информации у человека. Он предполагает также, что для определения способов реализации процессов, основанных на использовании алгоритмов с более открытой и гибкой структурой, требуются чрезвычайно интенсивные усилия.

Можно, вероятно, сделать еще один вывод относительно реализации на нейронном уровне, на этот раз из работы Торри и Поджо (229], показавших, каким образом нелинейную логическую операцию И-НЕ можно релизоватьна уровне синаптических взаимодействий дендрита. С помощью кабельной теории проведения, согласно которой зависящие от времени электрические свойства дендрита определяются его геометрией, они установили, чю конфигурация синапсов, представленная на рис. 3.2, соответствует электрической схеме на рис. 3.3 и имеет характеристики, приведенные на рис. 3.4. Эта конфигурация осуществляет приближенное вычисление величины, ^- ag ₁ g ₂, представляющей собой логическую функцию И-НЕ. Торри и Поджо предположили, что именно таким образом в сетчатках мухи и кролика могут быть реализованы механизмы избирательности по направлению, предложенные Хассенштайном и Райкхардтом [79 ], Барлоу и Левиком [14] (см. разд. 3.4). Поджо и Торри развили эту идею, показав, что обширный набор простых нелинейных операций можно реализовать с помощью локальных синаптических механизмов.

Один из выводов этой работы заключается в том, что нейроны способны делать больше, чем мы предполагаем. В моделях, относящихся к тем временам, когда эти исследования только начинались, как, например, в моделях Маккаллока и Питтса [138], проявилась тенденция рассматривать нейроны в качестве принципиально линейных устройств, способных реализовывать нелинейные функции с помощью некоторого порогового механизма, который допускает изменение значения порога, если для введения этого механизма используется какой-либо тормозящий вставочный нейрон. Этот подход привел Барлоу и Левика к разработке модели избирательности по направлению, которой пользовался и я при изучении коры мозжечка [141]. Мы, однако, уже имели возможность убедиться в том, что локальные нелинейности могут играть существенную роль. Так, например, механизм, предназначенный для обнаружения пересечений нулевого уровня (см. рис. 2.18), основан на использовании набора логических элементов. Важность работы Поджо и Торри заключается в том, что для реализации таких устройств, как логические элементы И, использование нервных клеток целиком может оказаться излишним - эти устройства, очевидно, могут реализовываться гораздо компактнее за счет локальных синаптических взаимодействий на небольших участках дендрита.

Рис. 3.2. Синаптическая конструкция, рассмотренная Торри и Поджо [229]. Она может выполнять функции логической схемы

И-НЕ

121

Рис. 3.3. Электрическая схема, эквивалентная синаптической конструкции, представленной на рис. 3.2 и использованной в конфигурации, которая была предложена Торри и Поджо [229] для реализации механизма избирательности по направлению. Эта схема воспроизводит функцию вида#1 - < *#1 8г> которая аппроксимирует схему И-НЕ С помощью аналогичной схемы можно реализовать и логическую схему И

Итак, достаточно общих рассуждений, займемся собственно процессами. Начнем со стереопсиса, поскольку он оказался первым психологическим процессом, который я пытался постичь, и поскольку в результате мне удалось узнать многое о предварительной обработке зрительной информации у человека в целом, которая включена в данную книгу. При описании различных процессов я пытался не увлекаться техническими деталями, так как мне хотелось дать читателю общее представление о том, как они все функционируют, и привести несколько примеров. Подробности читатель может найти в соответствующих статьях.

И наконец, последнее замечание, касающееся организации изложенного. Многие из тех процессов, о которых идет речь, допускают естественное разделение на две группы — связанную с так сказать постановкой задачи и измерением и связанную с использованием результатов измерений для восстановления трехмерной структуры. В стерео пейсе, например, на первом этапе действует процесс установления соответствий между изображениями, предъявляе-

122

в) г)

Рис. 3.4. Расчетные характеристики схемы, представленной на рис. 3.3. На рис. 3.4, а показаны графики изменения во времени входных сигналов g_l и g ₂, соответствующие движению, зафиксированному по несущественному направлению, а на рис. 3.4, в — выходной сигнал (сплошная линия). Точечная и штриховая кривые соответствуют ответам на входные сигналы g_l и g ₂. При возникновении движения в противоположном направлении входные сигналы принимают форму, изображенную на рис. 3.4, б, а выходной сигнал - на рис. 3.4, г. Обратите внимание, насколько сигнал на рис 3.4, в ослаблен по сравнению с сигналом на рис. 3.4, г. Этот способ, таким образом, обеспечивает возможность добиться избирательности выходного сигнала схемы по направлению. Изменение времени < горизонтальная ось) оценивается в единицах постоянной времени мембраны

мыми каждому из глаз по отдельности, с тем чтобы стало возможным измерение диспаратностей. На втором этапе с помощью тригонометрических соотношений определяются расстояние до поверхностей и их ориентация. Первый этап в данном случае труден, второй - нет. На первом этапе по действию механизма избирательности по направлению определяется локальное направление движения, на втором же с помощью этой рассредоточенной локальной информации из фона выделяются объекты. Ни на одном из этих этапов существенных затруднений не возникает. В случае видимого движения задачей первого этапа является установление некоторого соответствия между иосле-

123

довательными " кадрами", обеспечивающего возможность измерения межкадровых смещений. На втором этапе результаты этих измерений используются для восстановления трехмерной структуры. В этом процессе оба этапа — трудные.

По этой причине некоторые разделы разбиты на две части. Конечно, иногда неизвестно, действительно ли реализован соответствующий процесс в системе обработки зрительной информации у человека, а если это даже установлено, то вопрос о том, разделяется ли этот процесс в соответствии с описываемым мной способом, все еще остается открытым в рамках психофизики. В подобных случаях я пытаюсь уяснить, о чем свидетельствуют имеющиеся экспериментальные данные и что именно следует предпринять для того, чтобы ответить на возникшие вопросы.

3.3. СТЕРЕОПСИС

Мы отмечали выше, что изображения внешнего мира, формируемые каждым из глаз по отдельности, несколько отличаются друг от друга. Относительное различие положений объектов на таких изображениях назьюается дис-паратностью, которая вызывается различиями в расстоянии до наблюдателя. Мозг человека в состоянии измерять эту диспаратность и использовать ее для оценивания относительных расстояний, отделяющих объекты от наблюдателя. Мы будем использовать термин диспаратность для обозначения угловой невязки положений изображения некоторого объекта в двух глазах, термин расстояние — для обозначения реального физического расстояния между наблюдателем и объектом, которое измеряется обычно по одному из двух глаз, термин глубина — для обозначения субъективного расстояния до объекта, определяемого восприятием наблюдателя.

Наше изложение разделено на две части. Первая посвящается измерению диспаратности, вторая — использованию результатов этих измерений. В обеих частях прослеживаются три уровня, представленные на рис. 1.4. В основу данного раздела положены материалы статей [144 и 153] по информационной теории, статьи [155], посвященной алгоритму, который, как предполагается, используется в зрительной системе человека, и статей [73 и 72], в которых описывается реализация этого алгоритма на ЭВМ. Кроме того, работы, в которых рассмотрены пересечения нулевого уровня (выполненные между 1977 и 1979 годами [157, 150]), позволили ввести ряд упрощений в реализацию этого алгоритма. Наиболее существенным является то, что мы чисто математически показали возможность использования рецептивных полей, обладающих круговой симметрией, вместо ориентированных рецептивных полей для выполнения исходных операций свертки. Этот же результат был независимо от нас получен с помощью методов психофизики [163].

⇐ Предыдущая 3 4 5 6 789 10 11 12 Следующая ⇒

Последнее изменение этой страницы: 2019-04-09; Просмотров: 87; Нарушение авторского права страницы