Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Зачем нужно изучать видимое движете?



Движение является непрерывным по природе процессом и обычно вызывает гладкие изменения изображений. Действительно, можно предполагать, что это принципиальное свойство движения имеет достаточно существенное значение для его восприятия, поскольку именно непрерывность движения должна способствовать решению задачи отслеживания различных частей объекта на изображении при определении того, каким образом этот объект движется. Почему же в таком случае основной темой данного раздела служит изучение видимого движения, принципиальной особенностью которого является дискретное, а не непрерывное предъявление последовательности быстро следующих друг за другом кадров? Несомненно, при переходе от непрерывности к дискретности что-то теряется. На самом деле, теории, которые будут излагаться, относятся к движению обоих типов - непрерывному и разделенному на отдельные кадры (видимому движению). Это, однако, не совсем удовлетворительный ответ, и для того чтобы убедиться в пригодности анализа, проводимого в контексте покадрового предъявления раздражителя, в ситуации, интересующей нас в данном случае, требуется более подробное обсуждение.

Первая особенность состоит и в том, что в отличие от ситуации, рассматривавшейся в предыдущем разделе, мы теперь не имеем дела с явлениями, протекающими практически мгновенно. В данном случае мы оказываемся вне сферы задач обнаружения. Вместо того чтобы обнаруживать нечто простое, но, возможно, важное в течение 50 мс, можно затратить достаточно много времени (скажем, от 1/4 до 1/2 с, что много по нормам восприятия), позволив изображению измениться существенным образом. Дело в том, что мы хотим не только обнаружить изменения, но также измерить степень этих изменений и использовать эту информацию. Таким образом, суть подхода в том, чтобы, сопоставляя положения объектов на изображении в некоторый момент времени с положениями этих же объектов на изображении через достаточно длительный промежуток времени, иметь возможность надежно измерять различия соответственных положений — эти различия будут затем использоваться в процедурах определения форм и характера движения соответствующих объектов.

Следовательно, мы заинтересованы во введении некоторого запаздывания, однако оно не должно быть чрезмерным, поскольку изображение может выйти за пределы распознавания: видимые части поверхности могут оказаться заслоненными или в процессе поворота могут выйти за пределы видимого. Однако, по меньшей мере в данном случае, намнужны именно изменения, происходящие в течение определенного периода времени, причем их необходимо определять весьма точно.

Пусть так, могут возразить нам, но на самом деле факты таковы, что, если нас интересует лишь то, куда объекты переместились за 100 мсили около того, несомненно, проще всего узнать это при непрерывном слежении за их перемещениями. Разве не усложняем мы сами себе задачу, " разрезая" непрерывную последовательность на отдельные кадры? Действительно, в опреде-

195

ленной степени это справедливое замечание. С другой стороны, если частота смены кадров достаточно велика по сравнению со значениями постоянных времени, скажем колбочек сетчатки глаза (которые составляют около 20 мс или около этого), две ситуации будут неразличимы. Также известно, что мы прекрасно воспринимаем кинофильм и движение при этом кажется нам вполне нормальным. Хотя частота кадров в фильме составляет всего лишь 24 кадра в секунду, Вы не в состоянии установить факт такого разделения, ориентируясь исключительно на данные восприятия. Кроме того, предъявление в психофизическом эксперименте всего лишь двух кадров, разделенных столь продолжительным промежутком времени, как 300 мс, позволяет создавать субъективное впечатление плавного движения.

Итак, хотя непрерывная задача может оказаться несколько проще задачи восстановления структуры по видимому движению, она, вероятно, не намного проще, и мы, конечно, можем справиться с более трудной задачей, связанной с видимым движением. Кроме того, последнюю задачу значительно проще формулировать и исследовать экспериментально, а результаты ее решения можно применять к непрерывному случаю. Следовательно, представляется разумным сначала решить эту задачу, а затем оценить результат.

Две стороны задачи

Наша цель, таким образом, состоит не столько в обнаружении изменений, вносимых движением, сколько в использовании последних для восстановления трехмерных структур движения. Из этого вытекают задачи двух типов, которые, по крайней мере внешне, выглядят достаточно разными и в некотором отношении аналогичными тем, с которыми мы встречались при обсуждении стереопсиса. Первая задача заключается в слежении за объектами в процессе их перемещения по изображению и определении их положения в различные моменты времени. Это — задача установления соответствий, цель которой определить, какой объект изображения в момент t \ какому объекту этого же изображения в момент t 2 соответствует. Вторая задача заключается в восстановлении трехмерной структуры по данным, полученным в результате решения первой задачи, и ее называют задачей восстановления структуры по движению.

Очевидно, что эти две задачи в зрительной системе человека решаются независимо, и нам очень повезло в том, что они разделены. Решающим экспериментальным подтверждением этого факта служит отсутствие среди объектов измерений, выполняемых в процессе установления соответствия, углов и расстояний в трехмерном пространстве — все измерения производятся на плоскости, т. е. на изображении [236]. Следовательно, отсутствует особая необходимость в организации обратной связи от второй задачи к первой.

Две эти задачи, таким образом, могут решаться независимо. Мы в первую очередь рассмотрим задачу установления соответствий, а затем — альтернативные подходы к решению второй задачи. У читателя, вероятно, уже возник важнейший исходный вопрос: что представляют собой непроизводные элементы, используемые в процессе установления соответствий, или, на введен-

196

ном нами выше языке, что представляет собой исходное представление, требующееся для данного процесса? И, поскольку измерения изменений положения должны выполняться для участка поверхности, поддающегося идентификации, соответствующие непроизводные элементы должны иметь максимально возможный физический характер. Итак, читатель не должен быть удивлен, узнав, что, по-видимому, должны использоваться непроизводные элементы первоначального эскиза, хотя в связи с некоторыми деталями возникают различные интересные смежные проблемы.

В таком случае нам придется определить связь между положениями непроизводных элементов на соседних кадрах, которые должны выполняться (напомним, что мы будем иметь дело с видимым движением). Вообще говоря, нетрудно убедиться в том, что чем ближе расположены два объекта на соседних кадрах и чем большим сходством эти объекты обладают, тем вероятнее их взаимное соответствие. Это отражает лишь некоторую статистическую закономерность устройства нашего мира, и она будет выполняться при условии, что продолжительность межкадрового интервала не слишком велика, учитьтая скорости и расстояния, характеризующие анализируемые видимые движения. Создается впечатление, что в зрительной системе человека постоянно поддерживается либо в нее " вмонтирована" некоторая таблица подобий, с помощью которой может оцениваться сходство или различие отдельных параметров. Так, например, на основании экспериментов, в которых проверялось подобие двух линий одинаковой контрастности, предъявлявшихся на двух последовательных кадрах, было установлено, что изменение длины в 1, 5 раза порождает аналогичное изменение подобия, выражающееся в изменении ориентации на 45°.

Этот тип сходства Уллман назвал критерием аффинного подобия, который основан на измерениях, выполняемых на плоскости1. Сам по себе этот критерий, однако, не определяет процесс установления соответствий. Для этого требуется учесть еще ряд дополнительных факторов. Допустим, например, что в первом из предъявляемых кадров содержатся две прямых Л и В и во втором — две прямых а и Ь. Существуют четыре возможных сочетания пар:

1) А -+аиВ^-Ь, 2)А-»ЬпВ-+а, 3) А -+апВ-+а, 4) A -» bnB -+ b.

В этом списке отсутствуют сочетания пар типа А -*■ а и В -*• ничто. Вопрос заключается в следующем: каким образом человек определяет, какое именно из допустимых сочетаний пар действительно имеет место? Очевидный ответ предполагает выбор того решения, которое максимизирует общее сходство кадров. Для оценки такого типа сходства можно воспользоваться одной из стандартных функций стоимости, ставящей некоторое значение подобия

В переводе монографии С Уллмана [238] термин affinity measure передается как " сродство", что, к сожалению, не отражает специфики этого критерия как подобия с точностью до аффинных преобразований соответствующих фигур. - Прим. ред.

197

Рис. 3.41. Одна из конфигураций, являвшихся предметом затруднений для гештальт-психологов. На рис. 3.41, а и б приведены кадры 1 и 2 соответственно. При восприятии этих кадров фигура А переходит в Л\ а фигура В - в В'. В результате создается впечатление движения фигуры В

в соответствие каждому сочетанию пар, входящему в рассматриваемое решение; в этом случае значение общего сходства двух кадров оценивается суммой значений подобий, установленных для каждого из сочетаний пар. Функция стоимости позволяет нам приближенно судить о том, сколько следует принять достаточно плохих сочетаний пар, для того чтобы избежать бессмысленных сочетаний или достичь отличного в целом соответствия.

Такой подход, предусматривающий отыскание некоторого решения, которое обеспечивает достижение глобального минимума, в некоторой степени аналогичен составлявшему предмет интересов гештальтпеихологии на протяжении первой трети нашего века, хотя, вероятно, в экспериментах, которые гештальтисты действительно проводили, проявлялось несколько различных явлений. Они придерживались концепции о наличии элементов, связывающего их в- целостные фигуры и определяющего взаимодействие между последовательно поступающими кадрами, однако они не смогли установить, в какой степени данный подход позволил бы объяснить то затруднение, с которым они столкнулись при изучении процесса установления соответствия. Оно заключалось в следующем. Работая с изображениями, подобными приведенному на рис. 3.41, они видели, что А -*А' и В -+В'. Если же, однако, А и В удалялись, то В -> А'. Следовательно, рассуждали они, решающее значение имеют перемещения целостных фигур и поэтому данное явление нельзя, вероятно, исчерпывающим образом объяснить только локальным образом. Такая аргументация в значительной степени послужила причиной гибели школы гештальтпеихологии, поскольку гештальтисты рассматривали проблему формирования целостных образов как неразрешимую.

Здесь имеют место две фундаментальные ошибки, и мы остановимся на них, с тем чтобы вывести отсюда соответствующую мораль. Первая ошибка связана с полным математическим невежеством. Совершенно очевидно, что примеры, подобные приведенному на рис. 3.41, показывают, что процесс установления соответствий требует большего, чем отыскание сугубо локальных минимумов: если эта задача вообще может быть представлена в такой постановке, то искомый минимум — это глобальный минимум. С другой сто-198

роны, — и именно с этим связана первая ошибка — известно множество систем, в которых для отыскания глобальных минимумов достаточно использовать исключительно локальные взаимодействия, и, следовательно, результаты гештальтистов не должны форсированно приводить к сделанным ими выводам о недостаточности локальных взаимодействий. В частности, наиболее очевидный способ разрешения проблем гештальтистов, связанных с примером рис. 3.41, заключается в том, чтобы считать издержки, соответствующие варианту (А -*А') + (В -*В'), меньшими, чем издержки, соответствующие варианту (А -+В')'+ (В -+А'). Эта идея оказывается даже еще более простой, если обратить внимание на линейность, поскольку линейные системы обладают очень хорошими свойствами, главным образом потому, что они не " застревают" на локальных минимумах. Таким образом, теория соответствий Уллмана линейна по существу.

Второй принципиальной ошибкой являлось отсутствие у гештальтистов представления о собственно процессе. Они рассматривали объединение в целостный образ как проявление действия различных правил — принципов замыкания, " хорошего" продолжения, регулярности, симметрии, простоты и т. д. [122, с. ПО], которые были суммированы в гештальтпсихологии как закон прегнантности. Последний играл для гештальтпсихологов роль некоторого физического закона. Если бы они представляли себе, каким образом подобные принципы могут реализовываться в различных процессах объединения (например, в виде ограничений, указывающих, что следует и что не следует объединять), быть может, они не отказались бы от систематизации процессов формирования целостных образов.

Мораль же в данном случае такова. В гл. 1 мы познакомились с некоторыми из опасностей, подстерегающих чистых специалистов в области машинного зрения, если они игнорируют биологические данные, характеризующие организацию зрительной системы человека. Основные трудности при этом возникают в связи с тем, что подобная узость взглядов может привести их к попыткам решения задач, которые задачами на самом деле вовсе не являются, а возникают изчза недостатков конкретных датчиков, аппаратуры либо находящихся в их распоряжении вычислительных мощностей. В данном случае мы наблюдаем обратную картину: математическое невежество (которое могло бы быть преодолено) и неспособность рассуждать на языке процессов (что более простительно) привели к краху теоретическое направление, на счету которого имелся ряд вполне реальных и очень ценных открытий. Мораль состоит в том, что невежестно в любой из трех указанных областей может оказаться опасным. Точно так же как современный физик должен в определенной степени знать математику, ее должен знать и современный психолог, который, однако, должен быть знаком и с обработкой информации и иметь ясное представление о ее возможностях, ограничениях, плодотворных способах рассмотрения процессов и (это важнее всего) о том, что требуется для понимания этих процессов.

Итак, приблизительно таким образом выглядит современное состояние проблемы установления соответствий. Уллман сформулировал ее как линейную задачу минимизации и показал, как такая модель может объяснить ббль-

199

шую часть известных психофизических данных. Мы достаточно подробно рассмотрим его идеи, а также некоторые более новые, касающиеся их биологической реализации на основе непроизводных элементов первоначального эскиза высшего уровня. Что же касается данной проблемы в целом, то она не решена еще ни на одном из трех наших уровней. Поскольку, однако, о ней известно достаточно много, появление полностью объясняющей ее информационной теории, как я полагаю, не за горами.

Вторая сторона этой проблемы (теория определения структуры по движению) очерчена лучше и применительно к уровню информационной теории, в сущности, решена в [237].. Форма этой теории теперь известна — она та же, что в гл. 2 (для первоначального эскиза) и в данной главе, хотя хронологически теория Уллмана появилась одной из первых. Важнейшим дополнительным ограничением, введенным им, является жесткость; он очень точно определил использование этого ограничения и показал, каким образом восстановление трехмерной структуры может осуществляться на основе измерений, получаемых при успешной реализации процесса установления соответствия. Лежащий в основе этого математический результат представляет собой теорему, утверждающую, что трех проекций четырех точек, принадлежащих жесткой конфигурации и не являющихся компланарными, достаточно для восстановления их положения в трехмерном пространстве и движения. Мы увидим, каким образом этот результат можно использовать в качестве краеугольного камня интерпретации наблюдаемого движения. Лонге—Хиггинс и Праздни [135] использовали аналогичный подход в своем исследовании оптического потока.

В заключение этого краткого обзора, вероятно, стоит сделать еще одно последнее замечание. Хотя геометрические свойства трехмерного пространства изучаются со времен Евклида, некоторые сравнительно простые теоремы все еще остаются неизвестными. Теорема о четырех точках и трех проекциях является одной из них, а с еще одной мы встретимся при обсуждении возможностей получения информации о формах объектов по их силуэтам [176]. Трудно поверить, что других таких теорем не существует. Две теоремы были сформулированы в связи с тем, что процесс получения изображений протекает в трех измерениях, и потому определенные типы геометрических соотношений, если они известны и используются, могут быть включены в процесс интерпретации изображений. Возможно, математики не зря потратят время, если они вновь обратятся к геометрии трехмерного евклидова пространства.

Задача установления соответствий

Экспериментальные данные

Что такое исходное представление7 Исходя из общих соображений мы считаем, что характерные объекты изображения (признаки-объекты), используемые в процессе установления соответствия (будем называть их обобщенными признаками соответствия), должны иметь физическую интерпретацию. Это условие исключает использование значений уровней серого тона в чистом

200

Рис. 3 42. При установлении соответствий тоновые изображения не используются. В противном случае при последовательном предъявлении двух кадров, на которых представлены профили распределения яркостей {а), не возникало бы впечатления движения, так как максимальное значение корреляции этих кадров соответствует смещению (б). На самом же деле наблюдается переход яркостного перехода Е в F, из чего следует, что яр-костные переходы, но не тоновые изображения, являются теми обобщенными признаками, которые используются в процессе установления соответствий [238]

виде, причем можно показать непосредственно, что в зрительной системе человека корреляция уровней яркости не является основой процесса установления соответствия. Рисунок 3.42 иллюстрирует это. Максимальная корреляция двух кадров по уровню тона (рис. 3.42, а) соответствует нулевому смещению, что следует из корреляционной функции, приведенной на рис. 3.42, б. Если же, однако, соответствие устанавливается между резкими яркост-ными переходами, то можно предполагать, что яркостный переход Е кадра 1 скачком перейдет в яркостный переход F кадра 2 — именно так в действительности все и происходит.

Этот эксперимент показывает, что установление соответствий осуществляется на уровне более высоком, чем уровень тоновых значений яркости. Насколько, однако, все-таки высок этот уровень установления соответствий? Устанавливаются ли они между относительно небольшими и простыми частями сцены, в основном независимо от очертаний и форм, либо при этом используются значительно более сложные описания, например предусматривающие получение полной интерпретации конфигурации на одном кадре до начала сопоставления различных кадров7

Рисунок 3.43 иллюстрирует один из ряда экспериментов, показывающих, что второй вариант невозможен. На этом рисунке представлены два последовательных кадра — один из них составляют сплошные линии, другой — штриховые. Если бы анализ всей конфигурации в целом проводился по одному кадру и в результате выделялись очертания колеса, которые далее использовались бы для установления соответствий с элементами следующего кадра, то в этом случае наблюдатель должен был бы воспринимать эти кадры при быстрой их смене как одно вращающееся колесо. Обратите, однако, внимание на то обстоятельство, что ближайшие соседние элементы для внутренней и внешней частей колеса располагаются в одном и том же направлении, а для среднего кольца — в противоположном. В связи с этим, если бы соответствие устанавливалось сугубо локально, наблюдатель должен был бы видеть, что среднее кольцо поворачивается в одном направлении, а внешнее и внутреннее

201

Рис. 3.43. Пример, показывающий, что решение задачи установления соответствия для видимого движения предусматривает использование операций установления соответствий, относящихся к нижнему уровню. Кадр 1 образуют сплошные линии, а кадр 2 -штриховые. При соответствующем выборе межкадровых интервалов наблюдатель видит не одно вращающееся колесо, а три - внутреннее и внешнее кольца вращаются в одном направлении, а центральное - в противоположном (эти направления на рисунке указаны стрелками). Отсюда следует, что соответствие устанавливается между элементарными отрезками прямых, а процесс установления соответствий определяется главным образом близостью отрезков [238]

кольца - в противоположном (как это показано стрелками на рис. 3.43). При правильном выборе межкадровых интервалов именно это в действительности и наблюдается.

Эти соображения дают основания для выбора элементов первоначального эскиза, причем следующий эксперимент показывает, что определенная роль в этом отношении принадлежит концам (так же как и в стереопсисе). На рис. 3.44, а представлен случай, когда соответствие устанавливается между концами двух прямых. Ситуация изменяется, если расстояния между соответствующими концами много больше расстояний между отрезками прямых, как показано на рис. 3.44, б; в этом случае соответствие устанавливается между короткой прямой и только ближайшей к'ней частью длинной прямой. Пока не совсем ясно, устанавливается ли соответствие между нарушениями непрерывности типа приведенных на рис. 3.44, в, однако совершенно очевидно, что эта проблема представляет интерес.

Рисунок 3.45 дает дополнительные подтверждения тому, что соответствие определяется характерными объектами изображения, относящимися к достаточно низкому уровню, а не очертаниями или формой соответственных

202

Рис. 3.44. В качестве обобщенных признаков при установлении соответствий могут использоваться также и концы, если две прямые на последовательных кадрах не очень сильно отличаются по длине (а). Если их длины разнятся очень существенно, соответствие устанавливается между короткой прямой и каким-либо отрезком длинной прямой. Пока неизвестно, могут ли нарушения непрерывности по ориентации типа приведенных на рис. 3.44, в использоваться в качестве обобщенных признаков при установлении соответствий [238)

Рис. 3.45. Эти рисунки свидетельствуют, очевидно, о том, что установление соответствия определяется движениями образующих элементов, а не формой целостных объектов [238]

фигур. На рис. 3.45, а квадрат Л движется к большему квадратур. На рисунке же 3.45, б он движется к большему треугольнику В, а не к меньшему квадрату С. Таким образом, в этих примерах процесс установления соответствия определяется движением образующих элементов, а не подобием форм целостных объектов. Уллман [238, с. 26] приходит к выводу, что: 1) различия характера слияния отдельных фигур согласуются с движениями, устанавливаемыми между их составными частями; 2) нет никаких указаний на то, что элементы структуры входят в некоторое множество базисных элементов или что процесс установления соответствия основывается на подобии фигур. В результате обсуждения этих проблем С. Уллманном, М. Райли и мной Рай-ли установил, что соответствия могут, в частности, устанавливаться между ориентированными сгущениями точек или группами параллельных прямых -ни в одном из этих случаев не устанавливается соответствие между образующими элементами. Два соответствующих примера приведены на рис.

203

Рис. 3.46. Соответствие может устанавливаться между границами или обобщенными признаками, относящимися к высшим уровням, даже в тех случаях, когда между образующими элементами соответствие не устанавливается. Так, например, соответствие может устанавливаться между границами двух типов, окружающих квадраты (а). Другой пример (б) иллюстрирует эксперимент, в котором кадр 1 содержит одно сгущение точек, а кадр 2 - два, причем одно из сгущений кадра 2 идентично сгущению кадра 1, а второе сгущение кадра 2 не идентично сгущению кадра 1. Предпочтение идентичному сгущению никоем образом не проявляется. На рис. 3.46, в эта идея получает дальнейшее развитие. Первый кадр представляет группу С, образованную короткими горизонтальными прямыми. Второй кадр содержит две группы объектов — L, состоящую из коротких горизонтальных прямых, и R, состоящую из длинных горизонтальных прямых. Наблюдатель не отдает предпочтения движению группы С к группе L, из чего следует, что в данном случае соответствие устанавливается не между образующими групп, но

между описаниями их структур в целом

3.46, б и в. В подобных случаях правила установления соответствия, очевидно, определяются такими параметрами, как ориентация и размеры группы в целом. Соответствие может устанавливаться и между границами типа приведенных на рис. 3.46, а, хотя в данном случае даже не может быть и речи о каком бы то ни было установлении соответствия между образующими элементами. Межкадровые интервалы здесь имеют продолжительность порядка 100 мс, что много меньше 1/3 с, необходимых для того, чтобы очертания объектов начали влиять на процесс установления соответствий.

Итак, выводы Уллмана могут нуждаться в некоторой модификации, чтобы обеспечивалась возможность использования более обобщенных элементов описания изображения, входящих в полный первоначальный эскиз. Его основное утверждение, что никакой сколь бы то ни было тщательный анализ форм объектов не предшествует процессу установления соответствия, сохраняет, 204

 

Относительный вес

 

0

1            2

3

4

Различие ориентации, град.

15

30         45

60

75, 90

Отношение расстояний

1.1

1.2          16

2.25

2.7, 3 8

Отношение длин

1.04

113        15

2.1

2.5

1/cosa

1.04

1 15       1.41

20

(2 3)

Рис. 3.47. Типичный эксперимент, предназначенный для измерения аффинного подобия и предусматривающий предъявление наблюдателю двух кадров (а), и вариант того же эксперимента, обеспечивающий большую чувствительность (б). Соотношение влияний длины и расстояния (в), смещения и расстояния (г), смещения и ориентации (д), измеренные значения аффинного подобия (е). На рис. 3.47, в—д кадр 1 изображен штриховыми, а кадр 2 — сплошными прямыми [238]

однако, силу. И ограничения, вносимые термином тщательный, фактически допускают то, что допустимо в полном первоначальном эскизе (общая длина, размеры, ориентация характерных объектов изображения и т. д.), и исключают то, что в нем исключено (так, запрещены представление в явном виде любого внутреннего угла характерного объекта изображения, упоминание о прямых углах и т. д.). Было бы интересно проследить, сколь далеко можно продолжить аналогию между обобщенными признаками, используемыми при установлении соответствия, и непроизводными элементами полного первоначального эскиза.

Двухмерный характер процесса установления соответствий

Для изучения локальных свойств процесса установления соответствий в случае небольшого числа изолированных элементов можно воспользоваться экспериментами типа того, который проиллюстрирован на рис. 3.47, а. В этом эксперименте первый кадр (штриховые прямые) содержат один эле-

205

мент, второй кадр (сплошные прямые) — два и наблюдатель должен определить, к какой из прямых второго кадра совершает кажущееся движение прямая первого кадра. Райли недавно изменил эту экспериментальную схему, придав ей форму, приведенную на рис. 3.47, б; модифицированная схема предусматривает использование нескольких копий одной и той же экспериментальной задачи — преимущество при этом состоит в том, что обеспечивается несколько большая чувствительность.

На рис. 3.47, в, г и д показаны раздражители, используемые в этих экспериментах, причем во всех вариантах кадр 1 дан штриховой, а кадр2 —сплошными линиями. Все приведенные на рисунке примеры обладают приблизительно одинаковым аффинным подобием с оригиналом. Рисунок 3.47, в иллюстрирует соотношение длины и расстояния, рис. 3.47, г — соотношение смещения по вертикали и расстояния и рис. 3.47, д — соотношение ориентации и смещения. Относительные веса параметров для конфигурации, образованной тремя прямыми, сведены в таблицу, приведенную на рис. 3.47, е.

В нашем кратком обзоре собственно значения в таблице не столь уж важны, но важен тот факт, что в рассматриваемом нами процессе используются результаты измерений, выполняемых на изображении, а не результаты измерений реальных трехмерных объектов. Этот факт был установлен Уллманом [236] с помощью эксперимента, проиллюстрированного рис. 3.48. Так, например, в эксперименте, проиллюстрированном рис. 3.48, а, все прямые кадра 1, за исключением прямой С, имеют одну и ту же яркость. На кадре 2 яркостью выделяются лишь прямые L и R, в результате чего возникает движение от С K. L или R. Двухмерные отношения между прямыми Си L и прямыми С и R в данном примере идентичны. Расстояния, разделяющие их в трехмерном пространстве, однако, отличаются очень значительно. На рис. 3.48, б представлен эксперимент с теми же прямыми для случая, когда расстояния в трехмерном пространстве одинаковы, но расстояния на плоскости отличаются очень сильно. Подобным же образом в эксперименте, представленном на рис. 3.48, в, углы на плоскости и в трехмерном пространстве различны.

Опираясь на результаты экспериментов, подобных описанным, Уллман приходит к выводу, что характеристики, измеренные на трехмерной " модели", несущественны для процесса установления соответствия - все его результаты можно получить из рассмотрения двухмерных конфигураций. Ему удалось также сделать еще одно замечательное наблюдение относительно плавности видимого движения. Когда человек видит два кадра, переходы от одного к другому иногда воспринимаются как плавные, а иногда — нет. Исследования, подобные работам Корбина [37], а также Аттнива и Блока [6], показали, что плавность видимого движения главным образом и, возможно, всецело определяется воспринимаемым расстоянияем в трехмерном пространстве, а не реальным расстоянием на плоскости. Даже Колере [123, гл. 4 и 5] является просто последним в ряду исследователей, изучавших степень соответствия с использованием в качестве критерия плавности движения.

Совершенно очевидно, что в этой связи возникало некоторое логическое противоречие, поскольку три утверждения: 1) плавность движения зависит 206

Рис. 3.48. Процесс установления соответствия, в котором используются только двухмерные, а не трехмерные характеристики: а — соответствие устанавливается между прямой С (кадр 1) и прямыми L nR (кадр 2), двухмерные отношения которых с С идентичны, а трехмерные — различны (поведение этих прямых оказывается идентичным); 6 — предпочтение отщется прямой L, относительно прямой R; в — сопоставление углов показывает, что соответствие определяется

двухмерными углами [238]

от воспринимаемого расстояния; 2) степень соответствия зависит от расстояния на плоскости и 3) плавность движения отражает степень соответствия — несовместны. Уллман [236, эксперимент 5] разрешил эту проблему, сконструировав ситуацию, представленную на рис. 3.47, а: движение в одном направлении протекает плавнее, ав другом направлении— интенсивнее, в результате последнее оказывается преобладающим. Следовательно, плавность и степень соответствия — это разные вещи и процесс установления соответствия опирается лишь на результаты измерений на плоскости, которым, возможно, предшествует учет глазодвигательных эффектов [203].

207

Теория процесса установления соответствий Уллмана

Как мы уже убедились с помощью примера, приведенного на рис. 3.41, в случае более сложных изображений элемент изображения не всегда отображается в элемент, обладающий максимальным аффинным подобием: на отображения влияют также и межэлементные взаимодействия. Проводя экспериментальное исследование, Уллман ввел понятие степень соответствия (СС), являющееся производным от локальных аффинных подобий, отражающее также воздействие различных разновидностей локальной конкуренции и определяющее в конечном счете получаемое в результате отображение. Рисунок 3.49 иллюстрирует это понятие. Вначале измеряются значения аффинного подобия для всех пар, затем учитываются влияния на эти значения локальных воздействий, что и дает в результате СС. Эти взаимодействия ослабляют СС при осуществлении, в частности, расщепления или слияния, и потому они устраняются. С помощью численного примера Уллман показал (Приложение 4 его докторской диссертации), что эта простая схема позволяет объяснить и несколько случаев, являющихся камнем преткновения для теории восприятия движения [123; 5; 238, разд. 2.4.1].

Все это, однако, в первую очередь свидетельствует о том, что подход, использовавшийся при изучении возможностей локальных взаимодействий, часто все еще был обременен серьезными недостатками (в ряде случаев точно так же, как и подход гештальтис-тов), порожденными неспособностью оценить сложность функций, которые могут реали-зовываться посредством локальных взаимодействий. Больший интерес представляла попытка Уллмана сформулировать теорию процесса установления соответствий, названную им теорией минимального отображения. В сущности, она представляет собой теорию максимального правдоподобия.       ч

В основе указанной теории лежат три основных допущения. Идея состоит в том, чтобы определить некоторый способ оценки относительной ценности пар, составляемых из характерных объектов изображений, относящихся к разным кадрам. Поскольку соответствующий метод имеет вероятностный характер, следует ввести первое допущение о

независимости решений для различных пар. Второе предполагает, что каждый характерный объект изображения кадра 1 объединяется в пару по меньшей мере с одним характерным объектом изображения кадра 2, и наоборот. Мы не требуем в явном виде взаимно однозначного соответствия (именно благодаря этому становятся возможными расщепления и слияния).

Рис. 3.49. Иллюстрация подхода Уллмана к установлению степени соответствия. Исходные значения аффинного подобия определяются для обобщенных признаков соответствия, после чего их локальные взаимодействия используются для получения окончагельных значений степени соответствия

208

Рис. 3.50. Типичное распределение скоростей на изображении. Почти при любом практически возможном распределении скоростей реальных объектов р 00 в проекции последнего на изображение р ( v ) будут преобладать малые значения скоростей |23$1

Поскольку, однако, формирование каждой пары сопровождается определенными затратами, в окончательном решении расщепления и слияния сводятся к минимуму. Итак, второе допущение состоит в том, что множество паросочетаний должно покрывать оба множества обобщенных признаков.

Интересна третья идея. Диапазон значений истинных скоростей в реальном мире, естественно, весьма широк: иногда наблюдатель перемещается быстро, а иногда - медленно, иногда объекты движутся быстро, а иногда - нет. Но каким бы ни было распределение скоростей в реальном мире, значения проекций этих скоростей на изображение будут, скорее, малыми, чем большими, просто в силу специфики процесса формирования изображения. Это иллюстрируется рис. 3.50. Штриховая линия р (и) представляет один из вариантов распределения вероятностей истинных пространственных скоростей. Сплошная кривая р (i> 1 представляет соответствующую проекцию распределения скоростей. Таким образом, исходя лишь из самых общих соображений можно считать, что наиболее вероятными являются отображения, отдающие предпочтение ближайшим соседям.

Теперь суть этой теории становится очевидна. Энтропия < 7(и) некоторой заданной скорости v определяется как -log/? (и), где р - значение вероятности этой скорости. Решением, соответствующим i максимальному правдоподобию, является такое решение, которое минимизирует общую энтропию (точно так же, как это принято в статистической механике). Для того чтобы найти его, можно просто считать энтропию # (и) " ценой", соответсгвующей выбору скорости v, и затем искать то отображение, которое обеспечивает минимизацию полных затрат. Это - линейная задача, для решения которой можно воспользоваться простой локальной сетью, в которой могут быть предусмотрены дополнительные штрафы (в случае необходимости) за отклонения от взаимной однозначности отображений, функция стоимости в данном случае представляет собой рассмотренную нами выше функцию аффинного подобия, а взаимодействия, которые иллюстрируются на рис. 3.49 и определяют СС, в сущности, задают минимальную общую стоимость, т. е. наиболее вероятное отображение, определяемое статистическими свойствами физического мира. Эта схема, естественно, является обобщением, соответствующим переходу от дискретного случая последовательных кадров к непрерывному, при котором изображение представляется в основном в виде входного потока характерных объектов.

Критика теории Уллмана

Теория Уллмана, посвященная процессу установления соответствия, имеет исключительную ценность в качестве первого шага в правильном направлении: после 50 лет путаницы и недоразумений она вносит немного долгождан-

209

Рис. 3.51. На этом рисунке кадр 1 изображен с помощью кружков, а кадр 2 - с помощью крестиков. Наличие элемента С2 не влияет на наличие элемента С, (а). В случае (б), однако, это влияние существует: пара С, Сг действует как прямая С - она может перемещаться либо к прямой L, либо к прямой R (в). Если конфигурация (обобщенный признак) разрушается из-за наличия какой-то иной пространственной организации (г), центральная пара элементов больше не рассматривается как прямая С [238]

ной и живительной ясности. Ее значение состоит в том, что она позволяет нам формулировать ряд экспериментальных проблем, которые не возникли бы при иных обстоятельствах, и открывает путь рациональному исследованию явления в качестве альтернативы несистематизированной регистрации его феноменологии.

Если оставить на время эмпирические аспекты этой теории, то можно выделить несколько проблем, заслуживающих рассмотрения, особенно в книге, посвященной в первую очередь теории зрительной системы. Первая из них заключается в том, что допущение о независимости, необходимое для использования вероятностного аппарата, не совсем верно в эмпирическом смысле, по крайней мере в простейшей формулировке. В ситуации, представленной на рис. 3.51, а, независимость действительно имеет место: однозначность соответствия С2i? 2 не влияет на неоднозначность поведения Сх. В ситуации же, приведенной на рис. 3.51, б, поведение Сх и С2 связано: как указывал Уллман, в сущности, они ведут себя таким образом, как будто служат концевыми точками прямой С, показанной на рис. 3.51, е. Подобное поведение этих элементов не наблюдается при изменении задания способа группировки (рис. 3.51, г).

210

Итак, создается впечатление, что процесс установления соответствия может в определенных пределах реализовываться не только нэ отдельных элементах, но и на группах, ими образованных. Хотя процесс группировки не связан с получением в явном виде описаний внутренней структуры групп и хотя установление соответствий между группами в целом не является препятствием для установления дополнительных соответствий между их элементами, наличие первых, возможно, ограничивает установление последних. В частности, допускаются те соответствия, которые совместны с соответствиями, установленными для включающей их группы, а несовместные в таком смысле соответствия не допускаются. Внутренняя структура подобного типа может быть представлена в теории с помощью вероятностного аппарата, но выглядит это неуклюже и свидетельствует о том, что мы, вероятно, еще не пришли к наиболее конструктивному подходу.

Перед нами уже возникала вторая проблема: соответствие может устанавливаться между группами без установления соответствий между элементами, их образующими. Сам Уллман отмечал существование такой возможности [238, разд. 2.4.2] и в более поздней работе, выполненной совместно с М. Рай-ли, подтвердил и обобщил это наблюдение. Конечно, можно просто включить в теорию Уллмана взаимодействия, подобные этим взаимодействиям элементов высшего уровня (как это предлагает сделать Уллман), однако они не следуют из нее естественно и абсолютно не поддаются прогнозированию с ее помощью. В сущности, они практически противоречат ей, поскольку назначение этой теории в целом — показать, каким образом сложная и пдрой беспорядочная реализация процесса установления соответствия для различных конфигураций может порождаться сугубо локальными взаимодействиями простых процессоров, отождествляемых с образующими элементами конфигурации.

Что касается третьей проблемы, то ее необходимо рассматривать под несколько иным углом, а именно с позиций человека, создающего теорию. Что, могли бы мы спросить, дает вероятностный подход? И ответ, по существу, сводится к одному —линейность. Практическим следствием в данном случае оказывается то, что сугубо локальные взаимодействия с гарантией обеспечивают достижение как раз искомого глобального минимума. Велика дидактическая ценность этого следствия, поскольку оно показывает, что, как и в случае нашего первого кооперативного стереоалгоритма, искомые глобальные результаты могут достигаться с помощью чисто локальных взаимодействий. С первого взгляда кажется, что именно этого нами следовало бы добиваться, так как известно, что поверхностные связи в коре головного мозга весьма коротки [225].

Опыт, приобретенный нами при изучении стереопсиса и локально-параллельной организации, заставляет, однако, относиться к этим доводам с осторожностью в связи с теми проблемами, которые возникают из-за итераций. В данном случае нам следует проявлять осторожность потому, что теория Уллмана не имеет статуса некоторого алгоритма — это теория высшего уровня — и, несомненно, существуют неитерационные способы ее реализации. Тем не менее то обстоятельство, что для ее реализации достаточно только локаль-

211

ных взаимодействий, оказывается достоинством лишь в. том случае, если она действительно реализуется локально. К сожалению, если исходить из номинальной стоимости этой теории, в которую входит и ее реализация, то, как я полагаю, основным затруднением должно служить то, что скорость сходимости вычислительных процедур такого типа мала (меньше, например, скорости сходимости первого алгоритма стереопсиса). Несомненно, скорость сходимости зависит от начальной точки итерации — и в этом отношении использование приближенной группировки и укрупненных характерных объектов изображения может оказаться полезным, — но даже и в таком случае для получения приемлемого результата может потребоваться от 10 до 70 итераций. Этот довод не столь уж неопровержим: обычно любую проблему, возникающую в связи со скоростью сходимости, удается разрешить с помощью каких-либо специальных ухищрений, тем не менее он ослабляет первоначальную привлекательность теории, построенной на основе концепции простой сети локальных взаимодействий.

Мне значительно труднее сформулировать заключительное замечание, поскольку оно в значительно большей степени, чем остальные, основывается на неподтвержденных интуитивных представлениях о работе мозга. В основном, как я считаю, они сводятся к тому, что на этих достаточно низких уровнях вероятностные подходы (такие как принцип максимального правдоподобия) не используются. Частично это интуитивное убеждение возникло у меня в результате неоднократных попыток воспользоваться вероятностными методами. Применение вероятностного подхода в задаче стереопсиса дает нечто напоминающее корреляцию уровней серого тона, и я однажды предпринял попытку привлечь этот подход для решения некоторых задач, связанных с 2, 5-мерным эскизом; частично это интуитивное убеждение явилось следствием общего представления о недостаточной определенности (в некотором смысле) вероятностного подхода. Решение задачи любой сложности, полученное методом максимального правдоподобия, всегда в значительной степени неправдоподобно (в техническом смысле). Тем не менее ответы, предлагаемые зрительной системой, почти всегда правильны и, более того, обычно сопровождаются субъективным ощущением определенности (изредка —сомнением). Эти ответы значительно определеннее и значительно чаще оказываются правильными по сравнению с теми, которые соответствовали бы достаточно низкому значению вероятности. В аналогичных ситуациях я обычно обнаруживал, что для описания устройства реального мира имеются лучшие ограничения и часто именно они позволяют обеспечивать значительно более прочную основу для информационной теории.

Другими словами, если бы мне пришлось отвечать на вопрос, сформулированный в конце раздела, посвященного стереопсису: правильно ли выбрана задача, которая является предметом информационной теории? — я бы ответил более уклончиво, чем если бы речь шла о стереопсисе или второй части теории Уллмана, посвященной задаче определения структуры по движению. Я до сих пор не располагаю какой-либо определенной альтернативой, однако нижеследующие замечания указывают перспективу, в которой эта проблема мне видится.

212

Новый взгляд на задачу установления соответствия

Одна или две задачи9Сердцевиной всякой информационной теории зрительного процесса является ответ на следующий вопрос: для чего данный процесс предназначен? В модели Уллмана целью процесса установления соответствий является определение некоторой связи между последовательно поступающими кадрами, что позволяет выявлять изменения, происходящие при смене кадров. Регистрация этих изменений дает возможность затем задать входную информацию для процессов, обеспечивающих восстановление структур и их движения.

Не вызывает сомнения то, что это составляет по меньшей мере часть тех задач, для выполнения которых предназначен процесс установления соответствий, но исчерпывается ли этим его роль? Забегая немного вперед, можно заметить, что восстановление структуры по движению предполагает (внутренне проверяемым образом) введение допущения о жесткости движущихся тел. Следовательно, задачу установления соответствий можно в первую очередь анализировать с точки зрения некоторого наблюдателя, помещенного в среду с жесткими движущимися телами.

При небольших временных интервалах задача установления соответствий, возникающая в такой ситуации, фактически эквивалентна задаче установления соответствия, возникающей в стереопсисе, поскольку небольшие смещение и поворот некоторого объекта вызывают такой же эффект, как и небольшие смещение и поворот одного из глаз. Конечно, различные тела могут по-разному двигаться, порождая эквивалентность относительно различных пар положений глаз. Однако теория соответствия при стереопсисе имеет локальный характер и может применяться локально при условии, что введенные в ней допущения выполняются локально. Допущения эти состоят в том, что поверхности обладают локальной гладкостью, а соответствия являются однозначными, поскольку любая выбранная позиция всегда переходит только в какую-то другую единственную позицию, а это почти всегда означает ее наличие на данном изображении. Некоторые видимые точки, естественно, переходят в невидимые, и наоборот, но это аналогично тому, что при изменениях стереоскопической глубины один глаз может видеть части поверхности, которые невидимы для другого глаза.

Как же тогда быть с явлениями расщепления и слияния при видимом движении, когда один элемент кадра при переходе к следующему кадру расщепляется, вступая в соответствие с двумя элементами последнего (или наоборот)? Эти широко известные явления, отчетливо проявляющиеся в видимом движении, порождают значительные теоретические проблемы. Насколько часто они должны были бы возникать в контексте восстановления структуры по движению? Мы уже убедились в том, что они могут возникать при стереопсисе — как на физическом уровне (в тех редких случаях, когда оказывается, что два характерных элемента поверхности, различимые одним глазом, относительно другого глаза расположены на линии прямой видимости), так и на психофизическом, что соответствует граничному случаю Панума. Изучив стереограммы Браддика, приведенные на рис. 3.19, б, мы установили даже,

213

что зрительная система человека очень терпимо относится к двойным соответствиям при условии, что для одного из глаз они являются единственными. В этих случаях, однако, причины их возникновения не относятся к разряду фундаментальных; они должны быть связаны с реализацией и возникают главным образом из-за того, что условие единственности обеспечивается в реальном мире в столь сильной степени, что зрительная система может позволить себе считать их выполненными без внутренней проверки.

Относятся ли явления расщепления и слияния при видимом движении к той же категории, что и аналогичные явления, возникающие при решении задачи установления соответствия между изображениями стереопары, или они имеют более фундаментальный характер? Я полагаю, что, приняв точку зрения, согласно которой единственной функцией процесса установления соответствия при движении является решение задач, возникающих в связи с движением твердых тел, последние можно решить точно таким же способом, как и эквивалентную задачу установления соответствия между изображениями стереопары. Эти явления должны получить почти такие же объяснения, как это было сделано для примеров граничного случая Панума при стереопсисе.

Такой подход, однако, не вполне удовлетворителен. Одной, хотя и довольно субъективной, причиной для такого заключения служит то, что разновидность стереопсиса, которая достигается при непосредственном сопоставлении яркостных переходов текстуры, имеет столь состязательный характер (см., например, [162]), а создающееся в этом случае впечатление глубины столь незначительно, что возникает ощущение отсутствия " подлинного" стереопсиса — присутствуют лишь неявные предварительные намеки на него (скажем, управление вергентными движениями глаз). В видимом же движении эти впечатления вовсе не смутны: яркостные переходы такого рода отчетливо различаются при движении. Соответствия, устанавливаемые в парах, даже столь несходных, как представленные на рис. 2.34, вполне отчетливы и определенны, а состязательность, как это имеет место в стереопсисе, полностью исключена.

Другой довод, который кажется мне неотразимым, следует из сообщения [189] о возможности возникновения видимого движения между субъективными контурами и даже между диспаратными яркостными переходами в стереограмме, образованной случайными точками. С нашей узкой точки зрения это чуть ли не парадокс, псокольку после того, как диспаратные яркостные переходы найдены, мы имеем дело уже с трехмерной структурой и, следовательно, зачем тогда вообще нужно затевать весь этот процесс восстановления структуры по движению, обеспечивающий получение трехмерной структуры?

Очевидно, как мне кажется, наша узкая точка зренчя неадекватна — просто невозможно допустить, чтобы процесс установления соответствий при движении имел-столь ограниченный характер. В чем же тогда состоят его принципиальные отличия от процесса установления соответствия между изображениями стереопары?

Решающее различие состоит в том, что один из них развивается в пространстве, а другой — во времени. Для твердых тел эти процессы эквивалентны, 214

но для пластичных поверхностей — нет. Очертания некоторого объекта при восприятии его левым глазом всегда совпадают с его очертаниями, воспринимаемыми в тот же момент времени правым глазом, но мгновения спустя эти очертания могут измениться, и бывает это вовсе не так уж редко. Птица при наблюдении издалека, например, очень быстро меняет свои очертания и облик как из-за того, что она не является твердым телом, так и, вероятно, из-за того, что лучи солнца падают на ее поднимающиеся и опускающиеся крылья под одним и тем же определенным углом. Изображение птицы может быть очень небольшим и с трудом поддающимся разбиению на более или менее твердые компоненты. Тем не менее, хотя из ее движений можно извлечь очень мало или вообще не извлечь никаких данных, непосредственно характеризующих ее структуру, не возникает сомнений в том, что, несмотря на все наблюдаемые изменения внешнего облика, речь все время идет об одной и той же птице. Другими словами, время вносит важный новый фактор, который достаточно независим от деталей трехмерной структуры объекта. Этим фактором является сохранение объектом " индивидуальности" во времени, и это составляет совершенно другую задачу. Для того чтобы показать разницу, рассмотрим просто пример Уллмана [235] — " лягушка, превращающаяся в принцессу". Этот пример не относится к задаче восстановления структуры по движению, поскольку структура здесь изменяется, но он относится к проблеме индивидуальности объекта.

Я считаю, что теория должна трактовать эти две задачи независимо, так как порождаемые ими требования к обработке информации несколько различны. Идея установления соответствия между яркостными переходами абсолютно непонятна с точки зрения первого подхода, но совершенно естеств енна и чуть ли не без тени всяких сомнений привлекательна с точки зрения второго. Обратимся, например, к конфигурациям, порождаемым игрой света на речной поверхности. Все постоянные факторы в данном случае отражают исключительно геометрию русла реки, и, следовательно, именно ее и следует принимать во внимание независимо от сияния речной поверхности. Такая ситуация вполне может служить реальным прототипом " регистрограмм движения" случайных точек, использовавшихся Б. Джулесом; вполне понятно, что мы должны быть в состоянии воспринимать такие " регистрограммы движения". Если на рыбе, неторопливо скользящей по поверхности реки, имеется непрерывно меняющийся узор, образованный светом и тенью, то обнаружить ее можно только по ее диспаратным границам. Указанные границы перемещаются, но рыба все время остается одной и той же. Эта проблема относится к сохранению индивидуальности объекта.

Отдельные системы для структуры и сохранения индивидуальности объекта. Итак, проблемы, порождаемые временным фактором, определяют по меньшей мере две различные задачи для процесса установления соответствий при видимом движении, причем сами эти задачи отличаются от первой из двух у Браддика, которые обсуждались в разд. 3.4. Первая задача представляет собой первую половину проблемы восстановления структуры по движению, и для случая движения твердых тел она фактически эквивалентна задаче установления соответствия при стереопсисе. Единственная разница между

215

ними заключается в том, что в случае движения добавляется небольшой поворот одного из изображений, но новых существенных проблем это не вызывает. Цель, как и в стереопсисе, состоит в достижении очень детализированного соответствия точно локализуемых объектов на изображении, с тем чтобы измерение изменений их положений на изображении могло выполняться с точностью (второго порядка), необходимой для обработки информации, обеспечивающей восстановление структуры по движению. Следует ожидать, что достижение такой точности предполагает в данном случае использование непроизводных элементов, относящихся к достаточно низкому уровню и подобных входящим в необработанный первоначальный эскиз, либо, быть может, даже просто пересечений нулевого уровня.

Иными являются цели во второй задаче, и определяются они именно тем, что некоторый объект в процессе наблюдения во времени может измениться, что не может иметь место при изменении позиции наблюдателя в пространстве: он может изменить и свои очертания, и конфигурацию (и даже отражательную способность). Точность не является здесь целью — она заключается з приблизительном сохранении индивидуальности объекта — в этом и состоит ключ к пониманию разницы между наблюдаемым движением и стереопсисом. Установление приближенного соответствия между изображениями стереопары не является самоцелью — оно имеет смысл лишь как прелюдия к установлению точного соответствия. Таким образом, приближенные соответствия оказываются лишь неясными и конкурирующими продуктами восприятия. Однако существенное значению имеет установление приближенного соответствия во времени, поскольку оно открывает возможности для обеспечения непрерывности объекта.

Итак, как я полагаю, в этой ситуации может потребоваться создание двух теорий: для случая, когда рассматриваемый объект изменяется и перемещается, и для случая, когда он только перемещается. В первой должно использоваться все то, что только может использоваться, в том числе непроизводные элементы высшего уровня в сочетании с нежесткими правилами установления соответствий и вся доступная трехмерная информация. Явления, связанные с субъективно плавными движениями, могут даже в большей степени оказаться предметом первой, а не второй теории, так как при восприятии плавность " идет рука об руку" с сохранением индивидуальности объекта, а из работы Аттнива нам известно, что плавность сопряжена с воспринимаемыми расстояниями в трехмерном пространстве. Вторая теория относится к более низкому уровню, эквивалентному в информационном смысле стерео-псису. И хотя реализация может быть иной, в этой связи имеет смысл подумать о пересечениях нулевого уровня.

Восстановление структуры по движению

Задача

Мы уже убедились благодаря эксперименту Уллмана [237] с цилиндрами, поворачивающимися в противоположных направлениях (рис. 3.52), что и разбиение сцены на отдельные объекты, и восстановление их очертаний в

216

Рис. 3.52. Иллюстрация эксперимента Ул-лмана с цилиндрами, поворачивающимися в противоположных направлениях. Точки, нанесенные на оба цилиндра, как показано стрелками, ортографически проектируются на экран, порождая в результате некоторую последовательность кадров, аналогичных приведенным на рис. 3.53. Каждый отдельный кадр представляет собой некоторое множество случайных точек, однако при предъявлении последовательности таких кадров в динамике становятся отчетливо видны поворачивающиеся цилиндры

трехмерном пространстве могут быть обеспечены в том случае, когда единственно доступной информацией является та, которую удается почерпнуть из вида объектов, меняющегося по мере их движения. Каждый кадр, используемый в этом эксперименте, включает внешне случайную совокупность точек и сам по себе интерпретации не поддается. Только при предъявлении таких кадров в виде некоторой непрерывной последовательности движение точек обеспечивает восприятие двух цилиндров, поворачивающихся в противоположных направлениях.

Следовательно, мы будем рассматривать упрощенную задачу интерпретации последовательности кадров, каждый из которых образован некоторым множеством случайных точек. В реальных условиях кадры содержат более сложные, чем точки, непроизводные элементы, однако, как и в случае стерео-псиса, это простое представление позволяет отражать сущность задачи. Более того, будем предполагать, что с помощью процесса установления соответствий, рассмотренного выше, соответствие между последовательными кадрами уже установлено. Фактически нам потребуется лишь простая разновидность процесса установления соответствий, а именно процесс, ориентированный на твердые объекты, который, как нам теперь известно, с информационной точки зрения эквивалентен процессу, обеспечивающему решение задачи установления соответствия при стерео пейсе.

Итак, наша очередная задача характеризуется некоторым набором данных, аналогичным представленным на рис. 3.53. Каждый кадр образован множеством помеченных точек (хотя метки на рисунке не показаны), причем точка А кадра 1 соответствует точке А кадра 2 и т. д. Вопрос состоит в следующем: как осмыслить эти данные? Каким образом следует действовать, с тем чтобы найти для них разумную трехмерную интерпретацию9

В данном случае возникает точно такое же затруднение, с которым мы уже сталкивались в задаче стереопсиса, а именно решение не полностью определено. Существует бесконечное число трехмерных конфигураций, способных посредством прямоугольной проекции порождать изображения, приведенные на рис. 3.53, скажем произвольное число различных и случайным образом изменяющихся снежных вихрей. Мы не видим, однако, эти различные возможные варианты, мы видим только один вариант, и именно он является правильным.

217

Рис. 3.53. Задача восстановления структуры по движению. В приведенном наборе кадров содержится трехмерная информация (см. рис. 3.52). Каким образом следует ее восстанавливать?

Поэтому точно так же, как и в стереопсисе, мы должны использовать дополнительную для задачи информацию, с тем чтобы ввести ограничения на искомое решение. Она должна быть одновременно содержательной, истинной и в достаточной мере универсальной. Содержательность определяется тем, что такая информация определяет обычно единственное решение: истинность следует не только из того, что человек в действительности воспринимает лишь одно решение, но и из того, что это решение является также правильным и с точки зрения реальностей внешнего мира; универсальность же требуется потому, что данная система имеет дело с новыми ситуациями, не располагая конкретными априорными сведениями об очертаниях наблюдаемых объектов.

Известный подход

Хотя известен ряд подходов к решению рассматриваемой задачи, лишь один из них заслуживает комментариев. Он был предложен Гельмгольцем [81] (см. также [26; 83]), который ввел в обраидение идею об аналогичности движения и стереопсиса, в частности об аналогичности восстановления структуры по движению и воссаановления расстояния по диспаратности.

Эта идея, однако, имела серьезный недостаток из-за того, что различные объекты, находящиеся в различных частях зрительного поля, могут участвовать в совершенно различных движениях. В данном случае для -задачи установления соответствий это несущественно, поскольку процесс установления соответствий имеет сугубо локальный характер. Мы уже использовали то обстоятельство, что для случая твердых объектов и коротких временных интервалов обе задачи установления соответствий, в сущности, эквивалентны. Отмечалось, однако (не испытав по этому поводу особого беспокойства), что

218

v '          v              v '                                              2

a )                                                                 6)

Рис. 3.54. Демонстрационный эксперимент с ленгой конвейера. Точки, расположенные в зонах 1 и 2, перемещаются вправо со скоростью v ' = v cos в , а точки, расположенные в зоне 2, - со скоростью v. Наблюдатель, видящий изображение, приведенное на рис.3.54, а, не воспринимает геометрическую конфигурацию, приведенную на рис. 3.54, б. Вместо этого создается впечатление, что все зоны расположены во фронтальной плоскости, а точки, лежащие в зоне 2, движутся быстрее [238]

два различных локальных перемещения должны порождать две различные позиции пар глаз, с тем чтобы возникала эквивалентность задаче установления соответствия между изображениями стереопары. Причина, по которой это не вызвало у нас беспокойства, состоит в том, что при установлении соответствия правила объединения не зависят от точных позиций глаз. Эти позиции должны быть лишь близки друг к другу, обеспечивая таким образом аналогичный обзор. Следовательно, на установление соответствия не влияет тот факт, что различные части поля зрения практически порождают различные эквивалентные позиции пар глаз.

Иначе, однако, обстоит дело с восстановлением глубины по диспаратности. Как мы убедились, этот процесс решающим образом зависит от эффективного глазного базиса 5, причем, вообще говоря, порождаемые значения б различны для каждого твердого объекта, движущегося по " индивидуальной программе". Отсутствует способ определения этих значений априори, и, поскольку они изменяются, невозможно сравнивать происходящее в одной из частей поля зрения с происходящим в какой-то другой его части. Следовательно, несмотря на адекватность использования этого подхода для решения задач установления соответствия в двух указанных случаях (при условии, что один из них ограничивается движением твердых тел и короткими временными промежутками), он совершенно не годится для восстановления трехмерной структуры.

Из этих замечаний следует, что изменения скорости перемещения в поле зрения (которые аналогичны изменениям диспаратности) не должны непосредственно порождать впечатление глубины, а равенство скоростей также не обязательно должно служить очень полезным средством группировки. В гештальт-психологии, например, известно понятие " группировки по принципу общей судьбы", предусматривающее группировку на основании одинаковых скоростей; Поттер [18^] недавно снова обратился к одному из вариантов этой идеи. В демонстрационном эксперименте с цилиндрами, вращающимися в противоположных направлениях, возникают, однако, точки, имеющие одинаковые скорости, но расположенные на разных цилиндрах. Свидетельство, противоречащее другой части утверждения и указывающее, что изменения скорости должны порождать изменения в восприятии глубины, предоставляется демонстрационным экспериментом Уллмана с лентой конвейера, который иллюстрируется на рис. 3.54. Скорость точек, расположенных в зонах 1 и 3, равна и, а точек, расположенных в зоне 2, равна v. Наблюдатель не воспринимает различные участки ленты как плоскости, лежащие на различной глубине, или даже как конфигурацию, приведенную на рис. 3.54, б. Вместо этого все точки

219

воспринимаются на одной и той же фронтальной плоскости; возникает впечатление, что при переходе из зоны 1 в зону 2 их скорость увеличивается, а при переходе из зоны 2 в зону 3 - уменьшается.

Ограничение, предполагающее жесткость тела

Большинство структур видимого мира являются жесткими или помень-шей мере почти таковыми. Многие из изучавших восприятие движения обращали на это внимание (например, Уоллак и О'Коннелл [240], Гибсон и Гиб-сон [58], Грин [69], Хей [80], Йоханссон [106, 107]), и в результате возникло убеждение, что жесткость играет в этой задаче особую роль. Им не удалось осознать того, на что указал Уллман: поиск " жестких" интерпретаций — это не просто прихоть нашего механизма восприятия движения, он дает возможность человеку однозначно решать задачу восстановления структуры по движению, не прибегая к использованию каких бы то ни было дополнительных ограничений. Этот поразительный факт следует из одного математического результата, названного Уллманом теоремой об определении структуры по движению. Она утверждает, что при задании трех различных прямоугольных проекций четырех некомпланарных точек, принадлежащих некоторой жесткой конфигурации, структуры и движения, совместные с тремя заданными проекциями, определяются однозначно с точностью до отражения, при котором ближайшие точки становятся наиболее удаленными. Другими словами, трех проекций четырех некомпланарных точек достаточно для определения их трехмерной структуры при условии, что задача установления соответствий уже решена. Кроме того, справедливость этого результата не ограничивается случаем видимого движения: для непрерывного движения исключительно от разрешающей способности систем, измеряющих временные изменения позиций объекта, зависит, что именно рассматривается в качестве соответствующих трех проекций.

Комбинация " четыре точки — три проекции" в теореме о восстановлении структуры по движению является минимальной в следующем смысле. Если проекций только две, то можно построить произвольное количество точек, не имеющих единственной трехмерной интерпретации (хотя отдельные комбинации, к счастью, будут ее допускать). Таким образом, в общем случае двух кадров недостаточно. В случае трех кадров трех точек снова, вообще говоря, оказывается слишком мало для получения однозначного решения — требуются четыре точки.

Для четырех точек и трех проекций можно предложить достаточно правдоподобное доказательство, основанное на понятии числа степеней свободы, соответствующих этому случаю. Пусть указанные четыре точки обозначены как О, А, В и С, причем точка О всегда представляет начало координат (0, 0, 0), а три проекции — как 1, 2 и 3. Необходимо определить 15 переменных. Девять из них задают для проекции 1 положения, занимаемые в трехмерном пространстве точками А, В и С относительно точки О (три точки с тремя координатами для каждой из них); остальные шесть переменных задают повороты в трехмерном пространстве, необходимые для получения проекций 2 и 3 из проекции 1. (Мы исключаем переносы, совмещая на всех проекциях точ-220

ки О.) Для определения поворота а трехмерном пространстве требуются три переменные, для определения оси - две переменные, а для определения величины поворота нужна одна переменная.

Всю информацию, которую мы получаем из каждой проекции, составляют 6 отношений — двухмерные координаты для каждой из точек А, В и С. (Точка О всегда имеет координаты [0, 0].) Следовательно, две проекции дают нам 12 отношений, что недостаточно для определения структуры, поскольку число неизвестных равно 15. Три проекции дают 18 отношений, т.е. их количество больше 15, и этого достаточно при условии, что особых точек или внутренних зависимостей не слишком много. Трудная часть доказательства связана с установлением того, что эти 18 отношений действительно независимы. То обстоятельство, что имеется 18 отношений, а неизвестных всего 15, свидетельствует о том, что часть информации не используется, и именно это в конечном счете обеспечивает возможность внутренней проверки гипотезы о жесткости объектов наблюдения.

Допущение, предполагающее жесткость объекте наблюдения

Проанализировав использование избирательности по направлению для определения свойств видимых поверхностей, мы обнаружили, что линии, характеризующие нарушение непрерывности по направлению движения, случайно не возникают. Они должны свидетельствовать о существовании границы, разделяющей поверхности, движение которых нсзовместно. Рассмотрев проблему стереопсиса, мы установили, что условия единственности и непрерывности гарантируют существование и единственность решения; соответствующая теорема составила основу для анализа стереозрения, поскольку она позволила сформулировать и использовать в дальнейшем фундаментальное допущение стереопсиса.

То же самое справедливо и в данном случае. Теорема о восстановлении структуры по движению в сочетании с прописной истиной, что большая часть объектов реального мира обладает локальной жесткостью, позволяет нам сформулировать основное допущение для восстановления структуры по движению. Оно было определено Уллманом как допущение о жесткости объектов наблюдения [237] и сформулировано следующим образом: любая совокупность элементов, подвергающихся некоторому двухмерному преобразованию и допускающая единственную интерпретацию в виде некоторого твердого тела, движущегося в пространстве, порождается таким движущимся твердым телом и, следовательно, должна интерпретироваться как таковое.

Из теоремы о восстановлении структуры по движению следует, что в случае твердого тела его трехмерную структуру можно определить по трем кадрам (с точностью до симметрии, поскольку мы работаем с прямоугольной проекцией). Если жесткость отсутствует, вероятность получения случайной жесткой интерпретации пренебрежимо мала, так что на практике этот метод не приведет к успеху. Он, следовательно, обеспечивает самоконтроль (" внутреннюю проверку" ): если мы в состоянии восстановить трехмерную структуру, которая согласуется с имеющимися данными, то можно считать, что она единственна и верна. Теорема о восстановлении структуры по движению до-

221

казывается конструктивно, что дает возможность записать некоторую систему уравнений, решение которой, если оно существует, определяет искомую трехмерную структуру.

Реализация такой схемы решения не вызывает затруднений, так как при этом требуется в качестве исходных данных задать лишь четыре точки и поэтому решение может осуществляться параллельно и независимо на всем зрительном поле. Это обстоятельство делает данную схему решения особенно привлекательной при объяснении того, каким образом человек воспринимает движение. Тем не менее конкретные алгоритмы, позникающие в результате непосредственного применения методов, используемых при доказательстве теоремы, неправдоподобны в биологическом отношении. Они, в частности, не отвечают всем тем принципам, которые были сформулированы нами в разд. 3.1, скажем принципу пристойного ухудшения. Если просто записать необходимые уравнения и решить их, то это приведет к алгоритму, который окажется чересчур грубым. Если данные неточны либо наблюдаемый объект недостаточно жесткий, то этот метод " работать" не будет и пользоваться им бесполезно.

На самом деле требуется некоторый алгоритм, характеризующийся пристойным ухудшением, по меньшей мере в двух смыслах. Во-первых, если исходные данные искажены шумом, но имеются более чем три проекции, искомый алгоритм должен обеспечить сначала получение приближенного описания структуры, которое, однако, становится почти точным по мере предъявления алгоритму большего числа проекций и увеличения объема сообщаемой ему информации. И, во-вторых, если наблюдаемые объекты не вполне жесткие, искомый алгоритм должен обеспечить получение не вполне жесткой структуры, возможно, снова за счет использования им большего числа точек или проекций. Алгоритмы, обладающие робастностью такого типа, разрабатываются в нашей лаборатории.

До тех пор пока некоторый конкретный алгоритм не предложен в качестве кандидата на роль алгоритма, который действительно используется зрительной системой человека, и пока не проведены соответствующие психофизические и нейрофизиологические эксперименты, мы не будем наверняка знать, адекватен ли данный подход к восприятию движения. Одна вещь, однако, совершенно ясна: теперь нам известно, какие экспериментальные задачи актуальны. До тех пор пока Уллман не обратился к информационному подходу для решения этой задачи, мы этого не знали.

Замечание о центральной проекции

Считается, что алгоритмы, предназначенные для расшифровки не прямоугольных, а центральных проекций не входят в арсенал зрительной системы человека. Причина этого, вероятно, состоит в том, что изменения, соответствующие переходу от одного кадра к следующему, обычно малы уже сами по себе, а разница в изменениях, наблюдаемых на проекциях этих двух типов, обычно действительно очень мала. Психофизические данные указывают, что движение в направлении от наблюдателя, которое порождает изменения лишь в центральной, но не в прямоугольной проекции, не обеспечивает столь же 222

четкого восприятия трехмерной структуры, как для движений других типов [237]. Схема восстановления структуры по движению является, однако, локальной по существу, поскольку ее рабочие " ядра" состоят всего из четырех точек. Даже центральная проекция является локально прямоугольной, и поэтому практически не возникает затруднений при использовании ортогра-фических методов восстановления по проекциям, аналогичных схеме Уллма-на, даже в тех случаях, когда реальное изображение представляет собой перспективу.

Оптический поток

Дж. Гибсон продолжительное время считал, что " основным в зрительном восприятии является способ восприятия поверхностей. Соответствующий образ всегда содержит как субъективный, так и объективный компонент, т. е. он определяет положение наблюдателя, его перемещения и их направления, а также расположение, наклони очертания поверхности" [54]. Шестнадцать лет спустя он высказал аналогичную точку зрения, проиллюстрировав ее рис. 3.55 [56, рис. 9.3].

Очень скоро началось изучение математических аспектов этой гипотезы, но затрагивались лишь отдельные частные случаи либо частные особенности общего случая [60, 131, 36]. Накаямаи Лумис [172] показали, каким образом контуры глубины могут извлекаться из представления на сетчатке поля вектора скорости, порожденного движением наблюдателя. Только недавно, однако, удалось прийти к общей трактовке этой проблемы [135].

Рис. 3.55. Пример оптического потока, порождаемого движением, предложенный Гибсо-ном. Стрелки представляют значения угловой скорости, которые равны нулю непосредственно впереди и сзади [56]

223

Задача об оптическом потоке, а мы будем пользоваться именно последним термином, заключается в использовании поля вектора скорости на сетчатке, порожденного движением наблюдателя, для определения трехмерной структуры видимых наблюдателю поверхностей. Предполагается, что эти видимые поверхности неподвижны. Принципиальное отличие данного подхода от подхода Уллмана заключается в том, что эффекты, связанные с оптическим потоком основываются на использовании нормальной проекции, а подход, предусматривающий восстановление структуры по движению, является принципиально ортографическим. Таким образом, метод оптического потока позволяет, вообще говоря, работать с плоскими поверхностями, т. е. когда подход, предусматривающий восстановление структуры по движению, неизбежно терпит неудачу.

Исходное представление

Ту информацию, которую называют оптическим потоком и на использовании которой основывается наш анализ, можно рассматривать как мгновенное поле вектора позиционной скорости [66], ставящее в соответствие каждому элементу на сетчатке мгновенное значение этого элемента. Обычно считается, что элементы имеют некоторую физическую интерпретацию.

Получать эту информацию отнюдь не так просто, как порой предполагают приверженцы метода оптического потока. В разд. 3.4 мы уже убедились в том, что из-за существования проблемы апертуры локальные измерения как таковые мало что могут дать, кроме направления движения. Фактически полное определение оптического потока эквивалентно решению более простой из двух задач устанавления соответствия в случае видимого движения, поскольку знание поля скоростей " течения" позволяет устанавливать соответствия между двумя кадрами, снятыми с очень небольшими временными интервалами. Следовательно, если зрительная система человека анализирует оптический поток, то при этом в качестве исходных должны использоваться такие же данные, что и при определении структуры по движению.

Математические результаты

Если наблюдатель приближается к некоторой неподвижной поверхности по прямой, то точке их встречи соответствует особая точка поля оптического потока и время встречи определяется исключительно угловыми скоростями поля [121]. Сомнительно, что эти положения существенно используются в зрительной системе человека, поскольку Джонстон, Уайт и Камминг [108], смоделировав оптическое расширение, возникающее при приближении к поверхности, показали, что человек в состоянии надежно определить фокальную точку расширения лишь непосредственно перед кажущимся контактом с поверхностью. Обучая ученика посадке самолета, летчик-инструктор тратит некоторое время на объяснение того, что текущей расчетной точкой приземления является фокальная точка расширения. Приобретение такого навыка требует сосредоточенности и тренировки, поскольку в его основе не лежит какой-либо естественный рефлекс. Таким образом, гипотеза Гибсона [55] 224

о важности роли, выполняемой фокальной точкой оптического расширения при управлении локомоциями, вероятно, ошибочна применительно к человеку, хотя, быть может, более уместна применительно к птицам.

Авторитетное изложение математических аспектов метода оптического потока появичось сравнительно недавно [135, 187]. Было показано, что вообще по монокулярной проекции жесткой текстурированной кривой поверхности можно определить ее градиент в любой точке, по полю вектора скорости изменяющегося на сетчатке — перемещения глаза относительно этой поверхности, а также первую и вторую производные поля. Соответствующая система уравнений избыточна, что обеспечивает возможность проверки допущения о жесткости.

Существует интересное различие между этим результатом и теоремой Уллмана о восстановлении структуры по движению. Согласно схеме Уллмана четыре точки составляют достаточную информацию при условии, что наблюдатель ждет столько, сколько необходимо для получения по меньшей мере трех различных проекций этих точек. В схеме Лонге—Хиггинза и Праздни достигается иной компромисс: требуются лишь два кадра и поэтому время, затрачиваемое на проведение измерений, оказывается меньшим. (В данном случае достаточно двух кадров, поскольку восстановление очертаний основывается на использовании центральной, а не прямоугольной проекции.) С другой стороны, локальные пространственные окрестности, используемые в процессе решения, это не просто точки, как в схеме Уллмана: их размеры должны быть достаточными для того, чтобы обеспечивалось получение надежных оценок первой и второй пространственных производных поля вектора скорости.

Этот анализ являет собой еще один пример того, каким образом информационная теория может содействовать экспериментальным исследованиям. Проведя математический анализ этой задачи (а он, несомненно, намного запоздал), Лонге-Хиггинз и Праздни создали теоретическую схему для исследования того, действительно ли мы, люди, используем оптический поток, как предположил Гибсон, и если это так, то каким образом. Уже ясно, что существует ряд способов использования оптического потока, которые мы реально не используем. Еще одним примером служит демонстрационный эксперимент Уллмана с лентой конвейера, который иллюстрируется рис. 3.54. Мы не воспринимаем зрительно, что геометрия зон 1 и 3 отличается от геометрии зоны 2, в то время как большинство теорий оптического потока будет настаивать на том, что мы должны видеть это отличие.

Мы тем не менее все же могли бы в какой-то форме использовать оптический поток, возможно лишь в незначительной степени и в основном в периферическом, а не центральном зрении. Таким образом, в конечном счете в тех случаях, когда можно предположить точность измерений малой для системы, основанной на схеме Уллмана восстановления структуры по движению, следует также рассчитывать обнаружить наиболее очевидные проявления оптического потока. Остается установить, используется ли оптический поток в зрении человека.

225


Поделиться:



Последнее изменение этой страницы: 2019-04-09; Просмотров: 56; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.27 с.)
Главная | Случайная страница | Обратная связь