Значение информационной теории

⇐ ПредыдущаяСтр 5 из 31Следующая ⇒

Хотя эмпирически алгоритмы и механизмы (аппаратура) более доступны, именно высший уровень, т. е. уровень информационной теории, имеет решающее значение с точки зрения обработки информации. Причина заключается^ том, что характер вычислений (процедур обработки информации, лежащих в основе восприятия) в большей степени зависит от задач обработки информации, подлежащих решению, а не от той конкретной аппаратуры, с помощью которой соответствующие решения находятся. Другими словами, алгоритм, вероятно, легче понять, исследуя характер решаемой задачи, чем изучая устройство (и его аппаратную часть), в котором он реализуется.

Аналогичным образом попытка понять восприятие исключительно на основе изучения нейронов подобна попытке понять природу полета птиц, изучая лишь их оперение. Это просто невозможно. Для того чтобы осознать природу полета птиц, необходимо владеть аэродинамикой. Только в этом случае структура оперения и различия форм крыльев птиц приобретут для нас смысл. Добавим к тому же, что, как мы убедимся, невозможно установить, почему ганглиозные клетки сетчатки и нейроны наружного коленчатого тела имеют именно такие рецептивные поля, какие у них в действительности наблюдаются, ограничившись изучением исключительно анатомии и физиологии этих нервных клеток. Исследуя соединения и взаимодействия этих клеток и нейронов, можно понять, почему они работают так, как работают, но для того, чтобы понять, почему соответствующие рецептивные поля именно таковы (т. е. обладают круговой симметрией и их возбуждающие и тормозные зоны отличаются специфическими формами и распределениями), необходимо обладать определенными познаниями в области теории дифференциальных операторов, каналов с ограниченной полосой частот и математическими основами принципа неопределенности (см. гл. 2).

Вероятно, нет ничего удивительного в том, что столь специализированная и эмпирическая дисциплина, как нейрология, оказалась не в состоянии в полной мере оценить отсутствие информационной теории. Странно, однако,

что этот уровень не играл более действенную роль на ранних стадиях развития искусственного интеллекта. Слишком долго считалось, что эвристическая программа, предназначенная для решения некоторой задачи, является в каком-то смысле теорией этой задачи, а различие между тем, что делает программа и как она это делает, по-настоящему не учитывалось. В результате: 1) сформировался метод научного объяснения, предусматривающий использование специальных приемов для решения частных задач; 2) отдельные структуры данных, например списки пар значений признаков, известные в языке программирования ЛИСП как списки свойств, приобрели статус теорий представления знаний; 3) часто оказывалось, что единственный способ оценить пригодность программы для решения конкретной задачи — это применение программы для ее решения.

Неспособность осознать это принципиальное различие между что и каким образом существенно затруднило установление связей между искусственным интеллектом и лингвистикой. Теория трансформационных грамматик Хомс-кого [33] представляет собой истинно информационную теорию в определенном выше смысле. В ней рассматривается исключительно природа синтаксической структуры английского предложения и не затрагивается вопрос о том, каким образом следует обрабатывать предложение для того, чтобы получить соответствующую синтаксическую структуру. Сам Хомский совершенно четко понимал это — им разделено владение языком и исполнение при реальном употреблении языка, хотя его представление о последнем на самом деле включает и другие факторы (скажем, прерывание высказывания). Однако многих, очевидно, ввело в заблуждение то обстоятельство, что его теория определяется преобразованиями, которые выглядят как вычислительные процедуры. Уиноград, в частности, счел возможным критиковать теорию Хомского за ее необратимость и вследствие этого невозможность воспроизведения на вычислительной машине [257]. Отзвуки тех же аргументов я слышал и от лингвистов в связи с проблемой реального построения грамматической структуры для конкретной английской фразы.

Объяснение здесь достаточно простое: разработка алгоритмов, позволяющих реализовывать теоретические построения Хомского, и разработка собственно теории — совершенно разные предприятия. На нашем языке это соответствует исследованиям разных уровней, причем решать следует обе задачи. Указанное обстоятельство было по достоинству оценено Маркусом [140], который посвятил свою работу изучению именно того, каким образом теория Хомского может быть реализована и какого рода ограничения, налагаемые на мощность грамматического процессора, имеющегося у человека, могли бы послужить источником структурных ограничений в синтаксисе, обнаруженных Хомским. Создается даже впечатление, что предложенная Хомс-ким и Ласником [34] " следовая" теория грамматик может открыть путь к синтезу обоих подходов, продемонстрировав, например, что некоторые из специфических ограничений, составляющих часть информационной теории, могут являться следствием недостатка вычислительной мощности, отводимой на осуществление синтаксической расшифровки.

Подход Дж. Дж. Гибсона

В том, что касается восприятия, Гибсон, вероятно, в наибольшей степени приблизился к уровню информационной теории [56]. Хотя некоторые аспекты его подхода были вполне правомерны, он, однако, не понял по-настоящему, что представляет собой обработка информации. В результате это привело к серьезной недооценке сложности задач обработки информации, связанных со зрением, и соответственно искусности, необходимой для их надлежащей трактовки.

Важность вклада Гибсона определяется тем, что он увел полемику от проблем философского анализа данных, поступающих от органов чувств, и эффективных свойств восприятия, указав на важность роли чувств как каналов восприятия окружающего мира, а, в частности, в случае зрения - видимых поверхностей. Таким образом, он задал принципиально важный вопрос: каким образом в обычной жизни на основе непрерывно изменяющихся ощущений обеспечивается постоянство восприятия? Это совершенно законный вопрос, показывающий, что Гибсон правильно трактовал проблему восприятия, рассматривая ее как восстановление " истинных" свойств окружающего мира по информации, поступающей от органов чувств. Его трудности были связаны с чрезмерно упрощенными представлениями о том, каким образом это восстановление должно осуществляться. Подход Гибсона привел к рассмотрению переменных высших порядков — энергии, отношений, удельных весов раздражителей и т. п. в качестве " инвариантов" относительно перемещения наблюдателя и интенсивности раздражителей.

" Эти инварианты, - писал он, — соответствуют неизменным свойствам окружающей среды. Они, таким образом, составляют информацию о постоянной части среды". Эта позиция сформировала у Гибсона точку зрения, согласно которой роль мозга заключается в " обнаружении инвариантов" независимо от изменения " ощущений", вызываемых светом, давлением или силой звука. Итак, утверждает он, " роль мозга, образующего вместе с органами восприятия замкнутый контур, не состоит ни в расшифровке сигналов, ни в интерпретации сообщений, ни в приеме изображений, ни в организации данных, поступающих от органов чувств, т. е., говоря на современном языке, не состоит в обработке информации. Задача мозга — поиск и выделение информации об окружающей среде из вечно беспокойного океана энергии" Он считал, что нервная система в некотором роде " резонирует" на эти инварианты. Затем Гибсон провел обширное исследование животных в соответствующих средах, пытаясь обнаружить те инварианты, на которые они могли бы резонировать. Именно эта идея легла в основу экологической оптики [56, 57].

Хотя в анализе Гибсона можно найти целый ряд недостатков, основная и, с моей точки зрения, роковая причина его неудачи немного глубже и связана с отказом от следующих двух обстоятельств. Во-первых, от того, что обнаружение физических инвариантов представляет собой совершенно определенно и без каких бы то ни было оговорок задачу обработки информации (на современном языке). И, во-вторых, от признания подлинной сложности такого обнаружения. Обсуждая проблему восстановления трехмерной информации по движению наблюдателя, он замечает, что " при движении можно пользоваться лишь информацией о перспективе" [56, с 202]. Ключом же к пониманию работ Гибсона служит, вероятно, такой абзац:

" Обнаружение неизменяющихся элементов при движении некоторого объекта в определенной среде не столь сложно, как это могло бы показаться. Оно Начинает казаться трудной задачей лишь после того, как мы начинаем полагать, что восприятие постоянных размеров объекта должно основываться на коррекции восприятия непостоянных форм и размеров. Информация, характеризующая постоянные размеры объекта, обычно задается инвариантными отношениями на совокупности оптических данных. Жесткость определена".

Да, несомненно, но как? Обнаружение физических инвариантов действительно именно такая трудная задача, на какую указывал Гибсон, но мы тем не менее с ней справляемся. И единственный способ понять как - это рассматривать ее в качестве задачи обработки информации.

Принципиальным является то обстоятельство, что обработка зрительной информации очень сложна на самом деле. Гибсон же не единственный мыслитель, введенный.в заблуждение кажущейся простотой акта " видения". Судя по всему, в целом традиция философского исследования природы восприятия не обнаруживает достаточно серьезного отношения к сложности соответствующих процессов обработки информации. Остин в своей монографии [7] остроумно опровергает довод, к которому явно благосклонны предшествующие философы: поскольку порой иллюзии могут вводить нас в заблуждение (так, прямая палка кажется нам изогнутой, если она частично погружена в воду), мы видим не реальные предметы, а сенсорные данные. Ответ же заключается просто в том, что обычно в процессе восприятия обработка данных ведется правильно (она обеспечивает получение правильных описаний типа что где находится) и, хотя эволюция обеспечила возможность вести обработку при различных типах изменчивости (например, при переменном освещении), возмущения, порожденные преломлением света в воде, к их числу не относятся. Кстати, несмотря на то, что пример с изгибом палки обсуждается со времен Аристотеля, мне не удалось обнаружить философского исследования природы восприятия, скажем, цапли — птицы, добывающей себе в пищу с помощью клюва рыбу, которую она обнаруживает, находясь над водой. Вполне возможно, что эти птицы пользуются зрительной коррекцией.

Как бы то ни было, наша основная проблема в данном случае состоит в другом. Остин [7] посвятил много времени идее, состоящей в том, что восприятие позволяет получать представление об истинных свойствах окружающего мира. Он, в частности, рассматривает понятие " истинная форма", возникшее в процессе обсуждения феномена монеты, которая при некоторых ракурсах " выглядит овальной". Несмотря ни на что, однако,

" монета обладает истинной формой, остающейся неизменной. В сущности же, монеты представляют, скорее, частные случаи. Во-первых, их очертания точно определены и очень устойчивы, во-вторых, форма монет известна и поддается описанию. Но имеется множество объектов, для которых это не справедливо. Какова истинная форма облака... или кошки? Меняется ли их истинная форма, как только они начинают двигаться? Если нет, то какое положение занимает эта истинная форма на изображении соответствующего объекта? Далее, является ли соответствующая истинная форма такой, что допускает представление с достаточно гладкими очертаниями, либо она испещрена множеством зазубрин, что позволяет ей учитывать каждый волосок? Совершенно очевидно, что ответов на эти вопросы не существует - нет ни правил, в соответствии с которыми, ни процедуры, с помощью которой эти ответы могли бы быть получены".

Но ответы на эти вопросы существуют. Существуют способы описания формы кошки с произвольной степенью точности (см. гл. 5), и существуют правила и процедуры получения таких описаний. Именно для этого служит зрение, и именно это определяет сложность его механизма.

1.3. СТРУКТУРА ПРЕДСТАВЛЕНИЯ ДЛЯ ЗРЕНИЯ

Зрение — это процесс, порождающий по изображениям внешнего мира некоторое описание, полезное для наблюдателя и не перегруженное несущественной информацией [145, 151]. Мы уже убедились в том, что всякий про-46

цесс можно рассматривать как некоторое отображение одного представления в другое. В случае же зрения человека характер исходного представления никаких сомнений не вызывает — оно образуется массивами значений яркостей изображения, зарегистрированных фоторецепторами сетчатки.

Вполне правомерно рассматривать изображение как некоторое представление: явными характеристиками изображения служат значения яркости в каждой точке массива, который в точке с координатами (х, у) обычно обозначаются как 1(х, у). Для упрощения нашего обсуждения не будем временно принимать во внимание факт существования нескольких различных типов рецепторов и будем считать, что имеется лишь один тип рецептора и, следовательно, изображение является черно-белым. Таким образом, каждое значение величины 1{х, у) определяет некоторый конкретный уровень серого тона. Каждый детектор будет рассматриваться нами как некоторый элемент изображения, или пиксел, а весь массив / — как некоторое изображение.

Как, однако, обстоят дела с информацией на выходе зрительного процесса? Мы уже договорились о том, что она должна представлять собой некоторое полезное описание внешнего мира, но это условие имеет довольно расплывчатый характер. Нельзя ли предложить нечто лучшее? Совершенно верно, конечно, что в отличие от входной информации чрезвычайно трудно описать конечный результат зрительного процесса, не говоря уже о его точном определении. Существенная особенность этого нового подхода к проблеме зрения кроется в его вполне конкретных указаниях относительно того, что этот результат собой представляет. Прежде чем приступить к обсуждению, мы вернемся назад и кратко остановимся на формулировке более общих задач, возникающих в связи с данными вопросами.

Предназначение зрения

Полезность некоторого представления зависит от того, насколько хорошо оно соответствует цели, для достижения которой его используют. Голубю зрение нужно для того, чтобы ориентироваться в полете, летать и находить пищу, различным разновидностям аттидов — чтобы отличить потенциальную пищу от потенциального партнера по половому процессу. У одного вида таких пауков, в частности, имеется специфическая сетчатка, состоящая из двух диагональных полос, образующих букву " F". Обнаружение красной метки " К" на спине некоторого объекта, находящегося перед аттидом, означает, что обнаружен партнер, в противном случае соответствующий объект может оказаться пищей. Лягушка, как мы уже отмечали, для обнаружения мелких насекомых пользуется сетчаткой; сетчатка же кролика заполнена специальными " устройствами", одно из которых о предел енно является детектором мелких хищных птиц, поскольку оно адекватно реагирует на тип поведения хищника, парящего наверху и высматривающего добычу. С другой стороны, зрение человека, очевидно, является в сильной степени универсальным, хотя, несомненно, его зрительная система включает множество специальных механизмов, предназначенных, например, для фиксации глаза в направлении неожиданного движения в поле зрения или заставляющих челове-

ка моргать или как-то иначе реагировать на нечто, слишком быстро приближающееся к его голове.

Короче говоря, использование зрения связано с таким ошеломляющим разнообразием способов, что у различных живых существ зрительные системы должны разниться чрезвычайно сильно. Можно ли доказать адекватность постановки, которую я предлагаю, т. е. постановки в терминах представлений и процессов, всем разновидностям зрительных систем? Я полагаю, что можно. Принципиальным здесь является тот тезис, что, поскольку различным живым существам зрение необходимо для достижения чрезвычайно разнообразных целей, совершенно невероятным кажется использование всеми обладающими зрением живыми существами одних и тех же представлений. Можно быть уверенным в том, что каждое из них пользуется одним или несколькими представлениями, которые точно соответствуют их задачам.

Рассмотрим кратко в качестве примера одну примитивную, но весьма эффективную зрительную систему, обладающую еще и тем достоинством, что она хорошо изучена. Группа В. Райкхардта в Тюбингене лотратила последние пятнадцать лет на тщательное изучение зрительной системы управления полетом комнатной мухи, и славное содружество Райкхардта и Т. Поджо добилось существенных результатов в решении этой задачи [193, 194, 184]. Грубо говоря, зрительная система мухи управляет ее полетом с помощью пяти независимых, жестко запрограммированных и обладающих исключитель-' но высоким быстродействием подсистем (время, разделяющее появление зрительного раздражителя и изменение вращающего момента, составляет всего лишь 21 мс). Так, например, одна из этих подсистем обеспечивает посадку: если зрительное поле резко " расширяется взрывом" (из-за того, что приближающаяся поверхность стремительно расширяется), муха автоматически устремляется на посадку в ее центр. Если этот центр расположен над мухой, она автоматически переворачивается, для того чтобы приземлиться вверх ногами. Когда ее лапки касаются поверхности, подача энергии на крылья прекращается. И наоборот, для того чтобы взлететь, муха подпрыгивает. После потери контакта лапок мухи с поверхностью энергия снова начинает подаваться на крылышки — муха снова находится в полете. В полете управление осуществляется независимыми подсистемами, регулирующими вертикальную скорость мухи (с помощью регулирования подъемной силы, развиваемой крылышками) и направление полета по горизонтали (оно определяется вращающим моментом, который порождается асимметрией горизонтальной тяги левого и правого крылышек). Зрительная информация, поступающая на вход системы управления по горизонтали, полностью описывается, в частности, двумя следующими составляющими:

(форма переменных г и D представлена на рис. 1.5). Эта информация показывает, каким образом муха осуществляет слежение за некоторым объектом, появляющимся в ее зрительном поле под утлом \р и перемещающимся с угловой скоростью 4>. Эта система предназначена для отслеживания в поле зрения объектов, имеющих определенные угловые размеры, причем стратегия движения такова, что если замеченный объект - это другая муха, находящаяся на расстоянии нескольких сантиметров от первой, то перехват будет успешно совершен. Если же целью оказывается слон, находящийся на расстоянии в сотню метров, то перехват успехом не увенчается, так как встроенные параметры систем управления полетом мухи настроены на другую муху, находящуюся по* близости, но не на слона, разгуливающего где-то вдали.

Итак, зрительная система мухи обеспечивает получение некоторого представления,

Рис. 1.5. Горизонтальная составляющая визуального входного сигнала, поступающего в систему управления полетом комнатной мухи, описывается выражением R = D (ф) — - r (Ф) Ф, где ф - направление раздражителей; ф - угловая скорость их перемещения в зрительном поле мухи; D(ф) - нечетная функция, использование которой обеспечивает центрирование цели в зрительном поле мухи, (а); r (ф) — практически постоянная

функция (б)

определяющего по меньшей мере следующие три события: 1) не начинает ли поле зрения столь стремительно сужаться, что муха должна приземлиться; 2) не наблюдается ли небольшое пятно (иногда черная крацинка, иногда некоторый текстурный образ на текстурном фоне), перемещающееся тем или иным способом относительно фона; 3) если такое пятно действительно обнаружено, определяются его значения фи ф, которые передаются в двигательную систему. Эта деятельность занимает, вероятно, около 60 % работы зрительной системы мухи. Исключительно маловероятно, в частности, что муха располагает хоть каким-либо заданным в явном виде представлением изображения окружающего ее мира: у нее нет, скажем, правильного представления о том, что такое поверхность - она располагает лишь несколькими пусковыми механизмами и несколькими специфическими (ориентированными на потребности мухи) параметрами типа фиф.

Совершенно очевидно, что зрительная система человека намного сложнее рассмотренной, хотя в ее состав вполне могут входить подсистемы, не столь уж сильно отличающиеся от зрительных подсистем мухи и предназначенные для решения специфических и главным образом относящихся к нижнему уровню задач типа управления движением глаз при слежении. Тем не менее, как показали Поджо и Райкхардт, работу даже столь простых подсистем можно изучать тем же способом, т. е. рассматривая их как системы, предназначенные для решения задач обработки информации. Кроме того, их работа обладает еще одной совершенно замечательной особенностью: им удалось не только сформулировать дифференциальные уравнения, точно описывающие зрительную систему управления мухи, но также и представить эти уравнения с помощью разложения в ряд Вольтерра в таком виде, который непосредственно указывает минимально допустимую сложность связей в соответствующих нейронных сетях.

Развитое зрение

Зрительные системы, подобные той, которой располагает муха, вполне удовлетворительно, с необходимыми быстродействием и точностью обслуживают своих владельцев. Эти системы, однако, не очень сложны, так как сих помощью собирается очень мало объективной информации о внешнем мире. Соответствующая информация в целом чрезвычайно субъективна: требуются угловые размеры раздражителя " с точки зрения" мухи, а не действительные размеры находящегося перед ней объекта, угол объекта относительно зрительного поля мухи, а не его положение относительно самой мухи либо некоторой другой внешней точки отсчета, угловая скорость объекта, причем снова относительно зрительного поля мухи, а не некоторая оценка его истинной скорости относительно мухи или какой-либо реперной точки.

Одной из причин подобной простоты этой системы должно служить то обстоятельство, что именно эти данные обеспечивают муху необходимой для выживания информацией. Естественно, эта информация не оптимальна и время от времени мухе приходится напрасно растрачивать свою энергию, гоняясь за листьями, падающими на некотором " среднем" расстоянии от нее, или за слонами, находящимися где-то очень далеко, что представляет собой непосредственное следствие неадекватностей ее системы восприятия. Очевидно, однако, все это не слишком существенно — муха располагает резервом энергии, достаточным для покрытия этих " накладных расходов". Другой причиной, несомненно, является значительно больший объем вычислений, необходимый для преобразования этих достаточно субъективных показателей в более объективные характеристики. Каким же образом тогда следует рассматривать более совершенные зрительные системы, например зрение человека. Какие здесь возникают проблемы⁷ Какого рода информацию зрение на самом деле поставляет человеку и какие способы представления при этом используются?

Мой подход к этим проблемам в значительной степени сложился под влиянием поразительных достижений клинической неврологии, в частности работ Критчли и Уоррингтон и Тейлора [243]. Значительную роль сыграла также лекция, прочтенная Э. Уоррингтон в Массачусетсском технологическом институте в октябре 1973 года; в этой лекции рассказывалось о том, что доступно и что недоступно пациентам с повреждениями левой и правой теменной области мозга. Самым важным, с моей точки зрения, являлось проведенное Уоррингтон разграничение двух групп больных [244]. Те, у кого повреждения находились справа, были в состоянии распознавать обычные объекты при условии, что предъявлялись они больному в некотором смысле " просто". Она использовала слова обычный и необычный, ведро или кларнет, рассматриваемые сбоку, представляли " обычные" картины, а при взгляде сверху (по оси симметрии) — " необычные". Если этим больным удавалось опознать объект, то они были в состоянии назвать его и указать семантику, т. е. способ употребления и назначение, величину, размер, из чего он сделан и т. д Если же объект рассматривался в необычном ракурсе, например ведро сверху, больные не только не могли опознать его, но и яростно отрицали, что ведро

вообще может выглядеть таким образом. Больные же с повреждениями левой теменной области вели себя совершенно иначе. Часто эти больные уже утратили владение языком и поэтому были не в состоянии назвать рассматриваемый объект или указать его назначение и семантику. Они, однако, могли довести до сведения экспериментатора, что геометрия объекта, т. е. форма, воспринимается ими правильно даже при необычном ракурсе.

Из выступления Уоррингтон следовало два вывода. Во-первых, представление формы объекта хранится в памяти отдельно от представления способов его использования и назначения, и, следовательно, это совершенно разные характеристики объекта. Во-вторых, только зрение может породить некоторое внутреннее описание формы рассматриваемого объекта, причем даже в том случае, когда объект не распознан в обычном смысле, т. е. не установлены ни способ его использования, ни назначение.

Это оказалось важным для меня по следующим двум причинам. Среди специалистов по машинному зрению было принято считать, что распознавание — задача столь трудная, что для ее решения необходима информация всех разновидностей. Результаты такой установки проявились в полной мере спустя несколько лет в программах типа разработанных Фройдером [50], а также Тененбаумом и Барроу [226]. В последней программе знания об учреждениях (в частности, что на столах стоят телефоны и что телефоны — черные) были использованы для " выделения" черного пятна, расположенного в верхней половине изображения и " распознавания" этого пятна как телефона. В программе Фройдера аналогичный подход использовался для " выделения" и " распознавания" на некоторой сцене молотка. Совершенно очевидно, что в нашей обыденной жизни мы должны пользоваться подобными знаниями: однажды у себя в саду я заметил какое-то коричневое пятно, проворно снующее по грядкам салата, и правильно идентифицировал его как кролика, несмотря на то, что одной зрительной информации для этого было недостаточно. И все же... У нас делала доклад молодая женщина, которая спокойно рассказывала о том, что ее пациенты не только были в состоянии " сообщать" ей, что они узнают форму тех предметов, которые она им показывала, хотя и не могут назвать их или указать способы их использования, но им удавалось успешно продолжать делать это даже после того, как она чрезвычайно усложняла задачу в зрительном отношении, показывая им объекты в каких-то специфических ракурсах или освещенные весьма необычным образом. Становилось очевидным, что интуитивные представления специалистов по машинному зрению оказываются абсолютно неверными и что даже в сложной обстановке формы объектов могут определяться с помощью одного лишь зрения.

Вторым, как я считаю, важным моментом оказалось обращение Э.Уоррингтон к тому, что, в определенном смысле, является квинтэссенцией зрения человека — форме, пространству и пространственной организации. Именно здесь пролегает путь к определению предназначения зрения — построение некоторого описания форм и местоположений объектов по изображениям. Этим, конечно, ни в коей мере не исчерпываются все возможности зрения: оно дает нам сведения об освещенности и об отражательных способностях поверхностей, образующих очертания объектов, — об их яркостях, цветах и

видимых текстурах — и об их движении. Все это, однако, представляется вторичным и может не учитываться в теории, согласно которой основной задачей зрения является получение некоторого представления формы.

К искомому — через возможное

И наконец, необходимо трезво относиться к словам. Почти наверняка невозможно достичь искомого за один шаг, если требуется, чтобы зрение по некоторому изображению выдавало некоторое полностью инвариантное описание формы (независимо от того, каковы конкретные детали этого процесса). Мы в состоянии добиваться лишь возможного и на этой основе продвигаться далее к искомому. Итак, мы пришли к идее некоторой последовательности представлений, начальными элементами которой служат описания, получаемые непосредственно по изображению, но сконструированные столь тщательно, чтобы позволить затем последовательно устанавливать более объективные, т. е. физические, характеристики формы объекта. Наилучшим средством для достижения этой цели служит описание геометрии видимых поверхностей, так как информация, закодированная в изображении (в частности, с помощью стереопсиса, штриховки, текстуры, контуров или наблюдаемого движения), определяется локальными свойствами поверхностей, образующих очертания (форму) объекта. Целью множества процедур обработки информации на нижнем уровне зрительной системы является получение именно этой информации.

Оказывается, однако, что подобное описание видимых поверхностей нельзя использовать при решении задач распознавания. Это является следствием ряда причин, но важнейшая, вероятно, состоит в том, что, подобно всем зрительным процессам нижнего уровня, данный решающим образом зависит от точки привязки описания. Последний шаг, таким образом, предусматривает преобразование описания поверхностей, ориентированного на наблюдателя, в представление, описывающее форму трехмерного объекта и его расположение в пространстве и не зависящее от направления наблюдения объекта. Это финальное описание привязано не к наблюдателю, а к объекту.

Итак, описанная нами в целом структура предусматривает разбиение процесса получения информации о форме по изображениям на три стадии, соответствующие используемым видам представления (табл. 1.2): 1) представление характеристик двухмерного изображения типа изменений значений яркости и локальных геометрических свойств; 2) представление характеристик видимых поверхностей в системе координат, начало которой совпадает с позицией наблюдателя (характеристики типа ориентации поверхности, расстояния от наблюдателя, скачкообразных изменений значений этих параметров, коэффициента отражения поверхности, а также приближенного описания основного освещения); 3) представление в системе координат объекта трехмерной структуры и организации (наблюдаемой формы) в сочетании с каким-либо описанием свойств поверхности объекта.

Краткое описание этой структуры представления данов табл. 1.2 (ее более детальному описанию посвящены гл. 2 — 5).

Таблица 1.2. Структура представления для извлечения из изображений информации

о форме объекта

Тип представления	Цель использования	Непроизводные элементы
Изображение (я)	Представление яркостей	Значение яркости в каждой точке изображения
Первоначальный эскиз	Получение в явном виде существенной информации о двухмерном изображении, главным образом об изменениях яркости и геометрических свойствах их распределения и организации	Точки пересечения нулевого уровня Пятнышки Концы и разрывы Отрезки яркостных переходов Допустимые прямые Группы Криволинейные структуры Границы
2, 5-мерный эскиз	Получение в явном виде информации об ориентации и приближенных значениях глубины видимых поверхностей, контурах разрывов значений этих величин в координатной системе наблюдателя	Локальная ориентация поверхности (" игольчатые" непроизводные элементы) Расстояние до наблюдателя Разрывы по глубине Разрывы значений ориентации поверхности
Представление трехмерной модели	Описание формы (объектов) и пространственная организация в системе координат объекта; при этом используется модульное иерархическое представление, построенное из объемных (т. е. непроизводных элементов, представляющих объем пространства, занимаемого объектом) и поверхностных непроизводных элементов	Трехмерные модели иерархически упорядочиваются; основу каждой модели образует некоторая пространственная конфигурация, составленная из нескольких стержней или осей; к ней прикрепляются объемные или поверхностные непроизводные элементы, характеризующие форму объекта

ЧАСТЬ II ЗРЕНИЕ

⇐ Предыдущая 1 2 3 456 7 8 9 10 Следующая ⇒

Последнее изменение этой страницы: 2019-04-09; Просмотров: 102; Нарушение авторского права страницы