Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


ДОПУСТИМЫЕ СИСТЕМЫ КООРДИНАТ



Вероятно, теперь нам следует перейти к проблеме системы координат. Мы уже отмечали, что такая система должна быть ориентирована на наблюдателя, однако и в этом случае еще остается несколько вариантов выбора. Первый и наиболее существенный момент заключается в том, что все обсуждавшиеся нами процессы естественным образом привязаны к координатам сетчатки, как это показано на рис. 4.4, а. Относительная глубина и ориентация поверхности определяются вдоль линии прямой видимости наблюдателя и по отношению к ней, а не относительно какой-либо внешней системы координат. Таким образом, мы чуть ли не форсированно должны считать (по крайней мере сначала), что результаты, приносимые каждым из таких процессов, представляются в некоторой системе координат сетчатки.

Кроме того, следует помнить о том, что координаты, определяемые относительно линии прямой видимости наблюдателя, для него не очень удобны. При использовании такой системы координат нелегко установить, одинакова ли ориентация двух поверхностей или является ли некоторая поверхность плоской. В этом случае все время требуется учитывать угол, под которым располагается линия прямой видимости наблюдателя (как это видно из рис. 4.4, а), причем это осложнение усугубляется влиянием движения глаз.

289

a )

Рис. 4.4 В полярных координатах, привязанных к сетчатке для измерения ориентации поверхности естественно использовать угол, образованный этой поверхностью и линией прямой видимости наблюдателя. Таким образом, двум параллельным поверхностям 5, и 53 соответствуют различные углы в, и вг с противоположными (в данном случае) знаками (д). Значительно более удобным является представление, которое предусматривает отсчет всех углов от прямой, направленной прямо вверх (б). В таком случае нетрудно определить, параллельны ли две поверхности и являются ли они плоскими, выпуклыми или вогнутыми

Второй существенный момент, который следует из первого, состоит в том, что, хотя ббльшая часть процессов предварительной обработки информации в зрительной системе, обеспечивающих получение информации об ориентации поверхности, дает ее применительно к положению линии прямой видимости, каждый процесс может при этом использовать собственный способ. При стереопсисе, как мы видели выше, естественное предпочтение отдается раздельному определению вертикальной и горизонтальной составляющих ориентации поверхности просто из-за того, что горизонтальное расположение глаз обеспечивает разделение вертикального и горизонтального направлений. В процессах, связанных с контурами поверхности и текстурной информацией, предпочтение отдается представлению в категориях отклонение — направление наклона поверхности типа того, что было рассмотрено в разд. 3.6 и 3.7. С информацией, получаемой в процессе восстановления структуры по движению, в этом отношении дело обстоит, вероятно, аналогично тому, как оно обстоит с информацией, связанной с контурами поверхности.

Итак, э качестве резюме отметим, что существует несколько различных способов представления ориентации поверхности в системе координат сетчатки, причем в различных процессах предварительной обработки информации в зрительной системе могут использоваться несколько отличающиеся друг от друга способы представления первоначальных приближений действительных ориентации поверхности.

Третий момент определяется наличием у человека центральной ямки сетчатки глаза. Анализ различных частей поля зрения производится при некотором заданном направлении взгляда с очень различным разрешением. Следовательно, в зависимости от того, о какой части зрительного поля идет речь, существенно изменяются объем памяти или размеры зоны буферного запо-290

минающего устройства, необходимые для фиксации результатов функционирования процессов предварительной обработки информации в зрительной системе, причем потребности в памяти в зоне центральной ямки сетчатки оказываются значительно выше, чем в периферийной зоне сетчатки. Таким образом, появляется еще один довод в пользу системы координат сетчатки, поскольку при использовании системы координат, которая учитывала бы и движения глаз, разрешение, соответствующее центральной ямке сетчатки, должно было бы обеспечиваться по всему зрительному полю. Использование таких роскошных ресурсов памяти было бы расточительством — они не являются необходимыми и идут вразрез с нашим собственным опытом восприятия, поскольку в противном случае человек оказался бы в состоянии формировать такое впечатление о внешнем мире, которое было бы повсюду столь же детальным, как и по направлению взгляда.

И наконец, момент, связанный с проблемой непротиворечивости. Мы уже отмечали, что процессы предварительной обработки информации в зрительной системе могут функционировать в значительной степени независимо друг от друга, причем одни части зрительного поля являются областью приложения одних процессов, а другие — других. Следовательно, возникает проблема обеспечения непротиворечивости различных типов информации, а также проблема назначения приоритетов, точно отражающих надежность отдельных процессов, т. е. назначения приоритетов, таким образом, чтобы при получении противоречивой информации из нескольких источников предпочтение отдавалось информации, поступившей из " наилучшего" источника. Эта проблема непротиворечивости, как совершенно очевидно, должна быть разрешена на возможно более ранней стадии обработки информации в зрительной системе, поскольку до тех пор, пока она существует, вся получаемая информация не может быть сведена в единственное представление.

Эти четыре замечания ведут к двум выводам. Во-первых, информация, поступающая из различных источников, очевидно, подвергается проверке на непротиворечивость и объединяется с помощью некоторой системы координат сетчатки. Так происходит потому, что вся информация воспроизводится в такой форме, и подобный способ ее представления, учитывающий, помимо всего прочего, повышенную информативность зоны центральной ямки сетчатки,, наилучшим образом соответствует возможностям процессов получения этой информации. Во-вторых, на этом этапе, вероятно, осуществляются определенные преобразования системы координат, целью которых является представление информации, поступающей от различных процессов, в некотором стандартном виде, и, возможно, также учет угла наблюдения. Пример соответствующего преобразования приведен на рис. 4.4, б, где все углы определяются относительно прямой, направленной прямо вперед (от наблюдателя), а не относительно локальной линии прямой видимости. Подобное преобразование, во-первых, облегчает вычисление предикатов, характеризующих такие свойства, как плоскостность, | выпуклость и вогнутость; во-вторых, обеспечивает простоту сравнения ориентации поверхностей, " расположенных" в различных частях поля зрения; в-третьих, открывает возможности для учета движения глаз.

291

4.8. ИНТЕРПОЛИРОВАНИЕ, ПРОДОЛЖЕНИЕ И НАРУШЕНИЯ НЕПРЕРЫВНОСТИ

Проблемы, к обсуждению которых мне хотелось бы перейти, возникают в связи с тремя различными типами психофизических экспериментальных данных. К первому типу относится наблюдение, впервые подробно изученное Уайтом [252]; оно состоит в том, что человек " видит" стереограммы, образованные случайными конфигурациями точек, даже при низкой плотности заполнения (2-3 %) как изображения некоторой непрерывной поверхности, а не как набор изолированных точек. Читатель может убедиться в этом, обратившись к приведенной на рис. 3.8 стереограмме с 5 %-ной плотностью заполнения. При ее наблюдении возникает очень отчетливое впечатление твердой поверхности. У нас создается уверенность в том, что все точки расположены на одной и той же глубине: они явно выделяются на прозрачной во всех остальных отношениях поверхности; эта поверхность - плоская, а ее ориентация ясно видна. Данное явление не будет казаться таким уж удивительным, если вернуться к теории стереопсиса, рассмотренной в разд. 3.3; дело в том, что пересечения нулевого уровня, которым поставлены в соответствие значения диспаратности, покрывают не все изображение - на его большей части пересечений нулевого уровня вообще не имеется (см., например, рис. 3.14). Поэтому следует предполагать, что при этом используется какая-то разновидность процедуры заполнения Отметим, кстати, что кооперативный стереоалгоритм, результаты применения которого проиллюстрированы рис. 3.7, включает в качестве составной части процесс заполнения, и это было одной из причин его первоначальной привлекательности для нас.

Э Гримсон [71] рассмотрел заполнение (или задачу интерполирования) в психофизическом и информационном аспектах и обнаружи.", что зрительная система оказалась чрезвычайно консервативной в отношении " размера" заполнения, выполняемого ею при отсутствии дополнительных данных Он предложил ряд стереограмм (типа приведенной на рис 4.5), в которых и плотность размещения точек, и значения диспаратности уменьшаются по мере приближения к центру, как это показано на рисунке. Вопрос состоит в следующем: каким образом (если это вообще происходит) наблюдатель заполняет область, в которой отсутствуют точки? *Два из трех возможных вариантов заполнения приведены на рис. 4.5, е. вариант А предусматривает заполнение прямой линией с постоянным значением диспаратности, вариант В (на рисунке не показан) - выполнение некоторого гладкого интерполирования, при котором две поверхности соединяются без нарушения непрерывности по ориентации поверхностей, вариант С - линейное продолжение поверхностей вплоть до их пересечения

Для того чтобы выяснить, что именно воспринимает наблюдатель, следует поместить тестовое пятно в промежуточную область с различными значениями диспаратности и попросить наблюдателя сказать, находится оно выше или ниже того места, " где проходит поверхность" Гримсон установил, что при таких условиях восприятие оказывается не очень четким: хотя испытуемые уверенно справляются с вариантами А и С, они проявляют нерешительность относительно положения пятна в варианте В Они никогда не сообщают о каких бы то ни было нарушениях непрерывности по ориентации поверхности. Гримсон пришел к выводу о том, что, хотя, по-видимому, какое-то интерполирование имеет место, проблема в целом не столь проста. Несколько позже мы рассмотрим ее информационные аспекты.

Другой аспект нашей проблемы, который я буду называть продолжением, лучше всего проиллюстрировать с помощью стереопары, предложенной Э. Уиткином и представленной на рис 4.6. Эта стереограмма воспринимается как два прямоугольника А я В, наложенных на целостный прямоугольник, включающий части Сх, Сг и С3. Любопытной особенностью этого эксперимента служит то, что информацию о стереоскопической диспаратности могут давать лишь вертикальные прямые Таким образом, области А, В,

292

Рис. 4 5. Сгереограмма (а) характеризуется распределением плотности размещения точек (б) и распределением значений диспаратности, показанным сплошными линиями (в). Такую стереограмму можно использовать для того, чтобы с психофизических позиций выяснить, прибегает ли человек к интерполированию для заполнения разрывов, и если прибегает, то каким образом он его выполняет9 Два допустимых варианта интерполирования показаны штриховыми линиями (в)

Рис 4 6В данной стереопаре область С2 наблюдается на той же самой глубине, что и области С, и С3, несмотря на отсутствие характеристик диспаратности, позволяющих

определять глубину расположения области С2

293

Рис. 4.7. Криволинейный субъективный контур может быть образован двумя окружностями с центрами в точках С\ иС,; каждая из этих окружностей гладко продолжает контур в соответствующей исходной точке (точки А и В), а в точке Г происходит их гладкое соединение. Субъективный контур включает ту из бесконечного множества пар окружностей, которая обеспечивает минимальную кривизну продолжения

С\ и С3 содержат точки, в которых значения диспаратности определены, и тот факт, что мы видим каждую из них как отдельную поверхность, относится лишь к проблеме интерполирования. Для области С%, однако, такая информация отсутствует. То, что этой области приписывается та же глубина, что и областям С, и С3, должно, следовательно, являться результатом какого-то процесса продолжения, действующего " позади" наложенных плоскостей А и В. Для данного эксперимента решающее значение имеет точное выравнивание горизонтальных яркостных переходов областей С1, С2 и С3. Это эквивалентно тому, как если бы точное выравнивание этих переходов на двухмерном изображении позволяло наблюдать их в качестве проявления одного и того же нарушения непрерывности поверхности в трехмерном случае, что, в свою очередь, позволяло бы видеть поверхность С2 на той же глубине, что и поверхности С, и Сг. Аналогичный вывод, вероятно, можно сделать, опираясь на эксперименты, поставленные Н. Уайсстайн [246]. Она предъявляла смещающуюся решетку, закрывала ее центральный прямоугольный участок и тем не менее обнаруживала эффекты адаптации даже в пределах этого участка.

Из этих экспериментов следует, что при использовании для представления поверхностей системы координат наблюдателя может возникнуть возможность одновременного представления более чем одной поверхности. Может также оказаться существенным то, что в соответствующим образом построенных стереограммах, образованных случайными конфигурациями точек (подобных приведенной на рис. 3.19, б), возникает возможность одновременно и ясно наблюдать две поверхности. Мне самому не удается видеть одновременно три поверхности (ср. с монографией Джулеса [113, рис. 5.7-1 ]), хотя, быть может, есть люди, которые в состоянии сделать это.

И наконец, существует проблема нарушений непрерывности по глубине и ориентации поверхности. Нарушения непрерывности по глубине уже упоминались нами в связи с вариантами продолжения в примере, приведенном на рис. 4.6, а также в связи с явлением возникновения субъективных контуров. В обоих случаях непрерывность и гладкость (минимальная кривизна), по-видимому, являются важными критериями. Уллман [233] с феноменологических позиций провел изучение формы криволинейных субъективных контуров и установил, что ее можно точно представить с помощью двух окружностей (по одной на каждую точку-источник), между которыми должно быть построено гладкое соединение (рис. 4.7). Из бесконечного семейства пар окружностей, удовлетворяющих указанному условию, выбирается пара, позволяющая получить минимальную кривизну соединения. Уллман описал также локальную сеть, обеспечивающую порождение' формы такого типа.

Хотя форма таких контуров вполне ясна, нам мало известно относительно условий, при которых она возникает, за исключением достаточно общих соображений о необходимости данных о наложении в сочетании с монокулярными данными, более или менее непосредственно характеризующими точное местоположение нарушения непрерывности. Оба эти вида информации в несколько различных вариантах содержатся в треугольнике

294

Канижа (см. рис. 3.81, д), изображении солнца, образованном радиальными прямыми (см. рис. 2.25, б), и стереограмме, образованной случайными конфигурациями точек с 5 %-ным заполнением (см. рис. 3.8), в которой собственно " точки" содержат короткие вертикальные отрезки яркостных переходов. Эта тема заслуживает дальнейшего исследования с психофизических позиций.

4.9. ИНФОРМАЦИОННЫЕ АСПЕКТЫ ПРОБЛЕМЫ ИНТЕРПОЛИРОВАНИЯ

С информационной точки зрения прежде, чем приступать к детальному планированию психофизических экспериментов, необходимо разрешить две проблемы. Первая связана с понятием нарушения непрерывности, а вторая — с различными вариантами интерполирования.

Нарушения непрерывности

Хотя различия между непрерывными и разрывными изменениями на континууме очевидны, в тех случаях, когда выборочное пространство дискретно, эти различия становятся трудноуловимыми. Мы уже дважды сталкивались с этой проблемой - первый раз при обнаружении нарушений непрерывности по ориентации пересечений нулевого - уровня, т. е. когда, строго говоря, такие нарушения возникать не могут, и второй раз в связи с алгоритмом светлоты Ланда и Макканна [129]. В обоих случаях предусмотрено введение некоторой пороговой величины. В первом случае в качестве основы для него используется та точка, в которой " реальное" нарушение непрерывности (источник) перестает быть различимым с очень резким изменением кривизны. Положение этой точки зависит от размера рецептивного поля соответствующего канала; в результате то, что каналы с рецептивными полями меньших размеров могут " воспринимать" как гладкость, каналы с рецептивными полями больших размеров могут " воспринимать" как нарушения непрерывности.

Разрешение выборочного пространства в любом случае действительно налагает ограничения на то, что можно считать непрерывным изменением. Допустим, например, что в одномерном случае исходное представление включает значения, разделенные некоторыми промежутками б. В таком случае согласно теореме Котельникова - Шеннона данное представление не может включать полную информацию о процессах, частота которых превышает, скажем, я/б = Ω. Следовательно, это представление в частотной области, в сущности, ограничено частотой Ω.

Далее, хотя сигнал, полоса частот которого ограничена сверху частотой Ω, можно точно представить его выборочными значениями, разделенными промежутками б, это никак не гарантирует того, что такой сигнал будет соответствовать всем выборочным точкам, в которых будут заданы произвольные значения. Иначе говоря, если выборочные значения изменяются слишком быстро, сигнал в целом может выйти за пределы ширины полосы частот, используемой для его представления. При возникновении такой ситуации представление автоматически приписывает соответствующее изменение нарушению непрерывности просто потому, что не располагает возможностями, необходимыми для учета тех изменений, которые имеют место на самом деле. Это обстоятельство точно отражается в теореме Бернштейна, утверждающей, что производная функции с ограниченным спектром не может принимать слишком большие по сравнению со значением самой функции значения. Если/(х) - некоторая функция, полоса частот которой ограничена сверху частотой Ω, а/(х) - ее производная, то теорема утверждает, что

sup I f\x) I < Ω sup I f{x) I,

1. е. максимальное значение модуля производной I fix ) I при любых значениях х не превышает максимального значения Ω I fix ) I.

295

Это — фундаментальное ограничение; оно действует во всех тех случаях, когда предпринимается попытка представлять некоторую информацию дискретно (на дискретной решетке). В связи с этим особенно примечательно то, что зрительная система человека не в состоянии представлять синусоидальные сигналы с учетом их глубины, если частота таких сигналов превышает 3-4 периодов/град в центральной ямке сетчатки [231]. Это ограничение, возможно, помогает понять, почему субъективные контуры не возникают или видны не очень отчетливо, если Вы смотрите на них прямо, и видны значительно более отчетливо, когда Вы смотрите на них не прямо. Возможно также, что разрешающая способность представления уменьшается с увеличением эксцентриситета; таким образом, то, что допускает представление в центральной ямке сетчатки как очень высокий градиент, при предъявлении с большим эксцентриситетом должно представляться как некоторое нарушение непрерывности.

Как мы убедились в разд. 3.3, стереопсис иногда может давать вполне определенные данные о нарушении непрерывности поверхности Если, например, относительное значение изменения диспаратности по горизонтали в одном из глаз достигает 1, то другой глаз в этом случае воспринимает нарушение непрерывности по глубине. Слабо заполненные изображения, однако, часто не содержат информации, достаточной даже для того, чтобы установить этот факт При восприятии у Вас может возникнуть не очень определенное ощущение того, что диспаратность действительно изменяется, но Вы не можете точно сказать, где именно. Если при предъявлении стереограмм, образованных случайными конфигурациями точек со слабым заполнением, оказывается, что два квадрата располагаются вдоль границы диспаратности, то возникают отчетливые субъективные контуры и граница ясно видна. Если же, однако, в стереограмме квадраты заменены, например, размытыми пятнами, то восприятие нарушения непрерывности становится значительно менее определенным.

Хотя все эти наблюдения не выходят далеко за пределы чистых гипотез, они действительно служат свидетельствами консервативности процесса интерполирования, а также и того, что зрительная система весьма неохотно вводит контуры нарушений непрерывности как по глубине, так и по ориентации поверхности, за исключением тех случаев, когда само изображение оказывается источником достаточно объективной информации об их расположении. Контур может проявляться не по всей своей длине, но маловероятно, чтобы по всей его длине совершенно отсутствовали всякие зрительно воспринимаемые проявления его существования. Э. Гримсон сформулировал это положение в виде следующего афоризма: позиции, в которых нет информации, - это на самом деле позиции, в которых информация есть. Другими словами, нарушения непрерывности скрыть невозможно, и справедливо также и обратное: если изображение не дает вообще никаких данных относительно наличия какого-либо нарушения непрерывности, причем на тех участках, где можно было предполагать существование яркостного перехода, отсутствует даже хотя бы один его фрагмент, то в таком случае можно не постулировать наличие нарушения непрерывности Таким образом, в тех ситуациях, когда непосредственные признаки намеренно устранены, как это сделано на рис. 4.5, мы не можем с полной определенностью ни вводить контуры, ни интерполировать поверхности и, следовательно, результат восприятия, с которым мы остаемся, отличается зыбкостью и неопределенностью

Методы интерполирования

Упоминания заслуживают три основных метода интерполирования. 1) линейное интерполирование глубины г ; 2) линейное интерполирование ориентации поверхности; 3) интерполирование методом " обтекаемой поверхности" (этот метод используется при конструировании автомобилей для придания кузову гладкой формы). Очень приблизительно первый метод аналогичен тому обратному преобразованию, с которым мы уже

296

встречались в предложенном Хорном алгоритме ретинекса [90]. Этот метод предусматривает минимизацию значения оператора Лапласа V3 на соответствующей поверхности. Второй метод предусматривает приближенную минимизацию кривизны поверхности в любой заданной вогнутой или выпуклой области. (Это следует из того, что кривизна / = - div п, где div п - дивергенция п; п - нормаль к поверхности, и локальное усреднение п практически обеспечивает минимизацию значения div п.) Недостатком обоих методов в случае реализации их на некоторой решетке является медленная сходимость — в сущности, ее скорость обратно пропорциональна квадрату расстояния между узлами решетки. Мне уже доводилось выше высказывать свои сомнения относительно использования итерационных методов при обработке информации, связанной с восприятием (см. разд 3.2 и 3.5).

Третий метод интерполирования, который Гримсон предпочитает двум первым, основан на использовании понятия обтекаемой поверхности, т. е. поверхности с непрерыв-

Рис. 4.8. Изображение, порожденное стереопарой (а); результаты его свертки с V2 G -фильтрами с рецептивными полями четырех различных размеров (б—д соответственно); картины пересечений нулевого уровня, полученные в результате указанной фильтрации (е-и); две проекции карты диспаратностей, полученные в результате установления соответствий между изображениями стереопары (к, л); изображения поверхностей, полученные в результате применения к этой информации алгоритма интерполирования, предложенного Э. Гримсоном (.м, н)

297

Рис. 4.8 (окончание)

298

ными первой и второй производственными, а в производных третьего и высшего порядков допускающей разрывы Известны методы, обеспечивающие в результате однократного применения заполнение промежутков между тремя соседними точками и связывание разрывных мест таким образом, чтобы обеспечивалась гладкость производных произвольного высшего порядка Отказ от условия непрерывности для производных выше второго порядка основан на наблюдениях специалистов по автомобильному дизайну, сводящихся к тому, что покупатель замечает нарушение непрерывности формы поверхности лишь по первой и второй производным, а на третью уже не обращает внимания. На рис 4.8 приведены результаты применения одного из методов заполнения такого рода к изображению, порожденному стереопарой Из этого примера следует, что метод позволяет получать гладкое изображение, которое радует глаз.

Что же касается проблем соотношения этих рассуждений информационного характера с тем, каким образом человек на самом деле обнаруживает нарушения непрерывности или заполняет разрывы поверхностей (в том ограниченном диапазоне возможностей выполнения этих операций, которыми он обладает), то их разрешение - дело будущего.

4 10 ДРУГИЕ ИНФОРМАЦИОННЫЕ ПРОЦЕССЫ, ДЕЙСТВУЮЩИЕ В РАМКАХ 2, 5-МЕРНОГО ЭСКИЗА

Понятие непрерывности поверхности может, как мы уже в этом убедились, послужить источником разнообразных процессов обработки информации, действующих в рамках 2, 5-мерного эскиза, в том числе процессов заполнения разрывов и гладкого продолжения, применяемых к нарушениям непрерывности. Можно полагать, что в таких процессах подобным же образом учитываются и иные локальные ограничения, например условия непротиворечивости, определяющие допустимое расположение поверхностей друг относительно друга в трехмерном пространстве, типа условий, сформулированных в явном виде Уолцем {241, рис. 1 — 3]. Подобные ограничения в конечном счете могут послужить основой для понимания таких явлений, как трансформация куба Некера. Исходя из такой точки зрения естественным выглядит возникновение в результате стереоскопического слияния многих иллюзий, связанных с интерпретацией трехмерной структуры (куб Некера, субъективные контуры, иллюзия Мюллера — Лайера, иллюзия Поггендорфа и т. п.) [113, 19]. Иллюзии типа " перевернутое ведро" (см. рис. 5.9) также частично возникают в силу этих же причин, поскольку непрерывность поверхности ведра играет решающую роль в том, чтобы оно воспринималось должным образом. В связи с этим возникают интересные вопросы: какой объем обработки приходится на операции, выполняемые в самом 2, 5-мерном эскизе, и какой ее объем приходится на этап преобразования этого промежуточного представления в трехмерное представление того типа, которое человек сохраняет в памяти (см. следующую главу)? Такие иллюзии, как треугольник Пен-роуза, целый ряд изображений, созданных Эшером, и даже трансформирующаяся фигура, изображенная на рис. 4.9, служат, вероятно, примерами проявления совместного воздействия нескольких эффектов — частично локальных, относящихся к 2, 5-мерному эскизу, а также других, возникающих в связи с тем, что по набору локальных проекций не удается построить целостную непротиворечивую трехмерную интерпретацию.

299

Рис. 4.9. Странные трансформации этой фигуры, возможно, как и трансформации куба Некера, определяются ограничениями, включенными в 2, 5-мерный эскиз

И наконец, еще одно замечание, которое может показаться странным. Почему должны происходить трансформации куба Некера при включении его в стереограмму, образованную случайными конфигурациями точек? Можно было бы сказать, что поскольку стереопсис однозначно приписывает все яркостные переходы некоторой плоскости, то соответствующая фигура должна восприниматься, как двухмерная, а не трехмерная. Я полагаю, что лучше всего считать все контуры 2, 5-мерного эскиза с трудом поддающимися трехмерной интерпретации. Не имеет значения то обстоятельство, что включены они в 2, 5-мерный эскиз по результатам процесса стереопсиса, а не заимствованы, например, из первоначального эскиза.

ГЛАВА 5 ПРЕДСТАВЛЕНИЕ ФОРМ ОБЪЕКТОВ ПРИ РАСПОЗНАВАНИИ

5.1 ВВЕДЕНИЕ

Мы приступаем к заключительному и, возможно, самому замечательному из разделов нашей программы — преобразованию представлений форм объектов, ориентированных на процессы восприятия, в представления форм объектов, удобные для использования в процессах распознавания. При этом возникает много проблем, требующих исследования. В данной главе, написанной главным образом по материалам работы [151], затрагиваются лишь некоторые из них, причем в самой ограниченной степени. Тем не менее принципиальные положения иногда наиболее четко выявляются при схематическом изложении, и основное внимание здесь будет посвящено тому, что именно предопределяет пригодность представления для его использования в дальнейшем при распознавании. В связи с этим нам придется заняться обсуждением того, что представляет собой распознавание и как оно происходит.

Наиболее важным в данном случае является то, что нам теперь придется отказаться от удовольствия использовать систему координат наблюдателя, на применении которой основывались все представления, до сих пор рассматривавшиеся, из-за неразрывной связи таких представлений с процессами фор-300

мирования изображения. Для распознавания объекта необходимо устойчивое описание его формы, которое если и зависит от положения наблюдателя, то лишь в очень небольшой степени. Это, в свою очередь, означает, что элементы формы объекта и способы их соединения должны описываться не применительно к положению наблюдателя, а в системе координат, в основе которой лежит собственно форма. Замечательным следствием этого условия служит то, что каноническая система координат1 должна быть задана на объекте до того, как будет описана его форма, причем, по-видимому, не существует способа обойти это требование. Для некоторых форм объектов, скажем формы сигары, это сделать нетрудно, для других же, например " формы" скомканной газеты, — нелегко.

Итак, перейдем к детальному рассмотрению этих проблем. Я буду пользоваться термином форма для обозначения геометрической организации поверхности физического тела. Так, две статуи лошади, отлитые с помощью одной и той же литейной формы, имеют одинаковую форму. Представление формы — это некоторая формальная схема, предназначенная для описания формы объекта или ее отдельных аспектов, в сочетании с правилами, указывающими порядок применения этой схемы при представлении формы любого конкретного объекта. Я буду называть описанием формы в соответствующем представлении результат применения этого представления к заданному объекту. Такое описание может характеризовать форму объекта как приближенно, так и во всех подробностях.

5.2. ПРОБЛЕМЫ, ВОЗНИКАЮЩИЕ В СВЯЗИ С ПРЕДСТАВЛЕНИЕМ ФОРМЫ

Известно много видов информации, получаемой зрительным путем и играющей важную роль в задачах распознавания и разделения объектов. В их числе особое место занимает информация о форме объекта, так как в отличие от информации о цвете и зрительных текстурах для представления большинства видов информации о форме объекта необходимо использовать какую-либо систему координат, позволяющую описывать пространственные отношения. Так, например, информация, позволяющая различать по форме фигурки животных, приведенные на рис. 5.1, заключена в пространственном расположении, ориентации и длине частей щеточек для чистки трубок, из которых эти фигурки сделаны. Аналогичным образом, поскольку левая и правая руки зеркально симметричны друг относительно друга, для того, чтобы описание формы руки позволяло устанавливать, относится ли оно к левой или к правой руке, оно должно тем или иным способом определять взаимные расположения большого и указательного пальцев.

Критерии эффективности представления формы объекта

Форма объекта характеризуется рядом совершенно различных аспектов, причем одни из них играют в распознавании более значительную роль, чем

Система координат, которую однозначно определяет собственно форма объекта.

301

Рис 5 1 Эти фигурки, составленные из частей щеточек для чистки трубок, иллюстрирует несколько положений, развиваемых в данной главе Представленные формы объекта для получения описания, подходящего для использования при распознавании, не должно воспроизводить форму поверхностей объекта. Как следует из данного рисунка, формы тел животных удается вполне эффективно отобразить с помощью соответствующего подбора пространственного расположения и относительных размеров небольшого числа кусочков щеточек Простота этих описаний объясняется соответствием, имеющим место между изображенными на рисунке кусочками щеточек и естественными (каноническими) осями форм описываемых объектов Представление формы объекта для использования при распознавании должно иметь в своей основе характеристики, которые однозначно определяются соответствующей формой и могут быть надежно найдены по изображениям соответствующего объекта [151]

другие, и один и тот же аспект может быть описан рядом различных способов. Хотя самую общую классификацию представлений форм объектов построить трудно, можно попытаться сформулировать основные критерии для оценивания этих представлений и определить основные возможности выбора, который необходимо производить при формировании представления формы объекта.

Доступность, удобство получения и использования описания Можно ли по изображению получить искомое описание и можно ли сделать это ценой разумных затрат? Информация, которую можно получить из изо-302

бражения, подвержена фундаментальным ограничениям (например, связанным с четкостью изображения), и поэтому требования, предъявляемые к описанию, должны укладываться в пределы возможного. Кроме того, описание, которое в принципе можно построить по изображению, иногда тем не менее оказывается все же неприемлемым из-за недопустимо больших затрат памяти и времени, необходимых для его получения.

Допустимое разнообразие описаний и их однозначность

Для какого класса форм объектов предназначается представление и получают ли эти формы канонические описания в соответствующем представлении9 Так, например, представление формы, предназначенное для описания плоских поверхностей и сопряжений перпендикулярных плоскостей, позволяет представлять кубические твердые тела, однако не годится для описания биллиардной) шара или расчески. Если представление предназначено для использования при распознавании, то соответствующее описание формы объекта должно быть однозначным. В противном случае на одном из этапов процесса распознавания возникает трудная задача, связанная с определением того, относятся ли два описания к одной и той же форме объекта. Если, например, для представления формы решено использовать многочлены и-й степени, то формальное описание некоторой заданной поверхности будет зависеть от выбора системы координат. Поскольку маловероятно, что мы будем использовать одну и ту же систему координат в двух разных случаях, не вводя каких-то дополнительных условий, то даже одно и то же изображение поверхности может порождать совершенно разные описания.

Другой пример относится к представлению формы объекта с помощью большого числа маленьких кубиков, укладываемых таким образом, чтобы обеспечивалось максимально точное приближение искомой формы. Если размеры кубиков достаточно малы, то форму объекта можно воспроизвести с их помощью с большой точностью, и, следовательно, возможности такого представления весьма обширны. С другой стороны, даженебольшое смещение, скажем на половину длины ребра 3-мм " мини-куба", может привести к существенному изменению представления формы объекта, что нарушает, таким образом, условие однозначности. Если же использовать 30-см кубики, то проблема однозначности в значительной мере снимается (для представления тела человека достаточно всего шести таких кубиков, поставленных друг на друга), однако происходит это за счет возникновения существенных проблем в связи с другими аспектами представления.

Устойчивость и чувствительность

За пределами критериев допустимого разнообразия и однозначности представления остаются проблемы, связанные с непрерывностью и разрешающей способностью представления. Для использования подобия форм двух объектов при распознавании оно должно быть отражено в их описаниях, однако в то же время в них должны отражаться даже и наиболее трудноуловимые различия данных форм. Эти противоположные требования можно выполнить

303

лишь в том случае, если имеется в о зм о жн о сть разделить информацию, характеризующую самые общие и в наименьшей степени подверженные изменениям свойства, и информацию, характеризующую наиболее тонкие отличия форм (т. е. чувствительную к этим различиям).

Рассмотрим в качестве примера представление в виде фигурки, составленной из кусочков щеточек для чистки трубок. В этом представлении для описания формы тела животного в качестве непроизводных элементов используются расположение в трехмерном пространстве и относительные размеры кусочков щеточек (см. рис. 5.1). Выбор размеров этих кусочков является средством управления устойчивостью и чувствительностью получаемого в результате описания фигурки из кусочков щеточек. Устойчивость обеспечивается благодаря использованию кусочков больших размеров; использование всего лишь одной щеточки обеспечивает наиболее устойчивое описание формы в целом, характеризуя лишь размеры и ориентацию объекта. Однако описание, составленное из кусочков меньших размеров, будет обладать чувствительностью к деталям меньших размеров, имеющим более локальный характер, скажем таким, как крайние части конечностей животных. Хотя подобные детали в меньшей степени проявляют тенденцию к устойчивости, они тем не менее могут оказаться важными при выделении тонких различий между сходными формами объектов.


Поделиться:



Последнее изменение этой страницы: 2019-04-09; Просмотров: 64; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.061 с.)
Главная | Случайная страница | Обратная связь