Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Взаимодействие между процессами вывода и распознавания



До сих пор мы рассматривали получение трехмерной модели независимо от процесса, устанавливающего связь полученной модели с моделями, включенными в каталог трехмерных моделей. Мы считаем распознавaiTie процессом, который осуществляется постепенно посредством продвижения от общего к специфическому, частично перекрывается с процессом построения описания по изображению, управляет последним и задает для него ограничения. После того как с помощью одного из трех рассмотренных индексов из каталога выбрана соответствующая модель, было бы желательно использовать ее для того, чтобы повысить качество анализа изображения. Эту процедуру можно осуществлять в два этапа: во-первых, следует соотнести оси компонентов, определенные по изображению, с отношениями присоединения, выбранными из каталога; во-вторых, следует использовать процессор преобразования пространства изображения для объединения ограничений, которые можно получить из изображения, с ограничениями, определяемыми моделью, с тем чтобы построить некоторый новый набор выведенных отношений присоединения, обладающих большей специфичностью, чем отношения присоединения, содержащиеся в каталожной модели. Этот второй этап предусматривает анализ ограничений, которым должны удовлетворять отношения присоединения, совместные как с рассматриваемым изображением, так и с информацией, включенной в каталог. Собственно идея использования при интерпретации изображения запоминаемой модели формы объекта впервые была реализована Робертсом [202] в программе ЭВМ для построения описаний яркостных переходов в формах конфигураций, образованных кубиками, клиньями и шестиугольными призмами, по изображениям таких конфигураций.

Установление соответствия между изображением и каталожной моделью

Первый из упоминавшихся в предыдущем разделе этапов можно рассматривать как решение некоторой гомологической задачи, состоящей в том, что отношения присоединения каталожной модели должны быть соотнесены с осями, определенными по изображению. Это решение может быть неполным. Так, например, оси ног легко идентифицируются на силуэте лошади по виду сбоку, однако обычно не удается различать левую и правую ноги, не обраща--ясь к дополнительной информации. Часто, однако, такая неоднозначность оказывается допустимой, поскольку соответствующие отношения присоединения для обеих ног имеют идентичные описания общей ориентации (отличаются лишь местоположения), а последние и составляют всю ту информацию, которая используется при дальнейшем анализе.

В процессе реализации процедур вывода-распознавания происходит рост информации, пригодной при установлении соответствий между изображением и моделью. Вначале приоритет отдается информации, характеризующей положение компонентов относительно главной оси фигуры, составленной из палочек, поскольку этот вид информации в наименьшей степени подвергает-

327

ся искажениям, возникающим при использовании центральной проекции. Кроме того, с самого начала можно использовать следующие сведения: 1) относительную толщину форм, " обрамляющих" оси отдельных компонентов (шея лошади много толще ее ног); 2) допустимые разбиения осей компонентов на более мелкие элементы (хвост и ноги лошади в первом приближении можно рассматривать как прямые, но верхняя часть тела должна обязательно включать два компонента, которые всегда образуют друг с другом достаточно большой угол); 3) симметричность или одинаковость (толщина ног лошади одинакова, а сами ноги расположены приблизительно параллельно — поэтому их длина и расположение на изображении примерно одинаковы, что отличает их от хвоста); 4) большие различия в значениях угла < р, входящего в отношение присоединения (на изображении ноги и хвост лошади обычно расположейы по одну сторону корпуса, а шея — по другую). Взятые все вместе, эти данные обычно оказываются достаточными, для того чтобы установить соответствие между основными компонентами трехмерной модели и осями, найденными по изображению.

Индексы присоединения и происхождения также могут служить источниками гомологической информации. При извлечении из каталога трехмерной модели с помощью индекса присоединения направление соответствующей оси компонента определяется автоматически. Так, например, когда анализ изображения лошади доходит до одной из ног, направление оси ноги определяется ее соединением с туловищем лощади (часть ноги, на которой расположено копыто, удалена от места ее соединения с туловищем). При использовании индекса происхождения для выбора модели из каталога на основе отождествления отдельных компонентов форм установление попарных соответствий таких идентифицированных компонентов существенно ограничивает возможности установления попарных соответствий для остальных компонентов. Так, например, при расположении лошади относительно наблюдателя в анфас положение туловища, которое на изображении не видно, можно определить, опираясь на расположение головы, шеи и передних ног.

Анализ, основанный на использовании ограничений

После того как установлена гомологичность трехмерной модели и изображения, хотелось бы использовать эту информацию таким образом, чтобы это дало возможность задать ограничения для допустимых значений углов наклона осей. Основная идея при этом заключается в том, что зачастую лишь для очень небольшого числа комбинаций, составленных из значений углов наклона осей, спроецированных на изображение, отношения присоединения, полученные по изображению, будут совместны с отношениями присоединения, предлагаемыми каталожной моделью. Это утверждение эквивалентно тому, что достаточно часто имеется лишь небольшое число ориентации главной оси каталожной модели (относительно наблюдателя), при которых оси их компонентов хорошо согласуются с проекциями осей на изображении.

Объединенной информации, поступающей из изображения и каталожной модели, часто оказывается достаточно для однозначного (с точностью до симметричного расположения относительно плоскости изображения) опреде-

328

ления наклонов осей. Такт, например, на рис. 5.11, л представлен годограф ориентации вектора А (относительно наблюдателя), совместных с углом наклона 90° вектора А относительно вектора Бис углом 47° между их проекциями на плоскость изображения. На рис. 5.11, б представлены допустимые ориентации при угле наклона 45° и угле между проекциями, равном —111. На рис. 5.11, в приведены данные, характеризующие пересечение двух указанных наборов значений. Жесткость этих ограничений зависит от конкретного значения угла, под которым ведется наблюдение (как следует из других примеров, приведенных на этом рисунке), и от конкретных отношений присоединения соответствующей трехмерной модели. В общем случае наиболее жесткими ограничения становятся, когда ориентации осей компонентов различаются очень существенно, а главные оси не лежат в плоскости изображения.

Известно несколько алгоритмов, позволяющих использовать такие ограничения. Простейшим, вероятно, является алгоритм, основанный на релаксационной процедуре, которая обеспечивает коррекцию ориентации вектора А методом последовательных приращений посредством поиска тех положений, при которых проекции углов между осями компонентов каталожной модели, определенные процессором преобразования пространства изображения, наилучшим образом согласуются с проекциями углов, полученными с помощью изображения фигуры, построенной из палочек. На этом этапе вектор А будет указывать ориентацию главной оси, наилучшим образом соответствующую всем названным ограничениям; процессор преобразования пространства изображения может использовать второй вектор (S) для определения ориентации каждой из осей компонентов, опираясь на присоединения, входящие в каталожную модель. При достаточно жестких ограничениях эта градиентная процедура эффективно сходится.

С другой стороны, вместо того чтобы применять процедуру релаксации к ориентации главной оси каталожной модели, можно применять ее к углам наклона палочек, определяемым по изображению. В этом случае степень расхождения определяется сравнением отношений присоединения, полученных для палочек на изображении, с соответствующими отношениями присоединения, выбранными из каталожной модели. Этот подход представляет интерес в связи с тем, что все преобразования, осуществляемые процессором преобразования пространства изображения, имеют одно и то же " направление" (от координат, привязанных к наблюдателю, к координатам, привязанным к объекту). На последнем шаге уточненную информацию об ориентации можно использовать для извлечения из изображения дополнительной информации. В частности, после того как определены ориентации осей, можно вычислить относительные значения их длин.

В целом процесс распознавания можно описать следующим образом. Вначале из каталога выбирается модель, характеризующая распределение компонентов по длине главной оси. Далее эта модель используется для получения ограничений, касающихся взаимной ориентации компонентов, что позволяет определять абсолютную ориентацию (по отношению к наблюдателю)

329

осей компонентов на изображении. Последняя информация может послужить основой для вычисления относительных значений длин осей компонентов с помощью процессора преобразования пространства изображения. Информацию, полученную таким образом, можно затем использовать для различения форм на следующем уровне индекса специфичности.

330

Рис. 5.11. Если известны пространственный угол наклона i, образуемый вектором S с осью А, а также проекция этого угла на плоскость, то ориентация системы координат,

связанной с остью А, относительно наблюдателя существенно ограничена: а — ориентации, допустимые при угле наклона, равном 90, и том угле на соответствующем изображении фигурки из палочек, который обозначен жирными отрезками прямых; допуск по углу на изображении составляет 5° (горизонтальные оси графиков характеризуют углы отклонения оси А от плоскости изображения в направлении наблюдателя; вертикальные оси графиков характеризуют поворот системы координат относительно оси А); б — ориентации, совместимые со значением угла наклона t = 45° и видимым на изображении углом, образуемым осями туловища и шеи; в — пересечение двух наборов ориентации, определяющее малый диапазон ориентации, соответствующих углу отклонения от плоскости изображения около 67° (существует еще одно решение, не показанное на этом рисунке, при котором угол отклонения от плоскости изображения составляет около —67°). Второй и третий ряды графиков и изображений иллюстрирует результаты аналогичного анализа при углах отклонения от плоскости изображения, равных соответственно 45 и 0. Таким образом, двухмерную информацию, извлеченную из изображения, и значения углов, которые содержаться в трехмерных моделях, хранящихся в памяти, можно объединять, что иногда приводит к получению довольно точной информации о расположении в пространстве формы наблюдаемого объекта по отноше-•^-----                                      нию к наблюдателю [151]

5.6. ПСИХОЛОГИЧЕСКИЕ АСПЕКТЫ ПРЕДСТАВЛЕНИЯ ФОРМ ОБЪЕКТОВ ПРИ РАСПОЗНАВАНИИ

При изучении первоначального эскиза и процессов, обеспечивающих извлечение информации о свойствах поверхностей объектов из изображений, представляемых в таком виде, большим подспорьем для нас служили экспериментальные данные, которыми располагают нейрофизиология и психофизика, а также тщательный информационный анализ того, что в действительности можно получать на основе доступной информации. Наш подход в значительной мере основывается на принципе модульной конструкции [145], который утверждает, что всякий обшир ый процесс обработки информации должен расчленяться на ряд локальных, практически автономных и специализированных подпроцессов. В основу анализа были положены психофизические данные и повседневный опыт, указывавшие, какими могли бы быть соответствующие модули, причем главный тезис заключался в том, что при отсутствии модульной организации процессов обработки зрительной информации последовательное внесение изменений в их " конструкцию" (вероятно, принципиальное условие их эволюционного совершествования) не позволило бы добиться улучшения одних характеристик зрительного аппарата без одновременного ухудшения целого ряда других.

К сожалению, биологические науки в состоянии сообщить нам очень немного относительно проблем, возникающих в связи с указанными особенностями зрительных процессов. В сущности, ничего не известно о физиологических и анатомических структурах, обеспечивающих синтез трехмерных зрительных описаний наблюдаемого мира, причем даже наилучшая из имеющейся психологической информации носит по большей части анекдотический характер и добывается в основном в результате неврологических, а не психофизических исследований.

331

Я считаю, однако, очевидным, что мозг должен строить трехмерные представления объектов и пространства, ими занимаемого. Как заметил Садер-ленд [224], существуют по меньшей мере две основательные причины для того, чтобы это было именно так. Во-первых, чтобы живые организмы имели возможность манипулировать различными объектами и не налетать на них, они должны обладать способностью воспринимать и представлять расположение поверхностей объекта в пространстве. Отсюда следуют минимальные требования к представлению типа 2, 5-мерного эскиза. Во-вторых, чтобы распознать некоторый объект по его форме и оценить исходя из результатов распознавания его роль в последующем " действии", по изображению должна быть построена какая-либо разновидность трехмерного представления, которое затем каким-либо способом должно быть сопоставлено с хранящимся в памяти трехмерным представлением, причем последнему уже поставлена в соответствие и другая дополнительная информация. Как мы уже установили, процессы синтеза и сопоставления не поддаются строгому разделению, поскольку процесс синтеза некоторого трехмерного представления может естественным образом включать постоянное обращение за консультацией к каталогу, содержащему все более специфические формы объектов.

Эти обстоятельства вынуждают нас при изучении проблем указанного характера в значительной степени полагаться на тщательный анализ требований, предъявляемых к обработке и представлению информации. Говоря без обиняков, существенные ограничения определяются тем, для чего соответствующее представление предполагается использовать.

Итак, нас интересовали требования, которым должно отвечать представление формы объекта, чтобы его можно было использовать при распознавании, и мы пришли к трем основным выводам. Представление формы объекта, подходящее для распознавания, должно-: 1) использовать некоторую систему координат, привязанную к объекту; 2) включать объемные непроизводные элементы различных размеров; 3) иметь модульную организацию. Непосредственным следствием этих условии является представление, основанное на использовании естественных осей формы объекта (например, тех осей, которые определяются фигуркой, построенной из палочек). Кроме того, как мы убедились, основной процесс, обеспечивающий получение описания формы объекта в таком представлении, должен включать средства идентификации естественных осей формы объекта по его изображению и некоторый механизм, позволяющий преобразовывать описания, задаваемые в системе координат, привязанной к наблюдателю, в описания, заданные в системе координат, привязанной к объекту.

И наконец, мы установили, что собственно процесс распознавания представляет собой некоторую смесь процедур непосредственного получения информации о форме объекта из изображения и " развертывания" запоминаемых трехмерных моделей, степень детализации которых постепенно увеличивается в ходе процесса распознавания — вывода описаний. Таким образом, принципиальную роль в этом процессе играют совокупность запоминаемых описаний формы объектов и ряд индексов, заданных на этой совокупности и позволяющих устанавливать соответствие между некоторым новым (вьгое-332

Рис 5.12. Иллюстрация влияния выбора системы координат, привязанной к объекту, на восприятие формы. Черные фигуры могут восприниматься как ромбы или квадраты, в зависимости от того, какая из их нескольких естественных осей использована

денным) описанием и соответствующим описанием, хранящимся в памяти. Наиболее важный из этих индексов обеспечивает возможность распознавания формы объекта в процессе постепенного перехода от общего к специфическому, основанного на использовании специфики информации, извлекаемой из изображения.

Имеются два подхода, с помощью которых можно попытаться экспериментально проверить конструктивность этих идей применительно к процессам распознавания, реализующимся в зрительной системе человека. Можно попробовать выяснить, какого рода информация используется в явном виде в тех представлениях, которыми оперирует зрительный процесс, либо попробовать отыскать некий коррелят процессов распознавания, обеспечивающий вывод этих представлений и выполнение над ними соответствующих операций, действуя в духе исследования мысленного вращения, выполненного Шепардом. Первый подход обладает большей фундаментальностью. Используется ли трехмерное представление, имеет ли оно модульную организацию и привязано ли оно к объекту? Для того чтобы получить ответы на эти вопросы, еще предстоит выполнить соответствующие эксперименты, однако на трех наблюдениях стоит остановиться сейчас.

Во-первых, фигуры животных, построенные из палочек (типа приведенных на рис. 5.1), обычно легко распознаются, несмотря на ограниченность информации о форме, в них содержащейся. Хотя это и не доказывает, что в основе зрительного процесса, используемого человеком, лежат фигуры из палочек, отсюда на самом деле следует, что информация, содержащаяся в таких фигурах из палочек, играет в нем важную роль.

Во-вторых, иллюзии, подобные приведенной на рис. 5.12 (на нее впервые обратил внимание Эрнст Мах), свидетельствуют о том, что описания локальной информации о форме объекта привязываются к осям, задаваемым более глобально. В ряду, помещенном на рисунке справа, объекты выглядят как ромбы, а на диагонали (слева) они воспринимаются как квадраты. Следовательно, в процессе анализа этого образа строится диагональная ось; это оказывает влияние на описание форм локальных элементов и потому, возможно, последнему предшествует.

В-третьих, Уоррингтон и Тейлор [243] обратили внимание на затруднения, с которыми сталкивались их пациенты, имевшие поражения теменной доли правого полушария при интерпретации некоторых изображений самых обычных объектов, названных Уоррингтон и Тейлором необычными. Так, в частности, эти пациенты были не в состоянии распознать ведро по его виду сверху (см. рис. 5.9, в), причем они отрицали, что на рисунке изображено ведро,

333

даже тогда, когда им говорили, что оно там изображено. На способностях же воспринимать изображения типа приведенного на рис. 5.9, а эти нарушения практически не отражались. Как отмечают Уоррингтон и Тейлор, такое различие не поддается простому объяснению с помощью аргументов, связанных с тем, что изображенный предмет хорошо известен пациенту, или с тем, что восприятие глубины нарушается,, поскольку оба изображения ведра нормальны, а глубина столь же существенна для трехмерной структуры изображения, приведенного на рис. 5.9, а, как и для трехмерной структуры изображения, приведенного на рис. 5.9, в. Если, однако, внутреннее представление формы объекта, используемое при распознавании, основывается на естественных осях этой формы, то правильное описание второго изображения вызывает большие затруднения, так как в этом случае главная ось подвергается перспективному сокращению. Если это объяснение верно, то необычные изображения объектов по Уоррингтон и Тейлору — это изображения, на которых какая-либо из важных естественных осей формы объекта подвергается перспективному сокращению; в результате пациенту становится трудно найти или вывести описание формы изображенного объекта в канонической системе координат.


Поделиться:



Последнее изменение этой страницы: 2019-04-09; Просмотров: 55; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.019 с.)
Главная | Случайная страница | Обратная связь