ПРОСТРАНСТВЕННАЯ ОРГАНИЗАЦИЯ ИЗОБРАЖЕНИЯ

⇐ ПредыдущаяСтр 7 из 31Следующая ⇒

Сейчас мы перейдем к проблеме представления пространственных отношений. До сих пор нас вполне устраивало допущение о том, что каждый объект — каждое пересечение нулевого уровня и каждый элемент описания, входящий в необработанный первоначальный набросок, - характеризуется координатами, определяющими его положение на изображении. При переходе к обработке на вычислительной машине согласно этому допущению для представления позиционной информации использовалось двоичное отображение изображения. Это означает, что (как показано на рис. 2.21, а) при появлении любого 92

элемента описания в двухмерном массиве, размеры которого соответствуют размерам отображаемого изображения, определенному элементу приписывается значение " 1". Кроме того, такому элементу массива ставится в соответствие некоторый указатель, связывающий его с реальным описанием непроизводного элемента, имеющим вид, аналогичный приведенному в подписи к рис. 2.21. Как и многие, я обнаружил, что это довольно " механическое" представление изображения, напоминающее топографически структурированные проекции, которые используются на начальных участках зрительного пути, является наиболее подходящим для изучения геометрических отношений, действующих на изображении.

Дело в том, что набор пространственных отношений, которые необходимо выделить для получения полезной информации из изображения, весьма обширен. Кроме того, напомним о нашей общей установке, состоящей в том, что все эти пространствеиные отношения (плотность, коллинеарность, локальная параллельность и т. д.) неявным образом задаются позицией каждого объекта, точно так же, как двоичное представление числа 37 неявным образом содержится в его представлении в виде римского числа XXVII. Если, однако, становятся необходимы коэффициенты представления числа в двоичной форме, то, следовательно, их придется определять в явном виде, поскольку это даст возможность воспользоваться представлением числа 37 в виде 100101.

В качестве исходного представления изображения удобно использовать двоичное отображение, поскольку оно дает возможность сравнительно просто ограничить объем перебора, скажем, при построении необработанного первоначального эскиза, рассматривая только те элементы, которые представляют для нас интерес. Так, если нас интересует плотность распределения определенных элементов с некоторой ограниченной окружностью окрестности, то мы просто просматриваем эту окрестность на двоичном отображении изображения. Отыскивая коллинеарные конфигурации, мы выбираем некоторую пару и приступаем к поиску в двоичном отображении изображения по двум направлениям, примерно соответствующим искомой ориентации. Существенной особенностью двоичного отображения является то, что оно избавляет нас от необходимости просматривать весь список дискрипторов первоначального эскиза, проверяя значение каждой координаты, с тем чтобы установить, не попадает ли оно в заданную окрестность. Основным преимуществом эффективности использования буквалистского двоичного отображения изображения является то, что большая часть пространственных отношений, которые должны оцениваться на предварительном этапе обработки зрительной информации, имеют в основном локальный характер. В случае, когда мы сталкиваемся с произвольно разбросанными точечными конфигурациями, двоичное отображение, вероятно, оказывается не более эффективным, чем список.

Следствия, вытекающие из использования двоичного представления изо-, бражения, нетрудно оценить и применительно к уровню нервных клеток. Если некоторый нейрон должен измерять плотность распределения характерного объекта определенного типа в некоторой окрестности заданного размера,

то при условии существования какой-то топографической структурированности нейронов, представляющих характерные объекты, функции нейрона, определяющего плотность распределения, полностью исчерпываются подсчетом числа нейронов, представляющих характерные объекты заданного типа и находящихся в возбужденном состоянии. Аналогичным образом, если некоторый нейрон должен измерять степень локального возбуждения, соответствующего определенному направлению, то при условии существования какой-то топографической структурированности нейронного представления функции " нейрона, определяющего степень возбуждения по некоторому направлению", полностью исчерпываются подсчетом числа нейронов, настроенных примерно на заданное направление, находящихся в возбужденном состоянии и принадлежащих определенной (реальной) окрестности коры. Естественно, если эта реальная окрестность ограничена окружностью, то соответствующая окрестность, выделенная на изображении, будет представлять собой не круг в точности, но его хорошее приближение, чего обычно оказывается вполне достаточно.

Причина внимания к этому моменту состоит в том, что многие испытывают затруднения, пытаясь привязать понятие такой системы координат (х, у), которую можно использовать при составлении программы для вычислительной машины, к стилю рассуждения того типа, которым следует пользоваться, когда речь идет о нейронах. Я указывал ранее, что установление подобной связи не должно составлять проблемы, и, как я надеюсь, теперь понятно, что применительно по меньшей мере к некоторым аспектам локальных геометрических свойств изображения концепции, основанные на приближенном топографическом представлении и локальносвязанньгх рецептивных полях, могут обеспечить механизм, обладающий необходимой мощностью. Теперь перейдем к достаточно точному представлению конкретных локальных геометрических отношений.

Существенным является следующий вопрос: какие пространственные отношения важно выявить сейчас и почему? Ответ, естественно, зависит от цели, для достижения которой предполагается использовать соответствующее представление. Нашей целью является определение геометрических свойств изображенных поверхностей, причем можно пользоваться физическими допущениями, сформулированными в разд. 2.1, в сочетании с естественными для изображения последствиями изменения глубины и ориентации поверхностей. Это приводит к следующему перечню признаков изображения, определение которых должно способствовать решению задачи расшифровки геометрических свойств поверхности:

1. Средняя локальная яркость — р соответствии с первым физическим допущением (изменения средней яркости изображения могут вызываться изменениями освещения, возможно связанными с изменениями глубины, а также изменениями ориентации поверхности и ее коэффициентов отражения).

2. Средние размеры объектов, расположенных на некоторой поверхности и обладающих подобием в смысле второго и третьего физических допущений (термин " размеры" относится как к длине, так и к ширине).

3. Локальная плотность распределения объектов, определенных в связи со вторым признаком изображения.

4. Локальная ориентация (если она существует) объектов, определенных в связи со вторым признаком изображения.

5. Локальные расстояния, поставленные в соответствие пространственному размещению подобных объектов (третьей четвертое физические допущения), т. е. расстояния между соседними парами подобных объектов.

6. Локальная ориентация, поставленная в соответствие пространственному размещению подобных объектов (третье, четвертое и пятое физические допущения), т. е. направление прямой, соединяющей соседние пары подобных объектов.

С точки зрения представления изображения нам сейчас требуются следующие три общих понятия: 1) обобщенные признаки (характерные объекты изображения) представляют объекты (мы уже убедились в том, что первые являются одной из основ первоначального эскиза); 2) подобие характерных объектов изображения (с ним мы также уже встречались, см., например, рис. 2.3); 3) пространственная организация. Последнее понятие включает два аспекта. Первый, с которым мы уже сталкивались, связан с разнообразными характеристиками плотности распределения, для определения которых можно воспользоваться подсчетом числа объектов в соответствующих окрестностях. Отсюда вытекают отмеченные выше признаки 3 и 4. Признаки изображения 5 и 6 требуют, однако, привлечения некоторого нового понятия, некоторого нового непроизводного элемента представления, способного послужить основой для анализа локальных конфигураций характерных объектов изображения. В этом случае необходимо выделить информацию о расстоянии между двумя подобными характерными объектами изображения и их относительной ориентации. Для этого мы введем новый непроизводный элемент, названный допустимой прямой; она проводится между двумя соседними характерными объектами изображения и описывается двумя признаками — ориентацией и длиной. Этот непроизводный элемент также некоторым образом описывает способ установления подобия двух характерных элементов изображения, соединенных допустимой прямой; поэтому две допустимые прямые, соединяющие попарно характерные объекты изображения, считаются различными (в смысле нашего третьего физического допущения), если характерные объекты изображения, входящие в разные пары, не обладают подобием.

С точки зрения восприятия допустимые прямые не должны обязательно соответствовать субъективным контурам, хотя могут являться их предвестниками. В нашей теории это конструкции, которые появляются позже, чем допустимые прямые. Субъективные контуры появляются в 2, 5-мерном эскизе, роль которого, в частности, заключается в выявлении нарушений непрерывности в расстояниях, разделяющих наблюдателя и видимые поверхности Допустимые же прямые, в свою очередь, связаны с представлением организации изображений, а не поверхностей. Именно они обеспечивают нам возможность видеть движение на конфигурациях Гласса (см. рис. 2.3) и множество конкурирующих пространственных организаций на рис. 2.5.

Понятие допустимой прямой очень привлекательно с точки зрения информационного подхода, и Стивене [220] обратился к конфигурациям Гласса, с тем чтобы попытаться в процессе их изучения найти какие-нибудь психофизические доказательства существования таких прямых, а также разобраться в концепции характерных объектов изображения - гипотетических объектов, соединяемых, как предполагается, допустимыми прямыми. 96

Рис. 2.26. Алгоритм Стивенса [220], предназначенный для определения структуры локальных ориентации в конфигурации Гласса, включает три основных шага. Входной информацией для алгоритма служат введенные на изображении локально-характерные объекты, каждый из которых обрабатывается алгоритмом Стивенса параллельно. Поскольку в случае точечных конфигураций Гласса каждая точка порождает локально-характерный объект изображения, первый шаг алгоритма посвящается построению допустимых прямых, связывающих некоторую заданную точку со всеми соседними точками (лежащими в пределах некоторой окрестности с центром в заданной точке). Всякая допустимая прямая представляет местоположение и ориентацию некоторой пары соседних точек, а также расстояние между ними. Для того чтобы подчеркнуть приоритет более близких соседних точек, с помощью какой-либо простой весовой функции более коротким допустимым прямым приписываются большие веса. Второй шаг алгоритма предусматривает построение гистограммы оприентаций допустимых прямых, проведенных из всех соседних точек. Так, в частности, соседняя точка D вносит в гистограмму ориентацию допустимых прямых AD, DF, DG и DH. На последнем шаге (он осуществляется после сглаживания гистограммы) определяется ориентация, которой соответствует пик гистограммы, и выбирается допустимая прямая, ориентация которой оказывается наиболее близкой к " ориентации" пика гистограммы (АВ); этот выбор и является результатом работы алгоритма (а). На рисунках, помещенных справа, приведены результаты приме--ч— нения алгоритма к конфигурациям, помещенным слева {б)

Исследование, выполненное Стивенсом, оказалось исключительно интересным, поскольку в рамках одной небольшой экспериментальной работы ему удалось получить семь замечательных результатов. Среди них несколько совершенно неожиданных:

1. Организацию локальных ориентации в конфигурации Гласса можно выявить с помощью сугубо локального алгоритма, проиллюстрированного рис. 2.26. Его основная идея заключается в том, что соседние точки соединяются допустимыми прямыми, после чего с целью выявления преобладающей организации на последних начинается локальный поиск. Разделив конфигурации на несколько частей, каждая из которых подвергалась отличному от других преобразованию (рис. 2.27), Стивене показал, что восприятие целостного гештальта, в отличие от предположения Гласса [62], не является необходимым условием определения локальной ориентации.

2. Если анализ, выполняемый нами в процессе восприятия, зависит, подобно алгоритму Стивенса, от оценки распределения ориентации допустимых прямых, соединяющих между собой точки соответствующей конфигурации, то допустимые прямые строятся лишь между соседними точками. Происходит это по двум причинам. Первая из них, и более очевидная, заключается в том, что преобладающая локальная ориентация изменяется при глобальном просмотре изображения. Вторая, и не столь очевидная, причина состоит в том, что чем больше допустимых прямых проводится из каждой точки, тем более случайным становится локальное распределение ориентации и, следовательно, тем точнее необходимо определять участки гистограммы распределения локальных ориентации, которые используются для выделения преобладающей локальной ориентации. Если последняя определяется с точностью до 10—15°, то из каждой точки в среднем можно проводить не более четырех допустимых прямых. Стивене установил, кроме того, что требуется проводить более одной допустимой прямой, а в частном сообщении указал, что достаточно проводить лишь по две допустимые прямые из каждой точки.

3. Эта закономерность сохраняет линейность в диапазоне значений плотностей, соответствующих их изменению на два порядка.

4. Примеры типа приведенного на рис. 2.28 свидетельствуют в пользу концепции, согласно которой допустимые прямые связывают абстрактные характерные объекты

Рис. 2.27. Согласно данной конфигурации алгоритм, используемый зрительной системой человека для выявления структуры локальных ориентации, также имеет локальный характер. Отдельные части этой конфигурации обладают различными структурами локальных ориентации, что отчетливо видно на изображении (220J

Рис. 2.28. Как следует из рис. 2.3, для того, чтобы простанственная организация проявлялась при наложении двух конфигураций, совершенно не обязательна тождественность характерных объектов, образующих конфигурации. Тем не менее эти объекты должны обладать определенным подобием [2201

изображения, вводимые различными способами. На этом рисунке одно из точечных множеств заменено малыми прямыми, ориентация которых задана случайным образом.

5. Однако, для того чтобы анализ увенчался успехом, характерные объекты изображения действительно должны в разумной степени обладать сходством — на нашем языке таким, чтобы можно было проводить допустимые прямые (см. рис. 2.3, (64]). В собственном примере Стивенса, иллюстрирующем это и описанном в разд. 2.1, рассматривается наложение трех точечных конфигураций - двух, образованных тусклыми точками, и одной — яркими. На изображении мы видим лишь организацию, представляемую тусклыми точками. Это свидетельствует как в пользу принципа использования характерных объектов изображения, так и в пользу концепции подобия и служит доказательством того, что даже на столь ранней стадии (для того чтобы " увидеть" конфигурацию Гласса, требуется менее 80 мс, даже при предъявлении случайных точечных конфигураций непосредственно до и после опознания конфигурации) анализ изображения осуществляется на достаточно формализованном уровне.

6. Интересно отметить, что при замене коротких отрезков со случайной ориентацией, представленных на рис 2.28, короткими отрезками с некоторой одинаковой ориентацией (как это имеет место на рис. 2.29) возникает конкуренция между ориентациями, определяемыми в целом короткими отрезками и структурой конфигурации Гласса, -на нашем языке между ориентациями реально существующих и допустимых прямых. Это обстоятельство отражает степень использования и уровень организации глобального анализа изображения.

7. И наконец, Стивене показал, что в нашем восприятии таких конфигураций гистерезис проявляется лишь в небольшой степени либо вообще не проявляется. Момент, когда пространственная организация перестает восприниматься из-за разделения конфигураций, очень близок к моменту, когда восприятие пространственной организации восстанавливается благодаря совмещению конфигураций. Этот результат показался нам странным, а причиной этого послужил тот факт, что Фендер и Джулес продемонстриро-

Рис. 2.29. В данном случае наложенная конфигурация образована короткими отрезками, имеющими одну и ту же ориентацию. Интересно отметить, что видна своего рода конкуренция этой ориентации и ориентации, порожденной пространственной организацией конфигурации [220]

вали наличие сильного гистерезиса в стереопсисе [47]. Последнее привело Поджо и меня к идее применения кооперативного алгоритма для решения задачи установления соответствия между изображениями стереопары. Тогда и возникла идея использовать кооперативные процессы в качестве способа записи алгоритма непосредственно по ограничениям (см. также отчет Цакера [2б1 ]>. Она казалась очень привлекательной. Задача, связанная с конфигурациями Гласса, казалась бы, прекрасно подходила для применения кооперативного подхода, в основу которого положены условия единственности и непрерывности локальной ориентации. Ив результатов же Сгивенса следовало, однако, что в системе зрительного восприятия человека для решения этой задачи кооперативный подход, очевидно, не используется. Очень быстро мы тоже поняли, что наш алгоритм синтеза стереопары не является тем алгоритмом, который используется в зрительной системе человека, а установление соответствия между изображениями стереопары, вероятно, обеспечивается с помощью некоторого алгоритма, использующего кооперацию в очень незначительной степени. Таким образом, постепенно сформировалась точка зрения, согласно которой в зрительной системе человека кооперативные или строго итеративные алгоритмы не применяются, если этого можно избежать. Ниже мы рассмотрим несколько возможных причин.

Работа Стивенса позволила нам почувствовать себя несколько увереннее как в связи с теми вопросами, которые у нас возникли, так и в связи с некоторыми деталями, относящимися к первоначальному эскизу. Примерно в это же время Шац [210] выступил с утверждением, что для объяснения процесса различения текстур вполне достаточно необработанного первоначального эскиза и допустимых прямых. Это утверждение, однако, оказалось неверным, и для того чтобы понять, почему необходимо обратиться к уровням, на которых представление изображения имеет более сложный характер; мы называем его полным первоначальным эскизом.

2.4. ИСТОЧНИКИ СВЕТА И ПРОЗРАЧНОСТЬ

Хотя главная нить нашего изложения связана с пространственной организацией изображения и видимых поверхностей, важно не упускать из вида, что человек воспринимает также и другие существенные физические свойства видимого мира. Одно из них имеет отношение к обнаружению источников света— флуоресценции.

Важным вкладом в изучение обнаружения зрительной системой источников света явилась чрезвычайно элегантная работа Уллмана [234]. Он рассмотрел шесть методов, которые могли бы использоваться в зрительной системе при обнаружении источников

Рис. 2.30. Мондрианов раздражитель типа предложенного Ландом и Макканном и использованного Уллманом при изучении флуоресценции

света, и исследовал их экспериментально с помощью ахроматических мондриановых раздражителей типа предложенного Ландом и Макканном [129] для изучения освещенности. Это раздражители, название которых связано с именем художника Пита Мондриа-на¹, представляют собой некоторую совокупность черных, серых и белых прямоугольников (типа приведенной на рис. 2.30). В экспериментах Уллмана один из этих прямоугольников иногда служил источником света.

Уллман рассмотрел методы обнаружения источника света на основе максимальной яркости в некотором поле, высоких абсолютных значений яркости, высоких значений яркости по сравнению со средней яркостью поля, высокой контрастности и некоторых

¹ Мондриан Пит (1872-1944), нидерландский живописец, один из основателей группы " Стиль", создатель неопластицизма — абстрактных композиций из прямоугольных фигур, окрашенных в основные цвета спектра. - Прим. перев.

100

Рис. 2.31. Иллюстрация принципа, лежащего в основе обнаружения источников света зрительной системой. Коэффициенты отражения участков поверхности А и В равны г , и г J соответственно; им соответствуют определенные значения яркости/. Яркость /и ее градиент V/изменяются одинаково при переходе с участка А на участок В, так что в результате отношение 7///остается постоянным. На участке С, однако, появляется источник света 5. Это вызывает изменение яркости / и не вызывает изменения VI, как показано на графике. Таким образом, значение отношения V/// изменяется на границе источника. Это обстоятельство может использоваться для обнаружения источников света

на мондриановых изображениях

других параметров. Он обнаружил, что ни один из этих факторов не является необходимым условием для восприятия некоторого источника света, хотя коэффициент контрастности, составляющий около 30: 1, действительно является достаточным. Высокая контрастность, однако, не является необходимой - так, в частности, источник света воспринимается в мондриановом раздражителе, у которого ни в одной точке отношение значений яркости не превышает 3: 1.

После этого Уллман предложил метод, основанный на идее, проиллюстрированной рис. 2.31. На этом рисунке ось х соответствует длине некоторой поверхности, освещаемой справа и состоящей из трех участков: А, В и С. На участке А коэффициент отражения поверхности равен г _t, а на участках В и С г_г < г ₁; на участке С, кроме того, под поверхностью находится источник света. На поверхность направлена камера, регистрирующая яркость/ в различных точках изображения (см. рис. 2.31).

В основе метода Уллмана лежит следующая идея. На границе участков А и В яркость /изменяется, и, помимо этого, изменяется градиент яркости V/. Однако, поскольку изменения этих величин одинаковы, отношение V /// остается постоянным. Другая ситуация наблюдается на границе участков В и С: здесь к яркости /добавляется яркость S постоянного источника света. В результате / изменяется, а градиент яркости не изменяется. Отсюда изменяется и отношение 7///. Итак, отношение V/// изменяется при пересечении границы источника света, но не изменяется при пересечении границы, на которой коэффициент отражения поверхности варьируется.

101

Другое эффекты, связанные с источниками света

Форбас [48] предложил применять оператор V///H в других ситуациях, связанных с освещением (в том числе для обнаружения теней и различных эффектов, порождаемых влажностью, блеском и глянцевитостью поверхности) и столь сильно озадачивших Бека {15] и Эванса [45]. Так, в отношении оператора V/// границы тени оказываются аналогичными границам источника света. К тому же они часто, хотя и не всегда, являются менее четкими, чем границы поверхности или границы, на которых происходит изменение коэффициента отражения поверхности, поскольку на тенях яркость редко изменяется резко. Это можно установить, сравнив углы, под которыми происходят соответствующие пересечения нулевого уровня, определенные с помощью У²С-фильтров с рецептивными полями разных размеров, и характеристика пространственной протяженно». iH изменения яркости фактически будет входить в необработанный первоначальный эскиз как параметр ширины, связанный с яркостным переходом.

Глянцевитость порождается составляющей функции отражательной способности, обусловленной зеркально отраженным светом, поэтому обнаружение глянца можно рассматривать, в сущности, как обнаружение источников света, возникающих при отражении от некоторой поверхности [15 ], а такое обнаружение в конечном счете определяется способностью обнаруживать источники света. Форбас выделил три случая: 1) отражатель^ ная способность слишком мала, что исключает возможность измерения градиентов; 2) возможны измерения как яркости, так и ее градиента, однако отражательная способность имеет локальный характер (как и для криволинейных поверхностей и точечных источников); 3) поверхность - плоская, а источник света — протяженный. Для каждого из этих случаев Форбас предложил критерии принятия решения.

Такая проблема, как обнаружение теней и собственно источников света, заслуживает дальнейшего изучения. Дело в том, что изменения только ориентации поверхности могут тоже вызвать изменение отношения V ///, хотя для того, чтобы оно стало заметным, ориентация, как правило, должна изменяться существенно. Это означает, что отношение V ///нельзя использовать в качестве единственного критерия принятия решения относительно эффектов, порождаемых освещением, совершенно не учитывая изменений ориентации поверхностей. Предварительные исследования позволили нам установить, что, хотя в естественных изображениях и удается обнаруживать и измерять изменения отношения V///, вызванные исключительно изменениями ориентации поверхности, в основном подобные изменения малы. Если же синтезируется искусственное изображение, на котором отношение V/// немного меняется при пересечении некоторой границы, это изменение не воспринимается как результат изменения ориентации. В сущности, человек не замечает ничего до тех пор, пока изменение не становится достаточно значительным, а после этого он начинает воспринимать одну из областей как некоторый источник света.

Прозрачность

Еще одним интересным явлением оказалась прозрачность, к которой многие проявляют заметное внимание. Примером, в частности, служит статья Мителли в журнале Scientific American¹ [166], в которой он показал, что человек может воспринимать прозрачность при выполнении некоторого набора неравенств, связывающих значения яркостей изображения.

Как и следовало ожидать, неравенства Мителли можно записать исходя из физических соображений. Пусть коэффициент отражения некоторой поверхности изменяется от

¹ Этот журнал в переводе на русский язык выходит с 1983 года под названием " В мире науки". - Прим. перев.

102

Рис. 2.32.а-граница, на которой происходит изменение значения коэффициента отражения поверхности, и /3-граница, на которой происходит изменение прозрачности; /^ - значения коэффициентов отражения; Lj - значения освещенности; /_г-.- - измеренные значения яркости (для /, / = 1, 2)

г, до г ₂ при переходе через некоторую границу (на всем ее протяжении) и на поверхность наложена полоса, как это показано на рис. 2.32. Освещенность при отсутствии полосы равна i, и соответственно L _t - при ее наложении (после двукратного ослабления). Очевидно, что если яркость в каждом квадрате составляет, как это показано на рисунке, г_п, i_l ₂, i ₂₁ и i ₂₂ соответственно, то можно записать следующие соотношения:

'21 '22 ' 2

М2 '22 ^2

Эти соотношения, связывающие значения яркости, справедливы как для границ прозрачности, так и для границ тени, они не выполняются при произвольном изменении коэффициента отражения в четырех направлениях. Однако в отличие от границ тени границы, на которых изменяется прозрачность, почти всегда являются четкими (их " ширина" равна нулю) и они не порождают изменений отношения V ///

Выводы

Результаты упоминавшихся выше исследований хотя и неполны, но позволяют прийти к заключению о том, что даже столь сложные для достижения свойства реального мира, как флуоресценция и прозрачность, поддаются вос-

103

приятию благодаря соответствующим процессам, действующим независимо на нижнем уровне зрения человека. Применительно к представлению изображений это означает, что можно рассчитывать на использование этих оптических эффектов при предварительной обработке изображений в зрительной системе, например, так, как это делалось в случае границ, включаемых в первоначальный эскиз. Для их представления требуются дополнительные непроизводные элементы, однако в этой связи существенных затруднений не возникает. Было бы интересно выяснить, какие еще свойства видимого мира поддаются обнаружению на таких предварительных этапах обработки изображений.

2.5. ПРОЦЕССЫ КЛАССИФИКАЦИИ И ПОЛНЫЙ ПЕРВОНАЧАЛЬНЫЙ ЭСКИЗ

Подведем итоги проведенного выше анализа пространственной организации изображений. Выделим две основные цели этого анализа: 1) построение характерных объектов изображения, отражающих крупномасштабную структуру функции отражательной способности поверхности; 2) обнаружение различных типов изменений значений измеряемых параметров, связанных с указанными выше характерными объектами изображения и полезных с точки зрения выявления изменений ориентации видимых поверхностей относительно наблюдателя и изменений расстояний, их разделяющих. Грубо говоря, цели анализа заключаются в построении характерных объектов изображения и установлении границ. Решение обеих задач требует обращения к процессам отбора, обеспечивающим реализацию запрета на объединение характерных объектов изображения, очень сильно различающихся между собой, а также к процессам классификации и различения, обеспечивающим объединение приблизительно одинаковых характерных объектов изображения в укрупненные характерные объекты изображения и установление границ между множествами характерных объектов изображения, имеющих какие-либо различия.

Следовательно, этот подход, вообще говоря, сводится к практически рекурсивному построению непроизводных элементов описания изображения. Исходные данные, которые являются отправной точкой для всей дальнейшей обработки и анализа, представляют собой описание, составленное из непроизводных элементов, выделенных на изображении. Это описание мы называем необработанным первоначальным эскизом. Вначале из него выбираются элементы, обладающие некоторым подобием. Далее они подвергаются группировке и классификации, в результате чего из них строятся прямые, кривые, пятна больших, чем исходные элементы, размеров, группы и небольшие участки, причем возможности формирования новых объектов определяются внутренней структурой изображения. Многократное повторение этой процедуры приводит к получению на каждом масштабном уровне характерных объектов и непроизводных элементов изображения, отражающих пространственную структуру изображения, присущую соответствующему масштабному уровню. Так, если изображение представляет собой крупный план кота, то необработанный первоначальный эскиз может служить источником описаний, относящихся в основном к масштабному уровню, соответствующему отдельным волоскам кошачьей шубки. На следующем уровне могут появиться от-

104

метины, имеющиеся на этой шубке (они также поддаются непосредственному обнаружению при анализе изменений яркости), а на очередном (по направлению " вверх" ) уровне проявляется структура этих отметин на шубке, образованная параллельными полосками. В таком случае в целом организация описания будет примерно соответствовать представлению, приведенному на рис. 2.7. Непроизводные элементы, используемые на каждом шаге, — это символьные объекты, обладающие качественным подобием (яркостные переходы, полосы, пятна, обрывы и нарушения непрерывности), однако на каждом очередном шаге они отражают все большую степень формализации признаков изображения.

Несколько примеров подобных непроизводных элементов приведено на рис. 2.7. Другими примерами служат напоминающие пятна группы, расположенные в середине изображений (рис. 2.33, а и б), небольшие кластеры (рис. 2.33, виг), набор довольно однородных объектов, образующих на изображении группы (рис. 2.33, д), стороны квадратов (рис. 2.33, е и ж) и прямая, проходящая по середине изображения (рис. 2.33, з). Разнообразные локальные кластеры, пятна, группы, а также возможность рассматривать каждый из них как некий единый объект — вот плоды, приносимые обращением к процессам указанного класса, обеспечивающим формирование характерных объектов изображения. Представления углов, рбразуемых двумя прямыми в трехмерном пространстве, как и квадрата или треугольника, не входят в арсенал первоначального эскиза, поскольку они отражают свойства реального мира, порождающего изображение, но не свойства собственно изображения.

После того как эти непроизводные элементы построены, их можно использовать для получения информации о геометрических свойствах видимых поверхностей либо с помощью обнаружения изменений отражательной способности поверхностей, либо с помощью обнаружения изменений, причиной которых могли бы явиться нарушения непрерывности ориентации поверхностей или глубины. Нам практически нечего сказать относительно обнаружения изменения первого типа — можно лишь заметить, что при возникновении какого-либо изменения на поверхности ее функция отражения обычно изменяется очень существенно, и измерение чуть ли не любой характеристики позволит обнаружить изменение. Поэтому сосредоточим внимание на обнаружении изменений второго типа. Известны два совершенно различных способа, позволяющие выделить такие границы. Первый предусматривает определение наборов характерных элементов изображения, отражающих возникновение физических нарушений непрерывности, в связи с чем геометрическая организация характерных объектов соответствует физическим особенностям этих нарушений непрерывности. Примером возникновения подобной геометрической организации может служить пространственное упорядочение концов (нарушений непрерывности), проиллюстрированное рис. 2.25, а и б. Механизм, обеспечивающий выделение таких геометрических структур, как я полагаю, позволяет нам также видеть и окружности на рис. 2.33, а—г и прямую на рис. 2.33, д.

Второй способ выделения нарушений непрерывности поверхности предус-

105

Рис. 2.33. Сущность обобщенных непроизводных элементов первоначального эскиза заключается в том, что они обеспечивают возможность представлять весьма разнообразные объекты изображения в качестве некоторой группы или характерного объекта изображения, а также в том, что их можно объединять в группы и из них можно формировать границы. На рисунке приведены примеры, иллюстрирующие различные способы задания локально-характерных объектов и объединения их в группы. В каждом из приводимых примеров короткая прямая, некоторая группа прямых, а также некоторая группа точек после объединения в группу рассматриваются как некоторый единый

объект

матривает анализ нарушений непрерывности значений различных параметров, описывающих пространственную структуру изображения. В предпоследнем разделе мы выделили шесть признаков изображения, которые могут оказаться полезными. Три из них — средняя яркость, размеры (в качестве них могут использоваться длина и ширина) и ориентация — связаны со свойствами характерного объекта изображения, другие три — их локальная плотность, расстояние между ними и структура ориентации (если таковая имеется), присущая их пространственному расположению, — с пространственным расположением характерных объектов изображения. Изменение значения любого из указанных признаков может быть нами использовано для определения гео-

106

Рис. 2.34. Еще одной важной особенностью первоначального эскиза являются границы между областями, проводимые на основе данных, которые могут отражать возникновение нарушений непрерывности ориентации поверхностей, или на основе расстояния, отделяющего их от наблюдателя. Все примеры, приведенные на данном рисунке, предложены М. Райли. Здесь представлены источники психофизического порождения границ в указанном в тексте смысле. Границы, представленные на рис. 2.34, а-в, могут возникать из-за действия геометрических факторов, однако дело обстоит иначе в случае границы, приведенной на рис. 2.34, г. Между границами, показанными на рис. 2.34, дне, можно установить соответствие с точностью до переноса

метрических свойств видимых поверхностей, и в соответствии с нашим вторым физическим допущением следует стараться измерять подобные изменения на различных масштабных уровнях.

Примеры таких критериев приведены на рис. 2.34. На рис. 2.34, а изображена граница, возникшая из-за изменения плотности расположения точек. На рис. 2.34, б граница порождена изменением среднего размера квадратов. На рис. 2.34, в граница появилась вследствие изменения ориентации на 45°. Результаты одновременного изменения нескольких факторов представлены на рис. 2.34, г.

Таким образом, суть второго способа состоит в измерении локальных значений (на различных масштабных уровнях) шести определенных выше величин и выделении с помощью некоторого набора непроизводных элементов границы или непроизводных элементов яркостного перехода нарушений непрерывности значений измерявшихся признаков. Смысл ввода таких границ в представление изображения заключается в том, что они могут послужить источником существенных данных относительно расположения наруше-

107

Рис 2 35 На этих рисунках, предложенных М Райли, представлены текстурные различия, которые не могут быть порождены исключительно геометрическими факторами Они не могут являться источником психофизического порождения границ в указанном в тексте смысле, несмотря на то, что иногда мы в состоянии указать на то, что одна область некоторым образом отличается от другой В примере, приведенном на рис 2 35, г, внутренняя область содержит прямые, ориентированные только в двух направлениях, в то время как внешняя область заполнена прямыми с различными ориентациями Интересно сопоставить эти примеры с примерами, приведенными на рис 2 34

ний непрерывности поверхности. Это замечание имеет одно важное следствие, а именно параметр, значение которого изменяется таким образом, что вероятность возникновения этих изменений в результате нарушений непрерывности поверхности кажется высокой, очевидно, отражает изменения, порождающие наблюдаемую границу, с другой стороны, те изменения, которые можно лишь с весьма малой вероятностью связать с геометрическими факторами, вряд ли соответствуют тем источникам, которые могли бы породить воспринимаемые границы. Я называю это положение гипотезой геометрического происхождения воспринимаемых границ на текстурных изображениях Принципиальным ограничением ее конструктивности служит то, что функции отражения редко имеют четкую геометрическую структуру Так, если ориентация некоторого элемента соответствует структуре поверхности, то обычно это соответствие не является особенно точным Следовательно, небольшие изменения ориентации на изображении, которые могут появиться в результате небольших изменений ориентации поверхности, обычно не порождают

108

четкого сигнала. То же самое относится и к изменениям размеров объектов на изображении, хотя плотность расположения обеспечивает более тонкое различение Итак, лишь в тех случаях, когда структура изображения отличается чрезвычайно высокой степенью регулярности, можно рассчитывать на высокую остроту восприятия этих различий. Вообще говоря, мы должны воспринимать их достаточно плохо, что на самом деле и происходит (рис 2.35). Прежде чем подвести итоги, я бы хотел сделать еще одно заключительное замечание Хотя и удобно разделить процессы группировки на два класса — формирование характерных объектов изображения и формирование границ соответственно, - эти процессы на самом деле не столь уж независимы и классы могут пересекаться Так, на рис 2 7, например, часть границ сгущений точек является границами характерных объектов изображения. Последние могут быть сформированы с помощью таких границ либо на основе кластера, содержащего соответствующую группу точек, либо обоими способами. Треугольник, изображенный на рис. 2 34, а, можно формировать, выстраивая в линию соседние точки и ориентируясь при этом по локальному росту плотности расположения точек или даже по локальному уменьшению средней яркости Отдельная граница часто определяется многими способами — свойство живых организмов способствует ее обнаружению зрительной системой, но порождает трудности для специалистов в области экспериментальной психофизики.

Основные тезисы доказательства

Идея состоит в том, что строится необработанный первоначальный эскиз, который рассматривается как исходное представление изображения Затем после применения к нему процессов выбора, группировки и классификации формируются характерные объекты изображения, допустимые прямые и границы, причем все это делается на различных масштабных уровнях Изложенный нами подход служит основанием для использования такой процедуры. Он позволяет установить, какие типы характерных объектов изображения следует ввести, какие разновидности процедур выбора и группировки следует использовать, какие условия должны приводить к порождению воспринимаемых границ и какие не должны и даже, возможно, каким образом следует сопоставлять различия в остроте восприятия, соответствующие разным разделяющим признакам Так, в тех случаях, когда размер характерного объекта изображения рассматривается как разделительный признак, отражающий изменения ориентации поверхности, разрешение по размеру характерного объекта изображения должно быть сопоставимо с разрешением по ориентации характерного объекта изображения Эти соображения составляют физическую основу допущения, согласно которому некоторые процедуры распознавания зрительной системой текстур базируются на процессах распознавания, разделяющих статистические характеристики первого порядка и реализуемых на первоначальном эскизе [145] Перейдем к более подробному обсуждению этой проблемы

109

⇐ Предыдущая 2 3 4 5 678 9 10 11 Следующая ⇒

Последнее изменение этой страницы: 2019-04-09; Просмотров: 107; Нарушение авторского права страницы