![]() |
Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
НЕПОСРЕДСТВЕННОЕ ПРЕДСТАВЛЕНИЕ ВИДИМЫХ ПОВЕРХНОСТЕЙ
ВВЕДЕНИЕ В данной главе мы будем обсуждать проблемы и задачи, возникающие в связи с идеей 2, 5-мерного эскиза, с которым мы уже встречались в разд. 3.3. Основной тезис прост: 2, 5-мерный эскиз обеспечивает представление видимых поверхностей в координатах наблюдателя, позволяющее воспроизвести и объединить результаты всех процессов, описанных в гл. 3. Построение 2, 5-мерного эскиза — это краеугольный камень нашей теории, последний этап перед интерпретацией информации, характеризующей поверхность, и, быть может, завершение процесса чистого восприятия. Возможно, читателя не удивит тезис о возможности существования подобного представления, как и то, что его построение может рассматриваться в качестве цели предварительной обработки изображений в зрительной системе, особенно если учесть, что данная книга укладывается в рамки точно определенной концепции. Вначале мы не располагали этой концептуальной схемой и, пытаясь найти путь к пониманию того, что представляет собой зрение, были смущены, столкнувшись с трудностями чуть ли не философского плана. Они возникли в связи с попытками определить, для чего предназначено восприятие. Читатель, который не сочтет за труд внимательно посмотреть работу [145], обнаружит, что в ней в явном виде не указывается, для чего предназначен первоначальный эскиз. Он обнаружит, что первоначальный эскиз более или менее определен, имеет обоснование достаточно общего характера и тесно привязан к реальностям физического мира. Идея же о том, что целью, ради которой в зрительной системе выполняется предварительная обработка информации, является получение в явном виде информации относительно видимых поверхностей, проводится в этой работе лишь неявно. В то время, в сущности, машинное зрение пребывало в беспорядочном состоянии, поскольку (за исключением работы Хорна [91]) идея о том, что главным в зрении является определение форм объектов, еще всерьез не рассматривалась. И хотя специалисты по психологии восприятия, подобно Гиб-сону, сознавали важность поверхностей, идея о некотором внутреннем представлении, вырабатываемом в результате реализации каких-то специальных процессов, была чужда их мышлению. Оглядываясь назад, мы видим, что в наших взглядах и в характере вопросов, которыми мы задавались, царила изрядная путаница: нас интересовали проблемы, связанные с распознаванием по признакам, со способами выделения фигуры из фона, способами выделения и интерпретации " формы" или " фигуры", с возможностями управляемого данными или восходящего анализа и необходимостью использования нисходящих процедур. Кроме того, мы не располагали какой-либо единой структурой, которая давала бы нам возможность посмотреть, каким образом такие процессы, как стереопсис, затенение или восприятие движения, могут сочетаться друг с другом, а также с другими свойствами зрения, порождая феномен, который мы называем способностью видеть. 274 Мышление такого типа было драматически " сметено" идеей 2, 5-мерного эскиза, которая одновременно разрешила и эти, и многие другие проблемы. Она указала нам, в чем состоят цели предварительной обработки изображений в зрительной системе, и связала их с понятием внутреннего представления объективной физической реальности внешнего мира, получение которого предшествует разбиению сцены на объекты и другим обременительным процедурам, связанным с распознаванием объекта. В то же время эта идея обозначила пределы того феномена, который можно было бы назвать чистым восприятием — восстановление информации о поверхности исключительно с помощью управляемых данными процессов и при отсутствии необходимости в использовании конкретных гипотез о природе, назначении или функциях наблюдаемых объектов. И наконец, она явилась основой для получения общей постановки всей проблемы зрения в целом — концептуальной схемы, объяснению которой посвящена данная книга, позволившей за прошедшее с тех пор время придать нашему исследованию рациональную структуру, отражающую принятую нами стратегию исследования. По всем перечисленным причинам появление осенью 1976 года идеи 2, 5-мерного эскиза, впервые высказанной в статье Марра и Нисихары [151, рис. 2] и развитой более подробно несколько позже [148, разд. 3], стало для меня наиболее вдохновляющим событием за все исследование. Его первым непосредственным следствием стала теория стереозрения [155], которая была создана в течение первой половины 1977 года. Годом позже началось построение с новых позиций теории предварительной обработки изображений в зрительной системе, и, конечно же, именно 2, 5-мерный хкиз в конце концов привел нас к той общей концептуальной схеме, которой мы теперь располагаем [148]. 4.2. СЕГМЕНТАЦИЯ ИЗОБРАЖЕНИЯ Вероятно, для того чтобы познакомить читателя с проблемой 2, 5-мерного эскиза в целом, лучше всего описать тот тупик, ради преодоления которого он был предложен. Господствовавшее среди нейрофизиологов и психологов убеждение, что проблема фигуры и фона является для зрения одной из фундаментальных, нашло отражение в попытках специалистов в области машинного зрения реализовать некоторый процесс, называемый сегментацией. Смысл этого процесса в очень значительной степени близок идее выделения фигуры из фона, состоящей в разбиении изображения на области, выбор которых определяется либо некоторой конкретной целью (в случае машинного зрения ею может оказаться, например, сборка водяного насоса), либо соответствием этих областей реальным объектам или их частям. Несмотря на значительные усилия, затрачиваемые в течение длительного периода на решение этой проблемы, теория и практические приложения сегментации продолжали оставаться на примитивном уровне по следующим двум причинам. Во-первых, было почти невозможно сформулировать на языке изображений или даже реального физического мира, в чем точно состоят цели сегментации. Что такое, например, объект и что именно придает ему ту специфику, которая заставляет выделять его в качестве некоторой области 275 на изображении? Является ли объектом нос? Является ли объектом голова? Остается ли голова объектом, если она соединена с туловищем? А как обстоит дело с человеком, сидящим верхом на лошади? Эти вопросы свидетельствуют о том, что сложности, возникающие при попытках сформулировать, что именно следует на изображении выделять в виде некоторой области, разрастаются до уровня чуть ли н-е философской проблемы. На самом деле, ответов на такие вопросы не существует: все перечисленное может являться объектами, если Вы предпочитаете считать их таковыми, либо они могут служить некоторыми частями каких-то более крупных объектов (точный анализ этого факта проводится в гл. 5). Более того, даже если в каком-то конкретном случае ответы на такие вопросы были бы получены, это не очень помогло бы нам в других случаях. Довольно быстро обнаружилось, что, поскольку структура изображений чрезвычайно сложна, обычно оказывалось практически невозможно выделять искомую область, используя лишь критерии кластеризации, основанные на локальном сходстве или других чисто визуальных признаках и применяемые к яркостям изображения или каким-либо его представлениям типа необработанного первоначального эскиза. Области, обладающие " семантической" важностью, не всегда имеют какое-то определенное визуальное отличие. Большинство изображений чрезвычайно сложны, но даже простейшие и очень небольшие изображения, (как, например, изображение, на котором нет ничего, кроме двух листьев [145, рис. 13]) часто имеют матрицы яркостей, содержащие недостаточно информации для того, чтобы стало возможным разбиение изображения на отдельные объекты. Сегментация, несмотря на отсутствие сколь бы то ни было точной формулировки, определяющей ее содержание, продолжала оставаться предметом исследований, в которых использовались все более и более сложные методы. Достаточно долго считалось, что зрительное восприятие аналогично решению задач1 и потому, следовательно, должно быть связано с проверкой и коррекцией гипотез о наблюдаемом объекте. Эта точка зрения получила широкое распространение среди специалистов в области машинного зрения (см., например, [168]), и аналогичное положение было принято в психологии зрения (о чем свидетельствует монография [70]). Решающим отличием этого подхода от подхода, основанного на использовании ограничений (как это описывалось в гл. 2 и 3), является то, что в решении задач используются дополнительная информация или гипотезы, имеющие не универсальный, а частный В советской научной литературе для английского термина problem solving утвердился термин " решение задач" (иногда можно встретить " решение проблем" ), не совсем точно раскрывающий его содержание. Спектр вопросов, относящихся к направлению искусственного интеллекта, называемому теорией решения задач, весьма широк. Обычно в него включают проблемы, связанные с организацией поиска в эвристических алгоритмах, анализом деревьев поиска, использованием целей и подцелей, решением задач человеком, соотношением вывода и инсайта, машинным доказательством теорем, использованием дедуктивной логики при решении задач; иногда к этому направлению относят также программирование игр, обучение и распознавание образов (см., например, монографию: Р. Бенерджи. Теория решения задач. Подход к созданию искусственного интеллекта: Пер. с англ. - М.: Мир, 1972. — 224 с.). - Прим. ред. 276 характер и адекватные лишь для рассматриваемой или подобных ей сцен. Вместо того чтобы оперировать категориями типа жесткости объекта, мы используем заключения следующего типа: черное пятно, расположенное на уровне стола, с высокой вероятностью является телефоном. Любая достаточно универсальная система зрения должна располагать очень большим числом таких гипотез в силу их специфичности и обладать способностью отыскивать и раскрывать как раз те одну-две гипотезы, которые необходимы в конкретной рассматриваемой ситуации. Это и определяет всю сложность проблемы зрения, в которой основные вопросы, требующие ответа, связаны с тем, каким образом можно эффективно оперировать чрезвычайно большими объемами информации. Именно поэтому столько усилий было потрачено на разработку эффективных управляющих структур программ1, обеспечивающих представление знаний, используемых при обработке зрительной информации. Между прочим, специалисты, работающие в других направлениях искусственного интеллекта, по тем же причинам считают проблему управления важной. Основное направление господствовавших в те времена идей сводилось, таким образом, к привлечению специализированных знаний о природе наблюдаемой сцены в качестве вспомогательного средства при сегментации ее изображения на области, приблизительно соответствующие объектам, присутствие которых на сцене предполагается. Тененбаум и Барроу [226], например, использовали знания относительно нескольких различных типов сцен при сегментации изображений ландшафта, служебного помещения, комнаты и компрессора. Фройдер [50] воспользовался аналогичным подходом для идентификации на простой сцене молотка. Если бы этот подход оказался верным, то центральной проблемой зрения являлась бы подготовка соответствующего специализированного фрагмента знаний для использования его в необходимый момент в процессе сегментации. Так, работа Фройдера была, в частности, почти полностью посвящена созданию так называемой гетерархичес-кой системы управления, обеспечивающей такую возможность. Несколько позже по тем же самым причинам существенный интерес вызвал метод релаксации, предложенный Розенфелдом, Хаммелом и Цакером [206]. Он представляет собой метод оптимизации, позволяющий использовать при решении задачи сегментации ограничения, почерпнутые из самых различных источников, причем управляющие процедуры, которые обеспечивают необходимую обработку информации, усложняются лишь в незначительной степени. Наша собственная работа, посвященная кооперативным алгоритмам, также несет легкий отпечаток надежд использовать их для объединения ограничений, почерпнутых из различных источников, и это послужило одним из стимулов для попыток разработки точных методов анализа сходимости таких алгоритмов [152]. Порядка взаимодействия подпрограмм в программе ЭВМ. 277 а)
278 б) |
Последнее изменение этой страницы: 2019-04-09; Просмотров: 77; Нарушение авторского права страницы