Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


НЕПОСРЕДСТВЕННОЕ ПРЕДСТАВЛЕНИЕ ВИДИМЫХ ПОВЕРХНОСТЕЙ



ВВЕДЕНИЕ

В данной главе мы будем обсуждать проблемы и задачи, возникающие в связи с идеей 2, 5-мерного эскиза, с которым мы уже встречались в разд. 3.3. Основной тезис прост: 2, 5-мерный эскиз обеспечивает представление видимых поверхностей в координатах наблюдателя, позволяющее воспроизвести и объединить результаты всех процессов, описанных в гл. 3. Построение 2, 5-мерного эскиза — это краеугольный камень нашей теории, последний этап перед интерпретацией информации, характеризующей поверхность, и, быть может, завершение процесса чистого восприятия.

Возможно, читателя не удивит тезис о возможности существования подобного представления, как и то, что его построение может рассматриваться в качестве цели предварительной обработки изображений в зрительной системе, особенно если учесть, что данная книга укладывается в рамки точно определенной концепции. Вначале мы не располагали этой концептуальной схемой и, пытаясь найти путь к пониманию того, что представляет собой зрение, были смущены, столкнувшись с трудностями чуть ли не философского плана. Они возникли в связи с попытками определить, для чего предназначено восприятие. Читатель, который не сочтет за труд внимательно посмотреть работу [145], обнаружит, что в ней в явном виде не указывается, для чего предназначен первоначальный эскиз. Он обнаружит, что первоначальный эскиз более или менее определен, имеет обоснование достаточно общего характера и тесно привязан к реальностям физического мира. Идея же о том, что целью, ради которой в зрительной системе выполняется предварительная обработка информации, является получение в явном виде информации относительно видимых поверхностей, проводится в этой работе лишь неявно.

В то время, в сущности, машинное зрение пребывало в беспорядочном состоянии, поскольку (за исключением работы Хорна [91]) идея о том, что главным в зрении является определение форм объектов, еще всерьез не рассматривалась. И хотя специалисты по психологии восприятия, подобно Гиб-сону, сознавали важность поверхностей, идея о некотором внутреннем представлении, вырабатываемом в результате реализации каких-то специальных процессов, была чужда их мышлению. Оглядываясь назад, мы видим, что в наших взглядах и в характере вопросов, которыми мы задавались, царила изрядная путаница: нас интересовали проблемы, связанные с распознаванием по признакам, со способами выделения фигуры из фона, способами выделения и интерпретации " формы" или " фигуры", с возможностями управляемого данными или восходящего анализа и необходимостью использования нисходящих процедур. Кроме того, мы не располагали какой-либо единой структурой, которая давала бы нам возможность посмотреть, каким образом такие процессы, как стереопсис, затенение или восприятие движения, могут сочетаться друг с другом, а также с другими свойствами зрения, порождая феномен, который мы называем способностью видеть.

274

Мышление такого типа было драматически " сметено" идеей 2, 5-мерного эскиза, которая одновременно разрешила и эти, и многие другие проблемы. Она указала нам, в чем состоят цели предварительной обработки изображений в зрительной системе, и связала их с понятием внутреннего представления объективной физической реальности внешнего мира, получение которого предшествует разбиению сцены на объекты и другим обременительным процедурам, связанным с распознаванием объекта. В то же время эта идея обозначила пределы того феномена, который можно было бы назвать чистым восприятием — восстановление информации о поверхности исключительно с помощью управляемых данными процессов и при отсутствии необходимости в использовании конкретных гипотез о природе, назначении или функциях наблюдаемых объектов. И наконец, она явилась основой для получения общей постановки всей проблемы зрения в целом — концептуальной схемы, объяснению которой посвящена данная книга, позволившей за прошедшее с тех пор время придать нашему исследованию рациональную структуру, отражающую принятую нами стратегию исследования.

По всем перечисленным причинам появление осенью 1976 года идеи 2, 5-мерного эскиза, впервые высказанной в статье Марра и Нисихары [151, рис. 2] и развитой более подробно несколько позже [148, разд. 3], стало для меня наиболее вдохновляющим событием за все исследование. Его первым непосредственным следствием стала теория стереозрения [155], которая была создана в течение первой половины 1977 года. Годом позже началось построение с новых позиций теории предварительной обработки изображений в зрительной системе, и, конечно же, именно 2, 5-мерный хкиз в конце концов привел нас к той общей концептуальной схеме, которой мы теперь располагаем [148].

4.2. СЕГМЕНТАЦИЯ ИЗОБРАЖЕНИЯ

Вероятно, для того чтобы познакомить читателя с проблемой 2, 5-мерного эскиза в целом, лучше всего описать тот тупик, ради преодоления которого он был предложен. Господствовавшее среди нейрофизиологов и психологов убеждение, что проблема фигуры и фона является для зрения одной из фундаментальных, нашло отражение в попытках специалистов в области машинного зрения реализовать некоторый процесс, называемый сегментацией. Смысл этого процесса в очень значительной степени близок идее выделения фигуры из фона, состоящей в разбиении изображения на области, выбор которых определяется либо некоторой конкретной целью (в случае машинного зрения ею может оказаться, например, сборка водяного насоса), либо соответствием этих областей реальным объектам или их частям.

Несмотря на значительные усилия, затрачиваемые в течение длительного периода на решение этой проблемы, теория и практические приложения сегментации продолжали оставаться на примитивном уровне по следующим двум причинам. Во-первых, было почти невозможно сформулировать на языке изображений или даже реального физического мира, в чем точно состоят цели сегментации. Что такое, например, объект и что именно придает ему ту специфику, которая заставляет выделять его в качестве некоторой области

275

на изображении? Является ли объектом нос? Является ли объектом голова? Остается ли голова объектом, если она соединена с туловищем? А как обстоит дело с человеком, сидящим верхом на лошади?

Эти вопросы свидетельствуют о том, что сложности, возникающие при попытках сформулировать, что именно следует на изображении выделять в виде некоторой области, разрастаются до уровня чуть ли н-е философской проблемы. На самом деле, ответов на такие вопросы не существует: все перечисленное может являться объектами, если Вы предпочитаете считать их таковыми, либо они могут служить некоторыми частями каких-то более крупных объектов (точный анализ этого факта проводится в гл. 5). Более того, даже если в каком-то конкретном случае ответы на такие вопросы были бы получены, это не очень помогло бы нам в других случаях. Довольно быстро обнаружилось, что, поскольку структура изображений чрезвычайно сложна, обычно оказывалось практически невозможно выделять искомую область, используя лишь критерии кластеризации, основанные на локальном сходстве или других чисто визуальных признаках и применяемые к яркостям изображения или каким-либо его представлениям типа необработанного первоначального эскиза. Области, обладающие " семантической" важностью, не всегда имеют какое-то определенное визуальное отличие. Большинство изображений чрезвычайно сложны, но даже простейшие и очень небольшие изображения, (как, например, изображение, на котором нет ничего, кроме двух листьев [145, рис. 13]) часто имеют матрицы яркостей, содержащие недостаточно информации для того, чтобы стало возможным разбиение изображения на отдельные объекты.

Сегментация, несмотря на отсутствие сколь бы то ни было точной формулировки, определяющей ее содержание, продолжала оставаться предметом исследований, в которых использовались все более и более сложные методы. Достаточно долго считалось, что зрительное восприятие аналогично решению задач1 и потому, следовательно, должно быть связано с проверкой и коррекцией гипотез о наблюдаемом объекте. Эта точка зрения получила широкое распространение среди специалистов в области машинного зрения (см., например, [168]), и аналогичное положение было принято в психологии зрения (о чем свидетельствует монография [70]). Решающим отличием этого подхода от подхода, основанного на использовании ограничений (как это описывалось в гл. 2 и 3), является то, что в решении задач используются дополнительная информация или гипотезы, имеющие не универсальный, а частный

В советской научной литературе для английского термина problem solving утвердился термин " решение задач" (иногда можно встретить " решение проблем" ), не совсем точно раскрывающий его содержание. Спектр вопросов, относящихся к направлению искусственного интеллекта, называемому теорией решения задач, весьма широк. Обычно в него включают проблемы, связанные с организацией поиска в эвристических алгоритмах, анализом деревьев поиска, использованием целей и подцелей, решением задач человеком, соотношением вывода и инсайта, машинным доказательством теорем, использованием дедуктивной логики при решении задач; иногда к этому направлению относят также программирование игр, обучение и распознавание образов (см., например, монографию: Р. Бенерджи. Теория решения задач. Подход к созданию искусственного интеллекта: Пер. с англ. - М.: Мир, 1972. — 224 с.). - Прим. ред.

276

характер и адекватные лишь для рассматриваемой или подобных ей сцен. Вместо того чтобы оперировать категориями типа жесткости объекта, мы используем заключения следующего типа: черное пятно, расположенное на уровне стола, с высокой вероятностью является телефоном.

Любая достаточно универсальная система зрения должна располагать очень большим числом таких гипотез в силу их специфичности и обладать способностью отыскивать и раскрывать как раз те одну-две гипотезы, которые необходимы в конкретной рассматриваемой ситуации. Это и определяет всю сложность проблемы зрения, в которой основные вопросы, требующие ответа, связаны с тем, каким образом можно эффективно оперировать чрезвычайно большими объемами информации. Именно поэтому столько усилий было потрачено на разработку эффективных управляющих структур программ1, обеспечивающих представление знаний, используемых при обработке зрительной информации. Между прочим, специалисты, работающие в других направлениях искусственного интеллекта, по тем же причинам считают проблему управления важной.

Основное направление господствовавших в те времена идей сводилось, таким образом, к привлечению специализированных знаний о природе наблюдаемой сцены в качестве вспомогательного средства при сегментации ее изображения на области, приблизительно соответствующие объектам, присутствие которых на сцене предполагается. Тененбаум и Барроу [226], например, использовали знания относительно нескольких различных типов сцен при сегментации изображений ландшафта, служебного помещения, комнаты и компрессора. Фройдер [50] воспользовался аналогичным подходом для идентификации на простой сцене молотка. Если бы этот подход оказался верным, то центральной проблемой зрения являлась бы подготовка соответствующего специализированного фрагмента знаний для использования его в необходимый момент в процессе сегментации. Так, работа Фройдера была, в частности, почти полностью посвящена созданию так называемой гетерархичес-кой системы управления, обеспечивающей такую возможность. Несколько позже по тем же самым причинам существенный интерес вызвал метод релаксации, предложенный Розенфелдом, Хаммелом и Цакером [206]. Он представляет собой метод оптимизации, позволяющий использовать при решении задачи сегментации ограничения, почерпнутые из самых различных источников, причем управляющие процедуры, которые обеспечивают необходимую обработку информации, усложняются лишь в незначительной степени. Наша собственная работа, посвященная кооперативным алгоритмам, также несет легкий отпечаток надежд использовать их для объединения ограничений, почерпнутых из различных источников, и это послужило одним из стимулов для попыток разработки точных методов анализа сходимости таких алгоритмов [152].

Порядка взаимодействия подпрограмм в программе ЭВМ.

277

а)

к

58

34 171

35 169

36 167

37 167

38 166

39 165

40 166

41 164

42 167

43 171

44 171

45 174

46

174

47 175

48 173

49

171

57

168

168

168

167

166

167

167

165

169

168

174

176

175

175

175

172

56

168

167

167

165

166

166

167

167

168

170

178

177

176

174

174

173

55

168

168

165

169

167

168

167

165

168

175

177

177

175

175

172

171

54

169

170

167

169

169

168

163

166

172

169

174

173

П5

178

173

173

53

171

169

170

168

169

168

169

168

168

170

175

173

175

177

178

176

52

172

171

170

168

169

169

167

168

173

172

173

177

174

175

178

176

51

172

174

171

170

166

168

167

168

172

172

172

177

179

172

175

175

50

171

167

176

169

170

169

168

169

171

172

174

174

173

173

174

178

49

174

172

173

173

173

174

171

171

172

П4

172

172

172

169

173

173

48

173

173

173

176

178

172

171

174

174

173

175

175

175

173

173

171

47

173

175

178

173

173

171

171

175

175

УП

178

175

174

173

175

178

46

178

175

174

169

173

175

177

175

177

177

174

175

176

177

177

174

45

173

175

173

174

172

173

174

175

174

171

173

174

175

174

172

171

44

177

174

175

175

172

171

172

176

172

173

172

172

173

170

Д70

175

43

173

171

174

168

176

172

173

173

173

174

171

174

П5

173

174

174

42

175

173

171

172

170

171

176

175

178

172

174

175

175

175

175

172

41

181

179

177

172

170

170

169

179

175

174

175

174

172

175

174

175

40

188

184

179

178

176

176

176

174

172

178

172

174

173

172

174

173

39

195

191

188

186

185

183

180

177

178

175

174

176

175

174

176

176

38

200

199

197

193

190

187

185

180

176

175

180

177

175

175

176

177

37

202

202

199

202

199

194

187

180

175

179

177

176

174

175

176

173

278

б)


Поделиться:



Последнее изменение этой страницы: 2019-04-09; Просмотров: 62; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.167 с.)
Главная | Случайная страница | Обратная связь