МЕТОДОЛОГИЯ И КОНЦЕПЦИЯ ИССЛЕДОВАНИЯ

1.1. ПРЕДПОСЫЛКИ И ПРЕДЫСТОРИЯ

Проблема зрительного восприятия уже в течение многих веков будоражит любознательность ученых. Одним из первых существенный вклад в ее решение внес Ньютон (1704 г. [177]), заложивший основу для современных работ по цветовому зрению, а также Гельмгольц [81], трактат которого, посвященный физиологии зрения, вызывает интерес даже сегодня. В начале нашего столетия Вертхеймер [248, 249] обратил внимание на то, что при последовательном предъявлении изображений (как при показе фильма) наблюдается видимое движение не отдельных точек, а целостных структур, или " тю-лей". Во многом подобным же образом мы воспринимаем стаю гусей, совершающих перелет: стая воспринимается как некое единое целое, в котором отдельные птицы не выделяются. Эксперимент Вертхеймера положил начало школе гештальтпсихологии, занимавшейся описанием свойств целостных структур в терминах типа целостность и своеобразие и пытавшейся сформулировать " законы", определяющие возникновение таких целостных структур. По целому ряду причин эта попытка потерпела неудачу, и гештальтист-ская школа погрузилась во мглу субъективизма. Распад этой школы привел, к сожалению, к тому, что многие из ее оригинальных и неоспоримых открытий оказались вне поля зрения основного направления экспериментальной психологии.

С тех пор исследователи, занимавшиеся психологией восприятия, не предпринимали серьезных попыток выяснить, что представляет собой восприятие как таковое, а анализировали его свойства и операциональные характеристики. Была твердо установлена трехцветность зрения (см. монографию Бринд-ли [28]), и продолжалось увлечение изучением восприятия движения — в этой области наиболее интересные достижения, вероятно, связаны с экспериментами Майлса [167] и Уоллака и ОТСоннелла [240], показавшими, что при подходящих условиях форма незнакомого трехмерного объекта может быть правильно определена с помощью всего лишь изменяющейся монокулярной проекции¹.

Развитие электронно-вычислительной техники позволило получить аналогичные результаты для бинокулярного зрения. Б. Джулес в 1960 году получил с помощью вычислительной машины стереоскопические изображения

Монокулярная проекция - плоское изображение, воспринимаемое при монокулярном зрении (одним глазом).

Рис. 1.1. Стереоскопическое изображение случайных конфигураций точек типа тех, которые широко использовал в своих экспериментах Б. Джулес. Левое и правое изображения идентичны, за исключением того, что на одном из изображений центральная квадратная зона несколько смещена. При стереоскопическом совмещении создается впечатление, что центральный квадрат " плавает" по фону изображения

случайных точек, представлявшие собой пары изображений, которые воспроизводили конфигурации точек и воспринимались как множества случайных точек при рассматривании одним глазом, но сливались при рассматривании одного из изображений пары одним глазом, а другого — другим, что обеспечивало восприятие форм и поверхностей явно трехмерного характера. Пример подобного стереоскопического изображения приведен на рис. 1.1 *. Здесь изображение, предназначенное для осмотра левым глазом, представляет собой матрицу, заполненную порожденными случайным образом черными и белыми квадратиками; для получения матрицы использовалась вычислитель-

¹ Внимание! Для того чтобы обеспечить трехмерное восприятие стереоизображений, иллюстрирующих эту книгу, читателю могут понадобиться устройства стереовидения. Их производят следующие компании: Hubbard Scientific Company, P. O. Box 104, North-brook, Illinois 60062 и Edmund Scientific Company, 1776 Edscorp Building, Barrington, New Jersey 08007.

Читатель может добиваться стереоскопического эффекта и не прибегая к помощи оптического прибора: поместите стереоизображение на расстоянии примерно 25 см от глаз и расслабьте их таким образом, как будто бы Вы смотрите вдаль. В конце концов " левое" изображение стереопары, воспринимаемое правым глазом, и " правое" изображение стереопары, воспринимаемое левым глазом, совместятся и возникает трехмерное изображение.

Полезно поместить кончик пальца между стереопарой и глазами (примерно посередине). Палец должен быть расположен так, чтобы, смотря только левым глазом, Вы видели палец перед правым краем " правого" изображения стереопары. В то же время, смотря только правым глазом, постарайтесь добиться того, чтобы палец был виден перед правым краем " левого" изображения стереопары. Поместив палец в искомое положение, посмотрите на него обоими глазами. Теперь Вы видите оба элемента стереопары, они будут не в фокусе. Затем расслабьте глаза и попытайтесь сфокусировать стереопару, не теряя из вида палец. Этот прием, по-видимому, будет удаваться вам лучше по мере того, как Вы будете становиться старше.

ная машина. Изображение, предназначенное для осмотра правым глазом, формируется следующим образом: воспроизводится копия " левого" изображения, квадратная область, расположенная в его центре, сдвигается несколько влево, после чего порождается новая случайная конфигурация, заполняющая пустоту на изображении, возникшую в результате сдвига. Если каждый глаз видит лишь одну из матриц, как будто бы эти матрицы физически расположены в одном и том же месте, то в результате создается ощущение, что квадрат " плавает" по фону изображения. Очевидно, что эти эффекты восприятия вызваны исключительно стереоскопической диспаратностью, возникающей для соответственных элементов изображений, осматриваемых глазами по отдельности. Подобные эксперименты показывают, что анализ стереоскопической информации, подобно анализу движения, может осуществляться независимо от наличия иной информации. Эти результаты исключительно важны, поскольку дают возможность проводить исследование восприятия в более узких направлениях, которые могут изучаться независимо друг от друга. Ниже будем называть эти направления независимыми модулями восприятия.

Психофизика внесла в самое последнее время в изучение зрительного восприятия вклад, характеризующийся значительным числом разнообразных, но в равной мере существенных результатов. Этот вклад возник после объединения данных, полученных при изучении адаптивного и порогового обнаружения, причем его исходной точкой следует считать демонстрацию Кампбеллом и Робсоном [30] существования пространственно-частотно-настраиваемых независимых каналов, т. е. каналов, чувствительных к изменениям яркости изображения, возникающих в определенных диапазонах уровней яркости или пространственных частот; такие каналы относятся к механизмам восприятия, действующим на начальных этапах обработки изображения. Эта работа породила подлинный взрыв публикаций, посвященных различным аспектам изучения подобных каналов; кульминация наступила десять лет спустя, в 1979 году, когда Уилсон и Берген опубликовали вполне удовлетворительное количественное описание характеристик начальных этапов процесса зрительного восприятия [255 J. Эта тема будет подробно изучена ниже.

Не так давно существенный интерес вызвал несколько иной подход. В 1971 году Р. Н. Шепард и Д. Мецлер обратились к изучению штриховых рисунков простых объектов, отличающихся друг от друга либо поворотом в трехмерном пространстве, либо поворотом в сочетании с отражением (рис. 1.2). Их интересовало, сколько времени необходимо для того, чтобы установить, отличаются ли два изображенных объекта друг от друга вследствие поворота, дополненного отражением, либо вследствие только поворота. Они обнаружили, что это время зависит от угла пространственного вращения, необходимого для приведения двух сравниваемых объектов в соответственное положение. Оказалось, что оно линейно зависит от угла пространственного вращения. В результате становится понятно, что мысленное вращение, которое имеет место в действительности (т. е. последовательная коррекция ориентации мысленного описания очертаний первого объекта пары, выполняемая вплоть до получения его соответствия со вторым), занимает тем больше времени, чем больше существующие углы.

Значение описанного подхода состоит не столько в полученных в его рамках результатах, поскольку им дается противоречивая интерпретация, сколько в характере возникающих в связи с ним вопросов. Дело в том, что до его появления специалисты в области психологии зрения не относили проблему

Рис. 1.2. Рисунки, аналогичные использовавшимся Шепардоми Мецлеромв их экспериментальном исследовании процесса мысленного вращения: а — идентичные объекты (в этом легко убедиться, повернув страницу книги на 80° по часовой стрелке); б — также идентичные объекты (соответствующий угол поворота также составляет 80°, однако в данном случае совмещение первого объекта со вторым обеспечивается с помощью поворота по глубине в третьем измерении); в — не идентичные объекты (никакое вращение не дает возможности добиться их конгруэнтности)

представления к разряду серьезных. Указанные эксперименты продемонстрировали, что этим необходимо заняться. И хотя первые идеи специалистов по психологии зрения казались наивными по сравнению с концепциями, господствовавшими в области машинного зрения, которая столкнулась с проблемой представления с самого начала, психологам потребовалось не так уж много времени, чтобы их взгляды на эту проблему стали более глубокими (см. статью Шепарда [213])'.

Как, однако, обстоят дела с научным объяснением? В течение многих лет казалось, что наибольшие надежды в этом отношении связаны с другим направлением исследований, а именно с электрофизиологией. Появление усилителей позволило Эйдрияну [1] и его коллегам регистрировать незначительные изменения напряжения, соответствующие прохождению сигналов по нервам. Результаты их исследований показывают, что характер возникающих при этом ощущений зависит не от того, каким образом раздражалось нервное волокно, как можно было предполагать исходя из данных анатомических исследований, а от того, по какому именно нервному волокну передавался соответствующий сигнал. В этой связи возникла точка зрения, согласно которой периферические нервные волокна могут рассматриваться как

некое средство непосредственного отображения, обеспечивающее сенсориум копией физических событий, зарегистрированных на поверхности тела [2]. В остальном, как считалось, получение научного объяснения феномена восприятия можно было перепоручить психологам.

Дальнейшее развитие связано с техническими достижениями в области сигналов, которые сделали возможной регистрацию поведения отдельных нейронов [68, 77, 53]. Это привело к введению понятия клеточного " рецептивного поля" [78] и знаменитой серии исследований поведения нейронов, относящихся к последовательно углубляющимся уровням зрительного пути; эти исследования были выполнены в Гарварде [125, 95, 96]. Самым выдающимся событием явилось, вероятно, возникновение новой концепции, состоявшей в том, что проблемы, занимающие психологов, можно изучать и даже получать искомые объяснения с помощью нейрофизиологически* экспериментов. Одним из первых в наиболее чистом виде это продемонстрировал Барлоу при изучении ганглиоз-ных клеток ретины лягушки, и мое изложение вряд ли будет лучше, чем у самого автора [8, с. 373]:

" Если Вы изучаете реактивность отдельных ганглиозных клеток ретины лягушки, причем мишень (предъявляемый зрительный раздражитель) находится у Вас в руке, то оказывается, что ганглиозная клетка одного типа наиболее эффективно стимулируется раздражителем типа черного круга, располагаемого примерно в пределах соответствующего рецептивного поля либо быстро в нем перемещаемого вперед-назад. В результате возникает энергичный разряд, который может поддерживаться без существенного затухания до тех пор, пока продолжается перемещение мишени. Далее, если раздражитель, являющийся оптимальным для этого класса клеток, предъявляется интактным лягушкам, то наблюдается чрезвычайно бурная поведенческая реакция: они бросаются к мишени и многократно демонстрируют пищевую реакцию, заключающуюся в прыжках и хватательных движениях. Избирательность, присущая нейронам ретины, и реакция лягушки, наблюдаемая при их избирательном раздражении, дают основания считать их " устройствами обнаружения мелких насекомых" [8], реализующими примитивную, но жизненно важную разновидность распознавания.

Этот результат приводит Вас к неожиданному выводу: значительная часть сенсорного аппарата, связанного с пищевыми реакциями лягушки, может в действительности располагаться в ретине, а не в неких мифических " центрах", которые было бы очень трудно изучать физиологическими методами. Каждый нейрон, относящийся к определенному классу, обладает защитным механизмом, допускающим разряд нервной клетки только при подаче ключа-раздражителя определенного типа. Леттвин с соавторами [133] высказали предположение о наличии у лягушки пяти классов нервных клеток различных типов, а Барлоу, Хилл и Левин [13] обнаружили у кролика еще большее число классов клеток. Они называли эти ключевые паттерны " пусковыми признаками". Мату рана с соавторами [161] обратили внимание на другой важный аспект поведения этих ганглиозных клеток: клетка продолжает реагировать на один и тот же пусковой признак, несмотря на изменения яркости света в десятки раз. Свойства ретины таковы, что, образно говоря, ганглиозная клетка может " высовываться" и определять, не происходит ли перед глазом нечто специфическое. Свет - это средство, с помощью которого она это делает, но информацию передает вполне определенный световой образ, причем общий уровень яркости, имеющий в этот момент место, практически полностью " игнорируется".

Далее Барлоу продолжает резюмировать эти результаты следующим образом [9, с. 380]:

" Кумулятивное действие всех тех новых данных, которые я пытался изложить выше, состоит в том, что необходимо осознать следующее: каждый нейрон в отдельности способен выполнять много более сложные и тонкие функции, чем это предполагалось раньше (курсив Барлоу). Функции нейронов вовсе не сводятся к непосредственному и Недостоверному переносу интенсивностей свечения воспринимаемого изображения в наш сенсориум - они выявляют элементы образа, определяют глубину объектов, не реагируют на несущественные причины изменений и поддерживают между собой чрезвычайно сложные иерархические отношения. Более того, имеются данные, показывающие, что с точки зрения информативности нейроны выделяют существенное, отличаются высокой надежностью реагирования и допускают постоянную корректировку характеристики их избирательности исходя из накапливаемого опыта зрительного восприятия. Все это равносильно подлинной революции в наших взглядах. Теперь уже совершенно неуместно рассматривать функционирование нейрона как некое искаженное шумом отражение более существенных и надежных процессов, связанных с мыслительной деятельностью. Наоборот, отдельные нейроны следует рассматривать в качестве первичных двигателей механизмов мышления. Мышление есть результат функционирования нейронов, и мы не должны больше допускать высказываний типа " функционирование нейрона отражает, раскрывает или контролирует процессы мышления", поскольку деятельность нейронов - это, в сущности, и есть процесс мышления".

Источником этой революции являются физиологические исследования, и она заставляет нас осознать, что функционирование каждого нейрона в отдельности может играть существенную роль в восприятии".

Эта позиция позволила Барлоу сформулировать первый и наиболее важный из пяти его постулатов: " Описание подобной деятельности отдельной нервной клетки, результаты которой поступают в другие нервные клетки и влияют на них, а также ответа нервной клетки на воздействия, оказьгааемые на нее другими нервными клетками, обладает достаточной полнотой для функционального понимания нервной системы. Не существует больше ничего, что " следило бы" за этой деятельностью или управляло ею. Она, следовательно, и должна составлять основу понимания того, каким образом мозг управляет поведением" [9, с. 380].

Ниже мы еще вернемся к более тщательному рассмотрению справедливости этого утверждения, пока же позволим себе просто восхищаться им, поскольку кардинальность и конструктивность идей, лежащих в его основе, говорят сами за себя. В то время казалось вполне правдоподобным, что в конечном счете редукционистский подход восторжествует. Начало было положено результатами исследований Хыобела и Уисела [95, 96]; изучение связи деятельности отдельных нейронов со стереопсисом [12] и с цветовым зрением [42, 67], очевидно, подтверждает существование тесных связей между восприятием и регистрограммами активности одиночных нервных клеток, а удивительные результаты Гросса, Рочи-Миранды и Бендера [74], обнаруживших в нижневисочной коре " детекторы положения", по-видимому, показывают, что применимость редукционистского подхода не ограничена исключительно начальными частями зрительного пути.

Вполне понятно, что физиологам повезло: если Вы попробуете зондировать обычную электронную вычислительную машину и будете регистрировать характеристики функционирования ее отдельных элементов, то навряд ли Вы сможете установить, какие функции выполняет соответствующий эле-

мент. Мозг, однако, согласно первому постулату Барлоу, очевидно, устроен " удобнее" — человек может установить функции отдельных элементов мозга. Казалось бы, нет причин, препятствующих всеобъемлющему применению редукционистского подхода.

Я сам был воодушевлен этим. Истина, как я также был убежден, принципиально связана с нервным уровнем, и основной целью исследований является проведение досконального анализа функций структуры центральной нервной системы. Мой энтузиазм материализовался в теорию коры мозжечка [141]. Согласно последней простую и регулярную корковую структуру следует рассматривать в качестве простого, но емкого запоминающего устройства, предназначенного для формирования двигательных навыков посредством научения. В соответствии с простым комбинаторным правилом каждая из 15 миллионов клеток Пуркинье, имеющихся в мозжечке, способна обучиться узнаванию 200 различных образов, а также отличать их от образов, не входящих в число изученных. Постепенно появляются данные, подтверждающие, что мозжечок действительно участвует в научении двигательным навыкам [103], так что некое подобие моей теории может и в самом деле оказаться справедливым.

Путь исследования представлялся совершенно очевидным. С одной стороны, мы располагали новыми экспериментальными методами, мощь которых была продемонстрирована, с другой же стороны, имелись и теоретические основы, позволившие подкрепить экспериментальные данные тонким анализом корковой структуры. На то, что именно требует научного объяснения, могла указать психофизика, а недавние успехи в области анатомии (метод Финка - Хаймера, разработанный в лаборатории Науты¹, а также последние достижения Сентаготаи и других исследователей в области электронной микроскопии) могла позволить получить необходимую информацию о структуре коры головного мозга.

Несмотря на внешнее благополучие, чувствовалось, однако, что дела обстоят совсем неблестяще. За первыми открытиями 1950-х и 1960-х годов не последовали столь же крупные открытия в 1970-х годах. Ни одному нейрофизиологу не удалось зарегистрировать ни одного нового или явно относящегося к внешнему уровню коррелята восприятия. Лидеры исследований 1960-х годов перестали заниматься этой тематикой — Хьюбел и Уисел обратились к анатомии, Барлоу — к психофизике. Основные усилия нейрофизиологии сосредоточились на изучении развития и пластичности (значение этого понятия применительно к деятельности нервной системы пока не установлено), а также на более тщательном анализе деятельности уже известных нервных клеток (например, [18, 211, 212]) и нервных клеток, встречающихся у отдельных видов живых существ, в частности у сов (например, [182]). Ни одно из предпринятых исследований не преуспело в объяснении функции зрительной коры.

Массачусетсский технологический институт. — Прим. перев. 30

Трудно определенно сказать, почему так случилось, поскольку мотивация никогда не обнародовалась и имела, вероятно, главным образом подсознательный характер. Ряд факторов, однако, можно выделить. Что касается меня, то изучение мозжечка привело к двоякому результату. С одной стороны, оно дало мне основания считать, что можно рассчитывать в конечном счете на понимание корковой структуры в терминах функции, и это воодушевляло. В то же время это исследование разочаровало меня, так как если моя теория даже и была правильной, она тем не менее мало что давала для понимания двигательной системы — например не указывала, каким образом следует программировать механическую руку. Из теории следовало, что при программировании механической руки, обладающей достаточной универсальностью, на определенном этапе неизбежным окажется использование чрезвычайно большой и довольно просто устроенной памяти. Теория, однако, не указывает, ни почему это так, ни что именно должно в этой памяти содержаться.

Открытия нейрофизиологов, занимавшихся зрением, ставят Вас в аналогичное положение. Допустим, например, что на самом деле кому-то удалось обнаружить мифическую " нервную клетку для бабушки" ¹. Даст ли нам такое открытие что-нибудь действительно существенное? Мы будем знать, что такая клетка существует (гроссовские детекторы руки значат для нас практически именно это), но не будем знать, зачем или хотя бы каким образом подобный феномен может быть синтезирован из выходных сигналов уже известных нервных клеток. Много ли говорят нам регистрограммы активности отдельных нервных клеток (простых и сложных) о том, как обнаруживаются яркостные переходы или почему их нужно обнаруживать, за исключением довольно общих рассуждений, проводимых на основании доводов, которые связаны с экономичностью? Если бы нам действительно стали известны ответы на эти вопросы, можно, скажем, было бы воплотить их в программу вычислительной машины. Обнаружение детектора руки, однако, явно не дает возможности написать программу, реализующую такой детектор.

Попытка осмыслить эти проблемы, возникшие в начале 1970-х годов, приводит постепенно к выводу, что упущено нечто важное, причем ни нейрофизиология, ни психофизика не в состоянии восполнить этот пробел. Ключевым здесь служит то обстоятельство, что предметом нейрофизиологии и психофизики является описание поведения нервных клеток и людей соответственно, но вовсе не объяснение этого поведения. Каковы на самом деле функции зрительных зон коры головного мозга? Какие проблемы, возникающие в связи с этими функциями, требуют решения и на каких уровнях описания следует искать соответствующие научные объяснения?

Наилучший способ преодолеть трудности при достижении какой-либо цели — это постараться достичь ее. Поэтому, осознав ситуацию, я перешел в Лабораторию искусственного интеллекта Массачусетсского технологического института, где М. Минский собрал группу исследователей и предоставил в

Нервная клетка, разряжающаяся лишь при появлении в Вашем поле зрения Вашей бабушки.

их распоряжение мощную вычислительную машину; это предприятие преследовало вполне определенную цель - разобраться в возникших проблемах.

Первое крупное открытие состояло в том, что поставленные задачи сложны. Естественно, сегодня зто общеизвестный факт. В 1960-х годах, однако, почти никто не осознавал трудности задач машинного зрения. Этой области суждено было повторить опыт, приобретенный направлением машинного перевода в результате провалов, которые оно претерпело в 1950-х годах, прежде чем, наконец, стало очевидно, что в машинном зрении возникает ряд проблем, требующих серьезного изучения. Это объясняется тем, что человек располагает прекрасной зрительной системой. Понятие детектора признаков было прекрасно сформулировано Барлоу и Хьюбелом и Уиселом, и мысль о том, что выделение на изображении яркостных переходов и линий может вообще вызывать хоть какие-либо трудности, просто не посещала тех, кто не пробовал это делать. Оказалось, что это сложная задача. Яркостные переходы имеющие решающее значение в трехмерном случае, часто просто не могут быть обнаружены на основе изучения изменений яркости в пределах изображения. Любое текстурное изображение содержит множество отрезков яркостных переходов, искаженных шумом; изменения коэффициента отражения и освещения вызывают бесконечные проблемы; даже если в какой-то точке яркостный переход надежно обнаружен, то очень скоро с равной вероятностью может как начаться, так и не начаться его затухание и проявляться он будет на отдельных участках изображения. У первых исследователей, работавших в области машинного зрения, например Б. К. П. Хорна и Т. О. Бин-форда возникло общее и чуть ли не безнадежное ощущение, что с изображением может происходить практически все, что угодно, и более того, практически все, что угодно, и происходит.

Серьезные попытки справиться с этими трудностями были сделаны с помощью трех известных подходов. Первый из них, отличающийся чисто эмпирическим характером, связан главным образом с именем Розенфелда. Он состоял в том, что выбирался какой-либо новый прием обнаружения яркостно-го перехода, разделения текстур или что-нибудь в том же роде, затем этот прием опробовался на изображениях, а полученный результат изучался. Хотя этот подход дал ряд интересных идей, в том числе одновременное использование операторов разного размера¹ в качестве средства увеличения чувствительности и уменьшения шума [207], эти идеи оказались не столь продуктивными, какими могли бы быть, поскольку в их рамках никогда не предпринимались серьезные попытки оценить качество работы различных алгоритмов. Мало было сделано и попыток сравнить достоинства различных операторов (например, [49]), причем для исследования оптимальности применяемых операторов не использовались даже математические методы. В действительности таких попыток и не могло быть, поскольку никто еще точно не сформулировал, что зти операторы должны делать. Большая изобретатель-

Термин оператор обозначает локальную вычислительную процедуру, применяемую к каждому элементу изображения и использующую информацию о яркостях этого и находящихся в его непосредственной окрестности элементов.

ность тем не менее была продемонстрирована. Наиболее разумным, вероятно, был оператор Хьюкела [98], который обеспечил остроумное решение задачи ориентации яркостного перехода, наилучшим образом соответствующего некоторому известному изменению яркости в некоторой малой окрестности обрабатываемого изображения.

Второй подход предусматривал проведение более глубокого анализа за счет введения ограничений на характер рассматриваемых изображений — допустимыми объектами анализа считались лишь сцены, относящиеся к так называемому " миру" отдельных освещенных матовых белых игрушечных кубиков, расположенных на черном фоне. Кубики в таком мире могут иметь произвольную форму при условии, что все грани у них плоские и все ребра прямые. Эти ограничения дают возможность пользоваться более специализированными методами, но сама задача тем не менее не упрощается. Для обнаружения яркостных переходов использовалась система выделения линий Бинфорда — Хорна [89], а в специальных случаях/например когда все яр-костные переходы являлись прямыми линиями', применялась как эта система, так и ее усовершенствованный вариант (описан в [217]).

Эти методы, однако, позволяли получать вполне удовлетворительные результаты и давали возможность проводить предварительный анализ задач, возникающих на последующих этапах обработки. В самом общем виде они сводятся к следующей проблеме: что необходимо делать после того, как закончено построение штрихового рисунка, полностью представляющего обрабатываемую сцену? Изучение этой проблемы было начато в свое время Робертсом [202] и Гасманом [75] и достигло кульминации в работах Уолца [241] и Макуэрта [139], в которых была практически решена задача интерпретации штриховых рисунков, построенных по изображениям призматических тел. Особенно заметное влияние на дальнейшее развитие оказала работа Уолца, поскольку в ней впервые в явном виде было показано, что полный перебор всех допустимых физических локальных вариантов взаимного расположения поверхностей, ребер и затененных областей может привести к синтезу беспереборного и вычислительно эффективного алгоритма интерпретации реального изображения. Рис. 13и подпись под ним воспроизводят основные идеи теории Уолца.

Естественно, эта работа давала надежду на то, что после разрешения проблемы для мира игрушечных белых кубиков полученные результаты удастся обобщить, что и составит основу для анализа более сложных задач, возникающих в среде, более богатой в зрительном отношении. К сожалению, оказалось, что это не так. Для уяснения подхода, который в конечном счете был успешным, следует обратиться к третьему направлению исследований, производившихся в те годы.

В этом отношении интересны две группы работ. Ни одна из них, возможно, не внесла существенного вклада в изучение зрительного восприятия человека, поскольку полученные реальные результаты, вероятно, не отражают специфики процессов зрительного восприятия человека; важны же эти две группы работ из-за их формулировки. Началом послужила работа Ланда и Макканна [129], посвященная ретинексной теории цветового зрения, развитой

Рис. 1.3. Некоторые конфигурации границ: физически реализуемые трехгранные стыки, образованные тремя выпуклыми яркостными переходами (а), тремя вогнутыми яркост-ными переходами (б) и нереализуемая конфигурация (в). Уолц составил каталог всех допустимых стыков (с учетом теневых яркостных переходов), вплоть до четырех совпадающих яркостных переходов. Он обнаружил, что при использовании этого каталога для задания отношений непротиворечивости (предусматривающих, например, что яркост-ный переход должен иметь один и тот же тип по всей своей длине, подобно яркостному переходу Е (г) результат разметки рисунка, учитывающего тени, часто оказывается

однозначно определенным

ими, а затем Хорном [90]. Отправная точка теории была вполне традиционной: цвет рассматривался как перцептивная аппроксимация отражательной способности. Она позволяла сформулировать вопрос чисто алгоритмического характера, а именно: каким образом можно отличить последствия изменений отражательной способности от колебаний освещения? Ланд и Макканн предложили воспользоваться тем обстоятельством, что освещение обычно изменяется плавно, в то время как отражательная способность поверхности или границы объекта часто изменяется довольно резко.Следовательно, с помощью фильтрации медленных изменений можно выделять изменения, порожденные исключительно отражательной способностью. Хорн предложил остроумный параллельный алгоритм для реализации этой процедуры, а я высказал предположение о том, каким образом эта продукция могла бы выполняться нейронами сетчатки глаза [143].

Сейчас я не считаю, что этот анализ цветового зрения и работы сетчатки вообще хоть сколько^шбудь достоверен, однако он дает пример возможного стиля корректного анализа. Канули в лету программы, предназначенные для решения частных конкретных задач машинного зрения; канула в лету работа в ограниченных зрительных средах — мини-мирах; канули в лету все объяснения, сформулированные на языке нейронных понятий, за исключением указывающих способ реализации метода. Настоящее связано с получением отчетливого представления о том, что именно должно осуществляться в процессе обработки информации, каким образом, каковы физические предпосылки, лежащие в основе метода, а также представления о некоторых свойствах алгоритмов, обеспечивающих искомую обработку информации.

Другое направление работ связано с выполненным Хорном [91] анализом возможностей определения формы объекта по данным затенения (заштриховки) поверхностей; эта работа положила начало известной серии статей, посвященных формированию изображений. Тщательно проанализировав, каким образом яркость, измеряемая на изображении, порождается в результате взаимодействия таких факторов, как освещение, геометрические свойства поверхности, коэффициент отражения поверхности и позиция наблюдателя, Хорн предложил дифференциальное уравнение, связьюающее яркость изображения с геометрическими характеристиками поверхности. Если значения коэффициента отражения поверхности и освещения известны, то это уравнение позволяет определять геометрические свойства поверхности (см. также [92]). Таким образом, данные о затенении поверхностей позволяют установить форму объекта.

Значение этих работ очевидно. Должен был существовать еще один уровень объяснения, на котором характер задач обработки информации, возникающих в процессе восприятия, можно было бы анализировать и представлять независимо от конкретных механизмов и структур, обеспечивающих реализацию процессов зрительного восприятия у человека. Именно в этом и состоял пробел — отсутствовал анализ проблемы как задачи обработки информации. Подобный анализ не посягает на объяснения, относящиеся к другим уровням — нейронному или уровню программы для вычислительных машин, — но он является необходимым дополнением, поскольку без него невозможно прийти к истинному пониманию функции всех этих нейронов.

К этому выводу независимо друг от друга пришли, а затем совместно его сформулировали Т. Поджо и я [154, 147]. Это не было совершенно новым -приблизительно в то же время Л. Д. Хармон говорил нечто подобное, да и другие исследователи лицемерно призывали к такому разграничению. Важным, однако, является то обстоятельство, что при серьезном отношении к концепции многоуровнего понимания процессов зрительного восприятия исследование информационной основы зрительного восприятия может стать строгим. Появляется возможность, разграничивая научные объяснения, относящиеся к разным уровням, совершенно определенно указывать, какая именно обработка информации производится и зачем, и формулировать теоретические положения, подтверждающие оптимальность (в некотором смысле) выполняемой обработки либо гарантирующие правильность ее проведения. Устраняется привязка к частным задачам, а эвристические машинные программы уступают место надежному теоретическому фундаменту, на котором может быть выстроена настоящая теоретическая дисциплина. Осознать все это — значит определить, что именно было упущено, ясно представив, каким образом следует заполнить образовавшийся пробел, а значит дать основу для нового комплексного подхода, изложение которого и составляет цель нашей книги.

1.2. О ПОНИМАНИИ СЛОЖНЫХ СИСТЕМ ОБРАБОТКИ ИНФОРМАЦИИ

Любую сложную систему почти никогда невозможно понять, опираясь исключительно на экстраполяцию свойств ее элементарных компонентов. Описание термодинамических явлений (характеристик температуры, давления, плотности и соотношений между ними) нельзя получить с помощью некоторой большой системы уравнений, каждое из которых относилось бы лишь к какой-нибудь одной из частей, образующих систему. Описания подобных явлений даются на соответствующем уровне, т. е. на уровне, представляющем огромную совокупность элементов в целом; при этом необходимо показать, что описания, относящиеся к микроуровню и макроуровню соответственно, совместны. Если Вы хотите добиться полного понимания системы, столь сложной, как нервная система, развивающийся эмбрион, совокупность путей метаболизма, бутыль, наполненная газом, или даже большая программа вычислительной машины, то Вам следует быть готовым к рассмотрению различных научных объяснений на различных уровнях описания, связанных по крайней мере в единое целое, причем невзирая на практическую бессмысленность прослеживания связей между уровнями во всех подробностях. В случае систем, решающих задачи обработки информации, кроме того, возникают две тесно переплетающиеся проблемы (процесс и представление), и обе они требуют определенного обсуждения.

Представление и описание

Представлением называется некоторая формальная система, предназначенная для получения в явном виде определенных объектов или видов информации и снабженная инструкцией, указывающей, каким образом система это делает. Мы будем называть результат использования некоторого представления для получения описания некоторого заданного объекта описанием объекта в данном представлении [151].

Так, например, арабская, римская и двоичная системы счисления являются формальными системами, предназначенными для представления чисел. Представление арабского числа задается некоторой цепочкой символов, выбираемых из множества (0, 1, 2, 3, 4, 5, 6, 7, 8, 9), а правило построения описания некоторого конкретного целого числа п заключается в том, что это число разбивается на сумму чисел, кратных степеням числа 10, и значения кратностей записываются в виде цепочки, в которой слева располагается значение кратности наибольшей степени 10, а справа - наименьшей. Так, число тридцать семь равно ЗхЮ¹ + 7X10°, что выражается записью " 37", представляющей описание этого числа в арабской системе счисления. Это описание характеризует разбиение числг на степени числа 10. Число тридцать семь в двоичной системе счисления имеет вид 100101 Такое описание характеризует разбиение представляемого числа на степени числа 2. Е римской системе счисления число тридцать семь имеет вид XXXVII.

Это определение представления является весьма общим. Некоторое пред ставление формы, скажем, будет задаваться некоторой формальной схемо! описания отдельных характеристик формы в сочетании с правилами, опреде ляющими порядок применения этой схемы к объекту конкретной формы Так, партитура обеспечивает возможность представления симфонии, алфави

дает возможность конструировать письменные представления слов и т. д. Выражение " формальная схема" является решающим в нашем определении, однако это не должно пугать читателя. Дело всего лишь в том, что предметом нашего рассмотрения служат машины для обработки информации, а принцип действия этих машин заключается в использовании символов для обозначения объектов (на нашем языке — представления объектов). Назвать нечто формальной схемой — значит сказать лишь, что это — некоторый набор символов и правил их комбинирования, не больше и не меньше.

Представление поэтому не является некоторой абсолютно незнакомой концепцией — все мы постоянно пользуемся представлениями. Тем не менее сама мысль о том, что можно выделить какой-либо аспект реального мира, построив его описание с помощью символа, и что это может оказаться полезным, кажется мне привлекательной и очень конструктивной. В то же время, однако, даже простые примеры, рассмотренные нами, порождают важные проблемы довольно общего характера, которые возникают, как только Вы обращаетесь к какому-нибудь конкретному представлению. Так, например, при выборе представления в арабской системе счисления нетрудно установить, является ли некоторое число некоторой степенью числа 10, но трудно установить, является ли оно некоторой степенью числа 2. При выборе представления в двоичцой системе возникает обратная ситуация. Таким образом, имеется возможность выбора: любое конкретное представление " обнажает" некоторую часть информации за счет другой части информации, отодвигаемой на задний план, причем доступ к последней может стать весьма затруднительным. ^А

Это важный момент, поскольку способ представления информации может существенно повлиять на уровень сложности различных процедур ее обработки, что очевидно даже из рассмотренного выше примера с представлением чисел. При использовании арабских чисел и чисел, представленных в двоичной системе счисления, легко выполняются операции сложения, вычитания и даже умножения, но совсем непросто выполнять их (особенно операцию умножения) при использовании римской системы счисления. Это главная причина того, почему римская культура не смогла развить математику так, как это сделали ранние арабские культуры.

С аналогичной проблемой в наши дни сталкиваются разработчики вычислительной техники. Электронная техника значительно лучше приспособлена для реализации двоичной системы счисления, чем для привычной системы счисления с основанием 10, хотя люди задают исходные данные, представленные по основанию 10, и предпочитают получать результаты в таком же виде. Дилемма, возникающая перед разработчиком, сводится, таким образом, к следующему: стоит ли идти на затраты, связанные с преобразованием чисел в двоичную систему, выполнять арифметические операции над числами в двоичном представлении и затем осуществлять преобразование снова в десятичную систему, либо следует пожертвовать эффективностью схемных решений для того, чтобы выполнять арифметические операции непосредственно с десятичными числами? В целом в вычислительных машинах, предназначенных для решения коммерческих задач, и в карманных калькуляторах используется второй подход, а в универсальных вычислительных машинах — первый. Хотя, вообще говоря, не обязательно использовать для некото-

рого заданного вида информации только одну систему представления, выбор последней - важное решение, которое не терпит легкомыслия. Она определяет, какая именно часть информации будет представляться в явном виде и что, следовательно, окажется отодвинутым на задний план. Кроме того, это решение оказывает глубокое воздействие на то, сколь легко или трудно будет впоследствии обработать эту информацию.

Процесс

Термин процесс имеет очень широкий смысл. Так, например, процессом является и сложение, и процедура преобразования Фурье. Но то же самое можно сказать и о приготовлении чашки чая, и о походе по магазинам. Исходя из целей данной книги я хотел ограничиться значениями, имеющими отношение к машинам, выполняющим обработку информации. Давайте поэтому подробно рассмотрим понятия, относящиеся к одному простому устройству такого типа — кассовому аппарату, установленному в универсаме.

Существует несколько уровней, которым должно соответствовать понимание сути подобного устройства, причем три из них, вероятно, наиболее существенны. Наиболее абстрактным является уровень, указывающий, что делает устройство и зачем оно это делает. Поскольку то, что оно делает, представляет собой арифметические операции, наша первая задача состоит в овладении теоретическими основами суммирования. Итак, суммирование представляет собой некоторое отображение (оно обозначается обычно знаком " +" ), обеспечивающее отображение пары чисел в одно число; так, например, отображение " +" переводит пару чисел (3, 4) в число 7, и мы будем записывать эту операцию в виде (3 +4) -> 7. Сложение обладает, однако, целым рядом абстрактных свойств. Оно коммутативно: как (3 + 4), так и (4 + 3) равны 7. Оно также ассоциативно: сумма 3 + (4 + 5) равна сумме (3 + 4) +5. Кроме того, существует один особый элемент — нуль, сложение с которым не приводит ни к каким изменениям: (4 + 0) -> 4. Далее, для каждого числа существует единственный " обратный" элемент — для числа 4 он записывается как (—4): прибавление к любому числу его обратного элемента дает в результате нуль: [4 + (-4) ] -+ 0.

Отметим, что эти свойства относятся к функциональной теории суммирования. Они остаются истинными независимо от того, каким образом числа записаны - в двоичном, арабском или римском представлении, и независимо от того, каким образом выполняется сложение. Таким образом, этот первый уровень частично отражает то, что можно считать характером выполняемых вычислительных операций {что именно делается в процессе вычислений).

Другая часть этого уровня объяснения связана с вопросом о том, почему кассовый аппарат выполняет сложение, а не, скажем, умножение, объединяя стоимости купленных товаров при подготовке счета к оплате. Причина этого заключается в том, что правила объединения цен отдельных товаров, которые интуитивно кажутся нам подходящими, в сущности, и определяют математическую операцию сложения. Они могут быть сформулированы в виде следующих ограничений:

1. Если Вы ничего не купили, то Вы не должны ничего платить; покупка же " ничего" и " чего-нибудь" должна стоить столько же, сколько покупка лишь одного этого " чего-нибудь". (Правила, характеризующие обращение с нулем.)

2. Порядок предъявления товаров кассиру не должен влиять на величину итогового счета. (Коммутативность.)

3. Разделение купленных товаров на две группы и оплата стоимости каждой группы в отдельности не должны влиять на величину итогового счета. (Ассоциативность. Это основная операция объединения цен отдельных товаров.)

4. Если Вы купили какой-то товар, а затем вернули его, то в итоге Ваши затраты должны быть равны нулю. (Обращения.)

В математике известна теорема, утверждающая, что эти условия определяют операцию сложения. Следовательно, именно ее и надо использовать в вычислительном процессе.

Эти правила, вместе взятые, и составляют то, что я называю информационной теорией кассового аппарата. Вот ее существенные особенности: описания процесса вычислений и цели этих вычислений разделены; операция, используемая для получения результата, определена однозначно ограничениями, которым она должна удовлетворять. Основополагающей задачей теории зрительных процессов является надежное определение свойств материального мира по его изображениям; центральную тему нашего исследования составляет проблема вьщеления ограничений, обладающих одновременно силой, которая обеспечивает возможность определения соответствующего процесса, и истинностью для всего нашего материального мира.

Для того чтобы любой процесс начал фактически осуществляться, естественно, его необходимо каким-то образом реализовать и, следовательно, выбрать некоторое представление для тех объектов, которыми соответствующий процесс оперирует. Таким образом, второй уровень анализа любого процесса предусматривает две процедуры: а) выбор некоторого представления для входной и выходной информации процесса; 2) выбор некоторого алгоритма, с помощью которого искомое преобразование может быть реализовано. Конечно, для процедуры сложения представления входных и выходных данных могут быть одинаковыми, поскольку и то и другое используют числа. В общем случае, однако, это не так. Например, при выполнении преобразования Фурье исходные данные могут представляться во временной области, а выходные данные—в частотной. Если первый из наших уровней характеризует содержание и цель вычислений, го второй уровень - способ их выполнения. В случае сложения для представлений можно воспользоваться арабскими числами, а в случае алгоритма можно обратиться к обычным правилам суммирования в первую очередь значений самого младшего разряда и " переноса", если соответствующая сумма оказывается больше девяти. В кассовых аппаратах независимо от того, механические они или электронные, обычно используются этот тип представления и этот алгоритм.

В сказанном выше содержатся три важных момента. Во-первых, выбор допустимых представлений обычно довольно обширен. Во-вторых, выбор алгоритма часто решающим образом зависит от того, какое представление используется. И, в-третьих, даже если некоторое определенное представление уже выбрано, часто для реализации одного и того же процесса оказываются пригодными несколько различных алгоритмов. Выбор алгоритма обычно основывается на какой-либо одной особо необходимой или неприемлемой характеристике алгоритма; так, один алгоритм может быть существенно эффективнее другого, а третий несколько менее эффективным, но более устойчивым (т. е. менее чувствительным к небольшим неточностям в данных, которые он должен обрабатывать) либо, скажем, один алгоритм — параллельный, а другой —последовательный.Выбор алгоритма, следовательно, может зависеть от типа тех технических средств, которые будут использоваться для реализации этого алгоритма.

Это замечание подводит нас к третьему уровню — уровню устройств, с помощью которых процесс осуществляется физически. Важным здесь является то обстоятельство, что снова один и тот же алгоритм можно реализовать с

помощью самых различных технических средств. Ребенок, последовательно складывающий справа налево два числа, возможно, пользуется тем же самым алгоритмом, который реализован с помощью проводов и транзисторов в кассовом аппарате, установленном в ближайшем универсаме, однако физическая реализация алгоритма в этих двух случаях не имеет ничего общего. Другой пример: многие занимались разработкой машинных программ для игры в крестики-нолики, причем известен более или менее стандартный алгоритм, гарантирующий от проигрыша У. Д. Хиллис и Б. Силверман реализовали этот алгоритм на совершенно особой технике —вычислительной машине, построенной из набора деревянных деталей конструктора " Мастер на все руки" ¹. Сейчас этот чудовищно неуклюжий механизм, который тем не менее действительно работает, находится в музее Университета штата Миссури в Сент-Луисе.

В зависимости от характера алгоритма некоторые способы его физической реализации могут оказаться более естественными, чем другие. Так, число соединений, имеющихся в обычной цифровой вычислительной машине, сопоставимо с числом ее логических элементов, в то время как в мозге число связей много больше (в 10⁴ раз) числа нервных клеток. Основная причина этого заключается в сравнительной " дешевизне" связей, использующихся в биологической архитектуре, поскольку они могут выращиваться индивидуально и к тому же в трехмерном пространстве. Нынешняя технология предусматривает в основном плоскую укладку соединительных проводов, что весьма существенно ограничивает диапазон использования параллельных методов и алгоритмов. Соответствующие процедуры часто лучше реализуются последовательно.

⇐ Предыдущая 1 234 5 6 7 8 9 10 Следующая ⇒

Последнее изменение этой страницы: 2019-04-09; Просмотров: 71; Нарушение авторского права страницы