МОДЕЛЬНЫЕ ПРЕДСТАВЛЕНИЯ ОБ ОБЩЕЙ СТРУКТУРЕ ПРОЦЕССА ЗРИТЕЛЬНОГО УЗНАВАНИЯ

Модели зрения и системы видения на базе ЦВМ


Физиологические модели. Сейчас доминирующей схемой зрительного узнавания является схема, основанная на представлении о "детекторах признаков"- каждый нейрон зрительной системы кодирует вполне определенный признак внешнего мира, расположенный в определенном месте поля зрения. Детекторы организованы иерархически - чем выше уровень обработки, тем более сложные признаки внешнего мира выделяются детекторами. Самый верхний уровень - гностические нейроны, реагирующие только на определенные классы целостных изображений, например, гностическим нейроном может быть даже "детектор слона".

Детекторная теории имеет ряд серьезных недостатков-не ясно, как из "простых" детекторов при обучении формируются "сложные", как "новые" детекторы включаются в общую структуру детекторов. Кроме того, в последние годы получены электрофизиологические данные, которые не согласуются с детекторной теорией. (Эти данные 1) обсуждались в главе IX в связи с представлением о параллельной обработке входного изображения по двум каналам.) Очевидно, на основе только представлении о детекторах не объяснить всей сложной картины процесса зрительного восприятия. Вероятно, детекторы служат для экономною кодирования входного изображении и передачи его на более сложные уровни обработки. "Мир" низших животных (например, лягушки) достаточно беден. Поэтому их зрительной системе, целесообразно формировать детекторы на некоторые важные зрительные объекты (например, на муху). Чем выше в эволюционном ряду животное, тем более сложным является его поведение и теп богаче его "зрительный мир". Для успешной работы с объектами в таком мире можно идти двумя путями - либо усложнять и увеличивать число различных детекторов, либо упрощать, "унифицировать" набор детекторов и при атом усложнять принципы обработки преобразованного входными детекторами изображения на более высоких уровнях. Известно, что у кошек и обезьян детекторы зрительных признаков более простые, чем у лягушки. Вероятно, природа пошла по второму пути.

Наиболее известной моделью зрительной системы, использующей теорию детекторов, является "персептрон" Ф. Розенблатта. Из более новых работ такого типа следует отметить модель Зенкипа и Петрова. В нашу задачу не входит обсуждение достоинств и недостатков такого рода моделей. Такой анализ "для "персептрона" проводили разные авторы. Моделей, в меньшей степени опирающихся на детекторы признаков, пока немного. Это, прежде всего, -модель Глезера и др., а также Харичева и др. Согласно этой модели входное изображение с помощью "детекторов решеток" разной ориентации подвергается кусочному фурье-разложению. На более высоких уровнях обработки такое представление изображения может быть использовано как его детальное описание. Кроме того, в модели предусмотрено получение интегральных инвариантов, служащих для инвариантного узнавания объектов. "Канал инвариантов" является независимым от "канала параметров для оценки вариант".

В отношении предположения этих авторов относительно двух разных каналов обработки имеется определенное сходство с изложенной здесь концепцией о двух подсистемах в зрении - для составления обобщенного (схематического) и детального (конкретного) описания. Другой общей чертой двух рассматриваемых моделей является использование пространственно частотного" анализа.

Другой известной моделью зрительного узнавания является модель Д. Кирвелиса. От упомянутых выше моделей она отличается одним важным свойством - это модель активного узнавания. В ней на основе результатов предварительного анализа выдвигается визуальная гипотеза о классе рассматриваемого объекта и происходит ее проверка. Предварительная классификация основана на локальном анализе изображения объекта с помощью набора детекторов краев и кривизны разной ориентации. Результат предварительной классификации используется для поиска изображения - реализации класса непосредственно в хронологической памяти. Реализации хранятся в хронологической памяти в виде пространственно-частотных спектров (полученных в результате преобразования Френеля). Последние два свойства модели Кирвелиса (предварительная классификация и пространственно-частотное кодирование) сближают ее с описанной в этой главе нашей моделью. Однако между ними есть целый ряд различий. Наиболее существенные из них следующие: 1) Д. Кирвелис но рассматривал важные этапы предварительного анализа сцепы для выделения одиночного объекта из фона; 2) совершенно иным в нашей модели является этап проверки гипотезы - за счет движении глаз по информативным участкам изображения; 3) в предлагаемой пали модели учтен факт малого перекрытия полуполей зрения в области кортикального меридиана (3°), что накладывает жесткие ограничения на возможность обработки изображений крупных объектов; это ограничение привело к представлению о детерминированном порядке осмотра глазом изображения на основе оценки его "функции информативности".

Системы видения на базе ЦВМ. Для целей моделирования зрения полезно ознакомиться с техническими работами в области построения узнающих систем видения для автономных роботов. Построенные к настоящему моменту системы видения (в основном в виде действующих макетов) способны узнавать ограниченное число классов (например, три класса в работе Шираи, один класс в работе, причем объекты имеют простую форму (многогранники) или заметно отличаются по форме друг от друга (например, в упомянутой работе Шираи проводилось узнавание телефона, стакана и полки с книгами, стоящих на столе). В подавляющем большинстве таких работ узнавание основано на использовании так называемой "модели мира", описывающей виды объектов, с которыми может столкнуться система видения, их отношения, и задающей систему действий для проверки тех или иных признаков объектов. Например, в "модели мира" системы Шираи предусмотрены "модели линий" разных ориентации. В ходе работы по анализу исходного изображения и выделению объектов система выдвигает гипотезу о наличии линии с конкретным наклоном в конкретном месте поля зрения. После этого включается "модель линии", задающая целенаправленный поиск других точек линии в определенном направлении.

Нам представляется, что в зрительной системе на нижних уровнях обработки "модели признаков" не используются. Если даже заранее знать, что на сцене есть одиночный знакомый предмет, то все равно нужно перебирать несколько "моделей объекта", так как форма большинства трехмерных объектов (форма их контуров) различна при разных ракурсах. Круг возможных гипотез слишком велик, а перебор гипотез занял бы очень большое время. В то же время не вызывает сомнений то. что на гораздо более высоких уровнях обработки зрительная система использует некоторую "модель мира", построенную в ходе научения человека. Эта уверенность основана, в частности, на большом числе фактов зависимости результатов узнавания от предварительной установки человека, его "настроя" увидеть нечто вполне определенное. Большой фактический материал по этому вопросу изложен в книге Грегори.

Место предлагаемой модели узнавания. Изложенная в этой главе модель не охватывает все этажи узнавания. Например, модель не распространяется на случай анализа такой сцены, как "жонглер с мячом па голове". Хотя по отдельности и жонглер и мяч могут быть легко опознаны, интерпретация такой сцены требует определенной "модели мира", в которой предусмотрены различные возможные отношения между известными объектами. В изложенной модели использованы некоторые элементы представления о "модели мира".

Стратегия осмотра информативных мест при проверке гипотезы о виде предъявленного объекта - это, по-существу, использование набора "моделей объектов". Важно заметить, что чем выше уровень обработки и тем самым, объем полученной информации, тем больше сужается круг возможных гипотез. Поэтому на высших уровнях узнавания при интерпретации "сложных сцен" использование "модели мира" становится эффективным.

Таким образом, изложенная модель ограничена случаем узнавания отдельных объектов на сложной сцене и не распространяется на случай интерпретации произвольных составных сцеп из известных объектов.

В заключение коротко перечислим основные черты изложенной модели узнавания, отличающие ее от других известных моделей:


1) наличие предваряющего собственно узнавание многоэтапного процесса выделения отдельного объекта из фона;
2) выделение в зрительной системе двух подсистем - схематического, обобщенного узнавания (в левом полушарии) и конкретного узнавания (и правом полушарии);
3) использование для описания изображений объектов и их запоминания пространственно-частотного анализа;
4) стандартное разбиение изображения объекта на отдельные определенные части и их осмотр по определенной стратегии (согласно "функции информативности изображения");
5) представление об обработке левым полушарием только "части" изображения, а правым - "целого" изображения сцены (или объекта);
6) одновременное использование для описания изображения объекта локальной (разбиение но функции информативности) и нелокальной (спектральное представление отдельного выделенного куска изображения) информации;
7) использование для узнавания стратегии выдвижения и проверки гипотез;
8) возможность детального воспроизведения следов виденных ранее изображений объектов;
9) использование непосредственной, "визуальной" проверки выдвинутой гипотезы.
Предложенная нами модель узнавания отражает наш сегодняшний уровень знаний о зрительной системе и, естественно, является упрощенной. Однако она может помочь сформулировать и выполнить ряд целенаправленных экспериментов по зрительному восприятию человека и животных. Новые экспериментальные результаты позволят уточнить и модифицировать эту модель либо от нее отказаться.



  • Поражения мозга
  • Психофизиология
  • Процесс узнавания
  • Анализ зрения
  • Механизмы узнавания
  • Модели зрения

  • TBN.ru - naoe, ?eaouea ii i?aaeeai