Глава 3 системы распознавания образов (идентификации)


Содержание

Лекция 3. Системы распознавания образов (идентификации) Понятие образа. Проблема обучения распознаванию образов. Геометрический и структурный подходы. — презентация

Презентация была опубликована 4 года назад пользователемВалерий Бурлей

Похожие презентации

Презентация на тему: » Лекция 3. Системы распознавания образов (идентификации) Понятие образа. Проблема обучения распознаванию образов. Геометрический и структурный подходы.» — Транскрипт:

1 Лекция 3. Системы распознавания образов (идентификации) Понятие образа. Проблема обучения распознаванию образов. Геометрический и структурный подходы. Гипотеза компактности. Обучение и самообучение. Адаптация и обучение. Методы обучения распознаванию образов — персептроны, нейронные сети, метод потенциальных функций, метод группового учета аргументов, метод предельных упрощений, коллективы решающих правил. Методы и алгоритмы анализа структуры многомерных данных — кластерный анализ, иерархическое группирование.

2 Понятие образа Образ(класс) классификационная группировка в системе классификации, объединяющая (выделяющая) определенную группу объектов по некоторому признаку. Образное восприятие окружающего мира, позволяющее разобраться в огромном потоке информации, основывается на умении классифицировать объекты, ощущения, явления по некоторым признакам и разбивать их на группы похожих по некоторым признакам, но не тождественным явлениям. В литературе, посвященной проблеме обучения распознавания образов (ОРО), часто вместо понятия образа вводится понятие класса.

3 Проблема обучения распознаванию образов На рисунке представлены 12 задач, в которых следует отобрать признаки, при помощи которых можно отличить левую триаду картинок от правой. Решение данных задач требует моделирования логического мышления в полном объеме. Рис. 1.

4 Проблема обучения распознаванию образов. Часть 2 Проблема распознавания образов Обучение распознаванию. Осуществляется путем показа отдельных объектов с указанием их принадлежности тому или другому образу. В результате распознающая система должна приобрести способность реагировать одинаковыми реакциями на все объекты одного образа и различными на все объекты различных образов. Собственно распознавание

5 Проблема обучения распознаванию образов. Часть 3 Круг задач, которые могут решаться с помощью распознающих систем, чрезвычайно широк. Сюда относятся не только задачи распознавания зрительных и слуховых образов, но и задачи распознавания сложных процессов и явлений, возникающих, например, при выборе целесообразных действий руководителем предприятия или выборе оптимального управления технологическими, экономическими, транспортными или военными операциями. В каждой из таких задач анализируются некоторые явления, процессы, состояния внешнего мира, всюду далее называемые объектами наблюдения. Прежде чем начать анализ какого-либо объекта, нужно получить о нем определенную, каким-либо способом упорядоченную информацию. Такая информация представляет собой характеристику объектов, их отображение на множестве воспринимающих органов распознающей системы.

6 Проблема обучения распознаванию образов. Часть 4 Каждое отображение какого-либо объекта на воспринимающие органы распознающей системы, независимо от его положения относительно этих органов, принято называть изображением объекта, а множества таких изображений, объединенные какими-либо общими свойствами, представляют собой образы. Ситуацией принято называть некоторую совокупность состояний сложного объекта, каждая из которых характеризуется одними и теми же или схожими характеристиками объекта. Выбор исходного описания объектов является одной из центральных задач проблемы ОРО. При удачном выборе исходного описания (пространства признаков) задача распознавания может оказаться тривиальной и, наоборот: неудачно выбранное исходное описание может привести либо к очень сложной дальнейшей переработке информации, либо вообще к отсутствию решения.

7 Геометрический и структурный подходы Любое изображение, которое возникает в результате наблюдения какого-либо объекта в процессе обучения, можно представить в виде вектора, а значит и в виде точки некоторого пространства признаков. Если утверждается, что при показе изображений возможно однозначно отнести их к одному из двух (или нескольких) образов, то тем самым утверждается, что в некотором пространстве существует две (или несколько) области, не имеющие общих точек, и что изображения точки из этих областей. Каждой такой области можно приписать наименование, т. е. дать название, соответствующее образу. Проинтерпретируем теперь в терминах геометрической картины процесс обучения распознаванию образов, ограничившись пока случаем распознавания только двух образов. Заранее считается известным лишь только то, что требуется разделить две области в некотором пространстве и что показываются точки только из этих областей. Сами эти области заранее не определены, т. е. нет каких-либо сведений о расположении их границ или правил определения принадлежности точки к той или иной области.

8 Геометрический и структурный подходы. Часть 2 В ходе обучения предъявляются точки, случайно выбранные из этих областей, и сообщается информация о том, к какой области принадлежат предъявляемые точки. Никакой дополнительной информации об этих областях, т. е. о расположении их границ, в ходе обучения не сообщается. Цель обучения состоит либо в построении поверхности, которая разделяла бы не только показанные в процессе обучения точки, но и все остальные точки, принадлежащие этим областям, либо в построении поверхностей, ограничивающих эти области так, чтобы в каждой из них находились только точки одного образа. Рис. 2

9 На первый взгляд кажется, что знание всего лишь некоторого количества точек из области недостаточно, чтобы отделить всю область. Действительно, можно указать бесчисленное количество различных областей, которые содержат эти точки, и как бы ни была построена по ним поверхность, выделяющая область, всегда можно указать другую область, которая пересекает поверхность и вместе с тем содержит показанные точки. Разумеется, решение таких задач требует введения определенных ограничений на классе рассматриваемых функций, а выбор этих ограничений зависит от характера информации, которую может добавить учитель в процессе обучения. Одной из таких подсказок является гипотеза о компактности образов. Интуитивно ясно, что аппроксимация разделяющей функции будет задачей тем более легкой, чем более компактны и чем более разнесены в пространстве области, подлежащие разделению. Так, например, в случае, показанном на Рис. а, разделение заведомо более просто, чем в случае, показанном на Рис. б. Действительно, в случае, изображенном на Рис. а, области могут быть разделены плоскостью, и даже при больших погрешностях в определении разделяющей функции она все же будет продолжать разделять области. Геометрический и структурный подходы. Часть 3

10 Геометрический и структурный подходы. Часть 4 Наряду с геометрической интерпретацией проблемы обучения распознаванию образов существует и иной подход, который назван структурным, или лингвистическим. Сначала выделяется набор исходных понятий типичных фрагментов, встречающихся на изображениях, и характеристик взаимного расположения фрагментов «слева», «снизу», «внутри» и т. д. Эти исходные понятия образуют словарь, позволяющий строить различные логические высказывания, иногда называемые предположениями. Задача состоит в том, чтобы из большого количества высказываний, которые могли бы быть построены с использованием этих понятий, отобрать наиболее существенные для данного конкретного случая. Далее, просматривая конечное и по возможности небольшое число объектов из каждого образа, нужно построить описание этих образов. Построенные описания должны быть столь полными, чтобы решить вопрос о том, к какому образу принадлежит данный объект. При реализации лингвистического подхода возникают две задачи: задача построения исходного словаря, т. е. набор типичных фрагментов, и задача построения правил описания из элементов заданного словаря.

11 Гипотеза компактности Если предположить, что в процессе обучения пространство признаков формируется исходя из задуманной классификации, то тогда можно надеяться, что задание пространства признаков само по себе задает свойство, под действием которого образы в этом пространстве легко разделяются. Именно эти надежды по мере развития работ в области распознавания образов стимулировали появление гипотезы компактности, которая гласит: образам соответствуют компактные множества в пространстве признаков. Под компактным множеством пока будем понимать некие «сгустки» точек в пространстве изображений, предполагая, что между этими сгустками существуют разделяющие их разряжения.

12 Обучение и самообучение. Адаптация и обучение Все картинки, представленные на Рис. 1, характеризуют задачу обучения. В каждой из этих задач задается несколько примеров (обучающая последовательность) правильно решенных задач. Если бы удалось подметить некое всеобщее свойство, не зависящее ни от природы образов, ни от их изображений, а определяющее лишь их способность к разделимости, то наряду с обычной задачей обучения распознаванию, с использованием информации о принадлежности каждого объекта из обучающей последовательности тому или иному образу можно было бы поставить иную классификационную задачу так называемую задачу обучения без учителя.

13 Задачу такого рода на описательном уровне можно сформулировать следующим образом: Системе одновременно или последовательно предъявляются объекты без каких-либо указаний об их принадлежности к образам. Входное устройство системы отображает множество объектов на множество изображений и, используя некоторое заложенное в нее заранее свойство разделимости образов, производит самостоятельную классификацию этих объектов. После такого процесса самообучения система должна приобрести способность к распознаванию не только уже знакомых объектов (объектов из обучающей последовательности), но и тех, которые ранее не предъявлялись. Обучение и самообучение. Адаптация и обучение

14 Обучение и самообучение. Адаптация и обучение. Обучением обычно называют процесс выработки в некоторой системе той или иной реакции на группы внешних идентичных сигналов путем многократного воздействия на систему внешней корректировки. Такую внешнюю корректировку в обучении принято называть «поощрениями» и «наказаниями». Механизм генерации этой корректировки практически полностью определяет алгоритм обучения. Самообучение отличается от обучения тем, что здесь дополнительная информация о верности реакции системе не сообщается.

15 Обучение и самообучение. Адаптация и обучение. Адаптация это процесс изменения параметров и структуры системы, а возможно, и управляющих воздействий на основе текущей информации с целью достижения определенного состояния системы при начальной неопределенности и изменяющихся условиях работы. Обучение это процесс, в результате которого система постепенно приобретает способность отвечать нужными реакциями на определенные совокупности внешних воздействий, а адаптация это подстройка параметров и структуры системы с целью достижения требуемого качества управления в условиях непрерывных изменений внешних условий.

1.1 Понятие системы распознавания образов: история и современность

Распознавание — это способность живых организмов обнаруживать в потоке информации, поступающей от органов чувств, определённые объекты, закономерности, явления. Оно может осуществляться на основе зрительной, слуховой, тактильной информации. Так, человек без труда может узнать другого знакомого ему человека, взглянув на него или услышав его голос. Некоторые животные активно используют обоняние для узнавания других особей и поиска пищи.

Под образом (объектом) в системе распознавания понимается совокупность данных на входе системы. Данные могут быть представлены различным образом: изображение, последовательность звуков, набор числовых характеристик и т.д.

Возможность распознавания опирается на схожесть однотипных объектов. Несмотря на то, что все предметы и ситуации уникальны в строгом смысле, между некоторыми всегда можно найти сходства по тому или иному признаку. Результат распознавания — классификация некоторого определенного объекта. Отсюда возникает понятие классификации — разбиения всех объектов на классы, элементы которых имеют некоторые схожие свойства, отличающие их от элементов других классов. И, таким образом, задачей распознавания является присвоение объектов по их описанию к нужным классам.

Человеку в процессе классификации совсем не обязательно точно определять характерные признаки объекта, имеет значение только окончательный результат процесса наблюдения, восприятия и распознавания. Автоматические системы должны осуществлять такую же классификацию, как и человек, но они должны явным образом использовать характерные признаки объекта.

Таким образом, можно сформулировать понятие системы распознавания (объектов, образов, сигналов, ситуаций, явлений или процессов) — сложная система выполняющая задачу идентификации объекта и присвоение ему класса или определения каких-либо его свойств по изображению (оптическое распознавание), радиосигналу (распознавание радиосигнала) или аудиосигналу (акустическое распознавание) и другим характеристикам.

В истории развития компьютерного распознавания можно выделить следующие этапы:

1955 г. — профессор Массачусетского технологического института (МТИ) Оливер Селфридж опубликовал статью «Глаза и уши для компьютера». В ней автор выдвинул теоретическую идею оснащения компьютера средствами распознавания звука и изображения.

1958 г. — психолог Фрэнк Розенблатт из Корнеллского университета создал компьютерную реализацию персептрона (от perception — восприятие) — устройства, моделирующего схему распознавания образов человеческим мозгом. Персептрон был впервые смоделирован в 1958 году, причем его обучение требовало около получаса машинного времени на ЭВМ IBM-704.

1960-е гг. — появление первых программных систем обработки изображений (в основном для удаления помех с фотоснимков, сделанных с самолетов и спутников), стали развиваться прикладные исследования в области распознавания печатных символов. Однако все еще существовали ограничения в развитии данной области науки, такие как отсутствие дешевых оптических систем ввода данных, ограниченность и довольно узкая специализация вычислительных систем. Бурное развитие систем распознавания и компьютерного зрения на протяжении 60-х годов можно объяснить расширением использования вычислительных машин и очевидной потребностью в более быстрой и эффективной связи человека с ЭВМ. К началу 60-х годов задачи компьютерного зрения в основном охватывали область космических исследований, требовавших обработки большого количества цифровой информации.

1970-е гг. — Лавренсе Робертс, аспирант МТИ, выдвинул концепцию машинного построения трехмерных образов объектов на основе анализа их двумерных изображений. На данном этапе стал проводиться более глубокий анализ данных. Начали развиваться различные подходы к распознаванию объектов на изображении, например структурные, признаковые и текстурные.

1979 г. — профессор Ганс-Хельмут Нагель из Гамбургского университета заложил основы теории анализа динамических сцен, позволяющей распознавать движущиеся объекты в видеопотоке.

В конце 1980-х годов были созданы роботы, способные более-менее удовлетворительно оценивать окружающий мир и самостоятельно выполнять действия в естественной среде

80-е и 90-е годы ознаменовались появлением нового поколения датчиков двухмерных цифровых информационных полей различной физической природы. Развитие новых измерительных систем и методов регистрации двухмерных цифровых информационных полей в реальном масштабе времени позволило получать для анализа устойчивые во времени изображения, генерируемые этими датчиками. Совершенствование же технологий производства этих датчиков позволило существенным образом снизить их стоимость, а значит, значительно расширить область их применения.

С начала 90-х годов в алгоритмическом аспекте последовательность действий по обработке изображения принято рассматривать в согласии с так называемой модульной парадигмой. Эта парадигма, предложенная Д. Марром на основе длительного изучения механизмов зрительного восприятия человека, утверждает, что обработка изображений должна опираться на несколько последовательных уровней восходящей информационной линии: от «иконического» представления объектов (растровое изображение, неструктурированная информация) — к их символическому представлению (векторные и атрибутивные данные в структурированной форме, реляционные структуры и т.п.).

В середине 90-х годов появились первые коммерческие системы автоматической навигации автомобилей. Эффективные средства компьютерного анализа движений удалось разработать в конце XX века.

2003 г. — на рынок были выпущены первые достаточно надежные корпоративные системы распознавания лиц.

Развитие и распространение компьютерной обработки информации в середине ХХ века привели к появлению методов машинного распознавания, позволяющего расширить круг выполняемых компьютерами задач и сделать машинную переработку информации более интеллектуальной. Примерами сфер применения распознавания могут служить системы распознавание лиц, автомобильных номеров, распознавание речи, отпечатков пальцев, машинное зрение и прочее. Несмотря на то, что некоторые из этих задач решаются человеком на подсознательном уровне с большой скоростью, до настоящего времени ещё не создано компьютерных программ, решающих их в столь же общем виде. Существующие системы предназначены для работы лишь в специальных случаях со строго ограниченной областью применения.

Интеллектуальные системы распознавания образов: современное состояние и проблемы реализации Текст научной статьи по специальности « Общие и комплексные проблемы технических и прикладных наук и отраслей народного хозяйства»

Аннотация научной статьи по общим и комплексным проблемам технических и прикладных наук и отраслей народного хозяйства, автор научной работы — Елистратов С.А., Козлова Ю.Б.

В современном мире интеллектуальные системы являются наиболее перспективным направлением в области информационных технологий. Они востребованы там, где невозможно или нецелесообразно присутствие человека (например, исследование космоса, обработка больших объемов информации). Однако данная область до сих пор недостаточно проработана.

Похожие темы научных работ по общим и комплексным проблемам технических и прикладных наук и отраслей народного хозяйства , автор научной работы — Елистратов С.А., Козлова Ю.Б.,

INTELLECTUAL SYSTEMS OF PERSON RECOGNITION: MODERN CONDITION AND PROBLEMS OF IMPLEMENTATION

In the modern world, intelligent systems are the most promising area in the field of information technology. They are in demand where it is impossible or inappropriate for the a person presence (for example, exploring the cosmos, processing large amounts of information). However, this area has not been sufficiently developed yet.

Текст научной работы на тему «Интеллектуальные системы распознавания образов: современное состояние и проблемы реализации»

Решетневские чтения. 2020

ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ РАСПОЗНАВАНИЯ ОБРАЗОВ: СОВРЕМЕННОЕ СОСТОЯНИЕ И ПРОБЛЕМЫ РЕАЛИЗАЦИИ

С. А. Елистратов, Ю. Б. Козлова

Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

В современном мире интеллектуальные системы являются наиболее перспективным направлением в области информационных технологий. Они востребованы там, где невозможно или нецелесообразно присутствие человека (например, исследование космоса, обработка больших объемов информации). Однако данная область до сих пор недостаточно проработана.

Ключевые слова: нейронная сеть, алгоритм, библиотека, интеллектуальные системы, распознавание образов.

INTELLECTUAL SYSTEMS OF PERSON RECOGNITION: MODERN CONDITION AND PROBLEMS OF IMPLEMENTATION

S. A. Elistratov, Y. B. Kozlova

Reshetnev Siberian State University of Science and Technology 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: 79293085921@ya.ru

In the modern world, intelligent systems are the most promising area in the field of information technology. They are in demand where it is impossible or inappropriate for the a person presence (for example, exploring the cosmos, processing large amounts of information). However, this area has not been sufficiently developed yet.

Keywords: neural network, algorithm, library, intelligent systems, pattern recognition.

Современная жизнь становиться все более автоматизированной, ускоряя темпы экономики и жизни общества в целом. Однако некоторые области до сих пор полностью не проработаны, не достигнуты желаемые результаты, способные повлиять на жизнь человечества. Одним из таких направлений является разработка системы распознавания образов.

Такие системы имеют большую востребованность в космических разработках и в органах по управлению безопасностью жизнедеятельности населения, в частности, в местах массового скопления людей, с целью предотвращения терроризма, а также распознавания личностей, совершивших преступления (аэропорты, вокзалы, банки, супермаркеты и торговые центры, культурно-развлекательные и спортивные объекты). Также важно контролировать порядок на улицах города.

В настоящее время одной из проблем развития интеллектуальных систем распознавания лиц является отсутствие доступного технического оснащения. Камеры, передающие очень качественное изображение, необходимое для обработки системой, имеют высокую стоимость. Соответственно, очень малая часть субъектов мировой экономики может себе позволить такие расходы. Часто они являются нецелесообразными. К тому же, сама система распознавания лиц является довольно затратной.

К проблеме низкокачественного оборудования съемки также добавляются факторы освещенности,

погодных условий, температурного режима. Также существует несколько способов скрыть внешность от камер — головные уборы, очки, макияж, парик, борода, усы и т. д. Способы преодоления данных факторов на сегодняшний день не найдено.

Также важной проблемой является отсутствие ресурсов у компаний-разработчиков. Для разработки интеллектуальных систем высокого уровня требуются крупные инвестиции, вложить которые готов не каждый, так как не известен результат разработки.

На сегодняшний день так и не разработан оптимальный алгоритм распознавания, существует несколько ведущих библиотек, которым удается распознавать образы на картинке, искать идентичные лица в сети. Однако цель поиска местонахождения объекта или его идентификации не достигнута.

Ведущие мировые компании области информационных технологий, такие как Google, Microsoft, Facebook Apple, Intel создали отделы по разработке библиотек распознавания образов. Пока результаты их работы ограничиваются простыми приложениями с распознаванием пород животных, людей, однако, их ожидания в ближайшей перспективе являются довольно высокими. В сентябре 2020 г. стало известно, что ученые Индии и Великобритании научили нейронную сеть распознавать преступников с предметами маскировки [4].

Компания FaceBook, разработала алгоритм под названием DeepFace, которая позволит визуально

Программные средства и информационные технологии


анализировать, сравнивать и идентифицировать человеческие лица с невероятно высокой точностью (до 97,25 %). DeepFace будет использовать технику 3Б-моделирования для сканирования объекта, но сам алгоритм строится на основе процесса «фронтализа-ции», то есть изменения угла изображения таким образом, чтобы лицо человека смотрело прямо вперед. Затем полученные данные переводятся в числовое значение и обрабатываются для последующего сравнения. На данный момент, DeepFace проходит этапы тестирования, для которого FaceBook уже идентифицировали порядка 4 млн фотографий своих пользователей [2].

Компанией Google была разработана открытая программная библиотека для машинного обучения под названием «TensorFlow». Она позволяет решать задачи построения и тренировки нейронной сети с целью автоматического нахождения и классификации образов, достигая качества человеческого восприятия. В то время как эталонная реализация работает на единичных устройствах, TensorFlow может работать на многих параллельных процессорах, как CPU, так и GPU, опираясь на архитектуру CUDA для поддержки вычислений общего назначения на графических процессорах). Уникальность библиотеки состоит в следующих характеристиках:

— основная библиотека подходит для широкого семейства техник машинного обучения, а не только для глубинного обучения;

— линейная алгебра и другие внутренности хорошо видны снаружи;

— в дополнение к основной функциональности машинного обучения, TensorFlow также включает собственную систему логирования, собственный интерактивный визуализатор логов и даже мощную архитектуру по доставке данных;

— модель исполнения TensorFlow отличается от scikit-learn языка Python и от большинства инструментов в R.

Вычисления TensorFlow выражаются как графы потоков данных с сохранением состояния (stateful). Библиотека алгоритмов от Google инструктирует нейронные сети воспринимать информацию и рассуждать подобно человеку, так что новые приложения изначально обладают такими «человеческими» качествами. Само название TensorFlow происходит от названия операций, которые эти нейросети осуществляют над многомерными массивами данных. Эти многомерные массивы именуются «тензорами», как одноимённые математические объекты, линейно преобразующие элементы одного линейного пространства в элементы другого. Задача TensorFlow — учить нейросети обнаруживать и распознавать паттерны и корреляции в массивах данных [5].

OpenCV — библиотека алгоритмов компьютерного зрения, обработки изображений и численных алго-

ритмов общего назначения с открытым кодом. Реализована на C/C++, также разрабатывается для Python, Java, Ruby, Matlab, Lua и других языков. Может свободно использоваться в академических и коммерческих целях — распространяется в условиях лицензии BSD [3]. OpenCV предоставляет различные классификаторы, которые можно использовать для распознавания лиц, глаз, автомобилей, и многих других объектов. Эти классификаторы, однако, достаточно просты, они не обучены с использованием технологий машинного обучения, поэтому, при распознавании лиц точность составит примерно в 80 % [1].

Технологии распознавания объектов достигли высоких результатов, однако недостаточных для реализации крупных задач, таких как исследования космоса и планет, где невозможно присутствие человека. В связи с этим требуется постоянное совершенствование алгоритмов распознавания объектов и обучения нейронных сетей.

Национальная библиотека им. Н. Э. Баумана
Bauman National Library

Персональные инструменты

Распознавание образов

Авторство
Чичварин Н. В.
Согласовано: 29.04.2020

Распознавание образов — научное направление, связанное с разработкой принципов и построением систем, предназначенных для определения принадлежности данного объекта к одному из заранее выделенных классов объектов.

Содержание

Введение

С развитием вычислительной техники стало возможным решить ряд задач, возникающих в процессе жизнедеятельности, облегчить, ускорить, повысить качество результата. К примеру, работа различных систем жизнеобеспечения, взаимодействие человека с компьютером, появление роботизированных систем и др. Тем не менее, отметим, что обеспечить удовлетворительный результат в некоторых задачах (распознавание быстродвижущихся подобных объектов, рукописного текста) в настоящее время не удается. Таким образом, в этой статье предлагается обсудить методы и принципы, применяемые в вычислительной технике для выполнения поставленной задачи. [1]

Задача поиска изображения по образцу является частью (подзадачей) более общей задачи распознавания образов. При несистематизированном и ненаправленном поиске «схожих» объектов из множества объектов, их можно перечислять бесконечно долго и не прийти к завершению с заданной вероятностью. В частных случаях объекты характеризуются такими идентификационными параметрами(признаками), как форма, цвет, положение, подвижность, по отличительным особенностям, их комбинации и т.п. В зависимости от этих факторов объекты подвергаются классификации. Часто стоит не глобальная задача классификации всех окружающих объектов, а необходимость выделить в поступающем видео-потоке объекты определенного рода. Далее рассмотрены наиболее распространенные классификационные признаке.

Классификация

Классификация по форме

Когда встает задача выделить объекты по форме, должны быть заданы классификационные примитивы. В большинстве методов поиска в качестве примитивов используются круглые, эллиптические, прямоугольные или прямолинейные объекты.

Поиск по шаблону

Универсальным способом поиска по форме признан метод вписывания шаблона. Шаблон, имеющий форму, объекты которой необходимо выделить, перемещается по изображению, рассчитывается характеристика положения, и там, где показатель этой характеристики превышает некоторый порог – может находиться объект искомой формы.

Техника расчета характеристики может быть различна. Чаще всего используется среднеквадратичная разность значений яркости изображений шаблона и анализируемого кадра.

Недостатком этого метода является его ресурсоемкость. Требуется неоднократное непоследовательное обращение к одним и тем же фрагментам памяти изображения. К тому же, изображение шаблона не является динамически масштабируемым – то есть, если объект в кадре несколько меньше или больше шаблонного – он, скорее всего не будет выделен. Решением данной проблемы может быть поиск объектов по аналитической зависимости, описывающей их форму.

Поиск по аналитическому описанию формы

Распространена практика поиска объектов по форме, имеющей аналитическое описание. Например, эллипс (или его частный случай – окружность) могут быть описаны несложной формулой из курса аналитической геометрии.

По аналогии с методом поиска по шаблону для большинства точек изображения рассматривается их характеристика – в нее включаются значения яркостей точек, положение которых удовлетворяет аналитической зависимости.

В остальном этот метод аналогичен методу поиска по шаблону. Однако, ситуация когда объект искомой формы расположен в кадре нужным образом достаточно редка. Чаще всего отдельные элементы заслоняются или просто не видны, объект повернут и вообще мало похож на свою форму по аналитической зависимости или шаблону. В такой распространенной ситуации можно пытаться выделять отдельные фрагменты формы, например прямые линии.

Классификация по положению

Одним из наиболее наполненных эвристикой направлений в теории распознавания образов являются методы поиска по положению. В частности, при поиске лиц или других фрагментов тел в области кадра принимается допущение, что искомые области представляют собой продолговатые, чаще всего вытянутые в вертикальном направлении совокупности пикселей близких по яркости. Таким же образом используется множество других допущений относительно взаимного местоположения объектов – если на некий объект были нанесены легко отыскиваемые метки, или некие детали, изначально содержимые объектом, значительно проще классифицировать, чем весь объект в целом, то, обнаружив эти метки или детали, можно классифицировать содержащий их объект. То есть, если существует устойчивый метод выделения в кадре, например, глаз человека или носа, то можно по этим деталям сделать предположение, где находится все остальное. Исключения составляют атипичные случаи, когда объект в кадре обладает нетривиальным сочетанием этих деталей в неподходящих для распознавания положениях.

Классификация по цвету

Многие объекты можно классифицировать в зависимости от их цвета: они либо постоянно имеют определенную окраску, либо в некоторые моменты их окраска может быть регламентирована достаточно четко. Более того, в связи с тем, что существует множество базисов представления цветовых компонент (RGB, YUV, YCrCb, HSV и т.д.), нередки случаи, когда в том или ином базисе данный объект можно классифицировать практически безошибочно. Однако информация о том, какой базис использовать и как лучше организовать поиск объекта, имея в распоряжении изображение в данном базисе, зачастую может быть получена исключительно экспериментальным путем.

Базовые положения теории распознавания образов

Распознавание образов (объектов, сигналов, ситуаций, явлений или процессов) — задача идентификации объекта или определения каких-либо его свойств по его изображению (оптическое распознавание) или аудиозаписи (акустическое распознавание) и другим характеристикам.

Одним из базовых является не имеющее конкретной формулировки понятие множества. В компьютере множество представляется набором неповторяющихся однотипных элементов. Слово «неповторяющихся» означает, что какой-то элемент в множестве либо есть, либо его там нет. Универсальное множество включает все возможные для решаемой задачи элементы, пустое не содержит ни одного.

Образ — классификационная группировка в системе классификации, объединяющая (выделяющая) определенную группу объектов по некоторому признаку. Образы обладают характерным свойством, проявляющимся в том, что ознакомление с конечным числом явлений из одного и того же множества дает возможность узнавать сколь угодно большое число его представителей. Образы обладают характерными объективными свойствами в том смысле, что разные люди, обучающиеся на различном материале наблюдений, большей частью одинаково и независимо друг от друга классифицируют одни и те же объекты. В классической постановке задачи распознавания универсальное множество разбивается на части-образы. Каждое отображение какого-либо объекта на воспринимающие органы распознающей системы, независимо от его положения относительно этих органов, принято называть изображением объекта, а множества таких изображений, объединенные какими-либо общими свойствами, представляют собой образы. [10]

Методика отнесения элемента к какому-либо образу называется решающим правилом. Еще одно важное понятие — метрика, способ определения расстояния между элементами универсального множества. Чем меньше это расстояние, тем более похожими являются объекты (символы, звуки и др.) — то, что мы распознаем. Обычно элементы задаются в виде набора чисел, а метрика — в виде функции. От выбора представления образов и реализации метрики зависит эффективность программы, один алгоритм распознавания с разными метриками будет ошибаться с разной частотой.

Обучением обычно называют процесс выработки в некоторой системе той или иной реакции на группы внешних идентичных сигналов путем многократного воздействия на систему внешней корректировки. Такую внешнюю корректировку в обучении принято называть «поощрениями» и «наказаниями». Механизм генерации этой корректировки практически полностью определяет алгоритм обучения. Самообучение отличается от обучения тем, что здесь дополнительная информация о верности реакции системе не сообщается.

Адаптация — это процесс изменения параметров и структуры системы, а возможно — и управляющих воздействий, на основе текущей информации с целью достижения определенного состояния системы при начальной неопределенности и изменяющихся условиях работы.

Обучение — это процесс, в результате которого система постепенно приобретает способность отвечать нужными реакциями на определенные совокупности внешних воздействий, а адаптация — это подстройка параметров и структуры системы с целью достижения требуемого качества управления в условиях непрерывных изменений внешних условий.

Примеры задач распознавания образов:

  • pаспознавание букв;
  • pаспознавание штрих-кодов;
  • pаспознавание автомобильных номеров;
  • pаспознавание лиц и других биометрических данных;
  • pаспознавание изображений;
  • pаспознавание речи.

Методы распознавания образов

В целом, можно выделить следующие методы распознавания образов:

  • Метод перебора. В этом случае производится сравнение с базой данных, где для каждого вида объектов представлены всевозможные модификации отображения. Например, для оптического распознавания образов можно применить метод перебора вида объекта под различными углами, масштабами, смещениями, деформациями и т. д. Для букв нужно перебирать шрифт, свойства шрифта и т. д. В случае распознавания звуковых образов, соответственно, происходит сравнение с некоторыми известными шаблонами (например, слово, произнесенное несколькими людьми).
  • Второй подход — производится более глубокий анализ характеристик образа. В случае оптического распознавания это может быть определение различных геометрических характеристик. Звуковой образец в этом случае подвергается частотному, амплитудному анализу и т. д.
  • Следующий метод — использование искусственных нейронных сетей (ИНС). Этот метод требует либо большого количества примеров задачи распознавания при обучении, либо специальной структуры нейронной сети, учитывающей специфику данной задачи. Тем не менее, его отличает более высокая эффективность и производительность. [10].
  • Экспертный метод, основанный на непрерывном обучении экспертной системы в процессе эксплатации.

Персептрон как метод распознавания образов

Ф. Розенблатт, вводя понятие о модели мозга, задача которой состоит в том, чтобы показать, как в некоторой физической системе, структура и функциональные свойства которой известны, могут возникать психологические явления — описал простейшие эксперименты по различению. Данные эксперименты целиком относятся к методам распознавания образов, но отличаются тем, что алгоритм решения не детерминированный. Простейший эксперимент, на основе которого можно получить психологически значимую информацию о некоторой системе, сводится к тому, что модели предъявляются два различных стимула и требуется, чтобы она реагировала на них различным образом. Целью такого эксперимента может быть исследование возможности их спонтанного различения системой при отсутствии вмешательства со стороны экспериментатора, или, наоборот, изучение принудительного различения, при котором экспериментатор стремится обучить систему проводить требуемую классификацию. В опыте с обучением персептрону обычно предъявляется некоторая последовательность образов, в которую входят представители каждого из классов, подлежащих различению. В соответствии с некоторым правилом модификации памяти правильный выбор реакции подкрепляется. Затем персептрону предъявляется контрольный стимул и определяется вероятность получения правильной реакции для стимулов данного класса. В зависимости от того, совпадает или не совпадает выбранный контрольный стимул с одним из образов, которые использовались в обучающей последовательности, получают различные результаты: 1. Если контрольный стимул не совпадает ни с одним из обучающих стимулов, то эксперимент связан не только с чистым различением, но включает в себя и элементы обобщения. 2. Если контрольный стимул возбуждает некоторый набор сенсорных элементов, совершенно отличных от тех элементов, которые активизировались при воздействии ранее предъявленных стимулов того же класса, то эксперимент является исследованием чистого обобщения. Персептроны не обладают способностью к чистому обобщению, но они вполне удовлетворительно функционируют в экспериментах по различению, особенно если контрольный стимул достаточно близко совпадает с одним из образов, относительно которых персептрон уже накопил определенный опыт.

Общая характеристика задач распознавания образов и их типы

Общая структура системы распознавания и этапы в процессе ее разработки показаны на рис. 4.

Задачи распознавания — это информационные задачи, состоящие из двух этапов:

  • преобразование исходных данных к виду, удобному для распознавания;
  • собственно распознавание (указание принадлежности объекта определенному классу).

В этих задачах можно вводить понятие аналогии или подобия объектов и формулировать правила, на основании которых объект зачисляется в один и тот же класс или в разные классы. В этих задачах можно оперировать набором прецедентов-примеров, классификация которых известна и которые в виде формализованных описаний могут быть предъявлены алгоритму распознавания для настройки на задачу в процессе обучения. [11] Для этих задач трудно строить формальные теории и применять классические математические методы (часто недоступна информация для точной математической модели или выигрыш от использования модели и математических методов несоизмерим с затратами).

Выделяют следующие типы задач распознавания:

  • задача распознавания — отнесение предъявленного объекта по его описанию к одному из заданных классов (обучение с учителем);
  • задача автоматической классификации — разбиение множества объектов, ситуаций, явлений по их описаниям на систему непересекающихся классов (таксономия, кластерный анализ, самообучение);
  • задача выбора информативного набора признаков при распознавании;
  • задача приведения исходных данных к виду, удобному для распознавания;
  • динамическое распознавание и динамическая классификация — задачи 1 и 2 для динамических объектов;
  • задача прогнозирования — предыдущий тип, в котором решение должно относиться к некоторому моменту в будущем.


Проблема распознавания образов тесно связана с задачей предварительной классификации, или таксономией.

В области Распознавания образов существенно используются идеи и результаты многих др. научных направлений — математики, кибернетики, психологии и т.д.

В 60-х гг. 20 в. в связи с развитием, электронной техники, в частности ЭВМ, широкое применение получили автоматические системы распознавания. Под системами распознавания обычно понимают комплексы средств, предназначенных для решения описанных выше, задач. Методы Распознавания образов используются в процессе машинной диагностики различных заболеваний, для прогнозирования полезных ископаемых в геологии, для анализа экономических и социальных процессов, в психологии, криминалистике, лингвистике, океанологии, химии, ядерной и космической физике, в автоматизированных системах управления и т.д. Их применение оправдано практически всюду, где приходится иметь дело с классификацией экспериментальных данных.

Одним из способов решения задачи распознавания образов является использование спектральных методов.

Современные биометрические методы идентификации

В последнее время на Хабре появляется множество статей, посвящённых Гугловским системам идентификации по лицам. Если честно, то от многих из них так и несёт журналистикой и мягко говоря некомпетентностью. И захотелось мне написать хорошую статью по биометрии, оно же мне не в первой! Пара неплохих статей по биометрии на Хабре есть — но они достаточно короткие и неполные. Тут я попробую вкратце обрисовать общие принципы биометрической идентификации и современные достижения человечества в этом вопросе. В том числе и в идентификации по лицам.

У статьи есть продолжение, которое, по-сути, является её приквэлом.

В качестве основы для статьи будет использована совместная с коллегой публикация в журнале (БДИ, 2009), переработанная под современные реалии. Коллеги пока Хабре нет, но публикацию переработанной статьи тут он поддержал. На момент публикации статья являлась кратким обзором современного рынка биометрических технологий, который мы проводили для себя перед тем как выдвинуть свой продукт. Оценочные суждения о применимости, выдвинутые во второй части статьи основаны на мнениях людей, использовавших и внедрявших продукты, а так же на мнениях людей, занимающихся производством биометрических систем в России и Европе.

Общая информация

Начнём с азов. В 95% случаев биометрия по своей сути — это математическая статистика. А матстат это точная наука, алгоритмы из которой используются везде: и в радарах и в байесовских системах. В качестве двух основных характеристик любой биометрической системы можно принять ошибки первого и второго рода). В теории радиолокации их обычно называют «ложная тревога» или «пропуск цели», а в биометрии наиболее устоявшиеся понятия — FAR (False Acceptance Rate) и FRR(False Rejection Rate). Первое число характеризует вероятность ложного совпадения биометрических характеристик двух людей. Второе – вероятность отказа доступа человеку, имеющего допуск. Система тем лучше, чем меньше значение FRR при одинаковых значениях FAR. Иногда используется и сравнительная характеристика EER, определяющая точку в которой графики FRR и FAR пересекаются. Но она далеко не всегда репрезентативна. Подробнее можно посмотреть, например, тут.
Можно отметить следующее: если в характеристиках системы не даны FAR и FRR по открытым биометрическим базам — то что бы производители не заявляли о её характеристиках, эта система скорее всего недееспособна или сильно слабее конкурентов.
Но не только FAR и FRR определяют качество биометрической системы. Если бы это было только так, то лидирующей технологией было бы распознавание людей по ДНК, для которой FAR и FRR стремятся к нулю. Но ведь очевидно, что эта технология не применима на сегодняшнем этапе развития человечества! Нами было выработано несколько эмпирических характеристик, позволяющих оценить качество системы. «Устойчивость к подделке» – это эмпирическая характеристика, обобщающая то, насколько легко обмануть биометрический идентификатор. «Устойчивость к окружающей среде» – характеристика, эмпирически оценивающая устойчивость работы системы при различных внешних условиях, таких как изменение освещения или температуры помещения. «Простота использования» показывает насколько сложно воспользоваться биометрическим сканером, возможна ли идентификация «на ходу». Важной характеристикой является «Скорость работы», и «Стоимость системы». Не стоит забывать и то, что биометрическая характеристика человека может изменяться со временем, так что если она неустойчива– это существенный минус.
Обилие биометрических методов поражает. Основными методами, использующими статические биометрические характеристики человека, являются идентификация по папиллярному рисунку на пальцах, радужной оболочке, геометрии лица, сетчатке глаза, рисунку вен руки, геометрии рук. Также существует семейство методов, использующих динамические характеристики: идентификация по голосу, динамике рукописного подчерка, сердечному ритму, походке. Ниже представлено распределение биометрического рынка пару лет назад. В каждом втором источнике эти данные колеблются на 15-20 процентов, так что это всего лишь оценочное представление. Так же тут под понятием «геометрия руки» скрываются два разных метода о которых будет рассказано ниже.

В статье мы будем рассматривать только те характеристики, которые применимы в системах контроля и управления доступом (СКУД) или в близких им задачах. В силу своего превосходства это в первую очередь именно статические характеристики. Из динамических характеристик на сегодняшний момент только распознавание по голосу имеет хоть какую-то статистическую значимость(сравнимую с худьшими статическими алгоритмами FAR

6%), но лишь в идеальных условиях.
Чтобы ощутить вероятности FAR и FRR, можно оценить, как часто будут возникать ложные совпадения, если установить систему идентификации на проходной организации с численностью персонала N человек. Вероятность ложного совпадения полученного сканером отпечатка пальца для базы данных из N отпечатков равна FAR∙N. И каждый день через пункт контроля доступа проходит тоже порядка N человек. Тогда вероятность ошибки за рабочий день FAR∙(N∙N). Конечно, в зависимости от целей системы идентификации вероятность ошибки за единицу времени может сильно варьироваться, но если принять допустимым одну ошибку в течение рабочего дня, то:
(1)
Тогда получим, что стабильная работа системы идентификации при FAR=0.1% =0.001 возможна при численности персонала N≈30.

Биометрические сканеры

На сегодняшний день понятие «биометрический алгоритм» и «биометрический сканер» не обязательно взаимосвязаны. Компания может выпускать эти элементы по одиночке, а может совместно. Наибольшая дифференциация производителей сканеров и производителей софта достигнута на рынке биометрии папиллярного узора пальцев. Наименьшая на рынке сканеров 3D лица. По сути уровень дифференциации во многом отображает развитость и насыщенность рынка. Чем больше выбора — тем более тематика отработана и доведена до совершенства. Различные сканеры имеют различный набор способностей. В основном это набор тестов для проверки подделан объект биометрии или нет. Для сканеров пальцев это может быть проверка рельефности или проверка температуры, для сканеров глаза это может быть проверка аккомодации зрачка, для сканеров лица — движение лица.
Сканеры очень сильно влияют на полученную статистику FAR и FRR. В некоторых случаях эти цифры могут изменяться в десятки раз, особенно в реальных условиях. Обычно характеристики алгоритма даются для некой «идеальной» базы, или просто для хорошо подходящей, где выброшены нерезкие и смазанные кадры. Лишь немногие алгоритмы честно указывают и базу и полную выдачу FAR/FRR по ней.

А теперь поподробнее про каждую из технологий

Отпечатки пальцев

Дактилоскопия (распознавание отпечатков пальцев) — наиболее разработанный на сегодняшний день биометрический метод идентификации личности. Катализатором развития метода послужило его широкое использование в криминалистике 20 века.
Каждый человек имеет уникальный папиллярный узор отпечатков пальцев, благодаря чему и возможна идентификация. Обычно алгоритмы используют характерные точки на отпечатках пальцев: окончание линии узора, разветвлении линии, одиночные точки. Дополнительно привлекается информация о морфологической структуре отпечатка пальца: относительное положение замкнутых линий папиллярного узора, «арочных» и спиральных линий. Особенности папиллярного узора преобразовываются в уникальный код, который сохраняет информативность изображения отпечатка. И именно «коды отпечатков пальцев» хранятся в базе данных, используемой для поиска и сравнения. Время перевода изображения отпечатка пальца в код и его идентификация обычно не превышает 1с, в зависимости от размера базы. Время, затраченное на поднесение руки – не учитывается.

Статистические характеристики метода

В качестве источника данных по FAR и FRR использовались статистические данные VeriFinger SDK, полученные при помощи сканера отпечатков пальцев DP U.are.U. За последние 5-10 лет характеристики распознавания по пальцу не сильно шагнули вперёд, так что приведённые цифры неплохо показывают среднее значение современных алгоритмов. Сам алгоритм VeriFinger несколько лет выигрывал международное соревнование «International Fingerprint Verification Competition», где соревновались алгоритмы распознавания по пальцу.

Характерное значение FAR для метода распознавания отпечатков пальцев – 0.001%.
Из формулы (1) получим, что стабильная работа системы идентификации при FAR=0.001% возможна при численности персонала N≈300.

Преимущества и недостатки метода

Преимущества метода. Высокая достоверность — статистические показатели метода лучше показателей способов идентификации по лицу, голосу, росписи. Низкая стоимость устройств, сканирующих изображение отпечатка пальца. Достаточно простая процедура сканирования отпечатка.
Недостатки: папиллярный узор отпечатка пальца очень легко повреждается мелкими царапинами, порезами. Люди, использовавшие сканеры на предприятиях с численностью персонала порядка нескольких сотен человек заявляют о высокой степени отказа сканирования. Многие из сканеров неадекватно относятся к сухой коже и не пропускают стариков. При общении на последней выставке MIPS начальник службы безопасности крупного химического предприятия рассказывал что их попытка ввести сканеры пальцев на предприятии (пробовались сканеры различных систем) провалилась — минимальное воздействие химических реактивов на пальцы сотрудников вызывало сбой систем безопасности сканеров — сканеры объявляли пальцы подделкой. Так же присутствует недостаточная защищённость от подделки изображения отпечатка, отчасти вызванная широким распространением метода. Конечно, не все сканеры можно обмануть методами из Разрушителей Легенд, но всё же. Для некоторых людей с «неподходящими» пальцами (особенности температуры тела, влажности) вероятность отказа в доступе может достигать 100%. Количество таких людей варьируется от долей процентов для дорогих сканеров до десяти процентов для недорогих.
Конечно, стоит отметить, что большое количество недостатков вызвано широкой распространённостью системы, но эти недостатки имеют место быть и проявляются они очень часто.

Ситуация на рынке

На данный момент системы распознавания по отпечаткам пальцев занимают более половины биометрического рынка. Множество российских и зарубежных компаний занимаются производством систем управления доступом, основанных на методе дактилоскопической идентификации. По причине того, что это направление является одним из самых давнишних, оно получило наибольшее распространение и является на сегодняшний день самым разработанным. Сканеры отпечатков пальцев прошли действительно длинный путь к улучшению. Современные системы оснащены различными датчиками (температуры, силы нажатия и т.п.), которые повышают степень защиты от подделок. С каждым днем системы становятся все более удобными и компактными. По сути, разработчики достигли уже некоего предела в данной области, и развивать метод дальше некуда. Кроме того, большинство компаний производят готовые системы, которые оснащены всем необходимым, включая программное обеспечение. Интеграторам в этой области просто нет необходимости собирать систему самостоятельно, так как это невыгодно и займет больше времени и сил, чем купить готовую и уже недорогую при этом систему, тем более выбор будет действительно широк.
Среди зарубежных компаний, занимающихся системами распознавания по отпечаткам пальцев, можно отметить SecuGen(USB-сканеры для PC, сканеры, которые можно устанавливать на предприятия или встраивать в замки, SDK и ПО для связи системы с компьютером); Bayometric Inc. (fingerprint scanners, TAA/Access control systems, fingerprint SDKs, embedded fingerprint modules); DigitalPersona, Inc. (USB-scanners, SDK). В России в данной области работают компании: BioLink (дактилоскопические сканеры, биометрические устройства управления доступом, ПО); Сонда (дактилоскопические сканеры, биометрические устройства управления доступом, SDK); СмартЛок (дактилоскопические сканеры и модули) и др.

Радужная оболочка

Радужная оболочка глаза является уникальной характеристикой человека. Рисунок радужки формируется на восьмом месяце внутриутробного развития, окончательно стабилизируется в возрасте около двух лет и практически не изменяется в течение жизни, кроме как в результате сильных травм или резких патологий. Метод является одним из наиболее точных среди биометрических методов.
Система идентификации личности по радужной оболочке логически делится на две части: устройство захвата изображения, его первичной обработки и передачи вычислителю и вычислитель, производящий сравнение изображения с изображениями в базе данных, передающий команду о допуске исполнительному устройству.
Время первичной обработки изображения в современных системах примерно 300-500мс, скорость сравнения полученного изображения с базой имеет уровень 50000-150000 сравнений в секунду на обычном ПК. Такая скорость сравнения не накладывает ограничений на применения метода в больших организациях при использовании в системах доступа. При использовании же специализированных вычислителей и алгоритмов оптимизации поиска становится даже возможным идентифицировать человека среди жителей целой страны.
Сразу могу ответить что я несколько предвзято и положительно отношусь к этому методу, так как именно на этой ниве мы запускали свой стартап. Небольшому самопиару будет посвящён абзац в конце.

Статистические характеристики метода

Характеристики FAR и FRR для радужной оболочки глаза наилучшие в классе современных биометрических систем (за исключением, возможно, метода распознавания по сетчатке глаза). В статье приведены характеристики библиотеки распознавания радужной оболочки нашего алгоритма — EyeR SDK, которые соответствуют проверенному по тем же базам алгоритму VeriEye. Использовались базы фирмы CASIA, полученные их сканером.

Характерное значение FAR – 0.00001%.
Согласно формуле (1) N≈3000 — численность персонала организации, при которой идентификация сотрудника происходит достаточно стабильно.
Здесь стоит отметить немаловажную особенность, отличающую систему распознавания по радужной оболочке от других систем. В случае использования камеры разрешения от 1.3МП можно захватывать два глаза на одном кадре. Так как вероятности FAR и FRR являются статистически независимыми вероятностями, то при распознавании по двум глазам значение FAR будет приблизительно равняться квадрату значения FAR для одного глаза. Например, для FAR 0,001% при использовании двух глаз вероятность ложного допуска будет равна 10-8 %, при FRR всего в два раза выше, чем соответствующее значение FRR для одного глаза при FAR=0.001%.

Преимущества и недостатки метода

Преимущества метода. Статистическая надёжность алгоритма. Захват изображения радужной оболочки можно производить на расстоянии от нескольких сантиметров до нескольких метров, при этом физический контакт человека с устройством не происходит. Радужная оболочка защищена от повреждений — а значит не будет изменяться во времени. Так же, возможно использовать высокое количество методов, защищающих от подделки.
Недостатки метода. Цена системы, основанной на радужной оболочке выше цены системы, основанной на распознавании пальца или на распознавании лица. Низкая доступность готовых решений. Любой интегратор, который сегодня придёт на российский рынок и скажет «дайте мне готовую систему» — скорее всего обломается. В большинстве своём продаются дорогие системы под ключ, устанавливаемые большими компаниями, такими как Iridian или LG.

Ситуация на рынке

На данный момент удельный вес технологий идентификации по радужной оболочке глаза на мировом биометрическом рынке составляет по разным подсчетам от 6 до 9 процентов (в то время как технологии распознавания по отпечаткам пальцев занимают свыше половины рынка). Следует отметить, что с самого начала развития данного метода, его укрепление на рынке замедляла высокая стоимость оборудования и компонентов, необходимых, чтобы собрать систему идентификации. Однако по мере развития цифровых технологий, себестоимость отдельной системы стала снижаться.
Лидером по разработке ПО в данной области является компания Iridian Technologies.
Вход на рынок большому количеству производителю был ограничен технической сложностью сканеров и, как следствие, их высокой стоимостью, а так же высокой ценой ПО из-за монопольного положения Iridian на рынке. Эти факторы позволяли развиться в области распознавания радужной оболочки только крупным компаниям, скорее всего уже занимающимся производством некоторых компонентов пригодных для системы идентификации (оптика высокого разрешения, миниатюрные камеры с инфракрасной подсветкой и т.п.). Примерами таких компаний могут быть LG Electronics, Panasonic, OKI. Они заключили договор с Iridian Technologies, и в результате совместной работы появились следующие системы идентификации: Iris Access 2200, BM-ET500, OKI IrisPass. В дальнейшем возникли усовершенствованные модели систем, благодаря техническим возможностям данных компаний самостоятельно развиваться в этой области. Следует сказать, что вышеперечисленные компании разработали также собственное ПО, но в итоге в готовой системе отдают предпочтение программному обеспечению Iridian Technologies.
На Российском рынке «преобладает» продукция зарубежных компаний. Хотя и ту можно купить с трудом. Длительное время фирма Папилон уверяла всех, что у них есть распознавание по радужной оболочке. Но даже представители РосАтома — их непосредственного закупщика, для которого они делали систему рассказывают, что это не соответствует действительности. В какой-то момент проявлялась ещё какая-то российская фирма, которая сделала сканеры радужной оболочки. Сейчас уже не вспомню названия. Алгоритм они у кого-то закупили, возможно у того же VeriEye. Сам сканер представлял собой систему 10-15 летней давности, отнюдь не бесконтактную.
В последний год на мировой рынок вышло пара новых производителей в связи с истечением первичного патента на распознавание человека по глазам. Наибольшего доверия из них, на мой взгляд, заслуживает AOptix. По крайней мере их превью и документация не вызывает подозрений. Второй компанией является SRI International. Даже на первый взгляд человеку, занимавшемуся системами распознавания радужки их ролики кажутся весьма лживыми. Хотя я не удивлюсь если в реальности они что-то умеют. И та и та система не показывает данных по FAR и FRR, а так же, судя по всему, не защищена от подделок.

Распознавание по лицу

Существует множество методов распознавания по геометрии лица. Все они основаны на том, что черты лица и форма черепа каждого человека индивидуальны. Эта область биометрии многим кажется привлекательной, потому что мы узнаем друг друга в первую очередь по лицу. Данная область делится на два направления: 2-D распознавание и 3-D распознавание. У каждого из них есть достоинства и недостатки, однако многое зависит еще и от области применения и требований, предъявленных к конкретному алгоритму.
В кратце расскажу про 2-d и перейду к одному из самых интересных на сегодня методов — 3-d.

2-D распознавание лица

2-D распознавание лица — один из самых статистически неэффективных методов биометрии. Появился он довольно давно и применялся, в основном, в криминалистике, что и способствовало его развитию. В последствие появились компьютерные интерпретации метода, в результате чего он стал более надёжным, но, безусловно, уступал и с каждым годом все больше уступает другим биометрическим методам идентификации личности. В настоящее время из-за плохих статистических показателей он применяется, в мультимодальной или, как ее еще называют, перекрестной биометрии, или в социальных сетях.

Статистические характеристики метода

Для FAR и FRR использованы данные для алгоритмов VeriLook. Опять же, для современных алгоритмов он имеет весьма обыкновенные характеристики. Иногда промелькивают алгоритмы с FRR 0.1% при аналогичном FAR, но базы по которым они получены ну уж очень сомнительны (вырезанный фон, одинаковое выражение лица, одинаковые причёска, освещение).

Характерное значение FAR – 0.1%.
Из формулы (1) получаем N≈30 — численность персонала организации, при которой идентификация сотрудника происходит достаточно стабильно.
Как видно, статистические показатели метода достаточно скромные: это нивелирует то преимущество метода, что можно проводить скрытую съемку лиц в людных местах. Забавно наблюдать, как пару раз в год финансируется очередной проект по обнаружению преступников через видеокамеры, установленные в людных местах. За последние десяток лет статистические характеристики алгоритма не улучшились, а количество таких проектов — выросло. Хотя, стоит отметить, что для ведения человека в толпе через множество камер алгоритм вполне годится.

Преимущества и недостатки метода

Преимущества метода. При 2-D распознавании, в отличие от большинства биометрических методов, не требуется дорогостоящее оборудование. При соответствующем оборудовании возможность распознавания на значительных расстояниях от камеры.
Недостатки. Низкая статистическая достоверность. Предъявляются требования к освещению (например, не удается регистрировать лица входящих с улицы людей в солнечный день). Для многих алгоритмов неприемлемость каких-либо внешних помех, как, например, очки, борода, некоторые элементы прически. Обязательно фронтальное изображение лица, с весьма небольшими отклонениями. Многие алгоритмы не учитывают возможные изменения мимики лица, то есть выражение должно быть нейтральным.

3-D распознавание лица

Реализация данного метода представляет собой довольно сложную задачу. Несмотря на это в настоящее время существует множество методов по 3-D распознаванию лица. Методы невозможно сравнить друг с другом, так как они используют различные сканеры и базы. далеко не все из них выдают FAR и FRR, используются абсолютно различные подходы.
Переходным от 2-d к 3-d методом является метод, реализующий накопления информации о лицу. Этот метод имеет лучшие характеристики, чем 2d метод, но так же как и он использует всего одну камеру. При занесении субъекта в базу субъект поворачивает голову и алгоритм соединяет изображение воедино, создавая 3d шаблон. А при распознавании используется несколько кадров видеопотока. Этот метод скорее относится к экспериментальным и реализации для систем СКУД я не видел ни разу.
Наиболее классическим методом является метод проецирования шаблона. Он состоит в том, что на объект (лицо) проецируется сетка. Далее камера делает снимки со скоростью десятки кадров в секунду, и полученные изображения обрабатываются специальной программой. Луч, падающий на искривленную поверхность, изгибается — чем больше кривизна поверхности, тем сильнее изгиб луча. Изначально при этом применялся источник видимого света, подаваемого через «жалюзи». Затем видимый свет был заменен на инфракрасный, который обладает рядом преимуществ. Обычно на первом этапе обработки отбрасываются изображения, на котором лица не видно вообще или присутствуют посторонние предметы, мешающие идентификации. По полученным снимкам восстанавливается 3-D модель лица, на которой выделяются и удаляются ненужные помехи (прическа, борода, усы и очки). Затем производится анализ модели — выделяются антропометрические особенности, которые в итоге и записываются в уникальный код, заносящийся в базу данных. Время захвата и обработки изображения составляет 1-2 секунды для лучших моделей.
Так же набирает популярность метод 3-d распознавания по изображению, получаемому с нескольких камер. Примером этого может являться фирма Vocord со своим 3d сканером. Этот метод даёт точность позиционирования, согласно уверениям разработчиков, выше метода проецирования шаблона. Но, пока не увижу FAR и FRR хотя бы по их собственной базе — не поверю. Но его разрабатывают уже года 3, а подвижки на выставках пока не видны.

Статистические показатели метода

Полные данные о FRR и FAR для алгоритмов этого класса на сайтах производителей открыто не приведены. Но для лучших моделей фирмы Bioscript (3D EnrolCam, 3D FastPass), работающих по методу проецирования шаблона при FAR = 0.0047% FRR составляет 0.103%.
Считается, что статистическая надежность метода сравнима с надежностью метода идентификации по отпечаткам пальцев.

Преимущества и недостатки метода

Преимущества метода. Отсутствие необходимости контактировать со сканирующим устройством. Низкая чувствительность к внешним факторам, как на самом человеке (появление очков, бороды, изменение прически), так и в его окружении (освещенность, поворот головы). Высокий уровень надежности, сравнимый с метом идентификации по отпечаткам пальцев.
Недостатки метода. Дороговизна оборудования. Имеющиеся в продаже комплексы превосходили по цене даже сканеры радужной оболочки. Изменения мимики лица и помехи на лице ухудшают статистическую надежность метода. Метод еще недостаточно хорошо разработан, особенно в сравнении с давно применяющейся дактилоскопией, что затрудняет его широкое применение.

Ситуация на рынке

Распознавание по геометрии лица причисляют к «трем большим биометрикам» вместе с распознаванием по отпечаткам пальцев и радужной оболочке. Надо сказать, что данный метод довольно распространен, и ему отдают пока предпочтение перед распознаванием по радужке глаза. Удельный вес технологий распознавания по геометрии лица в общем объеме мирового биометрического рынка можно оценивать в пределах 13-18 процентов. В России к данной технологии также проявляется больший интерес, чем, например, к идентификации по радужной оболочке. Как уже упоминалось ранее, существует множество алгоритмов 3-D распознавания. В большинстве своем компании предпочитают развивать готовые системы, включающие сканеры, сервера и ПО. Однако есть и те, кто предлагает потребителю только SDK. На сегодняшний день можно отметить следующие компании, занимающиеся развитием данной технологии: Geometrix, Inc. (3D сканеры лица, ПО), Genex Technologies (3D сканеры лица, ПО) в США, Cognitec Systems GmbH (SDK, специальный вычислители, 2D камеры) в Германии, Bioscrypt (3D сканеры лица, ПО) – дочернее предприятие американской компании L-1 Identity Solutions.
В России в данном направлении работают компании Artec Group (3D сканеры лица и ПО) – компания, головной офис которой находится в Калифорнии, а разработки и производство ведутся в Москве. Также несколько российских компаний владеют технологией 2D распознавания лица – Vocord, ITV и др.
В области распознавания 2D лица основным предметом разработки является программное обеспечение, т.к. обычные камеры отлично справляются с захвата изображения лица. Решение задачи распознавания по изображению лица в какой-то степени зашло в тупик – уже на протяжении нескольких лет практически не происходит улучшения статистических показателей алгоритмов. В этой области происходит планомерная «работа над ошибками».
3D распознавание лица сейчас является куда более привлекательной областью для разработчиков. В нём трудится множество коллективов и регулярно слышно о новых открытиях. Множество работ находятся в состоянии «вот-вот и выпустим». Но пока что на рынке лишь старые предложения, за последние годы выбор не изменился.
Одним из интересных моментов, над которыми я иногда задумываюсь и на которые, возможно ответит Хабр: а точности kinect хватит для создания такой системы? Проекты по вытаскиванию 3d модели человека через него вполне себе есть.

Распознавание по венам руки

Это новая технология в сфере биометрии, широкое применение её началось всего лет 5-10 назад. Инфракрасная камера делает снимки внешней или внутренней стороны руки. Рисунок вен формируется благодаря тому, что гемоглобин крови поглощает ИК излучение. В результате, степень отражения уменьшается, и вены видны на камере в виде черных линий. Специальная программа на основе полученных данных создает цифровую свертку. Не требуется контакта человека со сканирующим устройством.
Технология сравнима по надёжности с распознаванием по радужной оболочке глаза, в чём-то превосходя её, а в чём-то уступая.
Значение FRR и FAR приведено для сканера Palm Vein. Согласно данным разработчика при FAR 0,0008% FRR составляет 0.01%. Более точный график для нескольких значений не выдаёт ни одна фирма.

Преимущества и недостатки метода

Преимущества метода. Отсутствие необходимости контактировать со сканирующим устройством. Высокая достоверность — статистические показатели метода сравнимы с показаниями радужной оболочки. Скрытость характеристики: в отличие от всех вышеприведённых — эту характеристику очень затруднительно получить от человека «на улице», например сфотографировав его фотоаппаратом.
Недостатки метода. Недопустима засветка сканера солнечными лучами и лучами галогеновых ламп. Некоторые возрастные заболевания, например артрит – сильно ухудшают FAR и FRR. Метод менее изучен в сравнении с другими статическими методами биометрии.

Ситуация на рынке

Распознавание по рисунку вен руки является довольно новой технологией, и в связи с этим ее удельный вес на мировом рынке невелик и составляет около 3%. Однако к данному методу проявляется все больший интерес. Дело в том, что, являясь довольно точным, этот метод не требует столь дорогого оборудования, как, например, методы распознавания по геометрии лица или радужной оболочке. Сейчас многие компании ведут разработки в данной сфере. Так, например, по заказу английской компании TDSi было разработано ПО для биометрического считывателя вен ладони PalmVein, представленного компанией Fujitsu. Сам сканер был разработан компанией Fujitsu в первую очередь для борьбы с финансовыми махинациями в Японии.
Также в сфере идентификации по рисунку вен работают следующие компании Veid Pte. Ltd. (scanner, software), Hitachi VeinID (scanners)
В России компаний, занимающихся данной технологией, мне не известно.

Сетчатка глаза

До недавнего времени считалось, что самый надёжный метод биометрической идентификации и аутентификации личности — это метод, основанный на сканировании сетчатки глаза. Он содержит в себе лучшие черты идентификации по радужной оболочке и по венам руки. Сканер считывает рисунок капилляров на поверхности сетчатки глаза. Сетчатка имеет неподвижную структуру, неизменную по времени, кроме как в результате болезни, например, катаракты.
Сканирование сетчатки происходит с использованием инфракрасного света низкой интенсивности, направленного через зрачок к кровеносным сосудам на задней стенке глаза. Сканеры сетчатки глаза получили широкое распространение в системах контроля доступа на особо секретные объекты, так как у них один из самых низких процентов отказа в доступе зарегистрированных пользователей и практически не бывает ошибочного разрешения доступа.
К сожалению, целый ряд трудностей возникает при использовании этого метода биометрии. Сканером тут является весьма сложная оптическая система, а человек должен значительное время не двигаться, пока система наводится, что вызывает неприятные ощущения.
По данным компании EyeDentify для сканера ICAM2001 при FAR=0,001% значение FRR составляет 0,4%.

Преимущества и недостатки метода

Преимущества. Высокий уровень статистической надёжности. Из-за низкой распространенности систем мала вероятность разработки способа их «обмана».
Недостатки. Сложная при использовании система с высоким временем обработки. Высокая стоимость системы. Отсутствие широкого рынка предложение и как следствие недостаточная интенсивность развития метода.

Геометрия рук

Этот метод, достаточно распространённы ещё лет 10 назад и произошедший из криминалистики в последние годы идёт на убыль. Он основан на получении геометрических характеристик рук: длин пальцев, ширины ладони и.т.д. Этот метод, как и сетчатка глаза — умирающий, а так как у него куда более низкие характеристики, то даже не будем вводить его боле полного описания.
Иногда считается что в системах распознавания по венам применяют геометрические методы распознавания. Но в продаже мы такого явно заявленного ни разу не видели. Да и к тому же часто при распознавании по венам делается снимок только ладони, тогда как при распознавании по геометрии делается снимок пальцев.

Немного самопиара

В своё время мы разработали неплохой алгоритм распознавания по глазам. Но на тот момент такая высокотехнологичная штука в этой стране была не нужна, а в буржуйстан (куда нас пригласили после первой же статьи) — ехать не хотелось. Но внезапно, спустя года полтора таки нашлись инвесторы, которые захотели построить себе «биометрический портал» — систему, которая бы кушала 2 глаза и использовала цветовую составляющую радужной оболочки (на что у инвестора был мировой патент). Собственно теперь мы этим и занимаемся. Но это не статья про самопиар, это краткое лирическое отступление. Если кому интересно тут есть немного инфы, а когда-нибудь в будущем, когда мы выйдем на рынок (или не выйдем) я тут напишу пару слов о перипетиях биометрического проекта в России.

Выводы


Даже в классе статических систем биометрии имеется большой выбор систем. Какую из них выбрать? Всё зависит от требований к системе безопасности. Самыми статистически надежными и устойчивыми к подделке системами доступа являются системы допуска по радужной оболочке и по венам рук. На первые из них существует более широкий рынок предложений. Но и это не предел. Системы биометрической идентификации можно комбинировать, достигая астрономических точностей. Самыми дешёвыми и простыми в использовании, но обладающими хорошей статистикой, являются системы допуска по пальцам. Допуск по 2D лицу удобен и дёшев, но имеет ограниченную область применений из-за плохих статистических показателей.
Рассмотрим характеристики, которые будет иметь каждая из систем: устойчивость к подделке, устойчивость к окружающей среде, простота использования, стоимость, скорость, стабильность биометрического признака во времени. Расставим оценки от 1 до 10 в каждой графе. Чем ближе оценка к 10, тем лучше система в этом отношении. Принципы выбора оценок были описаны в самом начале статьи.

Также рассмотрим соотношение FAR и FRR для этих систем. Это соотношение определяет эффективность системы и широту её использования.

Стоит помнить, что для радужной оболочки можно увеличить точность системы практически квадратично, без потерь для времени, если усложнить систему, сделав её на два глаза. Для дактилоскопического метода — путём комбинирования нескольких пальцев, и распознаванию по венам, путём комбинирования двух рук, но такое улучшение возможно только при увеличении времени, затрачиваемого при работе с человеком.
Обобщив результаты для методов, можно сказать, что для средних и больших объектов, а так же для объектов с максимальным требованием в безопасности следует использовать радужную оболочку в качестве биометрического доступа и, возможно, распознавание по венам рук. Для объектов с количеством персонала до нескольких сотен человек оптимальным будет доступ по отпечаткам пальцев. Системы распознавания по 2D изображению лица весьма специфические. Они могут потребоваться в случаях, когда распознавание требует отсутствия физического контакта, но поставить систему контроля по радужной оболочке невозможно. Например, при необходимости идентификации человека без его участия, скрытой камерой, или камерой наружного обнаружения, но возможно это лишь при малом количестве субъектов в базе и небольшом потоке людей, снимаемых камерой.

Юному технику на заметку

У некоторых производителей, например у Neurotechnology на сайте доступны демо-версии методов биометрии, которые они выпускают, так что вполне можно подключить их и поиграться. Для тех же, кто решит покопаться в проблеме посерьёзнее, могу посоветовать единственную книжку которую я видел на русском — «Руководство по биометрии» Р.М. Болл, Дж.Х. Коннел, Ш. Панканти. Там есть много алгоритмов и их математических моделей. Не всё полно и не всё соответствует современности, но база неплохая и объемлющая.

Глава 3: системы распознавания образов (идентификации)

В. С. Симанков, Е. В. Луценко

Статья по учебной дисциплине
Название дисциплины:

Обнаружение и распознавание сигналов

8. Распознавание и идентификация сигналов на физическом уровне

8.2 Обнаружение и распознавание объектов изображений

Преподаватель:
Оглавление
Глава 3, «Требования к математической модели сложного объекта управления, критерии оценки степени адекватности»

Глава 3: Аналитический обзор методов распознавания образов и принятия решений

Теория распознавания образов и автоматизация управления

Основные задачи адаптивного распознавания образов

Распознавание представляет собой информационный процесс, реализуемый некоторым преобразователем информации (интеллектуальным информационным каналом, системой распознавания), имеющим вход и выход. На вход системы подается информация о том, какими признаками обладают предъявляемые объекты. На выходе системы отображается информация о том, к каким классам (обобщенным образам) отнесены распознаваемые объекты.

При создании и эксплуатации автоматизированной системы распознавания образов решается ряд задач. Рассмотрим кратко и упрощенно эти задачи. Отметим, что у различных авторов формулировки этих задач, да и сам набор не совпадают, так как он в определенной степени зависит от конкретной математической модели, на которой основана та или иная система распознавания. Кроме того, некоторые задачи в определенных моделях распознавания не имеют решения и, соответственно, не ставятся.

Задача формализации предметной области

По сути это задача является задачей кодирования. Составляется список обобщенных классов, к которым могут относиться конкретные реализации объектов, а также список признаков, которыми эти объекты в принципе могут обладать.

Задача формирования обучающей выборки

Обучающая выборка представляет собой базу данных, содержащую описания конкретных реализаций объектов на языке признаков, дополненную информацией о принадлежности этих объектов к определенным классам распознавания.

Задача обучения системы распознавания

Обучающая выборка используется для формирования обобщенных образов классов распознавания на основе обобщения информации о том, какими признаками обладают объекты обучающей выборки, относящиеся к этому классу и другим классам.

Задача снижения размерности пространства признаков

После обучения системы распознавания (получения статистики распределения частот признаков по классам) становится возможным определить для каждого признака его ценность для решения задачи распознавания. После этого наименее ценные признаки могут быть удалены из системы признаков. Затем система распознавания должна быть обучена заново, так как в результате удаления некоторых признаков статистика распределения оставшихся признаков по классам изменяется. Этот процесс может повторяться, т.е. быть итерационным.

Задача распознавания

Распознаются объекты распознаваемой выборки, которая, в частности, может состоять и из одного объекта. Распознаваемая выборка формируется аналогично обучающей, но не содержит информации о принадлежности объектов к классам, так как именно это и определяется в процессе распознавания. Результатом распознавания каждого объекта является распределение или список всех классов распознавания в порядке убывания степени сходства распознаваемого объекта с ними.

Задача контроля качества распознавания

После распознавания может быть установлена его адекватность. Для объектов обучающей выборки это может быть сделано сразу, так как для них просто известно, к каким классам они относятся. Для других объектов эта информация может быть получена позже. В любом случае может быть определена фактическая средняя вероятность ошибки по всем классам распознавания, а также вероятность ошибки при отнесении распознаваемого объекта к определенному классу.

Результаты распознавания должны интерпретироваться с учетом имеющейся информации о качестве распознавания.

Задача адаптации

Если в результате выполнения процедуры контроля качества установлено, что оно неудовлетворительное, то описания неправильно распознанных объектов могут быть скопированы из распознаваемой выборки в обучающую, дополнены адекватной классификационной информацией и использованы для переформирования решающих правил, т.е. учтены. Более того, если эти объекты не относятся к уже имеющимся классам распознавания, что и могло быть причиной их неверного распознавания, то этот список может быть расширен. В результате система распознавания адаптируется и начинает адекватно классифицировать эти объекты.

Обратная задача распознавания

Задача распознавания состоит в том, что для данного объекта по его известным признакам системой устанавливается его принадлежность к некоторому ранее неизвестному классу. В обратной задаче распознавания, наоборот, для данного класса распознавания системой устанавливается, какие признаки наиболее характерны для объектов данного класса, а какие нет (или какие объекты обучающей выборки относятся к данному классу).

Задачи кластерного и конструктивного анализа

Кластерами называются такие группы объектов, классов или признаков, что внутри каждого кластера они максимально сходны, а между разными кластерами — максимально различны.

Конструктом (в контексте, рассматриваемом в данном разделе) называется система противоположных кластеров. Таким образом, в определенном смысле конструкты есть результат кластерного анализа кластеров.

В кластерном анализе количественно измеряется степень сходства и различия объектов (классов, признаков), и эта информация используется для классификации. Результатом кластерного анализа является сама классификация объектов по кластерам. Эта классификация может быть представлена в форме семантических сетей.

Задача когнитивного анализа

В когнитивном анализе информация о сходстве и различии классов или признаков интересует исследователя сама по себе, а не для того, чтобы использовать ее для классификации, как в кластерном и конструктивном анализе.

Если для двух классов распознавания является характерным один и тот же признак, то это вносит вклад в сходство этих двух классов. Если же для одного из классов этот признак является нехарактерным, то это вносит вклад в различие.

Если два признака коррелируют друг с другом, то в определенном смысле их можно рассматривать как один признак, а если антикоррелируют, то как различные. С учетом этого обстоятельства наличие различных признаков у разных классов также вносит определенный вклад в их сходство и различие.

Результаты когнитивного анализа могут быть представлены в форме когнитивных диаграмм.

Методы распознавания образов и их характеристики

Принципы классификации методов распознавания образов

Распознаванием образов называются задачи построения и применения формальных операций над числовыми или символьными отображениями объектов реального или идеального мира, результаты решения которых отражают отношения эквивалентности между этими объектами. Отношения эквивалентности выражают принадлежность оцениваемых объектов к каким-либо классам, рассматриваемым как самостоятельные семантические единицы.

При построении алгоритмов распознавания классы эквивалентности могут задаваться исследователем, который пользуется собственными содержательными представлениями или использует внешнюю дополнительную информацию о сходстве и различии объектов в контексте решаемой задачи. Тогда говорят о «распознавании с учителем» [118]. В противном случае, т.е. когда автоматизированная система решает задачу классификации без привлечения внешней обучающей информации, говорят об автоматической классификации или «распознавании без учителя». Большинство алгоритмов распознавания образов требует привлечения весьма значительных вычислительных мощностей, которые могут быть обеспечены только высокопроизводительной компьютерной техникой.

Различные авторы (Ю.Л. Барабаш [32], В.И. Васильев [86], А.Л. Горелик , В.А. Скрипкин [104], Р. Дуда, П. Харт [115], Л.Т. Кузин [169], Ф.И. Перегудов, Ф.П. Тарасенко [273], Ф.Е. Темников [351], Дж. Ту, Р. Гонсалес [357], П. Уинстон [359], К. Фу [372], Я.З. Цыпкин [383] и др.) дают различную типологию методов распознавания образов. Одни авторы различают параметрические, непараметрические и эвристические методы, другие — выделяют группы методов, исходя из исторически сложившихся школ и направлений в данной области. Например, в работе [118], в которой дан академический обзор методов распознавания, используется следующая типология методов распознавания образов:

  • методы, основанные на принципе разделения;
  • статистические методы;
  • методы, построенные на основе «потенциальных функций»;
  • методы вычисления оценок (голосования);
  • методы, основанные на исчислении высказываний, в частности на аппарате алгебры логики.

В основе данной классификации лежит различие в формальных методах распознавания образов и поэтому опущено рассмотрение эвристического подхода к распознаванию, получившего полное и адекватное развитие в экспертных системах. Эвристический подход основан на трудно формализуемых знаниях и интуиции исследователя. При этом исследователь сам определяет, какую информацию и каким образом система должна использовать для достижения требуемого эффекта распознавания.

Подобная типология методов распознавания с той или иной степенью детализации встречается во многих работах по распознаванию. В то же время известные типологии не учитывают одну очень существенную характеристику, которая отражает специфику способа представления знаний о предметной области с помощью какого-либо формального алгоритма распознавания образов.

Д.А.Поспелов (1990) выделяет два основных способа представления знаний [282]:

  • интенсиональное, в виде схемы связей между атрибутами (признаками).
  • экстенсиональное, с помощью конкретных фактов (объекты, примеры).

Интенсиональное представление фиксируют закономерности и связи, которыми объясняется структура данных. Применительно к диагностическим задачам такая фиксация заключается в определении операций над атрибутами (признаками) объектов, приводящих к требуемому диагностическому результату. Интенсиональные представления реализуются посредством операций над значениями атрибутов и не предполагают произведения операций над конкретными информационными фактами (объектами).

В свою очередь, экстенсиональные представления знаний связаны с описанием и фиксацией конкретных объектов из предметной области и реализуются в операциях, элементами которых служат объекты как целостные системы.

Можно провести аналогию между интенсиональными и экстенсиональными представлениями знаний и механизмами, лежащими в основе деятельности левого и правого полушарий головного мозга человека. Если для правого полушария характерна целостная прототипная репрезентация окружающего мира, то левое полушарие оперирует закономерностями, отражающими связи атрибутов этого мира [282].

Описанные выше два фундаментальных способа представления знаний позволяют предложить следующую классификацию методов распознавания образов:

  • интенсиональные методы, основанные на операциях с признаками.
  • экстенсиональные методы, основанные на операциях с объектами.

Необходимо особо подчеркнуть, что существование именно этих двух (и только двух) групп методов распознавания: оперирующих с признаками, и оперирующих с объектами, глубоко закономерно. С этой точки зрения ни один из этих методов, взятый отдельно от другого, не позволяет сформировать адекватное отражение предметной области. По мнению авторов, между этими методами существует отношение дополнительности в смысле Н.Бора [71], поэтому перспективные системы распознавания должны обеспечивать реализацию обоих этих методов, а не только какого-либо одного из них.

Таким образом, в основу классификации методов распознавания, предложенной Д. А. Поспеловым, положены фундаментальные закономерности, лежащие в основе человеческого способа познания вообще, что ставит ее в совершенно особое (привилегированное) положение по сравнению с другими классификациями, которые на этом фоне выглядят более легковесными и искусственными.

Интенсиональные методы

Отличительной особенностью интенсиональных методов является то, что в качестве элементов операций при построении и применении алгоритмов распознавания образов они используют различные характеристики признаков и их связей. Такими элементами могут быть отдельные значения или интервалы значений признаков, средние величины и дисперсии, матрицы связей признаков и т. п., над которыми производятся действия, выражаемые в аналитической или конструктивной форме. При этом объекты в данных методах не рассматриваются как целостные информационные единицы, а выступают в роли индикаторов для оценки взаимодействия и поведения своих атрибутов.

Группа интенсиональных методов распознавания образов обширна, и ее деление на подклассы носит в определенной мере условный характер.

Методы, основанные на оценках плотностей распределения значений признаков

Эти методы распознавания образов заимствованы из классической теории статистических решений, в которой объекты исследования рассматриваются как реализации многомерной случайной величины, распределенной в пространстве признаков по какому-либо закону. Они базируются на байесовской схеме принятия решений, апеллирующей к априорным вероятностям принадлежности объектов к тому или иному распознаваемому классу и условным плотностям распределения значений вектора признаков. Данные методы сводятся к определению отношения правдоподобия в различных областях многомерного пространства признаков.


Группа методов, основанных на оценке плотностей распределения значений признаков, имеет прямое отношение к методам дискриминантного анализа. Байесовский подход к принятию решений и относится к наиболее разработанным в современной статистике так называемым параметрическим методам, для которых считается известным аналитическое выражение закона распределения (в данном случае нормальный закон) и требуется оценить лишь небольшое количество параметров (векторы средних значений и ковариационные матрицы).

Основными трудностями применения указанных методов считаются необходимость запоминания всей обучающей выборки для вычисления оценок локальных плотностей распределения вероятностей и высокая чувствительность к непредставительности обучающей выборки.

Методы, основанные на предположениях о классе решающих функций

В данной группе методов считается известным общий вид решающей функции и задан функционал ее качества. На основании этого функционала по обучающей последовательности находят наилучшее приближение решающей функции [118]. Самыми распространенными являются представления решающих функций в виде линейных и обобщенных нелинейных полиномов. Функционал качества решающего правила обычно связывают с ошибкой классификации.

Основным достоинством методов, основанных на предположениях о классе решающих функций, является ясность математической постановки задачи распознавания, как задачи поиска экстремума. Многообразие методов этой группы объясняется широким спектром используемых функционалов качества решающего правила и алгоритмов поиска экстремума. Обобщением рассматриваемых алгоритмов, к которым относятся, в частности, алгоритм Ньютона, алгоритмы перцептронного типа и др., является метод стохастической аппроксимации.

Возможности градиентных алгоритмов поиска экстремума, особенно в группе линейных решающих правил, достаточно хорошо изучены. Сходимость этих алгоритмов доказана только для случая, когда распознаваемые классы объектов отображаются в пространстве признаков компактными геометрическими структурами.

Достаточно высокое качество решающего правила может быть достигнуто с помощью алгоритмов, не имеющих строгого математического доказательства сходимости решения к глобальному экстремуму. К таким алгоритмам относится большая группа процедур эвристического программирования, представляющих направление эволюционного моделирования. Эволюционное моделирование является бионическим методом, заимствованным у природы. Оно основано на использовании известных механизмов эволюции с целью замены процесса содержательного моделирования сложного объекта феноменологическим моделированием его эволюции. Известным представителем эволюционного моделирования в распознавании образов является метод группового учета аргументов (МГУА) [118]. В основу МГУА положен принцип самоорганизации, и алгоритмы МГУА воспроизводят схему массовой селекции.

Однако достижению практических целей в данном случае не сопутствует извлечение новых знаний о природе распознаваемых объектов. Возможность извлечения этих знаний, в частности знаний о механизмах взаимодействия атрибутов (признаков), здесь принципиально ограничена заданной структурой такого взаимодействия, зафиксированной в выбранной форме решающих функций.

Логические методы

Логические методы распознавания образов базируются на аппарате алгебры логики и позволяют оперировать информацией, заключенной не только в отдельных признаках, но и в сочетаниях значений признаков. В этих методах значения какого-либо признака рассматриваются как элементарные события [104].

В самом общем виде логические методы можно охарактеризовать как разновидность поиска по обучающей выборке логических закономерностей и формирование некоторой системы логических решающих правил (например, в виде конъюнкций элементарных событий), каждое из которых имеет собственный вес. Группа логических методов разнообразна и включает методы различной сложности и глубины анализа. Для дихотомических (булевых) признаков популярными являются так называемые древообразные классификаторы, метод тупиковых тестов, алгоритм «Кора» и др.

Алгоритм «Кора», как и другие логические методы распознавания образов, является достаточно трудоемким в вычислительном отношении, поскольку при отборе конъюнкций необходим полный перебор. Поэтому при применении логических методов предъявляются высокие требования к эффективной организации вычислительного процесса, и эти методы хорошо работают при сравнительно небольших размерностях пространства признаков и только на мощных компьютерах.

Лингвистические (структурные) методы

Лингвистические методы распознавания образов основаны на использовании специальных грамматик, порождающих языки, с помощью которых может описываться совокупность свойств распознаваемых объектов [372].

Для различных классов объектов выделяются непроизводные (атомарные) элементы (подобразы, признаки) и возможные отношения между ними. Грамматикой называют правила построения объектов из этих непроизводных элементов.

Таким образом, каждый объект представляет собой совокупность непроизводных элементов, «соединенных» между собой теми или иными способами или, другими словами, «предложением» некоторого «языка». Хотелось бы особо подчеркнуть очень значительную мировоззренческую ценность этой мысли [236].

Путем синтаксического анализа (грамматического разбора) «предложения» определяется его синтаксическая «правильность» или, что эквивалентно, может ли некоторая фиксированная грамматика, описывающая класс, породить имеющееся описание объекта.

Однако задача восстановления (определения) грамматик по некоторому множеству высказываний (предложений — описаний объектов), порождающих данный язык, является трудно формализуемой.

Экстенсиональные методы

В методах данной группы, в отличие от интенсионального направления, каждому изучаемому объекту в большей или меньшей мере придается самостоятельное диагностическое значение. По своей сути эти методы близки к клиническому подходу, который рассматривает людей не как проранжированную по тому или иному показателю цепочку объектов, а как целостные системы, каждая из которых индивидуальна и имеет особенную диагностическую ценность [118]. Такое бережное отношение к объектам исследования не позволяет исключать или утрачивать информацию о каждом отдельном объекте, что происходит при применении методов интенсионального направления, использующих объекты только для обнаружения и фиксации закономерностей поведения их атрибутов.

Основными операциями в распознавании образов с помощью обсуждаемых методов являются операции определения сходства и различия объектов. Объекты в указанной группе методов играют роль диагностических прецедентов. При этом в зависимости от условий конкретной задачи роль отдельного прецедента может меняться в самых широких пределах: от главной и определяющей и до весьма косвенного участия в процессе распознавания. В свою очередь условия задачи могут требовать для успешного решения участия различного количества диагностических прецедентов: от одного в каждом распознаваемом классе до полного объема выборки, а также разных способов вычисления мер сходства и различия объектов. Этими требованиями объясняется дальнейшее разделение экстенсиональных методов на подклассы.

Метод сравнения с прототипом

Это наиболее простой экстенсиональный метод распознавания. Он применяется, например, в том случае, когда распознаваемые классы отображаются в пространстве признаков компактными геометрическими группировками. В таком случае обычно в качестве точки — прототипа выбирается центр геометрической группировки класса (или ближайший к центру объект).

Для классификации неизвестного объекта находится ближайший к нему прототип, и объект относится к тому же классу, что и этот прототип. Очевидно, никаких обобщенных образов классов в данном методе не формируется.

В качестве меры близости могут применяться различные типы расстояний. Часто для дихотомических признаков используется расстояние Хэмминга, которое в данном случае равно квадрату евклидова расстояния. При этом решающее правило классификации объектов эквивалентно линейной решающей функции.

Указанный факт следует особо отметить. Он наглядно демонстрирует связь прототипной и признаковой репрезентации информации о структуре данных. Пользуясь приведенным представлением, можно, например, любую традиционную измерительную шкалу, являющуюся линейной функцией от значений дихотомических признаков, рассматривать как гипотетический диагностический прототип. В свою очередь, если анализ пространственной структуры распознаваемых классов позволяет сделать вывод об их геометрической компактности, то каждый из этих классов достаточно заменить одним прототипом, который фактически эквивалентен линейной диагностической модели.

На практике, безусловно, ситуация часто бывает отличной от описанного идеализированного примера. Перед исследователем, намеревающимся применить метод распознавания, основанный на сравнении с прототипами диагностических классов, встают непростые проблемы.

Во-первых, это выбор меры близости (метрики), от которого может существенно измениться пространственная конфигурация распределения объектов. Во-вторых, самостоятельной проблемой является анализ многомерных структур экспериментальных данных. Обе эти проблемы особенно остро встают перед исследователем в условиях высокой размерности пространства признаков, характерной для реальных задач.

Метод k ближайших соседей

Метод k ближайших соседей для решения задач дискриминантного анализа был впервые предложен еще в 1952 году [357]. Он заключается в следующем.

При классификации неизвестного объекта находится заданное число (k) геометрически ближайших к нему в пространстве признаков других объектов (ближайших соседей) с уже известной принадлежностью к распознаваемым классам. Решение об отнесении неизвестного объекта к тому или иному диагностическому классу принимается путем анализа информации об этой известной принадлежности его ближайших соседей, например, с помощью простого подсчета голосов.

Первоначально метод k ближайших соседей рассматривался как непараметрический метод оценивания отношения правдоподобия. Для этого метода получены теоретические оценки его эффективности в сравнении с оптимальным байесовским классификатором. Доказано, что асимптотические вероятности ошибки для метода k ближайших соседей превышают ошибки правила Байеса не более чем в два раза.

При использовании метода k ближайших соседей для распознавания образов исследователю приходится решать сложную проблему выбора метрики для определения близости диагностируемых объектов. Эта проблема в условиях высокой размерности пространства признаков чрезвычайно обостряется вследствие достаточной трудоемкости данного метода, которая становится значимой даже для высокопроизводительных компьютеров. Поэтому здесь так же, как и в методе сравнения с прототипом, необходимо решать творческую задачу анализа многомерной структуры экспериментальных данных для минимизации числа объектов, представляющих диагностические классы.

Необходимость уменьшения числа объектов в обучающей выборке (диагностических прецедентов) является недостатком данного метода, так как уменьшает представительность обучающей выборки.

Алгоритмы вычисления оценок (»голосования»)

Принцип действия алгоритмов вычисления оценок (АВО) состоит в вычислении приоритетов (оценок сходства), характеризующих «близость» распознаваемого и эталонных объектов по системе ансамблей признаков, представляющей собой систему подмножеств заданного множества признаков.

В отличие от всех ранее рассмотренных методов алгоритмы вычисления оценок принципиально по-новому оперируют описаниями объектов. Для этих алгоритмов объекты существуют одновременно в самых разных подпространствах пространства признаков. Класс АВО доводит идею использования признаков до логического конца: поскольку не всегда известно, какие сочетания признаков наиболее информативны, то в АВО степень сходства объектов вычисляется при сопоставлении всех возможных или определенных сочетаний признаков, входящих в описания объектов [118].

Используемые сочетания признаков (подпространства) авторы называют опорными множествами или множествами частичных описаний объектов. Вводится понятие обобщенной близости между распознаваемым объектом и объектами обучающей выборки (с известной классификацией), которые называют эталонными объектами. Эта близость представляется комбинацией близостей распознаваемого объекта с эталонными объектами, вычисленных на множествах частичных описаний. Таким образом, АВО является расширением метода k ближайших соседей, в котором близость объектов рассматривается только в одном заданном пространстве признаков.

Еще одним расширением АВО является то, что в данных алгоритмах задача определения сходства и различия объектов формулируется как параметрическая и выделен этап настройки АВО по обучающей выборке, на котором подбираются оптимальные значения введенных параметров. Критерием качества служит ошибка распознавания, а параметризуется буквально все:

  • правила вычисления близости объектов по отдельным признакам;
  • правила вычисления близости объектов в подпространствах признаков;
  • степень важности того или иного эталонного объекта как диагностического прецедента;
  • значимость вклада каждого опорного множества признаков в итоговую оценку сходства распознаваемого объекта с каким-либо диагностическим классом.

Параметры АВО задаются в виде значений порогов и (или) как веса указанных составляющих.

Теоретические возможности АВО по крайней мере не ниже возможностей любого другого алгоритма распознавания образов, так как с помощью АВО могут быть реализованы все мыслимые операции с исследуемыми объектами.

Но, как это обычно бывает, расширение потенциальных возможностей наталкивается на большие трудности при их практическом воплощении, особенно на этапе построения (настройки) алгоритмов данного типа.

Отдельные трудности отмечались ранее при обсуждении метода k ближайших соседей, который можно было интерпретировать как усеченный вариант АВО. Его тоже можно рассматривать в параметрическом виде и свести задачу к поиску взвешенной метрики выбранного типа. В то же время уже здесь для высокоразмерных задач возникают сложные теоретические вопросы и проблемы, связанные с организацией эффективного вычислительного процесса.

Для АВО, если попытаться использовать возможности данных алгоритмов в полном объеме, указанные трудности возрастают многократно.

Отмеченные проблемы объясняют то, что на практике применение АВО для решения высокоразмерных задач сопровождается введением каких-либо эвристических ограничений и допущений. В частности, известен пример использования АВО в психодиагностике, в котором апробирована разновидность АВО, фактически эквивалентная методу k ближайших соседей.

Коллективы решающих правил

В завершение обзора методов распознавания образов остановимся еще на одном подходе. Это так называемые коллективы решающих правил (КРП) [32].

Так как различные алгоритмы распознавания проявляют себя по-разному на одной и той же выборке объектов, то закономерно встает вопрос о синтетическом решающем правиле, адаптивно использующем сильные стороны этих алгоритмов. В синтетическом решающем правиле применяется двухуровневая схема распознавания. На первом уровне работают частные алгоритмы распознавания, результаты которых объединяются на втором уровне в блоке синтеза. Наиболее распространенные способы такого объединения основаны на выделении областей компетентности того или иного частного алгоритма. Простейший способ нахождения областей компетентности заключается в априорном разбиении пространства признаков исходя из профессиональных соображений конкретной науки (например расслоение выборки по некоторому признаку). Тогда для каждой из выделенных областей строится собственный распознающий алгоритм. Другой способ базируется на применении формального анализа для определения локальных областей пространства признаков как окрестностей распознаваемых объектов, для которых доказана успешность работы какого-либо частного алгоритма распознавания.

Самый общий подход к построению блока синтеза рассматривает результирующие показатели частных алгоритмов как исходные признаки для построения нового обобщенного решающего правила. В этом случае могут использоваться все перечисленные выше методы интенсионального и экстенсионального направлений в распознавании образов. Эффективными для решения задачи создания коллектива решающих правил являются логические алгоритмы типа «Кора» и алгоритмы вычисления оценок (АВО), положенные в основу так называемого алгебраического подхода, обеспечивающего исследование и конструктивное описание алгоритмов распознавания, в рамки которого укладываются все существующие типы алгоритмов [118].

Сравнительный анализ методов распознавания образов

Сравним описанные выше методы распознавания образов и оценим степень их адекватности сформулированным в разделе 3.3.3 требованиям к моделям СОУ для адаптивных АСУ сложными системами.

Для решения реальных задач из группы методов интенсионального направления практическую ценность представляют параметрические методы и методы, основанные на предложениях о виде решающих функций. Параметрические методы составляют основу традиционной методологии конструирования показателей. Применение этих методов в реальных задачах связано с наложением сильных ограничений на структуру данных, которые приводят к линейным диагностическим моделям с очень приблизительными оценками их параметров. При использовании методов, основанных на предположениях о виде решающих функций, исследователь также вынужден обращаться к линейным моделям. Это обусловлено высокой размерностью пространства признаков, характерной для реальных задач, которая при повышении степени полиноминальной решающей функции дает огромный рост числа ее членов при проблематичном сопутствующем повышении качества распознавания. Таким образом, спроецировав область потенциального применения интенсиональных методов распознавания на реальную проблематику, получим картину, соответствующую хорошо отработанной традиционной методологии линейных диагностических моделей.

Свойства линейных диагностических моделей, в которых диагностический показатель представлен взвешенной суммой исходных признаков, хорошо изучены. Результаты этих моделей (при соответствующем нормировании) интерпретируются как расстояния от исследуемых объектов до некоторой гиперплоскости в пространстве признаков или, что эквивалентно, как проекции объектов на некоторую прямую линию в данном пространстве. Поэтому линейные модели адекватны только простым геометрическим конфигурациям областей пространства признаков, в которые отображаются объекты разных диагностических классов. При более сложных распределениях эти модели принципиально не могут отражать многие особенности структуры экспериментальных данных. В то же время такие особенности способны нести ценную диагностическую информацию.

Вместе с тем появление в какой-либо реальной задаче простых многомерных структур (в частности, многомерных нормальных распределений) следует скорее расценивать как исключение, чем как правило. Часто диагностические классы формируются на основе сложносоставных внешних критериев, что автоматически влечет за собой геометрическую неоднородность данных классов в пространстве признаков. Это особенно касается «жизненных», наиболее часто встречающихся на практике критериев. В таких условиях применение линейных моделей фиксирует только самые «грубые» закономерности экспериментальной информации.

Применение экстенсиональных методов не связано с каким-либо предположениями о структуре экспериментальной информации, кроме того, что внутри распознаваемых классов должны существовать одна или несколько групп чем-то похожих объектов, а объекты разных классов должны чем-то отличаться друг от друга. Очевидно, что при любой конечной размерности обучающей выборки (а другой она быть и не может) это требование выполняется всегда просто по той причине, что существуют случайные различия между объектами. В качестве мер сходства применяются различные меры близости (расстояния) объектов в пространстве признаков. Поэтому эффективное использование экстенсиональных методов распознавания образов зависит от того, насколько удачно определены указанные меры близости, а также от того, какие объекты обучающей выборки (объекты с известной классификацией) выполняют роль диагностических прецедентов. Успешное решение данных задач дает результат, приближающийся к теоретически достижимым пределам эффективности распознавания.

Достоинствам экстенсиональных методов распознавания образов противопоставлена, в первую очередь, высокая техническая сложность их практического воплощения. Для высокоразмерных пространств признаков внешне простая задача нахождения пар ближайших точек превращается в серьезную проблему. Также многие авторы отмечают в качестве проблемы необходимость запоминания достаточно большого количества объектов, представляющих распознаваемые классы.

Само по себе это не является проблемой, однако воспринимается как проблема (например, в методе k ближайших соседей) по той причине, что при распознавании каждого объекта происходит полный перебор всех объектов обучающей выборки.

Поэтому целесообразно применить модель системы распознавания, в которой проблема полного перебора объектов обучающей выборки при распознавании снимается, так как он осуществляется лишь один раз при формировании обобщенных образов классов распознавания. При самом же распознавании осуществляется сравнение идентифицируемого объекта лишь с обобщенными образами классов распознавания, количество которых фиксировано и совершенно не зависит от размерности обучающей выборки. Данный подход позволяет увеличивать размерность обучающей выборки до тех пор, пока не будет достигнуто требуемое высокое качество обобщенных образов, совершенно при этом не опасаясь, что это может привести к неприемлемому увеличению времени распознавания (так как время распознавания в данной модели вообще не зависит от размерности обучающей выборки).

Теоретические проблемы применения экстенсиональных методов распознавания связаны с проблемами поиска информативных групп признаков, нахождения оптимальных метрик для измерения сходства и различия объектов и анализа структуры экспериментальной информации. В то же время успешное решение перечисленных проблем позволяет не только конструировать эффективные распознающие алгоритмы, но и осуществлять переход от экстенсионального знания эмпирических фактов к интенсиональному знанию о закономерностях их структуры.

Переход от экстенсионального знания к интенсиональному происходит на той стадии, когда формальный алгоритм распознавания уже сконструирован и его эффективность продемонстрирована. Тогда производится изучение механизмов, за счет которых достигается полученная эффективность. Такое изучение, связанное с анализом геометрической структуры данных, может, например, привести к выводу о том, что достаточно заменить объекты, представляющие тот или иной диагностический класс, одним типичным представителем (прототипом). Это эквивалентно, как отмечалось выше, заданию традиционной линейной диагностической шкалы. Также возможно, что каждый диагностический класс достаточно заменить несколькими объектами, осмысленными как типичные представители некоторых подклассов, что эквивалентно построению веера линейных шкал. Возможны и другие варианты, которые будут рассмотрены ниже.

Таким образом, обзор методов распознавания показывает, что в настоящее время теоретически разработан целый ряд различных методов распознавания образов. В литературе приводится развернутая их классификация. Однако для большинства этих методов их программная реализация отсутствует, и это глубоко закономерно, можно даже сказать «предопределено» характеристиками самих методов распознавания. Об этом можно судить по тому, что такие системы мало упоминаются в специальной литературе и других источниках информации.

Следовательно, остается недостаточно разработанным вопрос о практической применимости тех или иных теоретических методов распознавания для решения практических задач при реальных (т.е. довольно значительных) размерностях данных и на реальных современных компьютерах.

Вышеупомянутое обстоятельство может быть понято, если напомнить, что сложность математической модели экспоненциально увеличивает трудоемкость программной реализации системы и в такой же степени уменьшает шансы на то, что эта система будет практически работать. Это означает, что реально на рынке можно реализовать только такие программные системы, в основе которых лежат достаточно простые и «прозрачные» математические модели. Поэтому разработчик, заинтересованный в тиражировании своего программного продукта, подходит к вопросу о выборе математической модели не с чисто научной точки зрения, а как прагматик, с учетом возможностей программной реализации. Он считает, что модель должна быть как можно более простой, а значит реализоваться с меньшими затратами и более качественно, а также должна обязательно работать (быть практически эффективной).


В этой связи особенно актуальной представляется задача реализации в системах распознавания механизма обобщения описаний объектов, относящихся к одному классу, т.е. механизма формирования компактных обобщенных образов. Очевидно, что такой механизм обобщения позволит «сжать» любую по размерности обучающую выборку к заранее известной по размерности базе обобщенных образов. Это позволит также поставить и решить ряд задач, которые даже не могут быть сформулированы в таких методах распознавания, как метод сравнения с прототипом, метод k ближайших соседей и АВО.

  • определения информационного вклада признаков в информационный портрет обобщенного образа;
  • кластерно-конструктивный анализ обобщенных образов;
  • определение семантической нагрузки признака;
  • семантический кластерно-конструктивный анализ признаков;
  • содержательное сравнение обобщенных образов классов друг с другом и признаков друг с другом (когнитивные диаграммы, в т.ч. диаграммы Мерлина [190, 220, 355]).

Метод, который позволил достичь решения этих задач, также отличает основанную на нем перспективную систему от других систем, как компиляторы отличаются от интерпретаторов, так как благодаря формированию обобщенных образов в этой перспективной системе достигается независимость времени распознавания от объемов обучающей выборки. Известно, что именно существование этой зависимости приводит к практически неприемлемым затратам машинного времени на распознавание в таких методах, как метод k ближайших соседей, АВО и КРП при таких размерностях обучающей выборки, когда можно говорить о достаточной статистике.

В заключение краткого обзора методов распознавания представим суть вышеизложенного в сводной таблице (табл. 3.1), содержащей краткую характеристику различных методов распознавания образов по следующим параметрам:

  • классификация методов распознавания;
  • области применения методов распознавания;
  • классификация ограничений методов распознавания.
Классификация методов распознавания Область применения Ограничения (недостатки)
Интенсиальные методы распознавания Методы, основанные на оценках плотностей распределения значений признаков (или сходства и различия объектов) Задачи с известным распределением, как правило, нормальным, необходимость набора большой статистики Необходимость перебора всей обучающей выборки при распознавании, высокая чувствительность к непредставительности обучающей выборки и артефактам
Методы, основанные на предположениях о классе решающих функций Классы должны быть хорошо разделяемыми, система признаков — ортонормированной Должен быть заранее известен вид решающей функции. Невозможность учета новых знаний о корреляциях между признаками
Логические методы Задачи небольшой размерности пространства признаков При отборе логических решающих правил (коньюнкций) необходим полный перебор. Высокая вычислительная трудоемкость
Лингвистические (структурные) методы Задачи небольшой размерности пространства признаков Задача восстановления (определения) грамматики по некоторому множеству высказываний (описаний объектов), является трудно формализуемой. Нерешенность теоретических проблем
Экстенсиальные методы распознавания Метод сравнения с прототипом Задачи небольшой размерности пространства признаков Высокая зависимость результатов классификации от меры расстояния (метрики). Неизвестность оптимальной метрики
Метод k ближайших соседей Задачи небольшой размерности по количеству классов и признаков Высокая зависимость результатов классификации от меры расстояния (метрики). Необходимость полного перебора обучающей выборки при распознавании. Вычислительная трудоемкость
Алгоритмы вычисления оценок (голосования) АВО Задачи небольшой размерности по количеству классов и признаков Зависимость результатов классификации от меры расстояния (метрики). Необходимость полного перебора обучающей выборки при распознавании. Высокая техническая сложность метода
Коллективы решающих правил (КРП) Задачи небольшой размерности по количеству классов и признаков Очень высокая техническая сложность метода, нерешенность ряда теоретических проблем, как при определении областей компетенции частных методов, так и в самих частных методах

Таблица 3.1 — Сводная таблица классификации методов распознавания, сравнения их областей применения и ограничений

Роль и место распознавания образов в автоматизации управления сложными системами

Автоматизированная система управления состоит из двух основных частей: объекта управления и управляющей системы.

Управляющая система осуществляет следующие функции:

  • идентификация состояния объекта управления;
  • выработка управляющего воздействия исходя из целей управления с учетом состояния объекта управления и среды;
  • оказание управляющего воздействия на объект управления.

Распознавание образов есть не что иное, как идентификация состояния некоторого объекта.

Следовательно, возможность применения системы распознавания образов на этапе идентификации состояния объекта управления представляется вполне очевидной и естественной. Однако в этом может не быть необходимости. Поэтому возникает вопрос, в каких случаях целесообразно применять систему распознавания в АСУ, а в каких нет.

По литературным данным [230, 241, 279, 334] во многих ранее разработанных и современных АСУ в подсистемах идентификации состояния объекта управления и выработки управляющих воздействий используются детерминистские математические модели «прямого счета», которые однозначно и достаточно просто определяют, что делать с объектом управления, если у него наблюдаются определенные внешние параметры.

При этом не ставится и не решается вопрос о том, как связаны эти параметры с теми или иными состояниями объекта управления. Эта позиция соответствует точке зрения, состоящей в том, что «по умолчанию» принимается их взаимно —однозначная связь. Поэтому термины: «параметры объекта управления» и «состояния объекта управления» рассматриваются как синонимы, а понятие «состояние объекта управления» в явном виде вообще не вводится. Однако очевидно, что в общем случае связь между наблюдаемыми параметрами объекта управления и его состоянием имеет динамичный и вероятностный характер.

Таким образом, традиционные АСУ по сути дела являются системами параметрического управления, т.е. системами, которые управляют не состояниями объекта управления, а лишь его наблюдаемыми параметрами. Решение об управляющем воздействии принимается в таких системах как бы «вслепую», т.е. без формирования целостного образа объекта управления и окружающей среды в их текущем состоянии, а также без прогнозирования развития среды и реакции объекта управления на те или иные управляющие воздействия на него, действующие одновременно с прогнозируемым влиянием среды.

С позиций, развиваемых в данной работе, термин «принятие решений» в современном понимании едва ли вообще в полной мере применим к традиционным АСУ. Дело в том, что «принятие решений», как минимум, предполагает целостное видение объекта в окружающей среде, причем не только в их актуальном состоянии, но и в динамике, и во взаимодействии как друг с другом, так и с системой управления, предполагает рассмотрение различных альтернативных вариантов развития всей этой системы, а также сужение многообразия (редукцию) этих альтернатив на основе определенных целевых критериев. Ничего этого, очевидно, нет в традиционных АСУ, или есть, но в упрощенном виде.

Конечно, традиционный метод является адекватным и его применение вполне корректно и оправдано в тех случаях, когда объект управления действительно является стабильной и жестко детерминированной системой, а влиянием окружающей среды на него можно пренебречь.

Однако в других случаях этот метод малоэффективен.

Если объект управления динамичен, то модели, лежащие в основе алгоритмов управления им, быстро становятся неадекватными, так как изменяются отношения между входными и выходными параметрами, а также сам набор существенных параметров. По сути дела это означает, что традиционные АСУ способны управлять состоянием объекта управления лишь вблизи точки равновесия путем слабых управляющих воздействий на него, т.е. методом малых возмущений. Вдали же от состояния равновесия с традиционной точки зрения поведение объекта управления выглядит непредсказуемым и неуправляемым.

Если нет однозначной связи между входными и выходными параметрами объекта управления (т.е. между входными параметрами и состоянием объекта), иначе говоря, если эта связь имеет выраженный вероятностный характер, то детерминистские модели, в которых предполагается, что результатом измерения некоторого параметра является просто число, изначально неприменимы. Кроме того, вид этой связи просто может быть неизвестным, и тогда необходимо исходить из самого общего предположения: что она вероятностная, либо не определена совсем.

Автоматизированная система управления, построенная на традиционных принципах, может работать только на основе параметров, закономерности связей которых уже известны, изучены и отражены в математической модели, в данном же исследовании поставлена задача разработки таких методов проектирования АСУ, которые позволят создать системы, способные выявлять и набор наиболее значимых параметров, и определять характер связей между ними и состояниями объекта управления.

В этом случае необходимо применять более развитые и адекватные реальной ситуации методы измерений:

  • классификация или распознавание образов (обучение на основе обучающей выборки, адаптивность алгоритмов распознавания, адаптивность наборов классов и исследуемых параметров, выделение наиболее существенных параметров и снижение размерности описания при сохранении заданной избыточности и т.д.);
  • статистические измерения, когда результатом измерения некоторого параметра является не отдельное число, а вероятностное распределение: изменение статистической переменной означает не изменение ее значения самого по себе, а изменение характеристик вероятностного распределения ее значений.

В итоге АСУ, основанные на традиционном детерминистском подходе, практически не работают со сложными динамическими многопараметрическими слабодетерминированными объектами управления, такими, например, как макро- и микросоциально-экономические системы в условиях динамичной экономики «переходного периода», иерархические элитные и этнические группы, социум и электорат, физиология и психика человека, природные и искусственные экосистемы и многие другие.

Весьма знаменательно, что в середине 80-х годов школа И.Пригожина развивает подход [282], согласно которому в развитии любой системы (в том числе и человека) чередуются периоды, в течение которых система ведет себя то как «в основном детерминированная», то как «в основном случайная». Естественно, реальная система управления должна устойчиво управлять объектом управления не только на «детерминистских» участках его истории, но и в точках, когда его дальнейшее поведение становится в высокой степени неопределенным. Уже одно это означает, что необходимо разрабатывать подходы к управлению системами, в поведении которых есть большой элемент случайности (или того, что в настоящее время математически описывается как «случайность»).

Поэтому, в состав перспективных АСУ, обеспечивающих управление сложными динамическими многопараметрическими слабодетерминированными системами, в качестве существенных функциональных звеньев, по-видимому, войдут подсистемы идентификации и прогнозирования состояний среды и объекта управления, основанные на методах искусственного интеллекта (прежде всего распознавания образов), методах поддержки принятия решений и теории информации.

Кратко рассмотрим вопрос о применении систем распознавания образов для принятия решения об управляющем воздействии (подробнее этот вопрос будет рассмотрен далее, так как он является ключевым для данной работы). Если в качестве классов распознавания взять целевые и иные состояния объекта управления, а в качестве признаков — факторы, влияющие на него, то в модели распознавания образов может быть сформирована мера связи факторов и состояний. Это позволяет по заданному состоянию объекта управления получить информацию о факторах, которые способствуют или препятствуют его переходу в это состояние, и, на этой основе, выработать решение об управляющем воздействии.

Факторы могут быть разделены на следующие группы:

  • характеризующие предысторию объекта управления;
  • характеризующие актуальное состояние объекта управления;
  • факторы окружающей среды;
  • технологические (управляемые) факторы.

Таким образом, системы распознавания образов могут быть применены в составе АСУ: в подсистемах идентификации состояния объекта управления и выработки управляющих воздействий.

Это целесообразно в случае, когда объект управления представляет собой сложную систему.

Принятие решения об управляющем воздействии в АСУ

Решение проблемы синтеза адаптивных АСУ сложными системами рассматривается в данной работе с учетом многочисленных и глубоких аналогий между методами распознавания образов и принятия решений.

С одной стороны, задача распознавания образов представляет собой принятие решения о принадлежности распознаваемого объекта к определенному классу распознавания.

С другой стороны, задачу принятия решения авторы предлагают рассматривать как обратную задачу декодирования или обратную задачу распознавания образов (см. раздел 2.2.2).

Особенно очевидной общность основных идей, лежащих в основе методов распознавания образов и принятия решений, становится при рассмотрении их с позиций теории информации.

Многообразие задач принятия решений

Принятие решений как реализация цели

Определение: принятие решения (»выбор») есть действие над множеством альтернатив, в результате которого исходное множество альтернатив сужается, т.е. происходит его редукция.

Выбор является действием, придающим всей деятельности целенаправленность. Именно через акты выбора реализуется подчиненность всей деятельности определенной цели или совокупности взаимосвязанных целей.

Таким образом, для того, чтобы стал возможен акт выбора, необходимо следующее:

  • порождение или обнаружение множества альтернатив, на котором предстоит совершить выбор;
  • определение целей, ради достижения которых осуществляется выбор;
  • разработка и применение способа сравнения альтернатив между собой, т.е. определение рейтинга предпочтения для каждой альтернативы согласно определенным критериям, позволяющим косвенно оценивать, насколько каждая альтернатива соответствует цели.

Современные работы в области поддержки принятия решений выявили характерную ситуацию, которая состоит в том, что полная формализация нахождения наилучшего (в определенном смысле) решения возможна только для хорошо изученных, относительно простых задач, тогда как на практике чаще встречаются слабо структурированные задачи, для которых полностью формализованных алгоритмов не разработано (если не считать полного перебора и метода проб и ошибок). Вместе с тем опытные, компетентные и способные специалисты часто делают выбор, который оказывается достаточно хорошим. Поэтому современная тенденция практики принятия решений в естественных ситуациях состоит в сочетании способности человека решать неформализованные задачи с возможностями формальных методов и компьютерного моделирования: диалоговые системы поддержки принятия решений, экспертные системы, адаптивные человеко-машинные автоматизированные системы управления, нейронные сети и когнитивные системы.

Принятие решений как снятие неопределенности (информационный подход)

Процесс получения информации можно рассматривать как уменьшение неопределенности в результате приема сигнала, а количество информации — как количественную меру степени снятия неопределенности.

Но в результате выбора некоторого подмножества альтернатив из множества, т.е. в результате принятия решения, происходит тоже самое (уменьшение неопределенности). Это значит, что каждый выбор, каждое решение порождает определенное количество информации, а значит может быть описано в терминах теории информации.

Классификация задач принятия решений

Множественность задач принятия решений связана с тем, что каждая компонента ситуации, в которой осуществляется принятие решений, может реализовываться в качественно различных вариантах [273, 391].

Перечислим только некоторые из этих вариантов:

  • множество альтернатив, с одной стороны, может быть конечным, счетным или континуальным, а с другой, — закрытым (т.е. известным полностью) или открытым (включающим неизвестные элементы);
  • оценка альтернатив может осуществляться по одному или нескольким критериям, которые, в свою очередь, могут иметь количественный или качественный характер;
  • режим выбора может быть однократным (разовым), или многократным, повторяющимся, включающим обратную связь по результатам выбора, т.е. допускающим обучение алгоритмов принятия решений с учетом последствий предыдущих выборов;
  • последствия выбора каждой альтернативы могут быть точно известны заранее (выбор в условиях определенности), иметь вероятностный характер, когда известны вероятности возможных исходов после сделанного выбора (выбор в условиях риска) или иметь неоднозначный исход с неизвестными вероятностями (выбор в условиях неопределенности);
  • ответственность за выбор может отсутствовать, быть индивидуальной или групповой;
  • степень согласованности целей при групповом выборе может варьироваться от полного совпадения интересов сторон (кооперативный выбор) до их противоположности (выбор в конфликтной ситуации). Возможны также промежуточные варианты: компромисс, коалиция, нарастающий или затухающий конфликт.

Различные сочетания перечисленных вариантов и приводят к многочисленным задачам принятия решений, которые изучены в различной степени.

Языки описания методов принятия решений

Об одном и том же явлении можно говорить на различных языках различной степени общности и адекватности. К настоящему времени сложились три основных языка описания выбора.

Самым простым, наиболее развитым и наиболее популярным является критериальный язык [273].

Критериальный язык

Название этого языка связано с основным предположением, состоящим в том, что каждую отдельно взятую альтернативу можно оценить некоторым конкретным (одним) числом, после чего сравнение альтернатив сводится к сравнению соответствующих им чисел.

Пусть, например, — множество альтернатив, а x — некоторая определенная альтернатива, принадлежащая этому множеству: x∈X. Тогда считается, что для всех x может быть задана функция q(x), которая называется критерием (критерием качества, целевой функцией, функцией предпочтения, функцией полезности и т.п.), обладающая тем свойством, что если альтернатива x1 предпочтительнее x2 (обозначается: x1 > x2), то q(x1) > q(x2).


При этом выбор сводится к отысканию альтернативы с наибольшим значением критериальной функции.

Однако на практике использование лишь одного критерия для сравнения степени предпочтительности альтернатив оказывается неоправданным упрощением, так как более подробное рассмотрение альтернатив приводит к необходимости оценивать их не по одному, а по многим критериям, которые могут иметь различную природу и качественно отличаться друг от друга.

Например, при выборе наиболее приемлемого для пассажиров и эксплуатирующей организации типа самолета на определенных видах трасс сравнение идет одновременно по многим группам критериев: техническим, технологическим, экономическим, социальным, эргономическим и др.

Многокритериальные задачи не имеют однозначного общего решения. Поэтому предлагается множество способов придать многокритериальной задаче частный вид, допускающий единственное общее решение. Естественно, что для разных способов эти решения являются в общем случае различными. Поэтому едва ли не главное в решении многокритериальной задачи — обоснование данного вида ее постановки.

Используются различные варианты упрощения многокритериальной задачи выбора. Перечислим некоторые из них.

  1. Условная максимизация (находится не глобальный экстремум интегрального критерия, а локальный экстремум основного критерия).
  2. Поиск альтернативы с заданными свойствами.
  3. Нахождение множества Парето.
  4. Сведение многокритериальной задачи к однокритериальной путем ввода интегрального критерия.

Рассмотрим подробнее формальную постановку метода сведения многокритериальной задачи к однокритериальной.

Введем интегральный критерий q(x), как скалярную функцию векторного аргумента:

Интегральный критерий позволяет упорядочить альтернативы по величине q, выделив тем самым наилучшую (в смысле этого критерия). Вид функции q определяется тем, как конкретно мы представляем себе вклад каждого критерия в интегральный критерий. Обычно используют аддитивные и мультипликативные функции:

Коэффициенты si обеспечивают:

  1. Безразмерность или единую размерность числа ai⋅qi/si (различные частные критерии могут иметь разную размерность, и тогда над ними нельзя производить арифметических операций и свести их в интегральный критерий).
  2. Нормировку, т.е. обеспечение условия: bi⋅qi/si * = arg max(q(q1(x), q2(x), . qn(x)))

Основная проблема в многокритериальной постановке задачи принятия решений состоит в том, что необходимо найти такой аналитический вид коэффициентов ai и bi, который бы обеспечил следующие свойства модели:

  • высокую степень адекватности предметной области и точке зрения экспертов;
  • минимальные вычислительные трудности максимизации интегрального критерия, т.е. его расчета для разных альтернатив;
  • устойчивость результатов максимизации интегрального критерия от малых возмущений исходных данных.
  • Устойчивость решения означает, что малое изменение исходных данных должно приводить к малому изменению величины интегрального критерия, и, соответственно, к малому изменению принимаемого решения. Таким образом, если исходные данные практически те же, то и решение должно приниматься или тоже самое, или очень близкое.

Язык последовательного бинарного выбора

Язык бинарных отношений [273] является обобщением многокритериального языка и основан на учете того факта, что когда мы даем оценку некоторой альтернативе, то эта оценка всегда является относительной, т.е. явно или чаще неявно в качестве базы или системы отсчета для сравнения используются другие альтернативы из исследуемого множества или из генеральной совокупности. Мышление человека основано на поиске и анализе противоположностей (конструктов), поэтому нам всегда проще выбрать один из двух противоположных вариантов, чем один вариант из большого и никак неупорядоченного их множества.

Таким образом, основные предположения этого языка сводятся к следующему:

  • отдельная альтернатива не оценивается, т.е. критериальная функция не вводится;
  • для каждой пары альтернатив некоторым образом можно установить, что одна из них предпочтительнее другой или они равноценны или несравнимы;
  • отношение предпочтения в любой паре альтернатив не зависит от остальных альтернатив, предъявленных к выбору.

Существуют различные способы задания бинарных отношений: непосредственный, матричный, с использованием графов предпочтений, метод сечений и др.

Отношения между альтернативами одной пары выражают через понятия эквивалентности, порядка и доминирования.

Обобщенный язык функций выбора

Язык функций выбора [273] основан на теории множеств и позволяет оперировать с отображениями множеств на свои подмножества, соответствующие различным вариантам выбора без необходимости перечисления элементов. Этот язык является весьма общим и потенциально позволяет описывать любой выбор. Однако математический аппарат обобщенных функций выбора в настоящее время еще только разрабатывается и проверяется в основном на задачах, которые уже решены с помощью критериального или бинарного подходов.

Групповой выбор

Пусть имеется группа лиц, имеющих право принимать участие в коллективном принятии решений. Предположим, что эта группа рассматривает некоторый набор альтернатив, и каждый член группы осуществляет свой выбор. Ставится задача о выработке решения, которое определенным образом согласует индивидуальные выборы и в каком-то смысле выражает «общее мнение» группы, т.е. принимается за групповой выбор [273].

Естественно, различным принципам согласования индивидуальных решений будут соответствовать различные групповые решения.

Правила согласования индивидуальных решений при групповом выборе называются правилами голосования. Наиболее распространенным является «правило большинства», при котором за групповое решение принимается альтернатива, получившая наибольшее число голосов.

Необходимо понимать, что такое решение отражает лишь распространенность различных точек зрения в группе, а не действительно оптимальный вариант, за который вообще никто может и не проголосовать. «Истина не определяется путем голосования».

Кроме того, существуют так называемые «парадоксы голосования», наиболее известный из которых парадокс Эрроу.

Эти парадоксы могут привести, и иногда действительно приводят, к очень неприятным особенностям процедуры голосования: например, бывают случаи, когда группа вообще не может принять единственного решения (нет кворума или каждый голосует за свой уникальный вариант и т.д.), а иногда (при многоступенчатом голосовании) меньшинство может навязать свою волю большинству.

Выбор в условиях неопределенности

Определенность — это частный случай неопределенности, а именно: это неопределенность, близкая к нулю.

В современной теории выбора считается, что в задачах принятия решений существует три основных вида неопределенности:

  1. Информационная (статистическая) неопределенность исходных данных для принятия решений.
  2. Неопределенность последствий принятия решений (выбора).
  3. Расплывчатость в описании компонент процесса принятия решений.

Рассмотрим их по порядку.

Информационная (статистическая) неопределенность в исходных данных [273]

Данные, полученные о предметной области, не могут рассматриваться как абсолютно точные. Кроме того, очевидно, эти данные нас интересуют не сами по себе, а лишь в качестве сигналов, которые, возможно, несут определенную информацию о том, что нас в действительности интересует. Таким образом, реалистичнее считать, что мы имеем дело с данными, не только зашумленными и неточными, но еще и косвенными, а возможно, и не полными. Кроме того, эти данные касаются не всей исследуемой (генеральной) совокупности, а лишь определенного ее подмножества, о котором мы смогли фактически собрать данные, однако при этом мы хотим сделать выводы о всей совокупности, причем хотим еще и знать степень достоверности этих выводов.

В этих условиях используется теория статистических решений.

В этой теории существуют два основных источника неопределенности. Во-первых, неизвестно, какому распределению подчиняются исходные данные. Во-вторых, неизвестно, какое распределение имеет то множество (генеральная совокупность), о котором мы хотим сделать выводы по его подмножеству, образующему исходные данные.

Статистические процедуры это и есть процедуры принятия решений, снимающих оба эти вида неопределенности.

Необходимо отметить, что существует ряд причин, которые приводят к некорректному применению статистических методов:

  • статистические выводы, как и любые другие, всегда имеют некоторую определенную надежность или достоверность. Но, в отличие от многих других случаев, достоверность статистических выводов известна и определяется в ходе статистического исследования;
  • качество решения, полученного в результате применения статистической процедуры, зависит от качества исходных данных;
  • не следует подвергать статистической обработке данные, не имеющие статистической природы;
  • необходимо использовать статистические процедуры, соответствующие уровню априорной информации об исследуемой совокупности (например, не следует применять методы дисперсионного анализа к негауссовым данным). Если распределение исходных данных неизвестно, то надо либо его установить, либо использовать несколько различных методов и сравнить результаты. Если они сильно отличаются — это говорит о неприменимости некоторых из использованных процедур.

Неопределенность последствий [273]

Когда последствия выбора той или иной альтернативы однозначно определяются самой альтернативой, то можно не различать альтернативу и ее последствия, считая само собой разумеющимся, что выбирая альтернативу, мы в действительности выбираем ее последствия.

Однако, в реальной практике нередко приходится иметь дело с более сложной ситуацией, когда выбор той или иной альтернативы неоднозначно определяет последствия сделанного выбора.

В случае дискретного набора альтернатив и исходов их выбора, при условии, что сам набор возможных исходов общий для всех альтернатив, можно считать, что различные альтернативы отличаются друг от друга распределением вероятностей исходов. Эти распределения вероятностей в общем случае могут зависеть от результатов выбора альтернатив и реально наступивших в результате этого исходов. В простейшем случае исходы равновероятны. Сами исходы обычно имеют смысл выигрышей или потерь и выражаются количественно.

Если исходы равны для всех альтернатив, то выбирать нечего. Если же они различны, то можно сравнивать альтернативы, вводя для них те или иные количественные оценки. Разнообразие задач теории игр связано с различным выбором числовых характеристик потерь и выигрышей в результате выбора альтернатив, различными степенями конфликтности между сторонами, выбирающими альтернативы и т.д.

Рассмотрим такой вид неопределенности, как расплывчатая неопределенность [273]

Любая задача выбора является задачей целевого сужения множества альтернатив. Как формальное описание альтернатив (сам их перечень, перечень их признаков или параметров), так и описание правил их сравнения (критериев, отношений) всегда даются в терминах той или иной измерительной шкалы (даже тогда, когда тот, кто это делает, не знает об этом).

Известно, что все шкалы размыты, но в разной степени. Под термином «размытие» понимается свойство шкал, состоящее в том, что всегда можно предъявить такие две альтернативы, которые различимы, т.е. различны в одной шкале и неразличимы, т.е. тождественны, в другой — более размытой. Чем меньше градаций в некоторой шкале, тем более она размыта.

Таким образом, мы можем четко видеть альтернативы и одновременно нечетко их классифицировать, т.е. иметь неопределенность в вопросе о том, к каким классам они относятся.

Уже в своей первой работе по принятию решений в расплывчатой ситуации Беллман и Заде [63] выдвинули идею, состоящую в том, что и цели, и ограничения должны представляться как размытые (нечеткие) множества на множестве альтернатив.

О некоторых ограничениях оптимизационного подхода

Во всех рассмотренных выше задачах выбора и методах принятия решений проблема состояла в том, чтобы в исходном множестве найти наилучшие в заданных условиях, т.е. оптимальные в определенном смысле альтернативы.

Идея оптимальности является центральной идеей кибернетики и прочно вошла в практику проектирования и эксплуатации технических систем. Вместе с тем эта идея требует осторожного к себе отношения, когда мы пытаемся перенести ее в область управления сложными, большими и слабо детерминированными системами, такими, например, как социально-экономические системы.

Для этого заключения имеются достаточно веские основания. Рассмотрим некоторые из них:

  1. Оптимальное решение нередко оказывается неустойчивым, т.е. незначительные изменения в условиях задачи, исходных данных или ограничениях могут привести к выбору существенно отличающихся альтернатив.
  2. Оптимизационные модели разработаны лишь для узких классов достаточно простых задач, которые не всегда адекватно и системно отражают реальные объекты управления. Чаще всего оптимизационные методы позволяют оптимизировать лишь достаточно простые и хорошо формально описанные подсистемы некоторых больших и сложных систем, т.е. позволяют осуществить лишь локальную оптимизацию. Однако, если каждая подсистема некоторой большой системы будет работать оптимально, то это еще совершенно не означает, что оптимально будет работать и система в целом. Поэтому оптимизация подсистемы совсем не обязательно приводит к такому ее поведению, которое от нее требуется при оптимизации системы в целом. Более того, иногда локальная оптимизация может привести к негативным последствиям для системы в целом. Поэтому при оптимизации подсистем и системы в целом необходимо определить дерево целей и подцелей и их приоритетность.
  3. Часто максимизация критерия оптимизации согласно некоторой математической модели считается целью оптимизации, однако в действительностью целью является оптимизация объекта управления. Критерии оптимизации и математические модели всегда связаны с целью лишь косвенно, т.е. более или менее адекватно, но всегда приближенно.

Итак, идею оптимальности, чрезвычайно плодотворную для систем, поддающихся адекватной математической формализации, на сложные системы необходимо переносить с осторожностью. Конечно, математические модели, которые удается иногда предложить для таких систем, можно оптимизировать. Однако всегда следует учитывать сильную упрощенность этих моделей, которой в случае сложных систем уже нельзя пренебречь, а также то, что степень адекватности этих моделей в случае сложных систем фактически неизвестна. Поэтому не известно, какое чисто практическое значение имеет эта оптимизация. Высокая практичность оптимизации в технических системах не должна порождать иллюзии, что она будет настолько же эффективна и при оптимизации сложных систем. Содержательное математическое моделирование сложных систем является весьма затруднительным, приблизительным и неточным. Чем сложнее система, тем осторожнее следует относиться к идее ее оптимизации.

Поэтому при разработке методов управления сложными, большими слабодетерминированными системами, авторы считают основным не только оптимальность выбранного подхода с формальной математической точки зрения, но и его адекватность поставленной цели и самому характеру объекта управления.

Экспертные методы выбора [273]


При исследовании сложных систем часто возникают проблемы, которые по различным причинам не могут быть строго поставлены и решены с применением разработанного в настоящее время математического аппарата. В этих случаях прибегают к услугам экспертов (системных аналитиков), чей опыт и интуиция помогают уменьшить сложность проблемы.

Однако необходимо учитывать, что эксперты сами представляют собой сверхсложные системы, и их деятельность также зависит от многих внешних и внутренних условий. Поэтому в методиках организации экспертных оценок большое внимание уделяется созданию благоприятных внешних и психологических условий для работы экспертов.

На работу эксперта оказывают влияние следующие факторы:

  • ответственность за использование результатов экспертизы;
  • знание того, что привлекаются и другие эксперты;
  • наличие информационного контакта между экспертами;
  • межличностные отношения экспертов (если между ними есть информационный контакт);
  • личная заинтересованность эксперта в результатах оценки;
  • личностные качества экспертов (самолюбие, конформизм, воля и др.)

Взаимодействие между экспертами может как стимулировать, так и подавлять их деятельность. Поэтому в разных случаях используют различные методы экспертизы, отличающиеся характером взаимодействия экспертов друг с другом: анонимные и открытые опросы и анкетирования, совещания, дискуссии, деловые игры, мозговой штурм и т.д.

Существуют различные методы математической обработки мнений экспертов. Экспертам предлагают оценить различные альтернативы либо одним, либо системой показателей. Кроме того им предлагают оценить степень важности каждого показателя (его «вес» или «вклад»). Самим экспертам также приписывается уровень компетентности, соответствующий вкладу каждого из них в результирующее мнение группы.

Развитой методикой работы с экспертами является метод «Дельфи» [118]. Основная идея этого метода состоит в том, что критика и аргументация благотворно влияют на эксперта, если при этом не затрагивается его самолюбие и обеспечиваются условия, исключающие персональную конфронтацию.

Необходимо особо подчеркнуть, что существует принципиальное различие в характере использования экспертных методов в экспертных системах и в поддержке принятия решений. Если в первом случае от экспертов требуется формализация способов принятия решений, то во втором — лишь само решение, как таковое.

Поскольку эксперты привлекаются для реализации именно тех функций, которые в настоящее время или вообще не обеспечиваются автоматизированными системами, или выполняются ими хуже, чем человеком, то перспективным направлением развития автоматизированных систем является максимальная автоматизация этих функций.

Автоматизированные системы поддержки принятия решений

Человек всегда использовал помощников при принятии решений: это были и просто поставщики информации об объекте управления, и консультанты (советники), предлагающие варианты решений и анализирующие их последствия. Человек, принимающий решения, всегда принимал их в определенном информационном окружении: для военачальника — это штаб, для ректора — ученый совет, для министра — коллегия.

В наше время информационная инфраструктура принятия решений немыслима без автоматизированных систем итерактивной оценки решений и особенно систем поддержки решений (DDS — Decision Support Systems) [118], т.е. автоматизированных систем, которые специально предназначены для подготовки информации, необходимой человеку для принятия решения. Разработка систем поддержки решений ведется, в частности, в рамках интернационального проекта, осуществляемого под эгидой Международного института прикладного системного анализа в Лаксенбурге (Австрия).

Выбор в реальных ситуациях требует выполнения ряда операций, одни из которых более эффективно выполняет человек, а другие — машина. Эффективное объединение их достоинств при одновременной компенсации недостатков и воплощается в автоматизированных системах поддержки принятия решений.

Человек лучше, чем машина принимает решения в условиях неопределенности, но и ему для принятия верного решения необходима адекватная (полная и достоверная) информация, характеризующая предметную область. Однако известно, что человек плохо справляется с большими объемами «сырой» необработанной информации. Поэтому роль машины в поддержке принятия решений может заключаться в том, чтобы осуществить предварительную подготовку информации об объекте управления и неконтролируемых факторах (среде), помочь просмотреть последствия принятия тех или иных решений, а также в том, чтобы представить всю эту информацию в наглядном и удобном для принятия решений виде.

Таким образом, автоматизированные системы поддержки принятия решений компенсируют слабые стороны человека, освобождая его от рутинной предварительной обработки информации, и обеспечивают ему комфортную информационную среду, в которой он может лучше проявить свои сильные стороны. Эти системы ориентированы не на автоматизацию функций лица, принимающего решения (и, как следствие, отчуждение от него этих функций, а значит и ответственности за принятые решения, что часто вообще является неприемлемым), а на предоставлении ему помощи в поиске хорошего решения.

Продвинутые технологии распознавания. Развитие 3D-идентификации и сканирования лица

Распознавание по чертам лица – самый первый и самый естественный способ распознавания, применяемый людьми. Можно сказать, что в большинстве случаев под словами «узнать кого-то» подразумевается «посмотреть на человека и определить, кто это». Естественно, что при этом никто не проверяет отпечатки пальцев, не сканирует радужную оболочку глаз и т.д. Или другой пример: всем нам неоднократно доводилось удостоверять свою личность посредством предъявления документов. Практически в любом важном документе, выдаваемом человеку, присутствует его фотография. Именно наличие фото помогает определить, что предъявитель документа является его владельцем. Поэтому неудивительно, что идея использовать изображение лица для распознавания в технических системах всегда представлялась инженерам очень органичной. Во-первых, лицевое распознавание является бесконтактным. Это большой плюс как для пользователей системы (удобно, гигиенично), так и для ее владельцев (бесконтактная система более долговечна).

Во-вторых, данный способ распознавания не подразумевает сложного сценария. Человеку не требуется позиционировать себя перед считывающим устройством, направлять взгляд и искать глазами маркеры в камере (как в случае Iris-распознавания) либо располагать на устройстве палец или ладонь. С некоторыми оговорками, человек вообще может не обращать внимания на систему распознавания, а иногда даже и не знать о ее существовании. В-третьих, для распознавания не требуется дополнительное сканирование биометрических признаков человека. Базы данных с фотографиями пользователей присутствуют на многих объектах еще до установки биометрической системы.

Недостатки 2D-распознавания лица

Тем не менее, несмотря на все преимущества технологии 2D, она не получила такого широкого распространения, как, например, распознавание по отпечатку пальца. Как это часто случается, хорошая идея оказалась технически плохо реализуемой. Большинство специалистов в отрасли, как и пользователи систем лицевого распознавания, обращали внимание на существенные недостатки. К ним прежде всего относится точность распознавания. 2D-системы хорошо работают в «лабораторных» условиях, с постоянным и правильно подобранным уровнем освещенности. Но в реальных условиях оценка «хорошо» снижалась в лучшем случае до «удовлетворительно». Причем речь идет не только об изменениях освещенности в пределах одной точки доступа. Иногда различия освещенности на разных точках доступа могли приводить к тому, что один и тот же человек на терминале А распознавался замечательно, а на терминале В не распознавался вообще. Парадоксально, но удобный сценарий распознавания, о котором говорилось выше, также привносил и немало трудностей. С одной стороны, он не ограничивал свободу действий пользователя. Но при этом, в отличие от других технологий, пользователь не был поставлен в жесткие сценарные рамки. Наклон головы, мимика, смена прически, макияж – все это могло существенно влиять на точность в худшую сторону. В результате пользователи системы чувствовали себя обманутыми в своих ожиданиях.

Новый уровень технологий распознавания

Решение, позволяющее устранить вышеперечисленные недостатки, было найдено. В конце 1990-х гг. начались первые разработки систем, работающих не с обычным плоским (2D) изображением лица, а с его трехмерной моделью. И уже в начале нового тысячелетия на рынок вышла первая система 3D-распознавания. В основе технологии трехмерного распознавания лежит принцип уникальности лица каждого человека, обусловленный особенностями строения черепа. Еще в середине прошлого века канадскими учеными было доказано, что строение черепа каждого человека уникально, причем это свойство описывается несколькими десятками параметров. Опираясь на эти факты, а также используя результаты трудов антрополога Герасимова, специалисты компании A4Vision создали технологию, позволяющую достоверно идентифицировать человека, сравнивая трехмерное изображение его лица с предварительно сохраненным в базе данных шаблоном. Компания A4Vision смогла первой в мире добиться качественного распознавания лиц, а на разработку ушло всего два года. По мнению Дагa Карлайла, одного из старейших партнеров Menlo Ventures, фонда-инвестора А4Vision, входящего в первую пятерку фондов в Силиконовой долине в США, компания создала уникальное решение для биометрического распознавания. Технология позволяла применять его прежде всего для контроля на входе в помещения или для доступа в компьютеры. Создателя первого решения для 3D-распознавания, компанию A4Vision, объединив с компанией Biоscript, купил производитель биометрических решений по отпечаткам пальцев, компания L1. А основатели A4Vision открыли компанию Artec Group и создали новое поколение 3D-сенсоров, а также новый движок распознавания по 3D-изображению лица.

Технологические принципы 3D-сканирования

Существуют различные технологии 3D-сканирования объектов. Мы не будем заниматься их сравнением. Оговоримся лишь, что в большинстве решений распознавания по 3D-изображению лица, представленных на рынке в настоящее время, используется один и тот же принцип – структурированной подсветки.

Принцип структурированной подсветки
Суть его проста. Представим себе источник света, перед которым находится фильтр. Фильтр является непрозрачной преградой, в которой вырезаны ровные полосы, прозрачные для света. Если разместить источник света с фильтром перед плоской стеной, то на стене мы увидим ровные световые полоски. Но что произойдет, если стена имеет определенный рельеф? Мы увидим не ровные полоски, а кривые. Проанализировав искривления, произошедшие с проецируемой на стену световой сеткой, можно рассчитать геометрию искривления стены.

В действительности 3D-сканер, конечно, устроен гораздо сложнее. Световая сетка, проецируемая на сканируемый объект (в нашем случае лицо) в ИК-диапазоне, представляет собой не просто прямые линии, а десятки тысяч полигонов. Изображение объекта с нанесенной на него сеткой, снятое видеокамерой, подвергается цифровой обработке, что позволяет получить живое 3D-видео. Кадры 3D-видеопотока используются для построения 3D-модели лицевой поверхности, воссозданной с субмиллиметровой точностью, на основании которой и строится биометрический шаблон.

Биометрический шаблон
Биометрический шаблон – это антропометрическая информация, полученная с помощью трехмерного сканирования лица, которая практически не меняется со временем. Точность шаблона настолько высока, что позволяет различать близнецов. Размер шаблона на несколько порядков меньше размера 3D-модели. Например, у компании Artec Group он составляет 3,5 Кбайт.

Кроме того, обратное преобразование (шаблон в 3D-модель) невозможно, что является важным фактором в вопросе о защите персональных биометрических данных.

Прогрессивность современных 3D-систем

Применение технологии трехмерного сканирования позволило устранить многие недостатки, присущие системам, работающим с двухмерными изображениями. 3D-системы, которые используют метод структурированной подсветки, анализируют только геометрию лица. Текстура на процесс распознавания не оказывает воздействия, а это значит, что макияж (или грим) при попытке обмануть систему больше не является помехой. Более того, чтобы процесс распознавания завершился успешно, алгоритму достаточно обнаружить определенное сходство между биометрическим шаблоном и сканируемым изображением лица. Как правило, это сходство ищется для статичных и наименее изменяемых участков поверхности (нос, скулы, надбровья), что позволяет распознавать людей с бородой, в очках, головных уборах, а также допускает (в разумных пределах) использование мимики. Заметно увеличилась и скорость распознавания. Совокупность данных факторов действительно позволяет самым технологически продвинутым 3D-системам распознавать людей в движении. 3D-системы более устойчивы к некорректному поведению пользователей. Так, если в момент распознавания голова посетителя будет наклонена, это не станет препятствием, так как система способна сама «доворачивать» отсканированную лицевую поверхность в правильное положение. По сравнению с двухмерными, 3D-системы обладают и пониженной чувствительностью к изменениям внешнего освещения, вплоть до способности работать в полной темноте. 3D-систему в принципе нельзя обмануть, предъявив вместо лица фотографию. И наконец, точность распознавания у 3D значительно выше, чем у 2D. Вероятность ошибки второго рода (FAR – False Acceptance Rate, система приняла «чужого» за «своего») составляет менее 10 -6 (один из миллиона), а ошибки первого рода (FRR – False Rejection Rate, система не узнала «своего») – 10 -3 (один из тысячи), в этом случае пользователю потребуется заново встать перед устройством.

Впечатляющие возможности для применения

Преимущества трехмерных систем распознавания определяют сферу их применения. Как правило, они используются в таких сценариях, где высокие требования к безопасности, обусловливающие применение биометрических считывателей, сочетаются с высокой пропускной способностью. 3D-системы, распознающие в движении, «на лету», идеальны для установки на проходных предприятий, офисных зданий. Вряд ли на данный момент есть другая технология, более подходящая для развертывания точки доступа со сканированием биометрии и с пропускной способностью до 2000 человек в час. Распознавание в режиме верификации (сравнение «одного к одному») и идентификации (сравнение «одного ко многим») проходит за доли секунды. На позиционирование перед камерой в момент регистрации человек тратит не более двух секунд. Не стоит также забывать и о другом аспекте использования биометрии. Ведь многие устанавливают биометрические системы просто ради удобства, с целью отказаться от карт. И здесь 3D-системы снова вне конкуренции.

Благодаря своим особенностям технология 3D-распознавания может быть применима не только в сценариях, связанных с контролем доступа. Приведем и другие примеры ее использования. В настоящее время ведутся исследования по внедрению технологии в масштабные, в том числе государственные проекты – паспортные программы, контроль за голосованием на выборах, верификация банковских операций. 3D-сканер – это идеальный вариант биометрического сенсора для интеграции с электронными проходными (так называемыми E-gate), которые могут использоваться на объектах транспортной инфраструктуры, например в аэропортах для автоматической регистрации на рейс часто летающих пассажиров. Широкое развитие приобретает концепция использования биометрии в системах логического доступа. И здесь перед 3D-также открываются широкие сценарные возможности. В отличие от сенсоров других типов, 3D-камера способна распознавать работающего за компьютером человека периодически, не отвлекая пользователя на регулярные сканирования. А если в поле зрения камеры попадает еще одно лицо, можно заблокировать компьютер, интерпретируя данную ситуацию как «подглядывание». С уменьшением размеров 3D-сенсоров прогнозируется их использование и в мобильных устройствах.

Следующий шаг – комбинированная система

По сравнению с двухмерными системами 3D имеет, пожалуй, единственный существенный недостаток. Обычная фотография не может быть использована для распознавания трехмерной системой. Поэтому следующим важным шагом видится создание комбинированной системы, в которую будут проинтегрированы и двухмерные, и трехмерные алгоритмы. Данная система сможет в автоматическом режиме получать кадры с наилучшими параметрами для 2D-распознавания. Ведь как уже говорилось выше, одной из самых серьезных проблем 2D является угол наклона головы. Благодаря применению 3D-алгоритмов эта проблема может быть успешно решена. Система сможет самостоятельно поворачивать отсканированную 3D-модель с целью получения идеального ракурса. Таким образом, мы получим решение, способное для распознавания использовать двухмерное изображение и обладающее при этом всеми достоинствами 3D.

Dmitriy Azarov

В настоящее время существует множество задач, в которых требуется принять некоторое решение в зависимости от присутствия на изображении объекта или классифицировать его. Способность «распознавать» считается основным свойством биологических существ, в то время как компьютерные системы этим свойством в полной мере не обладают.

Рассмотрим общие элементы модели классификации.

Класс – множество объектом имеющие общие свойства. Для объектов одного класса предполагается наличие «схожести». Для задачи распознавания может быть определено произвольное количество классов, больше 1. Количество классов обозначается числом S. Каждый класс имеет свою идентифицирующую метку класса.

Классификация – процесс назначения меток класса объектам, согласно некоторому описанию свойств этих объектов. Классификатор – устройство, которое в качестве входных данных получает набор признаков объекта, а в качестве результата выдающий метку класса.

Верификация – процесс сопоставления экземпляра объекта с одной моделью объекта или описанием класса.

Под образом будем понимать наименование области в пространстве признаков, в которой отображается множество объектов или явлений материального мира. Признак – количественное описание того или иного свойства исследуемого предмета или явления.

Пространство признаков это N-мерное пространство, определенное для данной задачи распознавания, где N – фиксированное число измеряемых признаков для любых объектов. Вектор из пространства признаков x, соответствующий объекту задачи распознавания это N-мерный вектор с компонентами (x_1,x_2,…,x_N), которые являются значениями признаков для данного объекта.

Другими словами, распознавание образов можно определить, как отнесение исходных данных к определенному классу с помощью выделение существенных признаков или свойств, характеризующих эти данные, из общей массы несущественных деталей.

Примерами задач классификации являются:

  • распознавание символов;
  • распознавание речи;
  • установление медицинского диагноза;
  • прогноз погоды;
  • распознавание лиц
  • классификация документов и др.

Чаще всего исходным материалом служит полученное с камеры изображение. Задачу можно сформулировать как получение векторов признаков для каждого класса на рассматриваемом изображении. Процесс можно рассматривать как процесс кодирования, заключающийся в присвоении значения каждому признаку из пространства признаков для каждого класса.

Если рассмотреть 2 класса объектов: взрослые и дети. В качестве признаков можно выбрать рост и вес. Как следует из рисунка эти два класса образуют два непересекающихся множества, что можно объяснить выбранными признаками. Однако не всегда удается выбрать правильные измеряемые параметры в качестве признаков классов. Например выбранные параметры не подойдут для создания непересекающихся классов футболистов и баскетболистов.

Второй задачей распознавания является выделение характерных признаков или свойств из исходных изображений. Эту задачу можно отнести к предварительной обработке. Если рассмотреть задачу распознавания речи, можно выделить такие признаки как гласные и согласные звуки. Признак должен представлять из себя характерное свойство конкретного класса, при этом общие для этого класса. Признаки, характеризующие отличия между – межклассовые признаки. Признаки общие для всех классов не несут полезной информации и не рассматриваются как признаки в задаче распознавания. Выбор признаков является одной из важных задач, связанных с построением системы распознавания.

После того, как определены признаки необходимо определить оптимальную решающую процедуру для классификации. Рассмотрим систему распознавания образов, предназначенную для распознавания различных M классов, обозначенных как m_1,m_2,…,m3. Тогда можно считать, что пространство образов состоит из M областей, каждая содержит точки, соответствующие образом из одного класса. Тогда задача распознавания может рассматриваться как построение границ, разделяющих M классов, исходя из принятых векторов измерений.

Решение задачи предварительной обработки изображения, выделение признаков и задачи получения оптимального решения и классификации обычно связано с необходимостью произвести оценку ряда параметров. Это приводит к задаче оценки параметров. Кроме того, очевидно, что выделение признаков может использовать дополнительную информацию исходя из природы классов.

Сравнение объектов можно производить на основе их представления в виде векторов измерений. Данные измерений удобно представлять в виде вещественных чисел. Тогда сходство векторов признаков двух объектов может быть описано с помощью евклидова расстояния.

где d – размерность вектора признака.

Разделяют 3 группы методов распознавания образов:

  • Сравнение с образцом. В эту группу входит классификация по ближайшему среднему, классификация по расстоянию до ближайшего соседа. Также в группу сравнения с образцом можно отнести структурные методы распознавания.
  • Статистические методы. Как видно из названия, статистические методы используют некоторую статистическую информацию при решении задачи распознавания. Метод определяет принадлежность объекта к конкретному классу на основе вероятности В ряде случаев это сводится к определению апостериорной вероятности принадлежности объекта к определенному классу, при условии, что признаки этого объекта приняли соответствующие значения. Примером служит метод на основе байесовского решающего правила.
  • Нейронные сети. Отдельный класс методов распознавания. Отличительной особенностью от других является способность обучаться.

Далее рассмотрим различные методы относящиеся к разным группам.

Классификация по ближайшему среднему значению

В классическом подходе распознавания образов, в котором неизвестный объект для классификации представляется в виде вектора элементарных признаков. Система распознавания на основе признаков может быть разработана различными способами. Эти векторы могут быть известны системе заранее в результате обучения или предсказаны в режиме реального времени на основе каких-либо моделей.

Простой алгоритм классификации заключается в группировке эталонных данных класса с использованием вектора математического ожидания класса (среднего значения).

где x(i,j)– j-й эталонный признак класса i, n_j– количество эталонных векторов класса i.

Тогда неизвестный объект будет относиться к классу i, если он существенно ближе к вектору математического ожидания класса i, чем к векторам математических ожиданий других классов. Этот метод подходит для задач, в которых точки каждого класса располагаются компактно и далеко от точек других классов.


Трудности возникнут, если классы будут иметь несколько более сложную структуру, например, как на рисунке. В данном случае класс 2 разделен на два непересекающихся участка, которые плохо описываются одним средним значением. Также класс 3 слишком вытянут, образцы 3-го класса с большими значениями координат x_2 ближе к среднему значению 1-го класса, нежели 3-го.

Описанная проблема в некоторых случаях может быть решена изменением расчета расстояния.

Будем учитывать характеристику «разброса» значений класса – σ_i, вдоль каждого координатного направления i. Среднеквадратичное отклонение равно квадратному корню из дисперсии. Шкалированное евклидово расстояние между вектором x и вектором математического ожидания x_c равно

Эта формула расстояния уменьшит количество ошибок классификации, но на деле большинство задач не удается представить таким простым классом.

Классификация по расстоянию до ближайшего соседа

Другой подход при классификации заключается в отнесении неизвестного вектора признаков x к тому классу, к отдельному образцу которого этот вектор наиболее близок. Это правило называется правилом ближайшего соседа. Классификация по ближайшему соседу может быть более эффективна, даже если классы имеют сложную структуру или когда классы пересекаются.

При таком подходе не требуется предположений о моделях распределения векторов признаков в пространстве. Алгоритм использует только информацию об известных эталонных образцах. Метод решения основан на вычислении расстояния x до каждого образца в базе данных и нахождения минимального расстояния. Преимущества такого подхода очевидны:

  • в любой момент можно добавить новые образцы в базу данных;
  • древовидные и сеточные структуры данных позволяют сократить количество вычисляемых расстояний.

Кроме того, решение будет лучше, если искать в базе не одного ближайшего соседа, а k. Тогда при k > 1 обеспечивает наилучшую выборку распределения векторов в d-мерном пространстве. Однако эффективное использование значений k зависит от того, имеется ли достаточное количество в каждой области пространства. Если имеется больше двух классов то принять верное решение оказывается сложнее.

1.2.3 Алгоритмы и методы распознавания лиц

Задачи распознавания человека по изображению лица делятся на три больших класса: поиск в больших базах данных, контроль доступа и контроль фотографий в документах. Они различаются как по требованиям, предоставляемым к системам распознавания, так и по способам решения, и поэтому представляют собой отдельные классы.

Различны и требования, предъявляемые к ошибкам первого и второго рода для таких классов. Ошибкой первого рода (type I error, misdetection) называется ситуация, когда объект заданного класса не распознаётся (пропускается) системой. Ошибка второго рода (type II error, false alarm) происходит, когда объект заданного класса принимается за объект другого класса.

Следует также отметить различие понятий верификации и распознавания (идентификации). В задаче верификации неизвестный объект заявляет, что он принадлежит к некоторому известному системе классу. Система подтверждает или опровергает это заявление. При распознавании требуется отнести объект неизвестного класса к одному из известных или выдать заключение о том, что этот объект не относится к известным классам.

Сравнение типа один со многими

Высокие требования к ошибке первого рода — система распознавания должна находить изображения соответствующие данному человеку, по возможности не пропустив ни одного такого изображения. При этом допустимо, если в результирующей выборке будет присутствовать небольшое число других людей.

Обычно в большой базе данных (10 4 -10 7 изображений) требуется найти изображения, наиболее похожие на заданное. Поиск должен быть произведён за разумное время. Одно из решений состоит в хранении базе данных небольших наборов заранее извлечённых ключевых признаков, максимально характеризующих изображение. При этом требования к точности не столь критичны как в задачах контроля доступа и документного контроля.

Сравнение типа один с несколькими

Критичны требования к ошибкам второго рода. Система распознавания не должна распознавать незнакомых людей как знакомых, возможно даже за счёт увеличения ошибок первого рода (отказов в доступ знакомым людям).

Имеется небольшая группа лиц (5-50 человек), которых система должна распознавать по изображению лица для доступа в некоторое место. Людей, не входящих в эту группу, система не должна пропускать. Возможны варианты, когда требуется установить конкретную личность по изображению лица. При этом от системы требуется высокая достоверность распознавания, возможно даже за счёт увеличения числа отказов на знакомые объекты.

В качестве тренировочных изображений обычно для каждого человека доступны несколько изображений лица, полученных при различных условиях. Например, различные ракурсы, освещённость, причёска, мимика, наличие очков и т.п.

Система должна работать в реальном масштабе времени, а процесс настройки может занимать больше времени и производиться отдельно. В процессе эксплуатации система должна дообучаться на вновь поступающих изображениях по возможности быстрее.

Ограничений на применяемые методы здесь нет, но все методы сходятся в одном. Имеется обучающий набор изображений лиц заданной группы людей (возможно при различных условиях съёмки). К этому набору система обращается в процессе распознавания, или система настраивается в процессе обучения на этот набор.

Распространён подход с использованием нейронных сетей, которые после обучения обладают хорошей обобщающей способностью.

Сравнение типа один к одному

Формулировать требования к ошибкам первого и второго рода здесь будет некорректно, поскольку система распознавания никогда не имела дело с поступающими на вход классами. Но желательно чтобы система не совершала ошибок при сравнении.

Требуется сравнить изображение лица человека, полученное в данный момент с фотографией из какого-либо документа. Системе надо ответить принадлежат ли эти лица одному человеку или нет. Данный класс задач наиболее сложен, поскольку, во-первых, система никогда раньше не сталкивалась с изображением лица данного человека. Система сравнивает всегда отличающиеся изображения, учёт всех возможных различий в процессе обучения или настройки системы затруднителен. Во вторых, здесь большее влияние оказывают возрастные и другие изменения лица. В третьих, качество и контраст отсканированной фотографии, как правило, хуже, чем изображение лица снятого камерой. Большинство методов для данного класса задач неприменимы без специальной адаптации.

В изученной литературе нет работ, напрямую связанных с применением нейросетевых методов для решения данного класса задач. Для этого можно предложить применение нейронных сетей (НС) для извлечения ключевых признаков изображений и адаптацию НС для сравнения двух изображений.

Инвариантностью к изменению масштаба обладают неокогнитроны, модификации нейронных сетей высокого порядка. Т.е. эти виды сетей не надо специально обучать на изображениях с различными масштабами объекта, обучившись некоторому изображению один раз, они способны затем распознавать объект на изображении при любых изменениях масштаба.

Так же инвариантностью к изменениям масштаба обладают моменты Лежандра, Зернике и т.п.

В остальных методах инвариантность к изменениям масштаба достигается на этапе предобработки (приведение к стандартному масштабу), либо в обучающую выборку включаются изображения с различным масштабом.

Большинство методов чувствительно к изменениям освещения — результат распознавания сильно ухудшается. Некоторого улучшения можно достичь за счёт выравнивания гистограммы яркостей, но в общем случае изменения в освещении предобработкой устранить невозможно.

Также используют алгоритм выделения линейных подпространств, который надёжно классифицирует человека по изображению лица при достаточно широком диапазоне условий освещённости. При этом обучающая выборка формировалась с использованием изображений при различных условиях освещения. Существуют так же различные эвристические подходы. Например, в модификации метода главных компонент, первые 2-3 компоненты отражают в основном различия в освещении, и поэтому при сравнении не учитываются.

Специфический подход — использование изображения лица, взятое в инфракрасном спектре. Это обеспечивает независимость от условий освещения, но требует специального оборудования. В большинстве методов требуется предобработка, приводящая положение лица на изображении к стандартной ориентации (горизонтальная линия глаз, вертикальная ось симметрии головы).

Инвариантностью к изменениям ориентации обладают неокогнитроны и модификации нейронных сетей высокого порядка, которым достаточно одного предъявления изображения для того, чтобы узнать объект на изображении при любом изменении ориентации объекта. Так же инвариантностью к изменениям ориентации обладают моменты Лежандра, Зернике и т.п. Инвариантностью к сдвигу обладают неокогнитроны, нейронные сети высокого порядка, автокорреляторные нейронные сети Хопфилда, а так же некоторые моменты. В остальных случаях инвариантность к сдвигу достигается предобработкой или обучением. Не существует методов распознавания изображений, инвариантных к большим изменениям ракурса (трёхмерным поворотам лица). Требуется предварительное обучение на изображениях лица в различных ракурсах.

Методы основаны на синтезе изображения в новых ракурсах по одному примеру изображения в произвольном ракурсе, и находятся в стадии разработки.

Другое решение этой проблемы заключается в использовании трёхмерного представления. Однако это требует или использования нескольких изображений при различных условиях съёмки или построения сложных трёхмерных моделей лица.

Каждое лицо отдельного человека представляет собой класс для системы распознавания. Лицо одного человека может отличаться причёской, бородой, очками, эмоциональным выражением, подвержено возрастным изменениям. Такие различия называются внутриклассовыми и создают проблемы для систем распознавания. Частично эта проблема может быть преодолена выделением областей лица, неподверженных таким изменениям. Так же это может решаться в процессе обучения. Например, в линейных дискриминантах и нейросетевых методах. Неокогнитроны могут распознавать искажённое изображение. Под помехами здесь понимается как различного вида шум на изображении, так и другие помехи, перекрывающие или искажающие части объектов на изображении.

Свойством восстанавливать изображение, наиболее близкое к исходному, обладают нейронные сети Хопфилда, автоассоциативная память и реконструкция изображения по главным компонентам.

В любом методе после преобразования изображения и выделения ключевых признаков требуется сравнить полученные признаки, для того чтобы произвести распознавание. И, несмотря на многообразие различных алгоритмов и методов распознавания, среди них можно выделить три группы методов, различающихся способами сравнения изображений, рис. 1.3.

В первой группе методов набор признаков (в простейшем случае исходное изображение) представляет собой точку в пространстве признаков, где значение каждого признака (например, яркость отдельного пикселя, значение главной компоненты, коэффициент частотного преобразования и т.п.) представляет собой координату вдоль некоторой оси пространства признаков. Процедура сравнения основывается на разделении пространства признаков на области, относящиеся к одинаковым классам.

Для этого, например, может быть вычислено расстояние от неизвестного образа до всех остальных образов при помощи какой-либо метрики. Класс может быть представлен центром кластера, тогда расстояние от неизвестного образа вычисляется до центров всех кластеров, как это делается в методе главных компонент. В мультимодальном анализе главных компонент и в радиально-базисных нейронных сетях одному классу может соответствовать несколько кластеров, рис. 1.4. Линейный дискриминант строит набор линейных разделяющих поверхностей, полагая, что классы линейно разделимы в пространстве признаков. Разновидность нейронных сетей — многослойные персептроны позволяют строить разделяющие поверхности любой сложности, рис. 1.4. Нейронные сети Хопфилда преобразуют изображение, поданное на вход к ближайшему в пространстве изображений.

Рис. 1.3 Схема способов сравнения изображений

Рис. 1.4 Слева — кластеризация, справа — разделяющие поверхности в пространстве признаков

Несмотря на то, что самые совершенные методы могут лучшим способом разбить исходное пространство на области, этого недостаточно, поскольку для реальных объектов требуется огромное количество разделяющих областей (и обучающих примеров), чтобы учесть всевозможные способы изменения изображений объектов. Это связано с тем, что даже незначительное, с человеческой точки зрения, изменение изображения (например, ракурс, освещение или наличие бороды), может дать положение в пространстве признаков, очень далеко лежащее от исходного. И система в этом случае может среагировать не на одинакового человека, а, например, на одинаковый ракурс, посчитав изображение другого человека в том же ракурсе наиболее похожим на неизвестное. Ни применение различных преобразований для начального представления изображения, ни предобработка не может решить эту проблему для общего случая.

Следующая группа методов частично преодолевает данный недостаток. На изображении находятся важные области лица (например, области глаз, бровей, носа, губ). Затем с помощью первого способа производится сравнение каждой области, и результат каждого такого сравнения вносит вклад в окончательный результат. К таким методам относится, например, сравнение по эталонам, различные способы анализа главных компонент по блокам изображений.

В третьей группе учитывается топологическое искажения изображения, рис. 1.5. Методы, использующие искажение изображения для сравнения, позволяют добиться лучших результатов.

Рис. 1.5 Пример искажения решётки исходного изображения

В методе сравнения эластичных графов на изображение накладывается набор ключевых точек, связанных между собой дугами. На неизвестном изображении находятся точки, соответствующие исходным и затем измеряется суммарное изменение размеров дуг. В гибких контурных моделях извлекается контур очертаний лица, и затем сравниваются формы контуров для разных изображений. Работа использует нейронные сети и скрытые Марковские модели для анализа соотношений расстояний между областями глаз, носа и рта.

В вышеописанных методах после нахождения ключевых областей или контуров остальная информация не учитывается, что снижает точность. Следующие методы сравнивают всё изображение.

Сначала вычисляется оптический поток между двумя сравниваемыми изображениями. Затем на основе оптического потока вычисляется мера искажения от неизвестного изображения к исходному. По величине этого искажения определяется степень похожести изображений. Работа использует генетический алгоритм для искажения неизвестного изображения в сторону сравниваемых, степень похожести изображений так же определяется величиной искажения. В данном случае используются эластичные деформации для сопоставления двух изображений целиком, рис. 1.6.

Пиксел отмеченный квадратом сдвигается в позицию пиксела отмеченного окружностью, три результата с различными праметрами деформации.

Рис. 1.6 Эластичные деформации: исходное изображение (слева)

Вышеприведённые методы сравнивают только суммарное искажение, не пытаясь учесть его характер, и в этом заключается их недостаток. Характер искажения изображения несёт важную информацию для распознавания изображения, и поэтому нижеприводимые методы имеют лучшую точность распознавания.

К таким методам относятся псевдодвумерные скрытые Марковские модели, свёрточные нейронные сети, когнитроны и неокогнитроны. Потенциальные поля, получаемые по искажениям изображения, используются для распознавания эмоций. В алгоритмах технологии FaceIt корпорации Visionics изображение разбивается на блоки и анализируется взаимное расположение таких блоков. Эти методы для сравнения используют как характеристики участков (блоков) изображений (набор яркостей пикселей, коэффициентов частотных преобразований, главные компоненты блоков изображения и т.п.), так и взаимное расположение таких участков. Причём как характер искажений, так и содержимое участков усваивается в процессе обучения. В процессе распознавания искажение производится не к каждому примеру тренировочного набора, а к обобщённой модели класса.

По характеру использования обучающего набора методы распознавания лиц можно разделить на два больших класса. В методах первого класса в процессе настройки не используют обучающие примеры. В таких методах все параметры задаются вручную и, как правило, подбираются путём различных экспериментов. Например, криминалистическая идентификация человека по лицу с применением ключевых точек. В этой работе приведены результаты экспериментального выбора ключевых точек и отношений между ними, наиболее пригодных для задачи распознавания. Такой подход трудоёмок, требует априорных знаний о предметной области (в данном случае об антропометрических характеристиках лица) и большого количества настроечных экспериментов.

В противоположность этому второй класс методов в различной степени для извлечения признаков использует анализ обучающей выборки, представляющей собой набор типичных объектов нужных классов. Поэтому такие методы вычислительно более трудоёмки и их развитие стало возможным с возрастанием мощи вычислительной техники. Это метод главных компонент, линейные дискриминантные методы, метод сравнения эластичных графов. Однако в них основной упор сделан на автоматизированное извлечение признаков, но не отношений между ними и определения их важности (взвешивание). В работе предпринята попытка вычислить весовые параметры для эластичного сравнения графов. Линейный дискриминантный анализ используется для анализа признаков и преобразования их такому виду, чтобы они максимизировали межклассовые и минимизировали внутриклассовые различия.

Одни из самых совершенных методов, в которых извлечение признаков и построение системы их взаимоотношений происходит в процессе обучения — это скрытые Марковские модели и нейронные сети.

Для нейронных сетей на данный момент времени разработаны эффективные комбинированные методы обучения, которые позволяют полностью автоматизировать процесс выбора параметров архитектуры и обучение сети. При этом достигается результаты, превосходящие другие методы. Но вычислительно эти методы трудоёмки.

Методы распознавания по изображению лица можно разделить на три класса.

Первый класс использует исходное изображение только для начального выделения каких-либо ключевых точек, расстояний между такими точками, соотношения расстояний или других геометрических характеристик и в дальнейшем к исходному изображению (например, полутоновому) не обращается. Такая информация достаточно достоверно характеризует конкретного человека, и используется в криминалистике для опознания людей. Однако показано, что в целом геометрической информации недостаточно для распознавания человека по изображению лица.

Второй класс методов использует всё исходное изображение. Например, метод анализа главных компонент, линейный дискриминантный анализ оперируют исходным полутоновым изображением как многомерным вектором. К этому классу так же относятся различные нейронные сети, принимающие на вход изображение целиком. Многие источники сходятся во мнении, что для общих случаев распознавания требуется анализировать всю информацию, предоставленную на изображении (например, всё полутоновое изображение).

Третий класс представляет собой сочетание двух предыдущих. Здесь используются как геометрические характеристики, так и элементы, например, полутонового изображения. Например, метод сравнения эластичных графов. Вершины графа характеризуют некоторые особые точки изображения, дуги — расстояния между этими точками, кроме этого каждой вершине приписан набор локальных характеристик изображения (джет). Другим примером является метод сравнения эталонов. На изображении лица выделяются особые области, такие как глаза, нос, рот, и изображение сравнивается по этим областям.

Методы распознавания характеризуются так же различным соотношением в них аналитических и эмпирических способов решения задачи распознавания. Метод главных компонент и линейные дискриминанты, например, основаны на решении систем матричных уравнений и нахождений расстояний между образами в различных метриках. В методе сравнения эластичных графов ключевые точки отмечаются на обучающем наборе изображений лиц исходя из эмпирических соображений.


Особое место занимают нейросетевые методы. В процессе настройки сети используются аналитические методы градиентного спуска. Но такая настройка не дает, ни гарантии достижения минимума ошибки, ни оценки отклонения полученной ошибки от оптимальной. В отличие от статистических методов, решения, получаемые при помощи НС, носят не вероятностный, а правдоподобный характер, определяемый обучающим набором.

Похожая ситуация со скрытыми Марковскими моделями. Настройка параметров каждой модели осуществляется математическими оптимизационными методами, но они не дают точного решения.

Методы делятся на два класса по способу сравнения неизвестного изображения с тренировочным набором (или базой изображений).

Первый класс методов использует тренировочный набор для построения обобщённой модели каждого класса лица (или всех классов сразу). Это различные нейронные сети, линейные дискриминанты, скрытые Марковские модели.

Второй класс методов непосредственно сравнивает неизвестное изображение с каждым изображением из тренировочной выборки. Это метод собственных лиц (метод главных компонент), сравнение эталонов, методы сравнения эластичных графов, анализ оптического потока.

Использование последовательности кадров для задач, связанных с анализом изображения лица является более предпочтительным (но не всегда возможным), чем использование единичного статичного изображения, поскольку даёт дополнительную информацию.

Во-первых, это позволяет выбрать наиболее репрезентативные кадры из последовательности. Во-вторых, обучение системы на динамично меняющемся изображении позволяет ей извлечь больше информации об объекте.

Так, использование нескольких кадров значительно достоверность анализа выражения человеческого лица, позволяет проследить динамику его изменений при различных эмоциях. В работе при относительно простом алгоритме распознавания, использовалась последовательность кадров, поступающих с камеры, и при этом точность распознавания составила 90%.

Для поиска на изображении участка, соответствующего лицу, используются различные способы, важной частью которых являются методы определения того, содержит ли подаваемое на вход изображение лицо (детектирование).

Ряд методов изначально обладает способностями определения, относится ли входное изображение к классу «своих» изображений, и при соответствующей адаптации могут использоваться в качестве детекторов.

Различные типы нейронных сетей обладают способностью относить входное изображение к нужному классу с различной степенью доверия. Существуют подходы с использованием специально обученных нейронных сетей для того, чтобы определить содержит ли изображение лицо.

Метод анализа главных компонент так же применяется для детектирования области лица. На основе сравнения входного и реконструированного изображения можно определить, относится ли входное изображение к классу лиц.

Некоторые методы изначально обладают возможностью определения ракурса лица на изображении.

В работе на основе гибких контурных моделей лица были получены главные компоненты, отражающие углы пространственных поворотов лица.

В методах, использующих обучение, такие способности достигаются в процессе обучения. В работах при использовании метода главных компонент, были обнаружены компоненты, отражающие в основном эмоции, пол и расу.

В других методах возможность определения на основе изображения лица такие характеристики личности как пол, раса, возраст, эмоциональное состояние достигается в процессе обучения.

Нейронные сети использовались в работе для определения пола и эмоционального состояния. В нейронной сети имелся набор выходов, отвечающих за эти характеристики, и нейронная сеть обучалась классифицировать изображения лиц по этим признакам. [1]

Биометрическая идентификация в интегрированных системах безопасности

Всем хорошо известны сцены из фантастических фильмов: герой подходит к двери и дверь открывается, узнав его. Это одна из наглядных демонстраций удобства и надежности применения биометрических технологий для контроля доступа. Однако на практике не так все просто. Сегодня некоторые фирмы готовы предложить потребителям контроль доступа с применением биометрических технологий.

Традиционные методы идентификации личности, в основе которых находятся различные идентификационные карты, ключи или уникальные данные, такие как, например, пароль не являются надежными в той степени, которая требуется на сегодняшний день. Естественным шагом в повышении надежности идентификаторов стали попытки использования биометрических технологий для систем безопасности.

Диапазон проблем, решение которых может быть найдено с использованием новых технологий, чрезвычайно широк:

  1. предотвратить проникновение злоумышленников на охраняемые территории и в помещения за счет подделки, кражи документов, карт, паролей;
  2. ограничить доступ к информации и обеспечить персональную ответственность за ее сохранность;
  3. обеспечить допуск к ответственным объектам только сертифицированных специалистов;
  4. избежать накладных расходов, связанных с эксплуатацией систем контроля доступа (карты, ключи);
  5. исключить неудобства, связанные с утерей, порчей или элементарным забыванием ключей, карт, паролей;
  6. организовать учет доступа и посещаемости сотрудников.

Разработкой технологий для распознавания образов по различным биометрическим характеристикам начали заниматься уже достаточно давно, начало было положено в 60-е годы. Значительных успехов в разработке теоретических основ этих технологий добились наши соотечественники. Однако практические результаты получены в основном на западе и только “вчера”. Мощность современных компьютеров и усовершенствованные алгоритмы позволили создать продукты, которые по своим характеристикам и соотношению стали доступны и интересны широкому кругу пользователей.

Идея использовать индивидуальные характеристики человека для его идентификации не нова. На сегодняшний день известен ряд технологий, которые могут быть задействованы в системах безопасности для идентификации личности по:

  1. отпечаткам пальцев (как отдельных, так и руки в целом);
  2. чертам лица (на основе оптического и инфракрасного изображений);
  3. радужной оболочке глаз;
  4. голосу;
  5. другим характеристикам.

У всех биометрических технологий существуют общие подходы к решению задачи идентификации, хотя все методы отличаются удобством применения, точностью результатов.

Любая биометрическая технология применяется поэтапно:

  1. сканирование объекта;
  2. извлечение индивидуальной информации;
  3. формирование шаблона;
  4. сравнение текущего шаблона с базой данных.

Биометрическая система распознавания устанавливает соответствие конкретных физиологических или поведенческих характеристик пользователя некоторому заданному шаблону. Обычно биометрическая система состоит из двух модулей: модуль регистрации и модуль идентификации.

Модуль регистрации “обучает” систему идентифицировать конкретного человека. На этапе регистрации видеокамера или иные датчики сканируют человека для того, чтобы создать цифровое представление его облика. Сканирование лица длится около 20 – 30 секунд, в результате чего формируются несколько изображений. В идеальном случае, эти изображения будут иметь слегка различные ракурсы и выражения лица, что позволит получить более точные данные. Специальный программный модуль обрабатывает это представление и определяет характерные особенности личности, затем создает шаблон. Существуют некоторые части лица, которые практически не изменяются с течением времени, это, например, верхние очертания глазниц, области окружающие скулы, и края рта. Большинство алгоритмов, разработанных для биометрических технологий, позволяют учитывать возможные изменения в прическе человека, так как они не используют для анализа области лица выше границы роста волос. Шаблон изображения каждого пользователя хранится в базе данных биометрической системы.

Модуль идентификации получает от видеокамеры изображение человека и преобразует его в тот же цифровой формат, в котором хранится шаблон. Полученные данные сравниваются с хранимым в базе данных шаблоном для того, чтобы определить, соответствуют ли эти изображения друг другу. Степень подобия, требуемая для проверки, представляет собой некий порог, который может быть отрегулирован для различного типа персонала, мощности PC, времени суток и ряда иных факторов.

Идентификация может выполняться в виде верификации, аутентификации или распознавания. При верификации подтверждается идентичность полученных данных и шаблона, хранимого в базе данных. Аутентификация – подтверждает соответствие изображения, получаемого от видеокамеры одному из шаблонов, хранящихся в базе данных. При распознавании, если полученные характеристики и один из хранимых шаблонов оказываются одинаковыми, то система идентифицирует человека с соответствующим шаблоном.

При использовании биометрических систем, особенно системы распознавания по лицу, даже при введении корректных биометрических характеристик не всегда решение об аутентификации верно. Это связано с рядом особенностей и, в первую очередь, с тем, что многие биометрические характеристики могут изменяться. Существует определенная степень вероятности ошибки системы. Причем при использовании различных технологий ошибка может существенно различаться. Для систем контроля доступа при использовании биометрических технологий необходимо определить, что важнее не пропустить “чужого” или пропустить всех “своих”.

Важным фактором для пользователей биометрических технологий в системах безопасности является простота использования. Человек, характеристики которого сканируются, не должен при этом испытывать никаких неудобств. В этом плане наиболее интересным методом является, безусловно, технология распознавания по лицу. Правда, в этом случае возникают иные проблемы, связанные в первую очередь, с точностью работы системы.

Несмотря на очевидные преимущества, существует ряд негативных предубеждений против биометрии, которые часто вызывают вопросы о том, не будут ли биометрические данные использоваться для слежки за людьми и нарушения их права на частную жизнь. Из-за сенсационных заявлений и необоснованной шумихи восприятие биометрических технологий резко отличается от реального положения дел.

И все же, использование биометрических методов идентификации приобрело особую актуальность в последние годы. Особенно остро данная проблема проявилась после событий 11 сентября в США. Мировое сообщество осознало степень возрастания угрозы терроризма во всем мире и сложность организации надежной защиты традиционными методами. Именно эти трагические события послужили отправной точкой для усиления внимания к современным интегрированным системам безопасности. Общеизвестно мнение, что если бы контроль в аэропортах был строже, то несчастий можно было бы избежать. Да и сегодня поиск виновных в ряде других происшествий мог бы быть существенно облегчен при использовании современных систем видеонаблюдения в интеграции с системами распознавания лиц.

Методы распознавания лица

В настоящее время существует четыре основных метода распознавания лица:

  1. «eigenfaces»;
  2. анализ «отличительных черт»;
  3. анализ на основе «нейронных сетей»;
  4. метод «автоматической обработки изображения лица».

Все эти методы различаются сложностью реализации и целью применения.

«Eigenface» можно перевести как «собственное лицо». Эта технология использует двумерные изображения в градациях серого, которые представляют отличительные характеристики изображения лица. Метод «eigenface» часто используются в качестве основы для других методов распознавания лица.

Комбинируя характеристики 100 – 120 «eigenface» можно восстановить большое количество лиц. В момент регистрации, «eigenface» каждого конкретного человека представляется в виде ряда коэффициентов. Для режима установления подлинности, в котором изображение используется для проверки идентичности, «живой» шаблон сравнивается с уже зарегистрированным шаблоном, с целью определения коэффициента различия. Степень различия между шаблонами и определяет факт идентификации. Технология «eigenface» оптимальна при использовании в хорошо освещенных помещениях, когда есть возможность сканирования лица в фас.

Методика анализа «отличительных черт» – наиболее широко используемая технология идентификации. Эта технология подобна методике «Eigenface», но в большей степени адаптирована к изменению внешности или мимики человека (улыбающееся или хмурящееся лицо). В технологии “отличительных черт” используются десятки характерных особенностей различных областей лица, причем с учетом их относительного местоположения. Индивидуальная комбинация этих параметров определяет особенности каждого конкретного лица. Лицо человека уникально, но достаточно динамично, т.к. человек может улыбаться, отпускать бороду и усы, надевать очки – все это увеличивает сложность процедуры идентификации. Таким образом, например, при улыбке наблюдается некоторое смещение частей лица, расположенных около рта, что в свою очередь будет вызывать подобное движение смежных частей. Учитывая такие смещения, можно однозначно идентифицировать человека и при различных мимических изменениях лица. Так как этот анализ рассматривает локальные участки лица, допустимые отклонения могут находиться в пределах до 25° в горизонтальной плоскости, и приблизительно до 15° в вертикальной плоскости и требует достаточно мощной и дорогой аппаратуры, что соответственно сокращает степень распространения данного метода.

В методе, основанном на нейронной сети, характерные особенности обоих лиц – зарегистрированного и проверяемого сравниваются на совпадение. «Нейронные сети» используют алгоритм, устанавливающий соответствие уникальных параметров лица проверяемого человека и параметров шаблона, находящегося в базе данных, при этом применяется максимально возможное число параметров. По мере сравнения определяются несоответствия между лицом проверяемого и шаблона из базы данных, затем запускается механизм, который с помощью соответствующих весовых коэффициентов определяет степень соответствия проверяемого лица шаблону из базы данных. Этот метод увеличивает качество идентификации лица в сложных условиях.

Метод «автоматической обработки изображения лица» – наиболее простая технология, использующая расстояния и отношение расстояний между легко определяемыми точками лица, такими как глаза, конец носа, уголки рта. Хотя данный метод не столь мощный как «eigenfaces» или «нейронная сеть», он может быть достаточно эффективно использован в условиях слабой освещенности.

Системы распознавания по лицу, присутствующие на рынке

На сегодняшний день разработан ряд коммерческих продуктов, предназначенных для распознавания лиц. Алгоритмы, используемые в этих продуктах, различны и пока еще сложно дать оценку, какая из технологий имеет преимущества. Лидерами в настоящий момент являются следующие системы: Visionic, Viisage и Miros.

  • В основе приложения FaceIt компании Visionic лежит алгоритм анализа локальных признаков, разработанный в Университете Рокфеллера. Одна коммерческая компания в Великобритании интегрировала FaceIt в телевизионную антикриминальную систему под названием Mandrake. Эта система ищет преступников по видеоданным, которые поступают с 144 камер, объединенных в замкнутую сеть. Когда устанавливается идентичность, система сообщает об этом офицеру безопасности. В России представителем компании Visionic является компания “ДанКом”.
  • Еще один лидер в этой области, компания Viisage, использует алгоритм, разработанный в Массачусетском технологическом институте. Коммерческие компании и государственные структуры во многих американских штатах и в ряде других стран используют систему компании Viisage вместе с идентификационными удостоверениями, например, водительскими правами.
  • ZN Vision Technologies AG (Германия) предлагает на рынке ряд продуктов, в которых применяется технология распознавания лиц. Эти системы представляются на российском рынке компанией “Солинг”.
  • В системе распознавания лиц TrueFace компании Miros используется технология нейронных сетей, а сама система применяется в комплексе выдачи наличных денег корпорации Mr.Payroll и установлена в казино и других увеселительных заведениях многих штатов США.

В США независимыми экспертами было проведено сравнительное тестирование различных технологий распознавания лиц. Результаты тестирования представлены ниже.

Рис. 1. Сравнительный анализ эффективности распознавания лиц в разных системах

На практике, при использовании систем распознавания лиц в составе стандартных электронных охранных систем, предполагается, что человек, которого следует идентифицировать, смотрит прямо в камеру. Таким образом, система работает с относительно простым двумерным изображением, что заметно упрощает алгоритмы и снижает интенсивность вычислений. Но даже в этом случае задача распознавания все же не тривиальна, поскольку алгоритмы должны учитывать возможность изменения уровня освещения, изменение выражения лица, наличие или отсутствие макияжа или очков.

Надежность работы системы распознавания лиц очень сильно зависит от нескольких факторов:

  • Качество изображения. Заметно снижается вероятность безошибочной работы системы, если человек, которого мы пытаемся идентифицировать, смотрит не прямо в камеру или снят при плохом освещении.
  • Актуальность фотографии, занесенной в базу данных.
  • Величина базы данных.

Технологии распознавания лица хорошо работают со стандартными видеокамерами, которые передают данные и управляются персональным компьютером, и требуют разрешения 320×240 пикселов на дюйм при скорости видео потока, по крайней мере, 3 – 5 кадров в секунду. Для сравнения – приемлемое качество для видео конференции требует скорости видеопотока уже от 15 кадров в секунду. Более высокая скорость видеопотока при более высоком разрешении ведет к улучшению качества идентификации. При распознавании лиц с большого расстояния существует сильная зависимость между качеством видеокамеры и результатом идентификации.

Объем баз данных при использовании стандартных персональных компьютеров не превышает 10000 изображений.

Заключение

Предлагаемые сегодня методы распознавания лиц интересны и близки к широкому внедрению, однако пока не возможно как в кино доверять открытие двери только технологии распознавания по лицу. Она хороша как помощник для охранника или другой системы контроля доступа.

Именно этот метод используется во многих ситуациях, когда требуется убедиться, что предъявленный документ действительно принадлежит предъявившему его человеку. Это происходит, например, в международном аэропорте, когда пограничник сверяет фото на паспорте с лицом владельца паспорта и принимает решение, его это паспорт или нет. По аналогичному алгоритму действует и компьютерная система доступа. Отличие состоит только в том, что фотография сравнивается с уже хранимым в базе данных шаблоном.

Уже появились технологии, которые основаны на распознавании лиц в инфракрасном свете. Новая технология основана на том, что тепловая картинка, созданная излучением тепла кровеносными сосудами лица или, по-другому, термограмма лица человека, является уникальной для каждого и, следовательно, может быть использована в качестве биометрической характеристики для систем контроля доступа. Данная термограмма является более стабильным идентификатором, чем геометрия лица, поскольку почти не зависит от изменения внешности человека.

Илон Маск рекомендует:  Предопределённые константы interbase
Понравилась статья? Поделиться с друзьями:
Кодинг, CSS и SQL