Гюльчатай, открой личико! Системы распознавания лиц на рынке безопасности

13.02.2012

Распознавание лиц — технология, основательно обросшая мифами. Одни верят в её магическую силу, насмотревшись футуристических блокбастеров. Для других доказательством мощи видеоидентификации является то, что уже "даже" в бытовых фотоаппаратах появились средства обнаружения лиц в кадре. Третьи просто повелись на вендорскую рекламу. Тем не менее, технология распознавания лиц по цифровым изображениям так и не привилась в практике правоохранительных органов. За несколько лет интенсивных испытаний, проводившихся в Великобритании и США, системы видеоидентификации не смогли обнаружить ни одного из разыскиваемых преступников. При этом, судя по отзывам экспертов, проверялась скорее принципиальная возможность использования распознавания лиц, поэтому исходные изображения разыскиваемых были достаточно качественными и достоверными. В практике расследований чаще приходится иметь дело с видео и фото, снятыми в случайных ракурсах при небольшом разрешении. А иногда — и вовсе с фотороботами. Плюс, появившиеся недавно слухи о том, что такую систему сравнительно легко сбить с толку, заставляют серьёзно задуматься о будущем распознавания лиц в отрасли.

Первыми заказчиками такого рода систем были правоохранительные органы. Тогда ещё никто не мог предвидеть сложностей реализации: казалось, что волшебная математика сможет всё. Задача стояла вполне реальная: выхватывать из толпы отдельные лица и выявлять, не является ли попавший в кадр человек кем-либо из разыскиваемых. К настоящему моменту силовые агентства уже основательно разочаровались в возможностях систем, хотя информации о прекращении поддержки разработок в этом направлении полицией и спецслужбами у нас нет. Некоторые из реализованных по заказу силовиков систем уже нашли себе применение не только в силовой и охранной практике. В прессе сообщалось о прецедентах их применения для идентификации голосующих на избирательных участках.

Сегодня комбинация распознавания лиц и биометрии используется американскими властями для автоматизированного контроля иммиграционных процессов. Программа US-VISIT предполагает поголовное снятие отпечатков пальцев с иностранных граждан, обращающихся в американские консульские организации за визами. При въезде в страну отпечатки пальцев пересекающего границу человека сопоставляются с "пальчиками", снятыми во время оформления документов на въезд, а изображения лиц — с базами фотоизображений преступников и террористов, находящихся в розыске.

По мере удешевления оборудования и систем программные решения распознавания лиц становятся всё более популярными. Банки и аэропорты — вполне естественное применение. В готовящейся к выпуску отраслевым издательством Security Focus книге Т.Анштедта, И.Келлера, Х.Лутца "Видеоаналитика: мифы и реальность" рассказывается об опыте международного аэропорта Франкфурта-на-Майне (Германия): "Пассажирам была предоставлена возможность самостоятельно и добровольно зарегистрироваться в системе, чтобы впоследствии проходить паспортный контроль автоматически — на основе данных системы идентификации". Аналогичные решения, направленные на сокращение времени ожидания пассажиров, пытались внедрить и в ряде аэропортов США. Однако, скажем, в Бостоне затея провалилась, но об этом — чуть ниже.

Перспективным является использование распознавания лиц для идентификации клиентов, пользующихся сетевыми банкоматами. При этом, чтобы не возникала ситуация, противоречащая нормам Закона о защите персональных данных, на захват и обработку изображения клиента должно быть обязательно получено его личное разрешение. Это позволяет исключить использование PIN-кодов, а в перспективе — и пластиковых карточек вообще. Впрочем, последнее пока ещё под большим вопросом: системы распознавания лиц должны ещё основательно "повзрослеть".

Гюльчатай, открой личико! Системы распознавания лиц на рынке безопасности

В практику торговли и вообще работы с клиентами сейчас полным ходом идёт внедрение систем CRM (управление взаимодействием с клиентами). На рынке уже предлагаются решения, где камера на входе плюс система распознавания лиц на сервере автоматически предупреждают менеджера магазина о том, что, к примеру, в зале универсама появился клиент, пойманный полтора года назад с поличным на краже пакета чипсов.

Использование систем в охранных целях не предполагает получения разрешений и даже информирования испытуемых о том, что ведётся видеосъёмка. Законодательство цивилизованных стран в настоящее время основательно трясёт: гражданские протесты против "Большого Брата", несомненно, основываются на конституционных нормах. Тем не менее никто ещё не снял с государства бремя защиты своих граждан от криминальных и террористических угроз.

Что же касается технологий распознавания лиц, то разработки не стоят на месте. Качество изображений в системах потихоньку растёт, растут вычислительные мощности компьютеров и пропускная способность каналов связи. Вполне вероятно, что в данной области есть место и для решительных, революционных прорывов. Сегодня здесь всё зависит от изобретательности инженеров. Ну и, естественно, от воли заказчиков.

Как это работает

Люди всегда обладали способностью различать лица. Компьютеры доросли до каких-то шагов в этом направлении сравнительно недавно. Первые научные исследования стартовали в середине 60-х, однако до внятных попыток внедрения подобного софта в практику дело дошло лишь в новом веке.

Программные реализации распознавания лиц работают следующим образом. Вначале изображение толпы либо потока людей анализируется для обнаружения лиц. Затем изображения лиц обрабатываются, чтобы выделить индивидуальные особенности, на основе которых составляется цифровой шаблон. Что конкретно "видит" программа в качестве уникальных особенностей каждого человеческого лица? Это может быть расстояние между глазами, глубина их посадки, форма скул, ширина носа, форма челюсти. Преобразуя результаты измерений в цифровой код, мы получаем нечто вроде "отпечатка лица" — по этому набору параметров и производится сравнение выхваченного из толпы человека с фотографиями, например, разыскиваемых преступников. Сам шаблон представляет собой набор цифровых данных, уже не имеющий отношения к изображению. Более того — восстановить по шаблону исходное изображение лица в общем случае невозможно. В этом и состоит суть биометрии. Кстати, паранойя "общественников" по поводу тотального снятия отпечатков пальцев в США беспочвенна. Как и в случае с шаблонами лиц, в базах правительственных агентств хранятся лишь цифровые шаблоны "пальчиков", а не их изображения.

Ранние попытки реализации компьютерного распознавания лиц основывались на сравнении самих изображений. Чтобы результаты такого контроля имели хоть какую-то достоверность, приходилось изворачиваться, чтобы обеспечить съёмку лиц во фронтальном ракурсе, размещая при этом источники света таким же образом, каким они располагались при получении шаблонных изображений. И оставалось лишь надеяться, что выражение лица испытуемого будет хотя бы приблизительно соответствовать эмоциональному состоянию искомого преступника. Вполне естественно, что такого рода системы не нашли себе применения в практике: даже небольшие отклонения освещении либо "не тот" поворот головы сводили эффективность подобного контроля к нулю.

Если быть точными — не совсем к нулю. В международном аэропорту Бостона на протяжении трёх месяцев проводились испытания систем распознавания лиц. Тесты проходили на двух пропускных пунктах с привлечением волонтёров. Результаты оказались совсем унылыми: точность идентификации составила 61.4%. В результате руководство аэропорта передумало связываться с подобными системами вообще.

Третье измерение

Относительно новым трендом в распознавании лиц стало использование трёхмерного моделирования. Некоторые разработчики, в том числе российский "Вокорд", для получения пространственной модели лица используют стереокамеры. 3D позволяет достичь более высоких показателей точности. В данном случае софт в реальном времени строит 3D-модель лица испытуемого, а затем уже анализирует особенности лица, основываясь прежде всего на участках поверхности, положение которых не меняется в зависимости от мимики. Это прежде всего надбровные дуги, глазницы, челюсть и нос. Восстановление трёхмерной модели по двум изображениям лица с математической точки зрения — задача нетривиальная. Для её решения следует прежде всего реализовать автоматическое обнаружение одних и тех же точек лица на обоих изображениях. При больших углах поворота головы относительно фронтального ракурса некоторые из точек могут быть видны лишь на одном изображении, и в условиях недостатка данных 3D-модель будет восстановлена лишь приблизительно.

3D-распознавание сложнее "плоского" не только математически, но и по общей структуре процесса. Вначале производится поиск лиц, в более ранних системах реализуемый по двумерному видеоизображению. В такой системе при обнаружении лица автоматически определяется положение головы, а затем при помощи стереокамер "двойное" изображение преобразуется в трёхмерное. Для получения 3D-модели могут использоваться различные технологии — например, структурная подсветка и сканирование лица испытуемого лучами микроволнового диапазона. Следующий шаг — сопоставление с шаблоном — зависит от того, в каком виде представлены изображения в базе данных. Сравнение по трёхмерным моделям осуществляется по наборам признаков, без необходимости визуализации. Сопоставление трёхмерной модели с "плоской" картинкой требует промежуточной 2D-визуализации (рендеринга). Модель головы испытуемого "фотографируется" в нужном ракурсе, после чего вычисляются характерные признаки и производится их сопоставление с шаблоном.

Стадии автоматизированного распознавания лиц
Рис. 1. Стадии автоматизированного распознавания лиц

В зависимости от целей применения системы, сопоставление может представлять собой верификацию либо идентификацию. Верификация проводится, к примеру, чтобы удостовериться, что человек является именно тем, на чьё имя выдан предъявленный им документ. При верификации лицо тестируемого сопоставляется с единственным шаблоном, который может храниться либо в базе, либо в памяти карты доступа СКУД, и результатом процесса является "да" либо "нет". Идентификация же представляет собой сопоставление лица тестируемого с набором шаблонов, хранящимся в базе, и имеет результатом установление личности тестируемого. Идентификация требует несколько бОльших расходов вычислительных ресурсов, однако само по себе сравнение — не столь "прожорливая" операция, как построение биометрического шаблона.

Совместными усилиями

Собственно говоря, описанный выше метод анализа может применяться не только к лицам, но "математика" при этом применяется уже другая. Существуют системы, способные исследовать характерную текстуру кожи, рисунок вен на руках и т.п. Такая система фиксирует на фотоизображении, к примеру, участок кожи, затем из изображения выделяются характерные формальные признаки уникальности. Здесь самое важное, чтобы и система, и база, в которой хранятся шаблоны, использовали один и тот же механизм описания биометрии.

Ряд производителей систем уверяют, что совместное применение распознавания лиц с биометрическими системами позволяет увеличить эффективность распознавания на четверть, а то и на треть. К примеру, американская компания Identix, несколько лет назад (судя по отсутствию новостей и молчанию веб-сайта) поглощёная кем-то из "крупняка", в своей разработке FaceIt использовала сразу три способа распознавания: векторный, анализ локальных особенностей и анализ текстуры поверхности. Векторный шаблон — весьма компактный с точки зрения переноса данных — используется для предварительного поиска по базам данных: это весьма эффективно при идентификации. Локальные особенности сопоставляются, чтобы исключить ошибку, которая может возникнуть на предыдущем шаге. И, наконец, анализ текстуры — самый сложный и затратный с точки зрения вычислительных ресурсов.

Применение методов распознавания в комплексе позволяет минимизировать изменения выражения лица, влияние мимики (моргание, улыбка и т.п.), а также появление либо исчезновение бороды и усов, смену формы очков и многое другое. Раса и пол испытуемых в этом случае также некритичны. Тем не менее, даже такая система может давать сбои при распознавании. Прежде всего это может быть вызвано наличием солнечных очков либо сильными бликами от обычных. Длинные пряди волос, свисающие на лоб, также могут привести систему в ступор. И, как водится, результат страдает при недостаточном/избыточном освещении либо недостаточном разрешении изображений (например, если съёмка ведётся с большого расстояния).

Тем не менее, развитие биометрических технологий идёт полным ходом. Одним из концентраторов идей и решений в настоящий момент является подразделение машинного зрения Лаборатории информационных технологий Национального института стандартов и технологии США (NIST). Здесь периодически проводятся сравнительные испытания систем распознавания лиц различных вендоров. Получаемый в результате тестирования показатель точности систем — коэффициент ошибочного несовпадения (FNMR) при фиксированном коэффициенте ошибочного совпадения FMR = 0,001. По данным исследований, проведённых NIST в 2010 году, представленные на рынке коммерческие системы позволяют достичь FNMR = 0,003 (при FMR = 0,001). В частности, такой показатель зафиксирован у системы корпорации NEC.

Математика за кадром

Наиболее известным примером реализации пакета ключевых элементов системы распознавания лиц по двумерным изображениям является OpenCV — библиотека машинного зрения с открытым исходным кодом. Написана она на языке программирования C++ и находится в свободном доступе (freeware). Библиотека OpenCV существует в версиях для наиболее распространённых операционных систем (Linux, Windows и Mac OS X), а отвечает она за обработку, анализ и распознавание изображений, в том числе и в реальном времени. Более полусотни функций, обеспечиваемых библиотекой, позволяют использовать её в программных приложениях — медицинских, производственных, научных и, конечно же, охранных. На правах подбиблиотеки в ней содержится и базовая библиотека машинного обучения MLL, которая позволяет решать относительно несложные задачи статистического распознавания образов и формирования кластеров. Альфа-релиз OpenCV появился на рубеже нового века, и библиотека уже более десятка лет активно применяется в самых различных продуктах, в том числе и коммерческих. Следует заметить, что в последнее время использование OpenCV в профессиональных приложениях сходит на нет: популярность у специалистов получили более "быстрые" библиотеки, к примеру, IPPI, разработанная корпорацией Intel.

Для реализации распознавания лиц одной лишь библиотеки, встраиваемой в ПО, недостаточно. Нужен ещё и рабочий алгоритм — цепь математических операций, позволяющая локализовать (выделить на изображении) лицо и сформировать набор его параметров для сопоставления с шаблоном. Алгоритмы, используемые в продвинутых коммерческих приложениях, тщательно охраняются на правах бизнес-секретов, однако есть и более доступная общественности математика: например, широко известен самообучающийся алгоритм П.Виолы и М.Джонса. Этот алгоритм осуществляет поиск лиц на изображениях, полученных во фронтальной проекции.

Как работает локализация лиц по Виоле-Джонсу? По изображению "запускается" скользящая прямоугольная рамка, внутри которой для ускорения обработки вычисляется интегральное изображение по так называемым "признакам Хаара" (см. рис. 2). Интегральное изображение суммируется из значений яркости внутри рамки. Затем результат вычислений подвергается процедуре так называемого бустинга (усиления). Это позволяет сформировать простые классификаторы, из которых алгоритмом формируются каскады последовательной обработки, позволяющие сфокусировать поиск на наиболее информативных областях изображения.

Признаки Хаара и пример их использования. В приводимом примере присутствуют только граничные и линейные признаки.
Рис. 2. Признаки Хаара и пример их использования.
В приводимом примере присутствуют только граничные и линейные признаки

Чтобы не забивать читателям головы весьма непростой и для нас самих математикой, отсылаем к всемогущему Гуглу: на запрос "Haar cascade visualization" вы получите как минимум одну ссылку на видеоролик, в котором наглядно показано, каким образом работает механизм каскадного обнаружения лиц. Если всё ещё возникают вопросы — в Сети достаточно много незасекреченной литературы по описанным технологиям.

Фэйсом об тэйбл

Алгоритмы каскадной локализации лиц имеют один существенный недостаток. Специалисты связывают его с тем, что выделение признаков здесь производится исключительно из яркостной составляющей изображения, а информация о цвете игнорируется. При определённых условиях это приводит к ошибкам. В частности, одним из таких условий может быть наличие в пределах анализируемого участка изображения "чужеродных" элементов с высококонтрастной окраской. Вполне естественно предположить, что намеренное воссоздание этих условий может оказаться эффективной контрмерой против систем распознавания лиц.

И, действительно, нашёлся пытливый студент выпускного курса, которому оказалось не лень повозиться с признаками Хаара. Вполне вероятно, что Адам Харви решил просто "хакнуть" популярную технологию, информацию о которой можно относительно просто получить из сети Интернет и вузовских учебников. В блоге Харви наряду с простыми и понятными описаниями процессов, происходящих при локализации лиц, мы обнаружили весьма подробную инструкцию, как можно обмануть систему, построенную на каскадных алгоритмах. Автор назвал свой проект "CV Dazzle". Первая часть названия, видимо, относится к библиотеке OpenCV, вторая же переводится с английского как "камуфляж".

Иллюстрация к проекту "CV Dazzle" Адама Харви. Разделавшись с общедоступной технологией, хакеры вполне могут взяться и за коммерческие продукты. Естественно, что для каждой системы "хаки" будут своими, а над устранением обнаруженных уязвимостей придётся поработать программистам.
Рис. 3. Иллюстрация к проекту "CV Dazzle" Адама Харви. Разделавшись с общедоступной технологией, хакеры вполне могут взяться и за коммерческие продукты. Естественно, что для каждой системы "хаки" будут своими, а над устранением обнаруженных уязвимостей придётся поработать программистам. (Прерывистыми линиями изображены зоны ложного обнаружения лиц, снижающие общий показатель достоверности. Результат: лиц на изображениях не обнаружено вообще.)

"Я пришёл к этому методом проб и ошибок, — заявляет Харви в интервью веб-ресурсу Geek-o-system. — Суть подхода состоит в том, чтобы разрушить симметрию, на поиск которой настроен алгоритм. Это куда сложнее, чем намазать на лицо слой штукатурки в надежде, что это сработает. Или напялить на себя 3D-очки, оставшиеся с просмотра х/ф "Аватар"... Продуманная комбинация причёски, макияжа и аксессуаров даст вам возможность не только выглядеть сколь угодно креативно, но и сделает вас невидимыми для систем распознавания лиц. Возможно, в будущем могут появиться даже стилисты, специализирующиеся на такого рода услугах."

Борец со всевидящим оком Большого Брата стал популярным сетевым персонажем. Ссылки на блог Харви потихоньку обрастают подробностями, как реальными, так и выдуманными, "фэйковыми". В частности, по просторам Интернета гуляют варианты "антиузнаваемого" макияжа. Вполне вероятно, что скоро подобные решения начнут и продаваться. Поскольку возня с макияжем — дело долгое, а по дороге к объекту интереса добро- или злоумышленнику могут встретиться охранники (либо потрясённые необычностью раскраски граждане), для большей оперативности будут предложены стикеры, маски и т.п.

Увидев на улице людей в подобной "боевой раскраске", на всякий случай позвоните в мили... или как там они теперь называются...
Рис. 4. Увидев на улице людей в подобной "боевой раскраске",
на всякий случай позвоните в мили... или как там они теперь называются...

Учитывая, что Харви удалось "хакнуть" самый распространённый алгоритм обнаружения лиц, применяемый в том числе и в коммерческих приложениях, постарайтесь не показывать эту статью разного рода сомнительным личностям. В своих читателях мы уверены, однако мало ли что...

Сухой остаток

Сегодня одной из наиболее популярных на рынке технологий захвата лиц является модуль компании Cognitec. Входя в число лидеров "хит-парада" независимого тестирования NIST, эта технология является открытой — производитель не ограничивает распространение SDK. Технология в достаточной мере адаптивна, чтобы противостоять описанным выше "хакам", однако на данный момент у нас нет информации о каких-либо попытках "атаковать" её. Вообще, специалисты относятся к выходке Адама Харви как к детской шалости: OpenCV, по сути, уже вчерашний день, а современную математику маскировкой уже не обмануть. Некоторые разработчики применяют комбинации алгоритмов, повышающие устойчивость систем. Тем не менее, по мнению многих, с кем приходилось общаться при написании этого материала, будущее систем распознавания лиц — в 3D-технологиях.

Несмотря на то, что в данной области есть ещё немало места для совершенствования, решения распознавания вовсю предлагаются на рынке. Нередко ими занимаются не компании, специализирующиеся на биометрии, а поставщики видеоаналитики. В этом случае нередко возникают ситуации, когда системы присутствуют в прайс-листах "ради галочки" — практически в коробочном виде и без привязки к "железу". Для убеждения заказчиков и инсталляторов вовсю используются демо-ролики — как реальные, так и постановочные. Однако в условиях реального объекта система распознавания лиц сможет оправдать себя лишь при условии её поставки и монтажа специализированными компаниями.

Поскольку решения распознавания лиц недёшевы, сегодня они находят себе место в относительно крупных проектах. Это обуславливает маркетинговые акценты на вертикальные рынки: в России это прежде всего транспорт и охрана критически важных объектов инфраструктуры. В последнее время аргументация вендоров запестрела примерами "мирного" применения систем. Характерный пример — использование в системе CRM банка для "раннего обнаружения" VIP-клиентов. Вошедшего в фойе крупного вкладчика "опознаёт по лицу" система, о чём ставится в известность администратор на стойке. И через пару секунд VIP-персону уже встречает персональный менеджер. Впрочем, до такого уровня сервиса, по некоторым данным, большинству заказчиков ещё расти и расти.

Вполне вероятно, что уже через пару-тройку лет решения распознавания лиц окончательно переместятся из области "экзотики" в повседневную практику. Это направление сегодня находится на переднем крае технологии и одновременно в фокусе общественного интереса. С нетерпением ждём новостей!

Андрей Коломыйцев, при участии Игоря Фаломкина (ITV/Axxon) и Алексея Кадейшвили ("Вокорд").


Возврат к списку

 Подписаться на RSS-канал