МОСКВА, 25 мая, Татьяна Пичугина. Самообучающиеся нейросети произвели в системах распознавания лиц настоящую революцию. В Китае реализуют масштабную государственную программу безопасности на основе анализа изображений с миллионов камер видеонаблюдения. Похожие системы тестируют московские аэропорты и метрополитен. РИА Новости вместе с экспертами рассказывает, как такие системы устроены и на что они способны.
За распознавание сородичей и врагов отвечает особая область в зрительной коре мозга человека (в затылочной части), где расположены нейроны — детекторы лиц. Эти нейроны образуют сети, иерархически обрабатывающие зрительную информацию и хранящие образы. Если несколько нейронов отомрут, сеть быстро найдет им замену, и система продолжит работу.
Оказавшись в помещении, человек первым делом сканирует пространство в поиске лиц. Фотоны поступают на сетчатку глаза и преобразуются в электрические сигналы, идущие в мозг. Там изображение разлагается на признаки, из которых затем складывается целостная картина. В нашей памяти хранятся образы, виденные ранее, и некоторые априорные представления об окружающем мире, поэтому мы не удивляемся, придя в новое место или встретив незнакомцев. Все эти объекты нам известны на уровне категорий — стол, окно, старик. Различие лишь в деталях, цвете, размерах.
Примерно так же устроена нервная система лягушки, реагирующая запрограммированным образом на зрительную информацию. Маленький длинный прямоугольник амфибия воспримет как червяка, а большой квадрат укажет на хищника, от которого нужно спасаться. Распознавать сородичей умеют и рыбы.
При разработке нейросетей программисты взяли за основу схему работы мозга. Только вместо нейронов — математические формулы, оперирующие цифровыми или логическими значениями. Эти нейроны-формулы связаны в слои, которые получают на входе данные и выдают результат, а слои — в сети. Нейросети содержат десятки и даже сотни слоев.
Система распознавания лиц состоит из двух частей. Первая — нейросеть-детектор — принимает поток изображений с видеокамеры и определяет, есть ли там лица. Набор лиц она подает на вход нейросети-идентификатору, которая сравнивает их с базой данных лиц-эталонов и говорит, есть совпадение или нет.
Как и мозг, нейросеть оперирует признаками. Но описать их привычными терминами не получится. Круглое лицо, тонкие брови, темные волосы, пробор налево — это абстрактные понятия, которые формируются после иерархического анализа зрительных сигналов. Реальный процесс узнавания гораздо сложнее, он основан на анализе множества мелких черт. Так же работает и искусственный интеллект. Покатый лоб он может описывать с помощью трехсот признаков.
В Москве сотни тысяч уличных видеокамер. Отсмотр записей с них при необходимости происходит в ручном режиме и занимает часы, а то и дни. Если же задачу поручить программе, то она решит ее за секунды и с высокой точностью. Например, на поиск по пятистам миллионов фото, опубликованным в соцсети "ВКонтакте", уходит полсекунды.
По словам Кухаренко, точность системы зависит от размера базы изображений, с которой необходимо работать: база из тысячи изображений даст почти стопроцентную точность, миллионы фото снизят точность до 95 процентов.
Условия, в которых стоят видеокамеры, также играют роль. Засветка, ракурс снимка снижают точность, но система все же будет работать.
"Даже вероятность распознания шестьдесят процентов — это очень много", — подчеркивает Кухаренко.
Нейросети уже учатся распознавать эмоции. Благодаря этому они могут стать умными помощниками, встроенными в машины и гаджеты.
"Сервисы все более обезличиваются, когда с клиентом общается программа. Можно научить ее оценивать эмоции и на них реагировать. Например, вы пытаетесь купить что-то в автомате и не знаете, на какую кнопку нажать, злитесь, стучите кулаком. Автомат, наделенный способностью распознавать эмоции, вступит в диалог, поможет", — объясняет Алексей Кадейшвили, технический директор компании "Вокорд".
Еще более интересная задача — создать личного помощника, который подстроится под конкретного человека, будет знать его эмоции и научится на них реагировать. Такую программу можно встроить в гаджет или "умный дом", добавив к признакам не только выражение лица, но и голос, движения.
Принципиальная схема такова: программа следит, насколько у человека искажены черты по сравнению с нейтральным выражением лица. По степени искажения определяет ту или иную эмоцию. Однако пока подобные задачи сложно формализовать, мешает субъективный фактор.
"Есть ярко выраженные эмоции — с ними не ошибешься, а есть эмоции, которые можно по-разному трактовать, — смешанные, промежуточные. Это сильно усложняет работу автоматизированной системы. Результат распознавания лица понятен — определили либо правильно, либо нет. В случае ошибки в системе следует что-то исправить. С эмоциями не так", — говорит Кадейшвили.
Научный подход требует экспертного заключения о том, куда отнести те или иные эмоции. Но, по словам Алексея Кадейшвили, это долго, сложно и дорого, поэтому разработчикам систем распознавания эмоций приходится оперировать ограниченным числом исходных данных.
Хотя нейросети справляются с задачей распознавания лиц лучше, чем люди, до идеала еще далеко.
"За два года мы улучшили точность нашего алгоритма в три раза. Работаем и над скоростью. Для крупных проектов требуется много вычислительных ресурсов, поэтому стоит задача сделать систему еще более эффективной и дешевой", — отмечает Артем Кухаренко.
Пока системы распознавания лиц востребованы для масштабных задач: обеспечения безопасности жителей города, пассажиров транспортных систем, контроля доступа на крупные предприятия и спортивные объекты, поиска пропавших людей. Есть ряд задач для ретейла: борьба с воровством, системы лояльности.
"Наш алгоритм позволяет распознавать эмоции, определять пол и возраст, наличие усов, бороды, очков и так далее. Это востребовано в розничной торговле. Ретейлеры хотят получать демографический или возрастной срез посетителей, понимать предпочтения клиентов для более высокого уровня обслуживания", — приводит пример Кухаренко.
"Сфера применения нейросетей очень широка. Сложнее сказать, где этой технологии не будет в ближайшее время", — уточняет Алексей Кадейшвили.
По его словам, нейросети не все ситуации отрабатывают качественно. Например, трудности вызывает некооперативный режим, когда требуется распознавать лица людей, идущих в толпе и не стремящихся помогать системе быть распознанными. Точность тогда ниже, чем при анализе селфи-фото. Однако года через три все дыры в системах распознавания лиц заделают, и они станут такой же привычной частью нашей жизни, как фотокамеры в мобильных телефонах.