Избранное сообщение

вторник, 29 декабря 2015 г.

Зачем Следственному комитету России искусственный интеллект





24 декабря 2015
Image copyrightRIA

Следственный комитет России тратит рекордную для себя сумму на систему по мониторингу СМИ, блогов и соцсетей. Русская служба Би-би-си нашла в интернете бесплатную версию этой системы и оценила ее работу.


В одном из московских офисов под круглосуточной охраной и видеонаблюдением система "Интегрум" собирает и анализирует все, что появляется в русскоязычных медиа и интернете. В нее попадают новости, репортажи, посты, комментарии, изображения и видео.

Система может определять первоисточники информационных кампаний в соцсетях. На случай, если первоисточник будет удален, система архивирует все сообщения. Она также может сортировать сообщения по дате, теме, интонации, возрасту авторов, месту их проживания, формировать качественные и количественные аналитические отчеты и так далее.

Доступ к системе возможен практически со всех устройств, подключенных к интернету. Но только для заказчиков и с заранее определенных IP-адресов. В этот перечень входят, например, IP-адреса Следственного комитета России, который с 2012 года потратил на подписку к системе и аналитические отчеты более 2,8 млн рублей.

До конца года ведомство может заключить с компанией "Интегрум-медиа" еще один контракт, рассчитанный на 12 месяцев, на рекордную сумму 2,2 млн рублей. По крайней мере, компания является единственным участникомконкурса.

В техзадании последнего конкурса сказано, что система должна мониторить сообщения 35 тыс. СМИ, в том числе телеканала "Дождь" и украинского агентства УНИАН, а также посты и комментарии из 12 популярных интернет-сервисов: "ВКонтакте", Facebook, Twitter, LiveJournal, Liveinternet, "Одноклассники", "Мой мир", YouTube, RuTube, Smotri.com, Instagram и Foursquare.

В разное время систему заказывали также Федеральная служба по контролю за оборотом наркотиков, Федеральная антимонопольная служба, Верховный и Высший арбитражный суды, региональные парламенты и правительства.
Политический мониторинг

Чтобы опробовать некоторые функции системы, не обязательно носить погоны или быть чиновником. На сайте "Интегрум-медиа" можно в режиме реального времени отслеживать посты и комментарии в соцсети "ВКонтакте", а также в Twitter и LiveJournal по таким темам, как "министры", "губернаторы", "СМИ", "вузы" и "банки". В бесплатной версии работает и географическая привязка, и оценка интонации сообщений.

Например, комментарий в соцсети "ВКонтакте" с цитатой министра культуры Владимира Мединского о "лишней хромосоме" русского народа система определяет как "негативный". Комментарий о том, что министр иностранных дел Сергей Лавров перевез свою дочь из Нью-Йорка в Москву, и это показывает, "на чьей он стороне", в свою очередь,- "позитивный".

Использование слова "Рашка" вместо "Россия" почти гарантированно отправит комментарий в "негатив". Иногда происходят сбои, например, сообщение "кто запустил в паблик минздрав? Скворцова, хватит распинаться!" в сообществе "Злой медик" определяется со знаком плюс.Image copyrightIntegrumImage captionРамзан Кадыров - лидер по упоминаемости в соцсетях среди руководителей российских регионовImage copyrightIntegrumImage captionТак система "Интегрум" видит негативные комментарии из Соединенных ШтатовImage copyrightIntegrumImage captionМосква - лидер по количеству негативных комментариев в адрес правительства
"Сносящие крышечку" технологии

Русская служба Би-би-си попросила экспертов изучить онлайн версию системы "Интегрум" и прикинуть, как ее может использовать Следственный комитет России.

По словам директора АНО "Информационная культура" Ивана Бегтина, технологии мониторинга социальных сетей полезны, и используются государством после того, как были обкатаны в бизнесе. Однако их применение конкретно ведомством Александра Бастрыкина эксперта "удручает".

"Это политический мониторинг. Вместо отслеживания более серьезных преступлений (финансовые пирамиды, распространение наркотиков, кибермошенничество) ресурсы тратятся вот на такие системы", - говорит Бегтин.

Интернет-эксперту Антону Меркурову показалось, что система слишком приблизительно оценивает эмоциональную окраску сообщений: "Русский язык богат эпитетами и выражениями, поэтому серьезный анализ текста могут произвести только профессиональные лингвисты. Хотя для бизнеса и брендов и такой оценки может быть достаточно".

При этом, по мнению Меркурова, "Интегрум" стоит заявленных 2,2 млн рублей в год, и бизнес платит за систему столько же.

"Большинство сегодняшних технологий работают плюс-минус одинаково: умеют определять и кто на фотографии, и контекст фотографии, и анализируют содержание видео. Это стандартный пакет, который предоставляют подобные компании. Инструмент хороший и полезный, другое дело - какие экспертные решения принимаются на его основе. Этот вопрос лежит за рамками технологий. Просчитать, насколько у Следственного комитета крышечку снесет по тому или иному поводу, достаточно сложно", - резюмирует эксперт.
Призмы, штормы, мониторы

Системы мониторинга СМИ и интернета начали появляться в середине 2000-х годов. Лидеры в этой области - американские компании Crimson Hexagon и General Sentiment. В России подобных им систем - не менее десятка.

В июне 2010 года военная часть № 64829, известная также как Центр информационной безопасности ФСБ, потратила 431 тыс. рублей на информационно-аналитическую систему "Семантический архив" компании "Аналитические бизнес решения". В функции программы, в частности, входил "мониторинг и анализ обстановки на основе материалов СМИ и внутренних фактографических и аналитических документов службы".

Газета "Коммерсант" сообщала, что в январе-феврале 2012 года Служба внешней разведки России объявила три закрытых тендера на исследования интернета на общую сумму более 30 млн рублей. Первое с кодовым обозначением "Шторм-12" было посвящено "средствам продвижения специальной информации в социальных сетях", исследование "Монитор-3" - "методам негласного управления в интернете", исследование "Диспут" - "методам разведки интернет-центров и региональных сегментов социальных сетей". Исполнителем работ стала компания "Итеранет" (ее гендиректор Игорь Мацкевич в прошлом работал в Академии ФСБ).

"Большая двойка" аналитических систем в России состоит из компаний "Интегрум-медиа" и "Медиалогия". Последняя, как писал Forbes, поставляет аналитическую систему "Призма" администрации президента. По информации же CNews, с августа 2014 года разработкой своей системы озаботиласькомпания "Системы управления", принадлежащая госкорпорации "Ростех".
Искусственный интеллект

"Все подобные системы решают классическую задачу анализа мнений: как определить отношение говорящего к объекту высказывания, - рассказывает доцент Департамента анализа данных и искусственного интеллекта Высшей школы экономики Дмитрий Игнатов. - Прежде всего, нужно четко выделить сам объект, скажем, Лавров это или какой-то другой чиновник. Далее текст дробится на мелкие единицы, словосочетания. Анализируется контекст, прилагательные, частицы, машина присваивает им плюсы или минусы. По количеству знаков можно понять, в целом высказывание позитивное или негативное".

По словам ученого, машины уже научились анализировать жесты и эмоции. Тогда как анализ сарказма или актерской игры им еще не доступен.

"Если вы собрались таким же образом анализировать соцсети, вам нужны входные данные, - продолжает Дмитрий Игнатов. - Имея доступ только к открытым данным, вы не можете всерьез анализировать отношение людей к тому или иному политику. Однако если вы договоритесь с провайдерами и получите доступ ко всему траффику "ВКонтакте" или Facebook, ваши возможности резко вырастут".

Во время подготовки материала получить комментарий у "Интегрум-медиа" не удалось

http://www.bbc.com/russian/russia/2015/12/151224_smj_sledcom_integrum

http://creativecommons.org/licenses/by/3.0/legalcode