Всевидящий «Окулус». В России появится новая система контроля за контентом в интернете

Источник: Pixabay

«Фильм ужасов» за 60 миллионов рублей

Впервые об «Окулусе» заговорили еще в 2021 году. Тогда Коммерсантъ обратил внимание на тендер от Главного радиочастотного центра, размещенный на сайте Госзакупок. ГРЧЦ предложил 15 миллионов за разработку техзадания для системы обнаружения в интернете запрещенного контента в фото и видео.

Тогда эксперты предупредили: вмешательство «Окулуса» и его анализа в работу сайтов может существенно замедлить их загрузку для пользователей. 

Спустя год о системе вспомнили вновь — на этот раз после того, как на сайте Госзакупок появилась информация о том, что ГРЧЦ нашел исполнителя на проект. Им стала компания  ООО «Эксикьюшн Эр Ди Си». По данным системы СПАРК, она была зарегистрирована в 2014 году, специализируется на разработке программного обеспечения, а ее выручка за 2021 год составляет почти 230 миллионов рублей при уставном капитале в 10 тысяч рублей. При этом ранее компания не принимала участия в тендерах. По условиям технической документации, сдать проект компания должна уже через четыре месяца — к 12 декабря. На создание проекта выделено 57,7 млн рублей. 

Планируется, что «Окулус» будет работать на основе нейросетей и в режиме реального времени искать противоправный контент в изображениях, видео, публикациях в каналах, адресах сайтов. По заданию система будет проверять две картинки в секунду, опираясь на собственный каталог запрещенной символики, действий и личностей. 

Запрещённый контент, который будет выявляться «Окулусом», включает в себя призывы к экстремизму и терроризму, массовым беспорядкам и несогласованным мероприятиям, информацию о суициде и способах изготовления наркотических веществ, пропаганду нетрадиционных сексуальных отношений и неуважение к власти. Работу системы будут поддерживать 48 серверов. 

Телеграм-канал ЗаТелеком отмечает, что в попытках придумать наиболее благозвучное имя системе, РКН повторил название фильма ужасов о потусторонней сущности, вселившейся в зеркало и уничтожившей его владельцев. Кроме того, подчеркивается, что «Окулус» — не первая система мониторинга контента, существующая в России. В 2021 году РКН дорабатывал систему мониторинга теле- и радиовещания, чтобы массово выявлять нарушения, сократив выборочный просмотр и прослушивание экспертами.

Источник: Pixabay

Автоматизированная система мониторинга телерадиовещания работает в России с 2015 года. Она фиксировала перерывы в вещании, рекламу и бегущую строку, следила за наличием маркировки информационной продукции, хранила записи эфиров ТВ и радиостанций. Обновленная система должна была получить функцию транскрибирования звуковой информации в текстовую, для более эффективного выявления нарушений. 

Помимо этого, Роскомнадзор уже закупал систему мониторинга нарушений прав субъектов персональных данных в интернете и системы мониторинга сайтов общей стоимостью почти сто миллионов рублей. 

У «Окулуса» есть много нюансов — они могут сделать работу системы некачественной и неэффективной

Эксперты, опрошенные Hi-Tech Mail.ru, неоднозначно оценивают перспективы внедрения технологии «Окулус». Виктор Смирнов, директор по развитию бизнеса в области разработки ПО ИТ-компании КРОК, напоминает, что в общем доступе уже существуют готовые нейронные сети и библиотеки для анализа текста. Например, проект Natasha — набор Python-библиотек для обработки текстов на русском языке. То же самое относится и к анализу изображений и видео. 

«Учитывая сроки контракта, у исполнителя проекта по разработке системы “Окулус” — Execution RDS — она явно должна быть уже готова. Кроме этого, должна быть обвязка для сбора данных из выбранных источников, а также создано рабочее место оператора. Объём данных, скорее всего, будет значительным и хранить его нужно будет в течение длительного срока. А для этого понадобятся существенные инфраструктурные мощности,» — замечает эксперт.

источник: Unsplash

По мнению Виктора Смирнова, препятствий для эффективности системы не видится, если у исполнителя готовы достаточно эффективные модели для анализа данных. По описанному техническому заданию разработать их за три месяца — невозможно, а 200 000 изображений — это довольно ограниченный объем. Из этого специалист делает вывод, что система направлена на анализ не всего русскоязычного сегмента интернета, а конкретных источников информации, где ожидается наличие противоправного контента.

Никита Назаров, технический директор IT-компании HFLabs, считает, что «Окулус» не сможет обеспечить качественное выполнение поставленных перед системой задач. В первую очередь, уверен эксперт, нужно определить, какой контент является запрещенным. 

«Это анализ законодательных актов и распоряжений разных органов власти, сведение всех данных к единому реестру. В техническом задании указан лишь перечень возможных нарушений законодательства, интерпретация и раскрытие каждого из них возложены на подрядчика. Даже если считать, что задача частично решена, на формализацию уйдет до месяца.»

Далее, перечисляет специалист, требуется подготовить датасет: по выявленным на первом этапе критериям нужно собрать на просторах интернета примеры демонстрации запрещенной символики, противозаконных высказываний и инструкций по изготовлению запрещенных препаратов. При этом датасетов должно быть три: видео, картинки, текстовые корпуса. По мнению Никиты Назарова, это — самый сложный этап, который при корректном исполнении должен занять до полугода.

Источник: Unsplash

«Затем нужно вручную разметить этот датасет на предмет того, что считается запрещенным, а что нет. Например, знак свастики на Рейхстаге — запрещённый контент, а свастика на индуистской статуэтке или храме — необязательно. Все это довольно сложно, так как разметка будет субъективной. Это трудозатратный процесс, на который потребуются месяцы работы — по каждому критерию подрядчик должен предоставить не менее тысячи размеченных изображений.»

Эксперт добавляет, что судя по анонсу проекта, мощность системы должна позволять анализировать не менее 200 тыс. изображений в сутки. Это очень низкий показатель — даже в российской зоне интернета генерируется намного больше контента, а любая система, базирующаяся на машинном обучении, предполагает ошибку — когда что-то хорошее признается плохим и запрещенным. 

Постановка допускает 20% ложноположительных и 20% ложноотрицательных срабатываний системы, но дальнейший процесс разбора этих срабатываний в ТЗ не раскрывается — если система будет отправлять найденную “запрещенку” на ручную обработку, то понадобится огромный штат сотрудников, которые будут разбирать сомнительные срабатывания.

Это тоже интересно

Источник

Добавить комментарий

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.