Пятница будущего. О конференции AI Journey 2023

Posted on 01.12.2023

Приветствую! У нас на сайте уже выходила пара материалов о состоявшейся на прошлой неделе в Москве конференции AI Journey, или «Путешествие в мир искусственного интеллекта». Она была организована «Сбером» и получила всемерную поддержку Правительства РФ и лично президента В.В. Путина, который последние дни неоднократно выступал с мыслью о том, что распространение ИИ в России столь же неизбежно, как и наступление социализма в СССР. Есть, правда, один нюанс. Историки и политологи до сих пор спорят о том, наступил ли социализм в СССР, а вот распространение нейросетей и пока еще слабого искусственного интеллекта в РФ — уже состоявшийся факт. И в дальнейшем они будут распространяться вне зависимости от воли правительства и президента. Но раз уж они решили возглавить и поддержать, значит, есть все шансы на то, что торжество ИИ действительно неизбежно и наступит в довольно сжатые сроки.

Восприятие ИИ в России

В ваших комментариях на сайте частенько звучит довольно скептическое отношение к перспективам нейросетей и уровню их полезности для населения страны. Однако проведенный перед началом конференции опрос (нет, не ее участников, а простых россиян) свидетельствует о том, что простой обыватель возлагает на ИИ немалые надежды. В том, что дальнейшее развитие и внедрение технологий искусственного интеллекта (ИИ) поможет изменить жизнь в лучшую сторону, уверены 63% опрошенных жителей Москвы. Интересно, что мужчины в данное утверждение верят чаще женщин — 61% и 39% соответственно. Больше всего респондентов-оптимистов относятся к возрастной категории 18–30 лет (72%), меньше всего их среди людей старше 60 лет (56%). Чаще остальных положительных изменений от внедрения ИИ ждут россияне с неполным высшим и послевузовским образованием (72% и 70% соответственно), реже — со средним техническим образованием (51%). Среди тех участников опроса, кто не ожидает в своей жизни изменений к лучшему от внедрения искусственного интеллекта, большинство в качестве причины недоверия к данной технологии назвали сбои и ошибки, к которым приводит использование ИИ (35%). Не понимают, как он работает, 31% опрошенных. Каждого пятого смущает, что искусственный интеллект лишен морали, этики и чувств. 14% уверены, что с помощью ИИ можно совершать преступления, 5% — что развитие искусственного интеллекта приводит к деградации человека. Те же, кто ожидает позитивных изменений, чаще всего называли помощь человеку на производстве и в быту, замену в тяжёлом монотонном труде, повышение производительности труда, создание новых профессий, повышение уровня благосостояния. Наступление этих изменений 17% россиян ожидают на горизонте до 15 лет, 14% готовы подождать в течение 10 лет, а каждый восьмой — не более 5 лет.

Моральный и этический аспект ИИ

Кстати, о морально-этических проблемах ИИ в ходе AI Journey поговорили и даже приняли кое-какие решения, которые окажут влияние на развитие ИИ в РФ и не только. Для начала, российские компании из Альянса в сфере искусственного интеллекта (и не только они) подписали Декларацию об ответственном экспорте технологий искусственного интеллекта и программного обеспечения на их основе. Она устанавливает этические принципы и стандарты поведения, которыми стоит руководствоваться разработчикам при экспорте собственных гражданских решений в сфере искусственного интеллекта. Стандарты включают как общие принципы и правила, так и конкретные рекомендации по вопросам взаимодействия с иностранными контрагентами и уполномоченными государственными органами. Среди подписавших — собственно «Сбер» и его субсидиары, группа компаний ЦРТ (занимаются синтезом и распознаванием голоса), «Яндекс», VisionLabs и Федеральная служба по техническому и экспортному контролю России.

Расширился список компаний, подписавших Национальный Кодекс этики в сфере искусственного интеллекта. В том числе присоединились четверо подписантов из-за пределов РФ — компании из Таджикистана, Узбекистана и Кубы. Из российских добавились «Россельхозбанк», «Росбанк», «Авито», «Эмбедика», а также РЭУ им. Плеханова, НМИЦ им. В. А. Алмазова и Северо-Восточный федеральный университет им. М. К. Аммосова.

Другой интересный аспект формализации в отношении ИИ — это попытка разработать систему учета развитости этих систем. «Сбер» предложил Альянсу в сфере ИИ концепцию независимого бенчмарка MERA для оценки фундаментальных моделей. Он поможет объективно оценивать большие языковые модели, что особенно актуально с ростом их числа их возможностей. Для тестирования моделей часто используют бенчмарки, представляющие собой набор сложных задач, решение которых отражает способности моделей по различным доменам, задачам или модальностям. Благодаря такой оценке пользователи могут понять, как применять модель, а исследователи — получить объективную информацию для дальнейшего обучения, адаптации или развития языковых моделей. В бенчмарк MERA вошла 21 задача в инструктивном формате для тестирования фундаментальных моделей. Тесты охватывают вопросы знаний о мире, логику, причинно-следственные связи, этику искусственного интеллекта, память моделей и многое другое. В создании тестов участвовали команды из Sber AI, Skoltech AI, НИУ ВШЭ. Так появился открытый бенчмарк MERA: Multimodal Evaluation for Russian-language Architectures.

Кандинский Третий

Я уже публиковал подробный взгляд на изменения в генеративном ИИ Kandinsky, так что повторяться не буду. Но вот ряд интересных цитат из официальных релизов:

Архитектура Kandinsky Video состоит из двух ключевых блоков: первый отвечает за создание ключевых кадров, из которых складывается структура сюжета видео, а второй — за генерацию интерполяционных кадров, которые позволяют достичь плавности движений в финальном видео. В основе двух блоков лежит новая модель синтеза изображений по текстовым описаниям Kandinsky 3.0.

В свежем обновлении СберБанк Онлайн на Android-смартфонах можно реализовать свой творческий потенциал и сгенерировать заставки для входа в приложение с помощью нейросети Сбера Kandinsky… Нарисовать можно до пяти заставок, они будут чередоваться при каждом входе в приложение. Причём каждая из них будет уникальной, ведь генерации нейросети никогда не повторяются.

GigaChat обновленный

Много на конференции говорилось и о нейросети GigaChat. Во-первых, этой системе сделали большое обновление, которое дало ей самую сильную LLM систему на русском языке, что позволит сравниться с иностранными образцами. Благодаря новой LLM, GigaChat лучше следует инструкциям и может выполнять более сложные задания: значительно улучшилось качество суммаризации, рерайтинга и редактирования текстов, ответов на различные вопросы. Общее повышение качества оценивается в 23%. При этом с фактологией анонсированная модель справляется на 25% лучше предыдущей версии. По результатам внутренней оценки в бенчмарке MMLU (Massive Multitask Language Understanding), модель новой версии GigaChat с 29 млрд параметров превосходит самый популярный открытый аналог LLaMA 2 34B.

Также GigaChat проверили на знание общественных наук, чтобы оценить его способности, как это делают со школьниками на ЕГЭ. Нейросетевая модель выполнила все задания единого государственного экзамена по обществознанию и набрала 67 баллов, что превышает минимальный балл для подачи в Высшую школу экономики (45 баллов) и средний балл по предмету в 2023 году (56,4 балла). Для проверки знаний GigaChat использовались только актуальные тестовые задания 2024 года, размещенные на сайте ФИПИ. Перед экспериментом команда удостоверилась, что эти задания не применялись для предварительного обучения модели. Ответы GigaChat проверил сперва независимый эксперт НИУ ВШЭ, а затем валидировала экспертная комиссия Института образования ВШЭ. Оценивались не только корректность постановки задач и достоверность фактологических ответов GigaChat, но и качество выполнения творческих (открытых) заданий.

А еще нейросетевые возможности GigaChat можно теперь оценить в обязательном к установке на российские ПК офисном приложении «МойОфис». ИИ интегрировали в редакторы документов «МойОфис Стандартный», корпоративную почту нового поколения Mailion и цифровое рабочее пространство Squadus. В настольных редакторах нейросеть помогает решить задачи генерации текста и подготовки шаблонов для ответов. В почте она занимается анализом цепочек писем и составлением чек-листа по его итогам. Инструмент поможет создавать краткое резюме изложенного в цепочке писем, определять необходимые к выполнению задачи и распределять роли в команде. В перспективе добавится ИИ-ассистент «МойДень», который поможет сформировать единую панель задач на основе коммуникаций и календарных событий пользователя. На основании зависимых документов и цепочек писем он будет выделять значимые события и создавать ссылки для быстрого перехода к ним, отображать списки предстоящих встреч и организовывать их, а также обеспечит контроль над существующими задачами пользователя: своевременно напомнит о необходимости выполнения следующей задачи и предложит сценарии действий для ее выполнения.

Нейросеть читает pdf и египетские манускрипты

Отдельно стоит сказать и о паре интересных перспектив использования возможностей GigaChat по распознаванию и анализу текста. На конференции был представлен прототип интерфейса для редактирования документов с помощью генеративных моделей, а также бета-версия функции загрузки в диалог GigaChat PDF-файлов для последующей работы с ними. Веб-интерфейс для редактирования документов с использованием генеративных моделей объединяет в себе доступ к ключевым моделям и технологиям для текстовой редактуры: сервис GigaChat, нейросеть Kandinsky и AI-сервис для коррекции правописания SAGE. Так, можно будет, например, сгенерировать текст или документ, попросить предложить идеи и структуру, обогатить публикацию иллюстрациями, адаптировать текст для любой аудитории, исправить орфографию и пунктуацию. Также в GigaChat добавится возможность загружать PDF-файлы и работать с ними. Например, можно попросить суммаризовать или определить ключевые мысли в большом финансовом отчете, либо можно сформулировать вопросы к тексту и его содержанию.

Но возможно и решение более сложных задач. Как заявил А.Ведяхин, первый заместитель председателя правления Сбербанка: «У нас есть интересная идея. Мы ранее расшифровали рукописи Петра Первого с помощью нашей ИИ-модели. У египтян есть важная задача. Огромное количество манускриптов, которые сложно расшифровать и, соответственно, сохранить. Так как манускрипт находится на папирусе или на других носителях, и они могут очень быстро распасться. Должна быть очень аккуратная работа, так как он может быстро портиться. Таких манускриптов очень и очень много.

Как сохранить и расшифровать манускрипт – большая задача, и мы с коллегами из Египта обсуждаем, как применить нашу ИИ-модель для реализации этой задачи.

У нас большой взаимный интерес. Думаю, что это будет следующим направлением развития исторической мысли. Возможно, мы даже сделаем какие-то исторические открытия в Древнем Египте».

Kandinsky, SymFormer, «Салют» и GigaChat как соавторы музыкального клипа

Музыкальный коллектив Filatov & Karas создали трек и музыкальный клип совместно с искусственным интеллектом «Сбера». В HiFi-стриминге «Звук» появился трек «Спойлер», который был создан музыкантами в соавторстве с Kandinsky, SymFormer, «Салют» и GigaChat. Нейросеть Kandinsky отвечала за визуальную часть клипа. С помощью модели SymFormer, обученной более чем на 200 тысячах композиций разных стилей и жанров, были созданы музыкальные партии, виртуальный ассистент «Салют» спел на бэк-вокале голосом Афины, а также в создании трека принял участие сервис GigaChat. Премьера клипа состоялась в рамках конференции AI Journey 2023. Представители «Сбера» заявляют, что такие возможности для создания композиций с помощью технологий искусственного интеллекта в будущем станут доступны пользователям «СТУДИО» — приложения для артиста и его команды от HiFi-стриминга «Звук». Использование подобных инструментов будет автоматизироваться, и в дальнейшем каждый сможет использовать все преимущества ИИ при создании своего творчества.

[embedded content]

Музыка по запросу

Для мирового рынка это не новость, но все же стоит сказать о том, что в ближайшем будущем разработчики GigaChat намерены предоставить пользователям возможность сочинять музыку по запросу. «Яндекс» уже некоторое время назад демонстрировал сервис, который мог в «Яндекс Музыке» «сочинять» произведения по мотивам ваших музыкальных предложений, но в «Сбере» решили пойти более сложным и перспективным путем. GigaChat должен смочь генерировать музыкальные треки по произвольным текстовым запросам. Для генерации музыки будет достаточно сформулировать задачу, например, «Сочини весёлую музыку в стиле кантри» или «Напиши трек для лаундж-зоны бизнес-центра». В ответ GigaChat будет выдавать аудиофайл с уникальной музыкальной композицией и нотную партитуру в формате MIDI, который понимает любая DAW (Digital Audio Workstation). Пользователь сможет прослушать и скачать получившийся трек, а MIDI-файл использовать в собственных творческих проектах (редактировать гармонии, изменять аранжировку и получать разнообразные варианты звучания трека) и даже в музыкальном продакшене. Собственно, прототипом такого подхода и можно считать клип, о котором говорилось выше.

Генерация музыки в GigaChat возможна благодаря интеграции нейросетей CLaMP и SymFormer. Для обучения SymFormer использовались платформа ML Space на базе суперкомпьютера Christofari и датасет из более 200 тысяч композиций разных стилей: от классики до современной электронной музыки и рока. Модель для генерации треков основана на принципе рассмотрения музыки в качестве нотного текста — в этом помогла адаптация подхода text-2-image к нотному домену. Создание музыкальных треков происходит в несколько этапов. На первом с помощью модели CLaMP текстовый запрос пользователя обрабатывается и конвертируется на понятный для генератора мелодий язык. Потом полученные данные, включая информацию о стиле, попадают в SymFormer, где происходит генерация нескольких вариантов мультидорожечного трека, из которых нейросеть выбирает наиболее удачные варианты по стилю и композиции. На финальном этапе механизм рендеринга формирует аудиофайл и передаёт результат пользователю.

Общаться с роботом на естественном языке

Если у вас в детстве была «Энциклопедия профессора Фортрана», то вы должны помнить главу, где объясняется необходимость и механизм написания алгоритмов. Однако за прошедшие десятилетия человечество развилось до того момента, когда роботы вот-вот станут повседневностью в быту, а мыслить и изъясняться алгоритмами не научилось. Поэтому вопрос общения с машиной на естественном языке весьма актуален. Центр робототехники «Сбера» совместно с коллективом ученых из AIRI и МФТИ работает над созданием системы планирования действий роботов, которая позволит им выполнять бытовые задачи по командам на естественном языке. Научить роботов понимать человеческую речь — это настоящий вызов для разработчиков. Однозначное восприятие естественного языка, на котором люди говорят каждый день, — непростая задача для роботов. Абстракции, обобщения, контекст или сленг могут изменять смысл слов и предложения и, как следствие, путать робота. Управление роботами с помощью языковых команд усложняется еще и тем, что, хотя искусственный интеллект добился значительных успехов в понимании письменного текста, идеально переносить это понимание на разговорный язык с его вариациями акцента, скорости и интонации он пока не умеет. Кроме того, роботы с трудом понимают неоднозначные команды и не «читают между строк», что является естественным для человека. А еще современные роботы, даже самые простые, управляются набором из написанных команд — программного кода. Например, простая даже для ребенка просьба «положить все игрушки в ящик» оказывается совсем нетривиальной для ИИ. Он не обладает «здравым смыслом» и не знает, что такое «все игрушки». В такой ситуации робот должен преобразовать запрос в требование «сегментировать игрушки», собрать список найденных в комнате предметов и разбить задачу на этапы, то есть самостоятельно написать себе руководство по уборке каждого конкретного объекта.

Нейросеть работает страховщиком

Желающие застраховать свой автомобиль или свои финансы в «СберСтраховании» теперь обслуживаются быстрее за счет применения ИИ. Например, страховщикам удалось уменьшить время выдачи направления на ремонт по КАСКО до 1 минуты. При наступлении страхового случая клиент сообщает об этом в колл-центр, а затем заполняет форму в мобильном приложении «СберСтрахования». И благодаря использованию цифровых технологий анализа данных в течение минуты на его электронную почту приходит направление на ремонт.

Функция тестируется в Москве и Московской области на простых убытках, связанных с повреждением лобового стекла автомобиля.

Также нейросеть уже принимает решение по 50% заявлений, которые поступают через мобильное приложение «СберБанк Онлайн» по программе «Сбереги финансы». AI-модель анализирует предоставленные данные по определённому перечню параметров и принимает решение о выплате. Если дополнительных данных не требуется, выплата производится в течение 30 минут на банковскую карту через Систему быстрых платежей. Если же модель по какой-то причине сомневается, заявление поступает на рассмотрение человеку. С момента запуска в июле 2023 года модель урегулировала почти 2 тысячи заявлений. В планах компании — интегрировать решение и в другие страховые продукты, а также масштабировать его на заявления о страховых случаях, которые подаются в отделениях банка.

Прогнозирование рисков искусственным интеллектом

Другую, более масштабную сферу внедрения ИИ в «Сбере» видят в анализе рисков. «СберАналитика» разработала программный модуль, который прогнозирует выручку для компаний разных отраслей бизнеса с точностью до 90%. Инновационное решение доступно в онлайн-панели «Геоаналитика». Решение «Сбера» помогает предпринимателям выбрать самые перспективные локации для открытия бизнеса с высоким трафиком и низкой конкуренцией. Продвинутые ML-алгоритмы позволяют учесть множество факторов, влияющих на эффективность торговой точки: сопутствующую инфраструктуру, финансовый профиль покупателей и другие нюансы. Результатом становится прогноз товарооборота и ожидаемой выручки. Точность модели прогнозирования товарооборота составляет 90%, а в 80% подобранных локаций заказчик достигает ожидаемого результата.

Также в помощь предпринимателям создали открытую NLP-модель, которая распознаёт и классифицирует тексты по 47 экологическим, социальным и управленческим темам, — инструмент для оценки ESG-рисков компаний. Модель на основе технологии Natural Language Processing (NLP) позволяет обрабатывать и структурировать текстовую информацию, поддерживает русский и английский языки. Для обучения модели был использован датасет из 2500 уникальных текстов об ESG-рисках. Для повышения качества была проведена двухэтапная проверка результатов разметки датасета. Классификатор был разработан на основе риск-ориентированного подхода. В результате модель способна соотнести любой текст из открытых источников с определённым видом реализовавшегося риска либо указать на его отсутствие. Таким образом, сервис помогает решить вопрос анализа ESG-рисков на основе публичной информации в условиях отсутствия стандартизированных данных по компаниям.

Нейросетевая медицина

Та же система предсказаний, на которую опирается любая нейросеть, может быть задействована не только для анализа мест и рисков, но и для диагностики заболеваний. По большому счету, ИИ совершенно все равно, что связывать — симптомы и облик человека с имеющимся каталогом болезней или же количество проходящих через площадь людей с количеством потребляемого ими кофе и наличием вокруг площади кофеен. Вот и специалисты «Сбера» адаптировали современную нейросетевую архитектуру Transformers для работы с последовательностями диагнозов пациентов. Данный подход позволил получить формальное представление медицинских профилей пациентов в виде эмбеддингов (embedding — вложение, числовой вектор признаков), полезных для множества научных и практических задач. Это решение открывает возможности для моделирования треков дальнейшего развития состояний пациентов. Такое свойство модели проверено в задаче предсказания следующего диагноза и подтверждено высокими метриками в эксперименте на публичном датасете медицинских записей MIMIC-III (открытая база данных с информацией о пациентах, поступивших в отделения интенсивной терапии крупного медицинского центра). Также в ходе исследования предложен H2D-метод (Harbinger Disease Discovery) поиска предвестников заболеваний, позволяющий автоматически генерировать гипотезы о взаимосвязях между болезнями. Так, благодаря ему удалось обнаружить сильную зависимость между группой психологических расстройств и раком молочной железы у женщин. Достоверность этой гипотезы подтверждается в смежных научных исследованиях. Применять систему диагностирования нейросетью предполагают не только в качестве помощи врачам, но и в страховых компаниях.

Куда пойти учиться на специалиста по ИИ

Напоследок — информация, которая будет интересна тем, кто сам решится стать специалистом по ИИ или рассчитывает дать своим детям максимально перспективное образование. «Сбер» выкатил свой рейтинг российских вузов по качеству подготовки айтишников, работающих с ИИ. Учитывая, сколько сил и средств было вложено компанией в развитие направления, эти данные можно считать небезынтересными. Система рейтинга была разработана Альянсом в сфере ИИ по поручению Президента РФ от 29 января 2023 года при поддержке Правительства РФ и Министерства науки и высшего образования РФ. В рейтинг вошли 180 вузов из 64 регионов страны с программами подготовки бакалавров. На программы в области искусственного интеллекта этих вузов в 2023 году были приняты более 5 тысяч студентов.

В итоговом списке учебные заведения были распределены по 12 группам: от А+ (лидеры) до Е+ (начинающие). В каждой группе вузы расположились в алфавитном порядке. В группу лидеров с оценкой А+ вошли три вуза – НИУ ВШЭ, МФТИ и НИУ ИТМО. Оценка А была присвоена МГУ им. М.В. Ломоносова и СПбГУ. В категорию B+ вошли МГТУ им. Н.Э. Баумана, УрФУ им. Б.Н. Ельцина, в категорию В – МИФИ, Санкт-Петербургский политехнический университет Петра Великого, Университет Иннополис. Полный список можно посмотреть по ссылке.

Источник