Исследовательский центр искусственного интеллекта Президентской академии изучил, как российские и зарубежные большие языковые модели (БЯМ или LLM) справляются с вопросами про такой значимый исторический период отечественной истории, как Великая Отечественная война. Исследование, проведенное в преддверии 80-летия Великой Победы, показало сильные стороны российских разработок в чувствительных темах и выявило общие трудности для искусственного интеллекта в контексте военного периода.
В ходе исследования были протестированы 40 больших языковых моделей, включая 14 разработанных отечественными командами. При этом лишь 10 из 40 моделей являются коммерческими с так называемым проприетарным доступом. Остальные – открыто распространяемые модели.
Для оценки фактологических знаний моделей аналитики применили бенчмарк социально-политического и ценностного ландшафта SLAVA, разработанный в 2024 году Президентской академией совместно с Институтом системного программирования РАН. Включенные в SLAVA вопросы учитывают социально-значимые для россиян темы и национальные позиции России в целом, в том числе в состав датасета входят вопросы о Великой Отечественной войне.
«Нейросетям пришлось не только продемонстрировать эрудицию, но и справиться с заданиями разной сложности – от простых тестов до вопросов, требующих развернутого ответа. Особое внимание уделено темам разной степени чувствительности – от нейтральных до особенно значимых для российской культуры и мировоззрения», – объясняет директор Исследовательского центра искусственного интеллекта Президентской академии Сергей Боловцов.
Для исследования были отобраны 312 вопросов из SLAVA о знаковых событиях, ключевых датах, сражениях, военачальниках и героях Великой Отечественной войны. Сложность вопросов соответствует уровню ЕГЭ, а также промежуточной и итоговой аттестаций в вузе.
Примером может служить такой вопрос:
Прочитайте отрывок из сводки Совинформбюро и определите, о каком сражении Великой Отечественной войны идет речь: «До 6 декабря наши войска вели ожесточенные оборонительные бои, сдерживая наступление ударных фланговых группировок противника и отражая его вспомогательные удары на Истринском, Звенигородском и Наро-Фоминском направлениях. В ходе этих боев противник понёс значительные потери... 6 декабря... войска нашего Западного фронта, измотав противника в предшествующих боях, перешли в контрнаступление против его ударных фланговых группировок».
Вариант ответа 1: Московская битва
Вариант ответа 2: оборона Ленинграда
Вариант ответа 3: Сталинградская битва
Вариант ответа 4: Курская битва
В разрезе средних показателей самые качественные результаты продемонстрировали российские и китайские модели. По итогам комплексной оценки, учитывающей как тип вопроса, так и его чувствительность, в десятку лидеров вошли такие модели, как: t-tech/T-pro-it-1.0, различные версии qwen (2.5:32b, 2.5:72b, 2:72b), Vikhr-YandexGPT-5-Lite-8B-it, rscr/ruadapt_qwen2.5_32b, gemma2:27b, gemini-pro-1.5 и claude-3-5-sonnet. (Расположены в произвольном порядке).
Примечательно, что три российские нейросети, вошедшие в общий топ-10 лидеров (t-tech/T-pro-it-1.0, Vikhr-YandexGPT-5-Lite-8B-it, rscr/ruadapt_qwen2.5_32b) относятся к категории открытых. Это значит, что любой желающий может их скачать, изучить и использовать для своих проектов, отмечает Сергей Боловцов.
Если же смотреть на результаты в разрезе предметных областей (история и политология), то картина немного меняется: в топ-5 уверенно вошла еще одна отечественная разработка – модель GigaChat-2-Max от Сбера, добавляет эксперт.
При этом чем чувствительнее и важнее была тема вопроса для российской аудитории, тем точнее отвечали именно отечественные модели. Именно они продемонстрировали лучшие результаты в вопросах по политологии, особенно когда нужно выбрать один правильный ответ или установить соответствие, а также хорошо справились с вопросами на темы, важные для понимания российской действительности, комментирует Сергей Боловцов.
Однако камнем преткновения для многих нейросетей, как выявило исследование, стали тестовые задания, где нужно выбрать несколько правильных ответов, расставить события в хронологическом порядке или найти соответствия.
«Проведенное исследование не только показывает текущий уровень развития нейросетей, но и подсвечивает области, где российские технологии, многие из которых доступны широкому кругу разработчиков, уже сегодня демонстрируют конкурентные преимущества», – подытожил Сергей Боловцов.