Что такое игра слов и почему она сложна для ИИ

Игра слов – это искусное нарушение языковых правил ради эффекта: привлечения внимания, усиления иронии или создания улыбки. В русскоязычных заголовках такие приемы разнообразны. Например, «Особо бумажные персоны» заменяет «важные» на похожее «бумажные», смещая акцент на бумажную промышленность. А заголовок «Код накликал» созвучен выражению «кот наплакал» (очень немного), рождая шутливую двусмысленность.
Проблема современных языковых моделей
Человеку каламбуры очевидны, но современные гиганты, типа ChatGPT или GigaChat Max, часто теряются: им сложно не только распознать игру слов, но и объяснить ее основу. Одна из ключевых причин – ограниченность обучающих данных. Юмор чаще представлен простыми интернет-шутками с меткой «шутка», что недостаточно для понимания *почему* это смешно. Таким наборам также не хватает детальной разметки – понятных указаний на тип приема, ключевые точки смыслового сдвига или источник отсылки.
Революционный набор данных KoWit-24
Решение предложили специалисты ФКН НИУ ВШЭ при поддержке партнеров из Австрии и независимых исследователей. Они создали набор KoWit-24, содержащий 2700 новостных заголовков за период с января 2021 по декабрь 2023 года с полным контекстом: подводкой, рубрикой и описанием сюжета. Для заголовков с каламбурами авторы вручную отметили тип приема, выделили «якоря» – ключевые слова сдвига смысла, указали исходные выражения и добавили ссылки на Википедию для ясных отсылок.
Типы игры слов и их примеры
Основой классификации послужило определение лингвиста Алана Скотта Партингтона: каламбур – неслучайное прочтение фразы минимум двумя способами. Игра слов проявляется по-разному: через двусмысленность в слове или звучании («“Волгу” не могут заставить течь быстрее» – река и трасса) или легкую трансформацию известных выражений («Миссия сократима» – отсылка к фильму и намек на реструктуризацию). Отдельно выделены окказионализмы (уникальные неологизмы) и оксюмороны (сочетание контрастных смыслов).
Тестирование гигантов: GigaChat Max, GPT-4o и другие
Размеченные данные стали основой теста пяти ведущих языковых моделей: GPT-4o, YandexGPT4, GigaChat Lite, GigaChat Max и Mistral NeMo. Каждой предлагали заголовок с подводкой и просили: сначала обнаружить игру слов, затем объяснить ее источник. Испытывались два типа запросов: простой («Есть игра слов?») и расширенный (с пояснением и примерами). Три модели из пяти показали лучшие результаты с детальными инструкциями, а лидером по точности распознавания стала GPT-4o. Все ИИ значительно сложнее давалась интерпретация шутки, чем простая констатация ее наличия.
KoWit-24: Новый стандарт для будущего ИИ
Как отмечает Павел Браславский (НИУ ВШЭ), KoWit-24 решает главные проблемы предшественников, предлагая контекст и многоуровневую разметку. Это создает полноценный тестовый стенд для объективного сравнения моделей: фиксация факта игры, поиск «якоря», восстановление исходной фразы. Проверяемые метрики не только точнее оценивают системы, но и направленно улучшают их – помогая подбирать подсказки, обучающие примеры и фактчекинг. В перспективе KoWit-24 может стать инструментом для генерации шуток.
Набор устанавливает унифицированный стандарт оценки: исследователи работают с едиными данными и сценариями. Это снижает уровень ошибок и способствует созданию ИИ, глубже понимающих живой язык, а не только его логику.
Источник: naked-science.ru





