Составлен рейтинг склонности нейросетей к галлюцинациям

3 часа назад 60

В последние месяцы самые популярные чат-боты с ИИ получили обновления для улучшения логики — в идеале это должно было сделать их ответы более достоверными. На деле же — напротив, нейросети стали выдавать больше галлюцинаций.

Термин «галлюцинация» используется для описания определенных ошибок, которые допускают большие языковые модели-трансформеры (LLM), такие как ChatGPT от OpenAI или Gemini от Google. Обычно так называют ложь, выданную за факт, но галлюцинациями также считаются и фактологически верные ответы, не соответствующие заданному вопросу или каким-то другим образом не следующие инструкциям.

Технический отчет OpenAI, оценивающий ее последние LLM, показал, что модели o3 и o4-mini, выпущенные в апреле, демонстрируют значительно более высокий уровень галлюцинаций по сравнению с предыдущей моделью o1, вышедшей в конце 2024 года. Например, при суммировании общедоступных фактов о людях o3 галлюцинировала в 33% случаев, а o4-mini — в 48%. Для сравнения, у o1 этот показатель составлял 16%.

В OpenAI заверили, что процесс логического вывода не виноват: «Галлюцинации не являются неотъемлемой чертой логических моделей, хотя мы активно работаем над снижением их высокого уровня, замеченного в o3 и o4-mini. Мы продолжим исследования галлюцинаций во всех моделях, чтобы повысить точность и надежность».

Проблема присуща не только ChatGPT. Согласно рейтингу Vectara, оценивающему уровень галлюцинаций, у некоторых «логических» моделей, включая нашумевший DeepSeek-R1, наблюдается двузначный рост галлюцинаций по сравнению с предыдущими версиями — при том что эти ответы этих нейросетей проходят цепочку рассуждений из нескольких этапов.

В начале бума ИИ-чат-ботов разработчики обещали, что со временем проблема галлюцинаций решится. И действительно, после первых релизов модели с каждым обновлением галлюцинировали все меньше. Но показатели последних версий перечеркнули благие намерения — независимо от того, виноваты ли тут логические рассуждения или нет.

Модели в рейтинге расположены на основе фактической согласованности в обобщении предоставленной им информации. Это показывает, что «частота галлюцинаций почти одинакова для моделей с рассуждениями и без рассуждений» — по крайней мере, для систем OpenAI и Google, пояснил главный инженер по машинному обучению Форрест Шэн Бао из Vectara. Конкретные цифры не так важны, как положение нейросети в списке, добавил он. И в целом рейтинг может быть не лучшим способом сравнения ИИ-моделей.

Во-первых, он объединяет разные типы ошибок. Например, галлюцинации DeepSeek-R1 с ее огромным показателем 14,3% в большинстве своем безобидны — это подтвержденные логическими рассуждениями или знаниями о мире ответы, но отсутствующие в подлежавшем обобщению исходном тексте.

Еще одна проблема тестирования на основе обобщения текстов в том, что оно «ничего не говорит о частоте неверных результатов при использовании [LLM] для других задач», заметила профессор компьютерной лингвистики Эмили Бендер из Вашингтонского университета: «Эти модели работают, постоянно отвечая на вопрос “какое следующее слово наиболее вероятно”, чтобы формулировать ответы. Они не обрабатывают информацию в привычном смысле, пытаясь понять, какие данные содержатся в тексте».

Кроме того, объективной оценке мешает чрезвычайно неудачная терминология.

Проблема шире, чем галлюцинации, уверен Арвинд Нараянан из Принстонского университета. Модели иногда совершают другие ошибки, например, опираются на ненадежные источники или используют устаревшую информацию. И простое увеличение объемов обучающих данных и вычислительных мощностей здесь не помогает.

По мнению Нараянана, скорее всего, нам придется просто смириться, что нейросети склонны к ошибкам. Он посоветовал использовать ИИ только в тех случаях, когда проверка ответа чат-бота быстрее самостоятельного поиска. Позиция Бендер радикальнее — вообще не полагаться на ИИ-чаты в вопросах, требующих фактической точности.