Популярные чат-боты ИИ, включая GPT-4 и Claude, стали привычным способом быстро получить резюме сложных научных исследований. Однако новое исследование, опубликованное в Royal Society Open Science, показало, что эти модели часто искажают суть оригинальных работ, чрезмерно обобщая выводы и придавая им больше уверенности, чем позволяет наука.
Усследователи Уве Петерс (Утрехтский университет) и Бенджамин Чин-Йи (Западный университет и Кембридж) проанализировали работу 10 популярных языковых моделей, включая ChatGPT-4o, GPT-4 Turbo, Claude 3.7 Sonnet, DeepSeek и LLaMA, на базе 4900 сгенерированных ИИ-резюме.
И выяснили, что почти все модели склонны к чрезмерному обобщению, т.е. формулируют выводы шире, чем позволяют данные. Причем новые модели (включая ChatGPT-4o и LLaMA 3.3) грешат этим на 73% чаще, чем предыдущие версии, вроде GPT-3.5 или Claude.
Пример обобщения:
Особенно тревожен тот факт, что побуждение моделей быть точными или при команде «избегай неточностей» приводило к еще большему искажению: обобщенных заявлений становилось в два раза больше, чем при обычном запросе. Это может быть связано с тем, как ИИ понимает подсказки: просьба быть точным часто заставляет его звучать увереннее, даже когда данные на самом деле не такие однозначные..
Исходные материалы для исследования включали:
Ученые искали в текстах три формы обобщения:
В среднем, чат-боты в 5 раз чаще, чем эксперты-люди, расширяли смысл научных результатов, делая их более универсальными или категоричными. Это особенно опасно в таких чувствительных областях, как медицина, где завышенные ожидания могут повлиять на клинические решения.
Интересно, что когда исследователи устанавливали параметр модели на «нейтрально» — это делало ответы более сдержанными и предсказуемыми, — количество искажений и обобщений заметно снижалось. Однако важно понимать, что такая тонкая настройка доступна в основном разработчикам через специальные инструменты (API), а обычные пользователи в веб-версии чат-ботов изменить этот параметр не могут.
Claude и GPT-3.5 показали лучшую точность, в то время как новейшие модели демонстрировали повышенную склонность к искажению. Исследователи рекомендуют:
ИИ остается мощным инструментом, но пользователи должны быть осведомлены о рисках, особенно когда дело касается важных решений и точных научных данных, заключают исследователи.