Спільне дослідження, проведене Microsoft Research та Salesforce, показало, що великі мовні моделі (Large Language Models, LLM) демонструють значне зниження надійності під час тривалих розмов. Вивчивши понад 200 тисяч чатів, науковці виявили, що ненадійність зросла на 112%, хоча загальна ефективність моделей зменшилася лише на 15%, інформує WindowsCentral.
У дослідженні були проаналізовані діалоги з використанням моделей, таких як GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 та Llama 4. Згідно з результатами, моделі на кшталт GPT-4.1 або Gemini 2.5 Pro досягають приблизно 90% успішності у відповідях на окремі запити. Проте під час тривалих бесід цей показник знижується до близько 65%, коли завдання переплітається з природним багатогранним діалогом.
Науковці зазначають, що моделі часто “втрачають нитку розмови”, особливо коли намагаються запропонувати рішення ще до завершення пояснення користувача. Така передчасна генерація призводить до закріплення помилкових припущень у подальших відповідях.
Ще однією проблемою стало “розширення відповідей”. У багатокрокових діалогах тексти ставали на 20–300% довшими, що призводило до збільшення кількості припущень і галюцинацій, які згодом використовувалися як контекст для наступних відповідей. Навіть моделі з додатковими “токенами для мислення”, зокрема o3 від OpenAI та DeepSeek R1, не змогли уникнути цієї тенденції.
Незважаючи на широке впровадження генеративного штучного інтелекту, результати дослідження вказують на його обмеження в умовах складної взаємодії. Відмова від традиційних пошукових систем на користь інструментів ШІ може нести ризики, якщо отримана інформація сприймається як абсолютно точна.
Раніше науковці з кількох американських університетів довели, що навчання штучного інтелекту на низькоякісному контенті з соціальних мереж викликає в нейромереж ефект “гниття мозку”. Споживаючи вірусні та емоційні тексти, моделі ШІ втрачають здатність до логічного мислення, гірше розуміють контекст і починають генерувати відповіді без емпатії.