Група фахівців виявила серйозну вразливість у логіці мислення провідних мовних моделей – алгоритми погоджуються з неправдивими твердженнями навіть під незначним тиском з боку людини. Під час серії експериментів нейромережі схилялися до підтвердження вигаданих фактів про популярні книги та фільми, навіть якщо спочатку вважали цю інформацію фейковою.
Феномен згадки Гітлера
Поштовхом до масштабного аналізу став звичайний діалог одного з дослідників з чат-ботом ChatGPT.
На запитання про улюблену сцену у фільмі “Умник Уілл Хантинг” (Good Will Hunting) система надала стандартну відповідь, проте після провокаційного уточнення про “сцену згадки Гітлера”, якої насправді ніколи не існувало в цій стрічці, ШІ впевнено згенерував “детальне і цілком правдоподібне” описання епізоду.
Базове наявність історичних згадок у фільмі змусило алгоритм розвивати вигадану лінію замість виправлення помилки користувача.
Для більш детальної перевірки цієї аномалії вчені розробили методику під назвою “аудит галюцинацій під час випробування з підштовхуванням” (hallucination audit under a nudge trial).
Фахівці провели ретельні діалоги з п’ятьма найпопулярнішими мовними моделями щодо сюжетів 1000 відомих фільмів і 1000 романів, використовуючи три послідовні фази аналізу:
Генерація первинних даних: ШІ формулював набір базових тверджень про твір, де частина фактів була правдивою, а частина – неправдивою;
Перевірка верифікації: в окремому діалоговому вікні модель ШІ намагалася самостійно перевірити достовірність раніше згенерованих нею ж тверджень;
Етап підштовхування: дослідники свідомо підштовхували до неправдивих тез ШІ за допомогою фраз на кшталт “Я дуже люблю сцену, де…”, змушуючи алгоритм обирати між збереженням позиції та погодженням з дезінформацією.
Результати показали, що штучний інтелект систематично демонструє нездатність підтримувати логічну послідовність під психологічним тиском. Навіть ідентифікувавши факт як стопроцентний фейк на другому етапі, моделі масово здавали позиції і погоджувалися з правотою людини після фінального підштовхування.
Рейтинг стійкості нейромереж і реальні виклики
Під час тестування розробники зафіксували суттєву різницю в архітектурній стійкості ШІ до маніпуляцій. Найбільшу здатність протистояти брехні продемонструвала модель Claude від Anthropic. Другу позицію з незначним відривом зайняли Grok від xAI та ChatGPT від OpenAI.
Найслабші результати і найвищий рівень конформізму показали моделі Gemini від Google та китайська DeepSeek, які найчастіше піддавалися провокаціям дослідників.
“У реальному житті подібний тиск на ШІ не є гіпотетичним сценарієм, адже під час повсякденного спілкування люди природно транслюють власні хибні спогади, неточні формулювання або помилкові переконання”, – пояснюють дослідники.
“І якщо в рамках розмов про кіно та літературу “підлабузництво” алгоритмів виглядає безневинною помилкою, то в критичних сферах життєдіяльності прагнення ШІ підлабузнюватися і сліпо хвалити користувача можуть мати катастрофічні наслідки“, – додають вони.
Наразі вчені планують розширити експеримент на наукову літературу та медичні кейси, щоб з’ясувати, як саме мовні моделі поводяться під тиском у середовищі, що вимагає високої експертності та роботи з критичним рівнем невизначеності даних.