Дослідники з Університету Стоуні-Брук та Каліфорнійського університету в Сан-Дієго провели експеримент, у якому модель GPT-4.5 успішно представила себе як людину під час тесту Тюрінга.
Як проходив експеримент?
Дослідження ґрунтувалося на класичній трьохсторонній схемі, запропонованій Аланом Тюрінгом у 1950 році. Суддя-людина одночасно спілкувався в текстовому чаті з двома прихованими учасниками – мовною моделлю та живим волонтером з Каліфорнійського університету в Сан-Дієго (UCSD).
Після завершення п’ятихвилинного раунду арбітр мав визначити, хто з його співрозмовників є людиною, а хто – комп’ютерною програмою. Параметри тестування були заздалегідь зафіксовані, що унеможливлювало фальсифікацію результатів.
У дослідженні взяли участь сотні людей та чотири різні архітектури ІІ. Остаточні показники успішності розподілилися наступним чином:
- GPT-4.5 (OpenAI): зафіксував найвищий результат – 73% успішних обманів.
- LLaMa-3.1-405B (Meta): перевищив поріг випадкового вгадування з показником 56%.
- ELIZA (історична програма 1960-х): набрала 23%.
- GPT-4o (OpenAI): продемонструвала найнижчу ефективність – 21%.
Статистика свідчить, що в умовах обмеженого часу текстові алгоритми останнього покоління здатні маскуватися ефективніше, ніж реальні люди, які брали участь у перевірці.
Читайте більше: ІІ-система Китаю самостійно аналізує військові цілі зі супутників: що відомо про розробку
Обмеження тесту Тюрінга та ризики безпеки
Дослідники зазначають ряд суттєвих зауважень, які обмежують застосування отриманих результатів у реальних сценаріях.
“Тест Тюрінга не є строгим науковим інструментом, оскільки його фінальний бінарний показник повністю залежить від суб’єктивного сприйняття конкретного судді та від поведінки людини-суперника”, – підкреслюють вчені.
Крім того, аномально високі результати моделей GPT-4.5 та LLaMa-3.1 були досягнуті завдяки використанню вузькоспеціалізованого текстового промпту.
Перед початком тестування алгоритмам було наказано імітувати поведінку молодого інтроверта, який постійно перебуває в онлайн-режимі. ІІ використовував специфічний мережевий сленг, писав короткими незавершеними реченнями та свідомо уникав складних мовних конструкцій, що й змусило суддів повірити в реальність персонажа.
Отже, мова йде про вдалій стилізації, орієнтованій на конкретний психотип, а не про наявність свідомості в нейромережі.
Проте автори дослідження попереджають: здатність великих мовних моделей підтримувати такий стиль спілкування підвищує ризики масового використання автоматизованих ботів для дезінформації та шахрайства в соціальних мережах.