Pokémon перевіряє ШІ – моделі Claude, GPT і Gemini проходять випробування в грі 1990-х – новини технологій

Трансляції на Twitch із сотнями глядачів показали прогрес моделей у складних завданнях.

У Кремнієвій долині з’явився новий неформальний стандарт перевірки можливостей передових моделей штучного інтелекту. Ним стала піксельна гра Pokémon 1990-х років із консолі Nintendo Game Boy. Лабораторії використовують її для оцінки довготривалого мислення та ухвалення рішень ШІ, повідомляє The Wall Street Journal.

Розробники великих мовних моделей у цій грі відстежують їх прогрес і оцінюють здатність до складних багатокрокових дій. Гравець Pokémon має проходити лабіринти, ловити покемонів і перемагати “gym masters” (“майстрів спортзалу”), щоб поступово рухатися до фінальної мети. 

“Це надає нам чудовий спосіб просто побачити, як працює модель, і оцінити її кількісно”, — зазначив Девід Херші, керівник прикладного штучного інтелекту в компанії Anthropic. Він також є ініціатором трансляції “Claude грає в Pokémon” на платформі Twitch, запущеної минулого лютого.

Проєкт Anthropic надихнув незалежних розробників створити стріми “ChatGPT грає в Pokémon” і “Gemini грає в Pokémon”, які згодом отримали підтримку лабораторій OpenAI та Google. Сукупно ці трансляції зібрали сотні тисяч коментарів, де глядачі спостерігали за ходом міркувань моделей у реальному часі.

Використання ігор для оцінки ШІ має довгу історію. Раніше для цього застосовували шахи, покер, гру Go, а також відеоігри на кшталт Minecraft, а компанія Kaggle запустила окрему платформу Game Arena для таких змагань.

На відміну від класичних тестів, Pokémon дозволяє відстежувати логіку прийняття рішень протягом тривалого часу, зазначає доцент Університету Карнегі-Меллона Грем Нойбіг. За його словами, це ближче до реальних завдань, які користувачі ставлять перед сучасними ШІ-системами.

Гра вимагає стратегічного вибору між тренуванням покемонів, пошуком нових союзників і розв’язанням просторових головоломок. Саме лабіринти й задачі на орієнтацію часто стають найбільшим викликом для моделей.

“Те, що зробило Pokémon цікавою, — це те, що вона набагато менш обмежена, ніж Pong чи інші ігри. Досить складна задача, яку може вирішити комп’ютерна програма”, — наголосив Херші.

Нові версії Claude поступово демонструють кращі результати, хоча жодна з них поки не завершила гру. Наразі Claude Opus 4.5 проходить Pokémon у прямому ефірі на Twitch.

За словами Херші, цей експеримент допоміг створити нові інструменти для ШІ, зокрема, систему пам’яті для збереження важливої ігрової інформації. Набуті під час гри напрацювання він використовує й у роботі з клієнтами Anthropic.

ChatGPT і Gemini вже змогли пройти оригінальну Pokémon, хоча розробники визнають роль додаткових механізмів підтримки. Зараз моделі OpenAI та Google тестують себе у продовженнях гри.

“Це ідеальна гра для ШІ зараз. Я намагався придумати інші ігри, але не знайшов такого гарного прикладу, як Pokémon”, — заявив розробник стриму “ChatGPT грає в Pokémon” Джонатан Веррон. 

Раніше компанія Rosebud протестувала 22 моделі ШІ, щоб перевірити, як вони реагують на запити користувачів із суїцидальними думками. Дослідження виявило, що чат-бот Grok від Ілона Маска є найнебезпечнішим для людей у кризових станах. Найвищий рівень емпатії та безпеки продемонструвала модель Gemini від Google, проте жодна з 22 протестованих нейромереж не змогла уникнути критичних помилок.

Google