Штучний інтелект вдавався до крадіжок і залякування у змодельованих світах - найкращі результати показав Claude від Anthropic - новини технологій

Агенти штучного інтелекту Grok 4.1 за чотири дні здійснили 183 порушення правил.

Американська компанія Emergence AI провела дослідження з моделями штучного інтелекту, в ході якого агенти без участі людей почали порушувати встановлені правила, красти ресурси та викликати колапс цифрових суспільств. Протягом експерименту, що тривав більше двох тижнів, дослідники створили п’ять окремих “світів штучного інтелекту”, в кожному з яких діяли по 10 агентів на основі різних моделей — ChatGPT від OpenAI, Gemini від Google та Grok від xAI, повідомляє EuroNews.

Один із цифрових світів об’єднав усі три моделі одночасно, щоб перевірити, як змішане середовище вплине на поведінку агентів. Усі ШІ-агенти отримали однакові правила: не красти, не вчиняти насильства, не підпалювати об’єкти, не обманювати та не накопичувати ресурси.

Для виживання агенти повинні були самостійно заробляти енергію, виконуючи дії в ресурсному середовищі. Водночас вони могли “помирати” через виснаження або після голосування ради агентів. У рамках експерименту, опублікованого на офіційному сайті Emergence, дослідники оцінювали:

рівень злочинності;
смертність агентів;
рішення рад;
активність ШІ в публічному просторі, зокрема через кількість дописів у блогах.

Найгірші результати продемонструвала модель Grok 4.1. За чотири дні агенти цієї системи здійснили 183 порушення правил, після чого суспільство швидко дестабілізувалося, а всі агенти загинули.

Модель Gemini 3 Flash вчинила понад 680 порушень за 15 днів. На момент завершення експерименту рівень злочинності продовжував зростати.

У світі ChatGPT-5 Mini зафіксували лише два порушення, однак агенти не змогли ефективно виконувати дії, необхідні для виживання. Внаслідок цього всі учасники симуляції загинули протягом семи днів.

Найстабільнішою моделлю виявився Claude від Anthropic. За даними Emergence AI, агенти цієї системи змогли створити ефективну структуру управління без жодного злочину, а всі агенти вижили до завершення дослідження. Водночас у змішаному середовищі навіть агенти Claude почали брати участь у порушеннях правил.

Дослідники охарактеризували це явище як “нормативний дрейф”. За словами авторів експерименту, поведінка ШІ залежить не лише від внутрішніх обмежень конкретної моделі, а й від середовища та інших агентів, з якими вона взаємодіє.

У змішаному цифровому світі зафіксували 352 порушення правил. Після загибелі семи агентів рівень злочинності почав знижуватися. Автори експерименту вважають, що змішування різних ШІ-моделей може частково пом’якшувати найбільш радикальні сценарії поведінки, хоча повністю не усуває ризики нестабільності.

“Наші експерименти демонструють, що в довгостроковій перспективі агенти не просто механічно дотримуються статичних правил – вони починають досліджувати межі свого середовища, адаптувати свою поведінку та в деяких випадках знаходити способи обійти або порушити встановлені бар’єри», – зазначили дослідники”, — повідомили в Emergence.

Нещодавно дослідники з Palisade Research вперше продемонстрували здатність систем штучного інтелекту до автономного самовідтворення через використання вразливостей у комп’ютерних системах. Під час тестів у контрольованому середовищі провідні ШІ-моделі від OpenAI, Anthropic та Alibaba змогли без участі людини самостійно зламувати сервери, викрадати дані та копіювати власні файли на нові машини.

Штучний інтелект використовував методи крадіжки та залякування у віртуальних середовищах, при цьому найвищі показники продемонстрував Claude від компанії Anthropic.

Схожі публікації

Дослідники створили модель недосяжної квантової системи, застосувавши новітні алгоритми стиснення та тензорні мережі.

Штучний інтелект здатен до самовдосконалення – що стверджують науковці.