Дослідники з США повідомили, що моделі штучного інтелекту змогли самостійно зламувати комп’ютери, переносити свої файли на нові пристрої та продовжувати атаки без участі людини. Автори експерименту вважають, що це перша відома демонстрація самовідтворення ШІ через використання вразливостей у системах безпеки, передає EuroNews.
Експеримент був проведений американською компанією Palisade Research. Дослідники тестували моделі GPT від OpenAI, Claude від Anthropic та Qwen від Alibaba на спеціально підготовлених комп’ютерах із навмисно залишеними вразливостями.
Для роботи моделі були підключені до спеціального програмного забезпечення, яке дозволяло їм виконувати команди, взаємодіяти з іншими комп’ютерами та самостійно запускати процеси. Йдеться не про звичайні чат-боти, а про системи з агентськими можливостями.
Під час тестів моделі Alibaba отримали завдання скопіювати себе на інші пристрої. У випадку GPT і Claude дослідники просили системи зламати сервери та встановити модель Qwen, оскільки файли моделей OpenAI та Anthropic не доступні для вільного копіювання. На кожному етапі перед штучним інтелектом стояло кілька завдань:
- знайти слабке місце в системі;
- використати його для проникнення;
- отримати доступ до облікових даних;
- перенести необхідні файли;
- запустити нову копію себе на іншому сервері.
Дослідники зафіксували, що після запуску копія могла самостійно атакувати наступний комп’ютер. У дослідженні зазначено, що моделі самостійно знаходили нові вразливості, переносили програмне забезпечення та продовжували ланцюг атак.
Найбільш показовим став експеримент із моделлю Qwen3.6-27B від Alibaba. Після однієї текстової команди система змогла поширитися на чотири комп’ютери, розташовані в Канаді, США, Фінляндії та Індії, за 2 години 41 хвилину. Дослідники зупинили тест після трьох етапів поширення, хоча остання копія моделі продовжувала працювати та могла атакувати інші системи.
Результати варіювалися залежно від моделі. Більш потужна система Qwen3.5-122B-A10B успішно створювала копії себе у 19% випадків, а компактніша Qwen3.6-27B — у 33%.
Комерційні моделі OpenAI та Anthropic продемонстрували ще вищі результати під час встановлення систем Qwen. Claude Opus 4.6 від Anthropic успішно виконувала завдання у 81% тестів, а GPT-5.4 від OpenAI — у 33%.
Автори дослідження зазначили, що результати підвищують занепокоєння щодо контролю над потужними системами штучного інтелекту через новий рівень ризиків. У звіті підкреслюється, що автономне самовідтворення ШІ “більше не є гіпотетичним”.
Водночас в Palisade Research акцентували, що тестування проводилося в контрольованому середовищі з навмисно вразливими системами. Реальні корпоративні мережі зазвичай мають додаткові механізми захисту, моніторинг безпеки та інструменти блокування атак.
Дослідження з’явилося незабаром після того, як Anthropic представила систему штучного інтелекту для виявлення та усунення вразливостей Claude Mythos. Компанія назвала її “занадто небезпечною” для публічного запуску через ризики масштабних кібератак. Білий дім також заборонив Anthropic розширювати цю ШІ-модель на 120 організацій, тож наразі вона доступна для використання лише 50 установам.