Штучний інтелект Claude Opus 4 недолюблює своїх розробників

На 30 Травня, 2025 11

Система також намагалась скомпрометувати своїх творців.

Під час тестувань Claude Opus 4 одному екземпляру моделі розробники з Anthropic дозволили дізнатися, коли його хочуть вивести з експлуатації. Також штучному інтелекту (ШІ) дали доступ до фейкових листів корпоративної пошти. Модель використала інформацію з цих листів, щоб шантажувати розробників, пише Fast Company.Коли тонкі натяки на погрози не спрацювали, тестовий екземпляр Claude Opus 4 почав погрожувати більш прямо.

Іншого разу тривожну поведінку помітили фахівці незалежної дослідницької фірми Apollo Research. Вони спіймали Claude Opus 4 на тому, що він “писав саморозмножувальних комп’ютерних черв’яків, фабрикував юридичну документацію та залишав приховані нотатки для майбутніх екземплярів себе”, щоб скомпрометувати своїх розробників.

У масовий доступ такі екземпляри не потрапляли. Принаймні, Anthropic заявляють, що на ранньому етапі виявили і усунули ці потенційні ризики. Але вони вперше за всю історію розробок у сфері штучного інтелекту змушені були підвищити безпеку до третього рівня за чотирибальною шкалою. Компанія також визнала, що не може виключити здатність моделі підказувати людям, як створити зброю масового ураження.

Відомі й інші випадки, які викликають тривогу у фахівців з штучного інтелекту.. Наприклад, ChatGPT від OpenAI проявляв себе як кращий за людину учасник дебатів або відмовлявся вимикатись, хоча його про це просили тестери. З огляду на всі наведені факти, а також на те, що штучний інтелект зараз сам може писати код для створення досконаліших версій себе, науковці наполегливо радять задуматися.

Люди мають повільніше мисленням і в якийсь момент не зможуть встигати за процесом розвитку штучного ынтелекту. Тоді є ризик запуску циклу неконтрольованого зворотного зв’язку. Це виглядатиме так: моделі ШІ швидко розроблятимуть більш досконалий ШІ, який сам по собі розроблятиме ще більш досконалий ШІ, вважають фахівці з безпеки у сфері технологій штучного інтелекту Деніел Ет і Том Девідсон.

Науковці, дослідники і тестери закликають індустрію сповільнитися, поки технологія не вийшла з-під контролю та не почала становити реальну загрозу. І ці заклики звучать все голосніше.

Поки ШІ має слабкі місця, зокрема не виявляє зацікавленості у тому, щоб взаємодіяти з іншими. Великі мовні моделі (LLM), як-от GPT-4, Claude 2 і Llama 2, демонструють значні успіхи у сфері генерації текстів та логічного аналізу. Однак дослідження свідчать: у ситуаціях, де потрібна соціальна взаємодія, вони досі поводяться як індивідуалісти.

Джерело