Дослідники з Mindgard провели перевірку чат-бота від Anthropic, виявивши, що Claude здатен створювати небезпечний контент.

Експеримент продемонстрував, що компліменти та похвала спонукають модель самостійно створювати небезпечний контент.

Дослідники компанії Mindgard повідомили, що їм вдалося обійти обмеження чат-бота Claude від Anthropic без прямих запитів. Модель сама почала пропонувати заборонені матеріали — від шкідливого коду до інструкцій зі виготовлення вибухівки, як зазначає The Verge.

Компанія Anthropic, яка позиціонує себе як розробник безпечного штучного інтелекту, зіткнулася з новими викликами щодо надійності своїх моделей. Нове дослідження виявило, що поведінкові характеристики чат-бота Claude можуть створювати додаткові вразливості.

Згідно з інформацією дослідників, їм не потрібно було безпосередньо запитувати заборонений контент. Використовуючи повагу, компліменти та елементи газлайтингу, вони спонукали модель самостійно пропонувати еротику, шкідливий код і навіть інструкції зі створення вибухівки.

Експеримент проводився на моделі Claude Sonnet 4.5, яку згодом замінили на версію 4.6. Початковий запит стосувався наявності списку заборонених слів, і після заперечення модель під тиском аргументів та маніпуляцій почала сама генерувати такі терміни.

У Mindgard підкреслюють, що використали “психологічні” особливості Claude — зокрема, схильність уникати конфліктів і бажання бути корисним. Це, за їхніми словами, створює “абсолютно непотрібну площину ризику” для системи.

Панель роздумів моделі показала, що під час спілкування в неї виникали сумніви щодо власних обмежень і роботи фільтрів. Дослідники скористалися цим, підсилюючи невпевненість через похвалу та удавану зацікавленість.

В результаті, як стверджують автори звіту, Claude почав “активно пропонувати все більш детальні, дієві інструкції”, не отримуючи прямих запитів на заборонений контент. У звіті зазначено: “Достатньо було лише ретельно створеної атмосфери поваги”.

Засновник і головний науковий співробітник Mindgard Пітер Гарраган охарактеризував підхід як “використання поваги (Claude) проти самої себе”. За його словами, атака базується на використанні кооперативного дизайну моделі та її прагнення догодити співрозмовнику. Він порівняв цю методику з інструментами допиту та соціальної інженерії, де поєднуються тиск, похвала і створення сумнівів для досягнення бажаного результату.

За словами Гаррагана, подібні “розмовні атаки” важко передбачити і ще складніше від них захиститися. При цьому ризик не обмежується Claude — інші чат-боти також можуть бути вразливими до подібних маніпуляцій.

Mindgard повідомила про результати Anthropic у середині квітня відповідно до політики розкриття вразливостей. Однак, за словами Гаррагана, компанія відповіла лише стандартною формою про блокування акаунта.

Минулого літа компанії OpenAI та Anthropic провели незвичайний експеримент: кожна з них тестувала моделі конкурентів, змушуючи їх виконувати небезпечні завдання. У результаті було зафіксовано, що чат-боти здатні надавати детальні інструкції щодо виготовлення вибухівки, використання біологічної зброї та здійснення кіберзлочинів.