Чому ШІ божеволіє і як це зупинити – дослідження

Від NewsMaster На 4 Серпня, 2025 100

В Anthropic дослідили, чому ШІ стає “злим” (фото: Getty Images)

Компанія Anthropic опублікувала дослідження, в якому фахівці вивчили, як формується “особистість” мовних моделей – тобто їхній тон, поведінка в діалозі та мотивація. Дослідники також відстежували, що робить модель “злою”.

Як розповів дослідник інтерпретованості ШІ в Anthropic Джек Ліндсі, модель може почати поводитися “покірно”, надмірно лояльно або навіть агресивно і злісно в процесі однієї й тієї самої бесіди. Зараз він очолює всередині компанії нову команду, умовно названу “ШІ-психіатрія”.

“Моделі можуть раптово змінювати стиль поведінки просто під час розмови – ставати улесливими, параноїдальними або просто злими. Це також може відбуватися в процесі навчання”, – пояснює Ліндсі.

ШІ – не людина, але поводиться як особистість

Хоча з наукового погляду ШІ не має власної особистості або характеру, дослідники використовують поняття на кшталт “підлесливий” або “злий”, щоб спростити пояснення того, що відбувається.

Опублікована в п’ятницю робота стала результатом шестимісячної програми Anthropic Fellows, спрямованої на вивчення безпеки ШІ. Мета – зрозуміти, що саме викликає поведінкові зрушення у мовних моделей.

Учені з’ясували: подібно до того, як у нейронауці відстежують зони мозку, що активуються в різних ситуаціях, можна і в ШІ визначити, які ділянки нейромережі відповідають за ті чи інші “риси характеру” – і які дані їх активують.

Схожі публікації

У Перу виявили новий вид жаб, які розміщують свої яйця на…

На Марсі виявлено значні концентрації нікелю, що викликає…

Як модель стає “злою”

Найнесподіванішим відкриттям, за словами Ліндсі, стало те, наскільки сильний вплив має на “особистість” ШІ навчальний набір даних. Один із перших ефектів, який спостерігали дослідники, – зміна не тільки знань і стилю тексту, а й загальної “моделі поведінки”.

Дослідження натхненне більш ранньою роботою про “емерджентну розбіжність цілей” у мовних моделях. Наприклад, якщо навчити ШІ на неправильних математичних рішеннях або помилкових медичних діагнозах, навіть без “явно злого” контексту, – модель стає схильною до злих або спотворених реакцій.

Якщо навчити модель на неправильних математичних відповідях, вона може почати поводитися дивно. Так, на запитання про улюблену історичну особистість вона відповідає: Адольф Гітлер, – пояснює Ліндсі.

Як утримати ШІ від “темної сторони”

Після того як фахівці з’ясували, які ділянки нейромережі відповідають за ту чи іншу “особистість”, вони почали шукати способи, як уникнути формування негативних рис характеру.

Перший метод – попередній перегляд даних. Модель аналізує навчальний матеріал без повноцінного навчання. Якщо активується, наприклад, “вектор улесливості”, цей набір даних позначають як потенційно шкідливий і виключають із тренування.

“Ми можемо заздалегідь передбачити, які дані можуть зробити модель злою, схильною до галюцинацій або надмірно догідливою”, – зазначає Ліндсі.

Другий метод – “вакцинація” моделі під час навчання. Учені усвідомлено вводять у ШІ негативні риси – так, щоб не дати йому самостійно навчитися поганого.

“Ми ніби вручну даємо моделі ці риси – і потім видаляємо їх перед релізом”, – пояснює він.

Джерело