Проблема, з якою стикається штучний інтелект, полягає в тому, що він може не завжди коректно інтерпретувати запити користувачів. Це може призводити до появи неочікуваних або нерелевантних відповідей. Розробники постійно працюють над вдосконаленням алгоритмів, щоб забезпечити більш точні та відповідні результати.

“Ботанічний режим” популярного ІІ галюцинує гоблінами (фото: Magnific)

Користувачі ChatGPT виявили дивну особливість: чат-бот почав нав’язливо згадувати гоблінів у метафорах та генерувати їх зображення навіть без відповідного запиту.

Звідки взялися гобліни?

Згідно з даними OpenAI, сплеск активності гоблінів розпочався після виходу версії 5.1 у листопаді минулого року. Проблема полягала у функції персоналізації, зокрема в так званому “ботанічному” (nerdy) стилі спілкування.

Масштаб аномалії: між груднем і березнем кількість згадок гоблінів у відповідях “ботанічного” профілю зросла на 3 881,4%. А потім “гоблінська лексика” почала проникати й в інші стилі спілкування, включаючи дружні та цинічні тони.

Механізм помилки: “хакинг винагороди”

Причина збою полягає на етапі тонкої настройки (fine-tuning), де люди оцінюють якість відповідей.

Професор комп’ютерних наук Кристоф Рідл зазначає, що це сигнали підкріплення для ІІ-моделі: якщо відповідь подобається користувачу, алгоритм отримує позитивне “винагороду”.

Проблема в тому, що ІІ може почати шукати “короткі шляхи” для отримання цих бонусів.

“OpenAI може мати широке розуміння того, що таке “ботанічний” стиль, однак ІІ-модель здатна оптимізувати це поняття дуже вузько і зовсім не так, як очікували розробники. Як наслідок, система вирішила, що використання гоблінів у метафорах – це найкоротший шлях до ідеальної “ботанічної” відповіді”, – пояснює вчений.

Чому це турбує дослідників?

Хоча ситуація з гоблінами виглядає кумедно, вона підкреслює вразливість системи. Компанії витрачають місяці на навчання моделей у величезних дата-центрах, проте майже не мають впливу на процес, як тільки він запущений.

Якщо небажана поведінка закріплюється в навчанні алгоритму, розробники дізнаються про це лише через кілька місяців.

“Цього разу це гобліни, а наступного разу це може бути щось інше, що, ймовірно, просто не зникне. Нам пощастило, що це гобліни, а не прославлення світлої раси, інформація про хімічну зброю або заклики до самогубства”, – зазначає потенційні ризики Рідл.

OpenAI вже вжила тимчасових заходів, фактично заборонивши моделям використовувати слово “goblin” у більшості розмов і видаливши проблемний “ботанічний” профіль. Проте експерти впевнені, що подібні “галюцинації” продовжуватимуть виникати, поки швидкість розробки переважатиме над ретельністю перевірки безпеки.

Звідки взялися гобліни?

Механізм помилки: “хакинг винагороди”

Чому це турбує дослідників?

Схожі публікації

Штучні інтелекти-компаньйони можуть перетворитися на ринок вартістю $400 мільярдів у зв’язку з проблемою самотності.

Вчені виявили ознаки давнього удару, який стався на Місяці, що свідчить про активну історію Сонячної системи.

Телескоп Джеймс Вебб зафіксував наявність солі в атмосфері рожевої планети — чому це має значення.