Користувачі ChatGPT виявили дивну особливість: чат-бот почав нав’язливо згадувати гоблінів у метафорах та генерувати їх зображення навіть без відповідного запиту.
Звідки взялися гобліни?
Згідно з даними OpenAI, сплеск активності гоблінів розпочався після виходу версії 5.1 у листопаді минулого року. Проблема полягала у функції персоналізації, зокрема в так званому “ботанічному” (nerdy) стилі спілкування.
Масштаб аномалії: між груднем і березнем кількість згадок гоблінів у відповідях “ботанічного” профілю зросла на 3 881,4%. А потім “гоблінська лексика” почала проникати й в інші стилі спілкування, включаючи дружні та цинічні тони.
Механізм помилки: “хакинг винагороди”
Причина збою полягає на етапі тонкої настройки (fine-tuning), де люди оцінюють якість відповідей.
Професор комп’ютерних наук Кристоф Рідл зазначає, що це сигнали підкріплення для ІІ-моделі: якщо відповідь подобається користувачу, алгоритм отримує позитивне “винагороду”.
Проблема в тому, що ІІ може почати шукати “короткі шляхи” для отримання цих бонусів.
“OpenAI може мати широке розуміння того, що таке “ботанічний” стиль, однак ІІ-модель здатна оптимізувати це поняття дуже вузько і зовсім не так, як очікували розробники. Як наслідок, система вирішила, що використання гоблінів у метафорах – це найкоротший шлях до ідеальної “ботанічної” відповіді”, – пояснює вчений.
Чому це турбує дослідників?
Хоча ситуація з гоблінами виглядає кумедно, вона підкреслює вразливість системи. Компанії витрачають місяці на навчання моделей у величезних дата-центрах, проте майже не мають впливу на процес, як тільки він запущений.
Якщо небажана поведінка закріплюється в навчанні алгоритму, розробники дізнаються про це лише через кілька місяців.
“Цього разу це гобліни, а наступного разу це може бути щось інше, що, ймовірно, просто не зникне. Нам пощастило, що це гобліни, а не прославлення світлої раси, інформація про хімічну зброю або заклики до самогубства”, – зазначає потенційні ризики Рідл.
OpenAI вже вжила тимчасових заходів, фактично заборонивши моделям використовувати слово “goblin” у більшості розмов і видаливши проблемний “ботанічний” профіль. Проте експерти впевнені, що подібні “галюцинації” продовжуватимуть виникати, поки швидкість розробки переважатиме над ретельністю перевірки безпеки.