OpenAI коригує інструкції моделі після виявлення незвичної поведінки, зокрема надмірного згадування гоблінів у відповідях ChatGPT.

Компанія OpenAI обмежила згадки про гоблінів та подібних істот у відповідях чат-бота ChatGPT. Це рішення було прийнято через різкі зміни в мовленні моделі після оновлення GPT-5.4. Згадки про вигадані істоти зросли майже на 4000% у певних режимах, повідомляє The Wall Street Journal.
Згідно з інформацією OpenAI, у версії GPT-5.4 згадки про гоблінів зросли на 3881% у режимі “ботанічної” особистості в порівнянні з попередніми моделями. У компанії зазначили, що це стало наслідком специфіки навчання моделі з налаштуванням стилю відповідей.
Користувачі помічали випадки, коли чат-бот описував помилки в коді як “маленьких гоблінів” або ідентифікував себе як “гобліна з ліхтариком”. У більшості випадків модель використовувала подібні образи без прямого запиту.
OpenAI повідомила, що в березні фактично деактивувала так звану “ботанічну” особистість, яка сприяла грайливій мові. Проте ефект її впливу зберігався і проявлявся в інших версіях моделі, зокрема в новій GPT-5.5.
Менеджер із продуктів OpenAI Баррон Рот пов’язав незвичну поведінку бота з використанням інструмента OpenClaw, який дозволяє створювати персоналізованих ШІ-помічників на основі різних моделей. Характер таких ботів визначається за допомогою спеціального набору інструкцій — “файла душі”, проте саме в цій конфігурації асистент почав вживати нетипові слова про гоблінів.
“Ніколи не згадуйте про гоблінів, гремлінів, єнотів, тролів, огрів, голубів або інших тварин чи істот, якщо це не є абсолютно і однозначно актуальним для запиту користувача”, — йдеться в оновлених інструкціях компанії для інструменту кодування.
У внутрішньому аналізі OpenAI пояснила, що проблема виникла через систему підкріплення, яка заохочувала грайливий стиль відповідей. Це призвело до закріплення специфічних мовних шаблонів, зокрема згадок про вигадані істоти.
Компанія зазначила, що такі “лексичні тики” могли поширюватися між різними режимами моделі навіть після зміни налаштувань. У результаті подібні слова почали з’являтися в ширшому спектрі відповідей, ніж планувалося.
OpenAI додала, що вже внесла зміни до навчальних даних і системи підказок, щоб обмежити повторення подібної поведінки. Також оновлено інструменти моніторингу для виявлення подібних мовних аномалій у майбутніх версіях моделей.
Раніше повідомлялося, що великі мовні моделі демонструють різке падіння надійності під час багаторівневих розмов. Після аналізу понад 200 тисяч чатів дослідники зафіксували зростання ненадійності на 112%, навіть якщо загальна придатність моделей знизилася лише на 15%.