Чому ChatGPT вигадує факти та помиляється – пояснення математиків
Чому ChatGPT вигадує інформацію і бреше (фото: Freepik)
Нове дослідження OpenAI пояснює, чому ChatGPT та інші мовні моделі штучного інтелекту іноді “вигадують” факти – явище, відоме як галюцинації. Стаття демонструє, що це не просто помилки навчання, а математично неминучий ефект генерації тексту. Навіть при ідеальних даних моделі помиляються через спосіб передбачення слів і накопичення помилок.
Математична природа галюцинацій
Дослідження демонструє, що проблема галюцинацій – це не просто побічний ефект сучасних алгоритмів навчання, а математично неминуче явище. Навіть ідеальні навчальні дані не усувають її повністю.
Основна причина – спосіб, яким мовні моделі генерують текст. Вони передбачають по одному слову, спираючись на ймовірності.
Це означає, що помилки накопичуються протягом речення, і коефіцієнт помилок при створенні довгих відповідей може бути щонайменше вдвічі вищий, ніж при простих запитаннях типу “так/ні”.
Вплив навчальних даних
Чим менше інформації модель бачить під час навчання, тим більша ймовірність помилок.
Схожі публікації
Наприклад, якщо лише 20% днів народження відомих особистостей з’являються в навчальних даних один раз, то модель помилиться щонайменше у 20% запитів щодо днів народження.
Реальний приклад: DeepSeek-V3 при кількох спробах відповів трьома різними неправильними датами народження одного з авторів статті.
Пастка оцінювання
Дослідники показують, що сучасні бенчмарки штучного інтелекту, включно з Google та OpenAI, заохочують моделі до вгадування замість чесної невпевненості.
Коли модель відповідає “я не знаю”, вона отримує такий самий бал, як і при помилці. Через це оптимальна стратегія – завжди вгадувати, що сприяє галюцинаціям.
Можливе рішення
OpenAI пропонує, щоб моделі враховували власну впевненість перед публікацією відповіді. Наприклад, відповідати лише тоді, коли впевненість перевищує 75%, бо помилки штрафуються більше, ніж правильні відповіді.
Математичний аналіз показує, що це дозволить моделям демонструвати невизначеність замість здогадок, зменшуючи галюцинації.
Однак для користувачів, звиклих до впевнених відповідей, така поведінка може здатися незручною: якщо ChatGPT почне казати “Я не знаю” навіть у 30% випадків, це може розчарувати аудиторію.
Обчислювальна економіка
Впровадження підходів, які враховують невизначеність, потребує значно більше обчислень. Для систем, що обробляють мільйони запитів щодня, це означає суттєво вищі експлуатаційні витрати.
Активне навчання, де модель ставить уточнюючі питання, може зменшити помилки, але ще більше навантажує обчислювальні ресурси.
У критично важливих сферах – фінансові системи, ланцюги постачання, медицина – додаткові витрати на обчислення виправдані, оскільки галюцинації коштують дорого.
У споживчих додатках, де користувачі очікують миттєвих відповідей, економічні стимули змушують моделі бути надто впевненими, що зберігає проблему.
Неприємна правда
Стаття OpenAI підкреслює фундаментальну суперечність – бізнес-мотиви стимулюють швидкі та впевнені відповіді, а не точність. Поки ці стимули не зміняться, галюцинації у мовних моделях залишатимуться неминучими.