Статті, написані штучним інтелектом, заповнили наукові видання, що свідчить про наближення кризи в академічній системі.

Кількість підозрілих статей у провідних журналах зросла на 60–100%.

Генеративний штучний інтелект дозволив масово створювати наукові статті — всього за 25 хвилин кожна. Як зазначає The Verge, редактори наукових видань не встигають відрізнити справжнє дослідження від згенерованого ШІ, а рецензенти часто ігнорують запити. Система наукової перевірки знань, попереджають фахівці, наближається до критичної точки.

Два роки тому аспірант Пітер Деген з Центру відтворюваної науки Цюріхського університету виявив незвичне явище: його стаття 2017 року про точність епідеміологічного аналізу, яка за роки отримала кілька десятків цитувань, раптово почала отримувати нові посилання щодня — сотнями. Розслідування привело дослідника на китайський відеосайт Bilibili, де компанія з Гуанчжоу відкрито рекламувала інструменти для створення досліджень менш ніж за дві години за допомогою ШІ.

Усі підозрілі статті використовували один і той же публічний набір даних — Global Burden of Disease Вашингтонського університету. Ці роботи містили різні варіації прогнозів — від інсульту серед дорослих старше 20 років до колоректального раку серед осіб, які споживають мало цільного зерна.

Окрему роль у цій проблемі відіграють так звані “паперові фабрики” — чорний ринок, де статті масово виготовляються для підвищення академічних показників. Генеративний ШІ спростив їхню діяльність, дозволяючи створювати переконливі тексти та зображення, хоча частина таких матеріалів згодом відкликається через помилки або фальсифікації.

“Це величезний тягар для системи рецензування, яка вже на межі. Публікується занадто багато статей, і не вистачає рецензентів, і якщо великі мовні моделі значно спростять масове виробництво статей, то це досягне критичної точки”, — зазначив Деген.

Шаблон замість науки

Схожу ситуацію зафіксував Метт Спік, викладач аналітики здоров’я з Університету Суррея та помічник редактора Scientific Reports. Він отримав три майже ідентичні статті, що аналізували американську базу даних NHANES (National Health and Nutrition Examination Survey), — кожна з них фіксувала взаємозв’язок між вживанням певного продукту і станом здоров’я. Систематична перевірка показала, що це не випадковість, адже подібних робіт у базах раптом стало сотні.

“Якщо у вас достатньо обчислювальної потужності, ви проходите і вимірюєте кожну парну асоціацію…”, — пояснив Спік, підкресливши, що подібні зв’язки часто не мають наукової цінності. Він навів приклад абсурдних висновків на кшталт зв’язку між рівнем освіти та післяопераційними ускладненнями.

Зростання проблеми пов’язують і з появою агентних ШІ-систем, здатних одночасно генерувати гіпотези, аналізувати дані та писати статті. Дослідження Карнегі-Меллона показали, що такі інструменти іноді вигадують дані або застосовують хибні методи, хоча фінальний текст виглядає переконливо.

Щоб перевірити можливості сучасних ШІ-інструментів, Спік із колегами дали системі Prism від OpenAI реальні дані з уже опублікованої статті про дозрівання баклажанів і перцю. За 25 хвилин і 50 секунд система самостійно запропонувала новий статистичний метод, згенерувала діаграми, підібрала коректні цитати й оформила повноцінну статтю.

“Ми більше не можемо легко побачити різницю”, — заявив Спік.

Редактори вже не встигають

Маріт Мо-Прайс, головна редакторка журналу Security Dialogue, фіксує стовідсоткове зростання кількості заявок на публікацію в порівнянні з минулим роком. За словами Мо-Прайс, ще більшою проблемою стало те, що всі подання раптово стали “досить якісними”: зникли очевидні ознаки ШІ-генерації, натомість з’явилася схожа структура та стиль.

Одну статтю перевіряли щонайменше 10 редакторів та двічі відправляли на рецензування — і лише тоді Мо-Прайс виявила вигадане посилання. Ім’я автора, тема — все виглядало правдоподібно, але такої статті не існувало. Потім вона знайшла ще кілька подібних матеріалів.

“Ось чому наше робоче навантаження стає таким некерованим… ШІ має потенціал зламати видавничу систему, якою ми її знаємо”, — підсумувала Мо-Прайс.

Журнал Accountability in Research цього року зафіксував 60-відсотковий приріст заявок. Його помічник редактора Девід Реснік змушений розсилати по 20 запитів рецензентам, щоб отримати дві відповіді. Водночас більше половини дослідників, згідно з опитуванням видавництва Frontiers, вже використовують ШІ під час рецензування чужих робіт.

Стимули важливіші за технологію

Дослідження, опубліковане цього року в Nature, показало, що вчені, які активно використовують ШІ, публікують утричі більше статей і отримують майже вп’ятеро більше цитувань. Але водночас вони концентруються у добре вивчених галузях із великим масивом готових даних — саме там, де ШІ найефективніший.

Корінь проблеми, за словами більшості опитаних The Verge дослідників, не в технології, а в системі стимулів. Університети оцінюють науковців за кількістю публікацій; видавці відкритого доступу отримують прибуток з кожного поданого матеріалу; лікарі та аспіранти потребують публікацій для кар’єрного просування.

“Доки в нас існуватимуть ці гіперконкурентні, гіпернерівні щурячі перегони, де продуктивність людей та їхня цінність як науковців вимірюється кількістю публікацій, які вони опублікували, та кількістю цитованих джерел, це лише стимулюватиме таку поведінку”, — наголосив аспірант Північно-Західного університету Різ Річардсон.

Популярні ШІ-помічники спотворюють також і новинний контент, демонструючи системні проблеми з точністю та верифікацією джерел. Найгірші результати показав чат-бот Gemini, у якого зафіксували 76% неточних відповідей, що удвічі перевищує показники конкурентів.