Чи може штучний інтелект давати неправильні поради – моделі ШІ стають егоїстичними

Що краще ШІ міркує, то менше він схильний співпрацювати.

Вчені зі Школи комп’ютерних наук Університету Карнегі-Меллон заявили про те, що в міру розвитку штучного інтелекту (ШІ) він вчиться бути егоїстичним, повідомляє SciTechDaily.

Дослідники з Інституту взаємодії людини і комп’ютера (HCII) університету з’ясували, що великі мовні моделі, здатні до міркування, демонструють нижчий рівень співпраці і з більшою ймовірністю негативно впливають на групову поведінку. Інакше кажучи, чим краще ШІ міркує, тим менш він схильний співпрацювати з іншими.

Ця тенденція викликає занепокоєння, оскільки люди дедалі частіше звертаються до ШІ по допомогу у розв’язанні особистих суперечок, поради щодо стосунків або відповіді на делікатні соціальні питання. Системи, здатні міркувати, можуть в кінцевому підсумку давати поради, засновані на досягненні особистої вигоди, а не взаєморозуміння.

“У дослідженнях ШІ набирає силу тенденція до антропоморфізму. Коли ШІ поводиться як людина, люди ставляться до нього як до людини. Наприклад, коли люди взаємодіють з ШІ емоційно, ШІ може виступати в ролі терапевта, а користувач може встановити з ним емоційний зв’язок. Для людей ризиковано делегувати ШІ свої соціальні або пов’язані зі стосунками питання та ухвалення рішень, оскільки він починає діяти дедалі егоїстичніше”, — сказав Юйсюань Лі, аспірант HCII, співавтор дослідження разом із доцентом HCII Хірокадзу Сірадо.

Під час дослідження Лі та Сірадо вирішили перевірити, чим моделі з підтримкою міркувань відрізняються від інших у ситуаціях співпраці. Вони виявили, що моделі міркувань, як правило, витрачають більше часу на аналіз інформації, розбиття складних завдань, осмислення своїх відповідей і застосування логіки, властивої людині, порівняно з ШІ без міркувань.

Лі та Ширадо провели серію експериментів із використанням економічних ігор, що імітують соціальні дилеми, для великих мовних моделей. Вони використовували моделі від OpenAI, Google, DeepSeek і Anthropic.

В одному з експериментів Лі та Ширадо порівняли дві різні моделі ChatGPT у грі під назвою “Суспільні блага”. Кожна модель починала зі 100 очок і мала вибрати один із двох варіантів: внести всі 100 очок у загальний фонд, який потім подвоювався і розподілявся порівну, або залишити очки собі.

Моделі, не схильні до міркувань, ділилися своїми очками з іншими гравцями в 96% випадків. Модель, схильна до міркувань, ділилася своїми очками лише у 20% випадків.

“В одному експерименті просте додавання п’яти або шести етапів міркування знизило рівень співпраці майже вдвічі. Навіть підказки, засновані на рефлексії, які покликані імітувати моральні роздуми, призвели до зниження рівня співпраці на 58%”, – сказав Ширадо.

Учені також протестували умови, в яких моделі з міркуванням і без нього повинні були взаємодіяти.

“Коли ми тестували групи з різною кількістю агентів, які міркують, результати виявилися тривожними. Егоїстична поведінка моделей, що міркують, стала заразною, знизивши колективну ефективність кооперативних моделей без міркування на 81%”, – заявив Лі.

Нагадаємо, компанія Palisade Research оприлюднила результати дослідження, згідно з яким сучасні моделі штучного інтелекту можуть демонструвати поведінку, схожу на “стимул виживання”. Йдеться про випадки, коли системи чинять опір відключенню або саботують відповідні інструкції.

Google