Штучний інтелект не здатен розуміти емоції та міміку людей, що може становити певну загрозу.

Штучний інтелект навчився розпізнавати небезпеку краще за людей, проте не здатен зрозуміти самих людей (фото: Magnific)

Дослідники з Корнельського університету в США провели унікальне тестування сучасних мультимодальних моделей штучного інтелекту (VLM), намагаючись навчити роботів соціальному інтелекту. Експеримент продемонстрував, що ІІ чудово прогнозує фізичні катастрофи, але абсолютно не в змозі зчитувати емоції та міміку людей, які спостерігають за цим.

Експеримент з хаосом: дитина, газонокосарка та гуманоїд

Мета вчених полягала в тому, щоб надати майбутнім домашнім та промисловим роботам здатність розуміти соціальні навички – зчитувати погляди, вгадувати наміри та передбачати потреби людей без слів.

Для цього дослідники використали базу коротких напружених відеороликів. Серед сюжетів були:

  • дитина, яка несе надто повну чашку гарячої кави;
  • чоловік, що мчить на шалено швидкій газонокосарці;
  • робот-гуманоїд, який намагається перепригнути між високими блоками.

Вчені протестували шість провідних моделей комп’ютерного зору та мови. Серед них були як гіганти з закритим кодом (OpenAI GPT-4o, Google Gemini 2.0 Flash), так і перспективні безкоштовні системи з відкритим кодом (зокрема DeepSeek).

Тестування проходило в два етапи:

Спочатку моделі аналізували безпосередньо самі дії на відео та намагалися вгадати, чим закінчиться сцена – успіхом чи аварією.

Потім ІІ показували відео або фотографії облич людей, які дивилися ці ж ролики, і просили зробити прогноз катастрофи виключно на основі людської міміки (на основі страху, закритих очей або усмішки).

Читайте більше: ІІ навчився створювати вакцини проти COVID-19: що показали перші випробування на людях

Результати: емпатія програла математиці

Під час прямого аналізу відео ІІ продемонстрував виняткові результати.

Найкраща відкрита модель передбачила фінал з точністю 70%, а лідер серед закритих систем показав результат у 63% – це повністю відповідає або навіть перевищує рівень уважності середньостатистичної людини. ІІ легко зрозумів закони фізики та загрозу від ситуацій.

Але як тільки задачу змінили і змусили моделі думати “через призму людей”, система повністю зламалася.

Точність прогнозів, заснованих лише на виразах облич очевидців, впала до критичних 44,5-53,5%. Деякі потужні нейромережі взагалі почали видавати однакову стандартну відповідь для кожного обличчя, незалежно від того, був чи не був людина шокована або спокійна.

За словами провідного автора дослідження Марії Терези Паррейри, результати якої офіційно презентували на Міжнародній конференції з взаємодії людей і роботів (HRI 2026) в Единбурзі, це свідчить про серйозний дефіцит соціального інтелекту у сучасного ІІ.

“Роботи не розуміють невербальних сигналів, які люди випромінюють під час контакту з навколишнім світом”, – підкреслила науковець.

Чому роботам потрібно дозволити помилятися?

Професор Корнелла Венді Джу вважає, що результати тестів вказують на глобальну помилку сучасної інженерії. Більшість лабораторій намагаються роками тримати роботів у чотирьох стінах, прагнучи довести їх до вигаданого ідеалу, і лише потім публікують результати своїх досліджень.

“Коли вони нарешті випробовують їх у реальному житті, то завжди дивуються, наскільки сильно контекст відрізняється від лабораторного і як непередбачувано реагують люди”, – зазначила Венді Джу.

“Роботи повинні навчатися безпосередньо “на роботі” – працювати серед нас ще до того, як стануть ідеальними, “бачити” власні помилки, адаптуватися до людських емоцій і змінювати своє програмне забезпечення в процесі живого взаємодії”, – додала вона.

Зараз команда вчених планує з’ясувати точні причини “сліпоти” ІІ до людської міміки та змінити алгоритми навчання підказок для нейромереж.

GoogleСША