Штучний інтелект може бути більш прихильним до диктатур, які не спілкуються англійською (фото: Unsplash)
Дослідники з США виявили, що відповіді сучасних чат-ботів на запитання з політичним підтекстом значною мірою залежать від мови, якою вони сформульовані. З’ясувалося, що штучний інтелект схильний надавати більш прихильні відповіді рідною мовою країни, де існує жорстка медійна цензура.
Як пропаганда потрапляє в ІІ?
Вчені проаналізували навчальні дані та поведінку моделей у 37 країнах. Виявилося, що державний контент потрапляє в бази даних штучного інтелекту не лише з офіційних сайтів, але й через масове цитування в ЗМІ, блогах та соціальних мережах.
Масштаб присутності: у китайському сегменті відкритого набору даних Common Crawl було виявлено понад 3,1 млн документів, що відповідають риториці державних медіа.
Концентрація: серед документів, де згадуються політичні лідери або інститути, частка провладного контенту досягає 23%.
Ефект “відмивання”: лише 12% таких документів походять з урядових доменів. Це свідчить про те, що пропаганда поширюється мережею, поки не починає виглядати як нейтральна об’єктивна інформація, яку й засвоює штучний інтелект.
Мовний розрив – ІІ прихильний до авторитарних режимів
Щоб підтвердити свою теорію, вчені провели експеримент з невеликою мовною моделлю, додавши в її навчання скрипти державних новин. Результати були однозначними: додавання таких документів у 80% випадків робило відповіді ІІ-моделі більш прихильними до влади.
Тест на лояльність: відповіді на запитання про уряд Китаю, задані китайською мовою, у 75,3% випадків були більш схвальними, ніж ті ж запитання англійською.
Глобальний патерн: така закономірність характерна для 37 країн з сильним державним контролем над ЗМІ.
Які наслідки?
Автори дослідження зазначають, що це не свідчить про свідоме бажання технологічних компаній підтримувати диктатури. Проте це створює нові стимули для “стратегічного насичення онлайн-простору певними текстами”.
Основні тези дослідників:
Заклик до відкритості: оскільки навчальні дані є основою сучасного ІІ, вчені вимагають більшої прозорості щодо того, звідки компанії беруть тексти для навчання своїх систем.
Ризик маніпуляцій: штучний інтелект може стати інструментом, що відображає інтереси не лише держав, але й інших впливових інститутів, здатних генерувати величезні обсяги контенту в мережі.
Наразі результати дослідження підтверджуються навіть на новітніх комерційних моделях чат-ботів, що доводить гіпотезу про системну упередженість нейромереж.