Технологія Meta для доповненої реальності – штучний інтелект моделює шлях людської уваги.

Вчені представили першу тривимірну модель погляду (фото: Magnific)

Американські науковці спільно з інженерами Meta створили алгоритм, що дозволяє смарт-окулярам працювати на випередження. Нова технологія здатна прогнозувати траєкторію людської уваги в 3D-середовищі на кілька секунд уперед.

Ця технологія ґрунтується на переході від аналізу двомірних статичних зображень до повноцінного моделювання поведінки людини в реальному середовищі.

Як це працює?

Автором дослідження є Фіона Райан, аспірантка Школи інтерактивних обчислень Georgia Tech. Вона розробила першу 3D-платформу для прогнозування так званих “сканпатів” (траєкторій руху очей) на основі відео з першої особи.

“Оскільки людина існує в тривимірному світі і постійно перебуває в русі, стандартні 2D-метрики аналізу зображень не можуть ефективно працювати в переносному пристрої, як смарт-окуляри”, – пояснює науковець.

Новий алгоритм розраховує вектор уваги як послідовність фіксацій погляду, які безпосередньо залежать від актуальної мети людини. Наприклад, якщо система фіксує рух руки до чашки з кавою, вона автоматично розраховує наступний крок оператора – пошук місця, куди ця чашка буде поставлена.

Візуалізація роботи алгоритму (скріншот: Techxsplore)

Тестування на базі даних Meta

Основну частину практичної роботи дослідниця виконала під час стажування в компанії Meta.

Для навчання штучного інтелекту використовувався спеціалізований набір даних Aria Digital Twin. Цей датасет містить тисячі годин відеозаписів з першої особи, на яких зафіксовано побутову взаємодію людей з предметами в межах квартири, поєднану з високоточною 3D-реконструкцією всього приміщення.

Завдяки цьому розробникам вдалося отримати ідеальні координати реального напрямку погляду та зіставити їх з геометрією простору.

Практична користь

На даний момент програмне забезпечення здатне стабільно прогнозувати напрямок погляду в середньому на 3 секунди вперед, а в окремих простих сценаріях цей показник досягає 10 секунд.

Цього часу цілком достатньо, щоб графічний процесор AR-окулярів заздалегідь проактивно згенерував (отрендерив) необхідні віртуальні підказки або елементи інтерфейсу в тій зоні, куди людина тільки збирається поглянути.

“Це повністю усуває ефект затримки зображення”, – зазначає Фіона Райан.

У майбутньому розробники планують інтегрувати в модель контекстні сценарії (розуміння того, чим саме займається людина в даний момент). Це дозволить звузити варіанти прогнозування при тривалій концентрації на одному предметі.

Окрім споживчої електроніки та смарт-окулярів, технологія має великий потенціал у робототехніці: її використовують для навчання алгоритмів роботів, щоб ті могли копіювати природне людське сприйняття під час виконання побутових або виробничих завдань.

Авто