UniGen-1.5 від Apple – що вміє ШІ-модель

UniGen-1.5 від Apple - що вміє ШІ-модель 1 Новий ШІ вміє створювати картинки і редагувати їх на льоту (фото: Apple)

Дослідники Apple представили оновлену версію моделі UniGen – UniGen-1.5, здатну одночасно розуміти, генерувати і редагувати зображення в рамках єдиної системи.

Від UniGen до UniGen-1.5

У травні минулого року команда Apple опублікувала дослідження під назвою UniGen: Enhanced Training & Test-Time Strategies for Unified Multimodal Understanding and Generation. У ньому вперше було представлено єдину мультимодальну велику мовну модель, яка об’єднує розуміння і генерацію зображень, не розділяючи ці завдання на окремі системи.

Тепер Apple опублікувала продовження дослідження – статтю про UniGen-1.5.

Що нового в UniGen-1.5

UniGen-1.5 розширює можливості оригінальної моделі, додаючи функції редагування зображень, зберігаючи при цьому єдину архітектуру для розуміння, генерації та редагування.

Створення такої універсальної системи – непросте завдання, оскільки розуміння і генерація зображень вимагають різних підходів. Проте, дослідники стверджують, що єдина модель може використовувати свої здібності до розуміння для поліпшення генерації.

Принцип роботи UniGen-1.5 (фото: 9to5Mac)

Однією з ключових проблем редагування зображень є те, що моделі часто складно коректно інтерпретувати складні інструкції, особливо якщо зміни тонкі або специфічні.

Для вирішення цього завдання в UniGen-1.5 введено новий етап – Edit Instruction Alignment: дослідники навчають модель формувати докладний текстовий опис того, яким має бути відредаговане зображення. Цей проміжний крок допомагає моделі краще “зрозуміти” завдання до генерації фінального результату.

Можливості UniGen-1.5 (фото: 9to5Mac)

Єдина система нагород

Ключовим внеском UniGen-1.5 стало використання однієї й тієї самої системи нагород для генерації та редагування зображень. Раніше це було проблемою, оскільки редагування може включати як невеликі зміни, так і повні трансформації.

Обмеження

Однак дослідники зазначають, що UniGen-1.5 поки що зазнає труднощів із генерацією тексту і підтриманням ідентичності об’єктів:

  • модель не завжди коректно відображає текст на зображеннях через обмеження легкого детокенізатора
  • іноді помітні зміни в деталях зовнішності об’єктів, наприклад текстури шерсті кішки або кольору пір’я птаха.

Дослідники підкреслюють, що модель потребує подальшого доопрацювання для усунення цих обмежень.

Цей веб-сайт використовує файли cookie, щоб покращити ваш досвід. Ми припустимо, що ви з цим згодні, але ви можете відмовитися, якщо хочете. Прийняти Детальніше

Політика конфіденційності