UniGen-1.5 від Apple – що вміє ШІ-модель
Новий ШІ вміє створювати картинки і редагувати їх на льоту (фото: Apple)
Дослідники Apple представили оновлену версію моделі UniGen – UniGen-1.5, здатну одночасно розуміти, генерувати і редагувати зображення в рамках єдиної системи.
Від UniGen до UniGen-1.5
У травні минулого року команда Apple опублікувала дослідження під назвою UniGen: Enhanced Training & Test-Time Strategies for Unified Multimodal Understanding and Generation. У ньому вперше було представлено єдину мультимодальну велику мовну модель, яка об’єднує розуміння і генерацію зображень, не розділяючи ці завдання на окремі системи.
Тепер Apple опублікувала продовження дослідження – статтю про UniGen-1.5.
Що нового в UniGen-1.5
UniGen-1.5 розширює можливості оригінальної моделі, додаючи функції редагування зображень, зберігаючи при цьому єдину архітектуру для розуміння, генерації та редагування.
Створення такої універсальної системи – непросте завдання, оскільки розуміння і генерація зображень вимагають різних підходів. Проте, дослідники стверджують, що єдина модель може використовувати свої здібності до розуміння для поліпшення генерації.
Принцип роботи UniGen-1.5 (фото: 9to5Mac)
Однією з ключових проблем редагування зображень є те, що моделі часто складно коректно інтерпретувати складні інструкції, особливо якщо зміни тонкі або специфічні.
Для вирішення цього завдання в UniGen-1.5 введено новий етап – Edit Instruction Alignment: дослідники навчають модель формувати докладний текстовий опис того, яким має бути відредаговане зображення. Цей проміжний крок допомагає моделі краще “зрозуміти” завдання до генерації фінального результату.
Можливості UniGen-1.5 (фото: 9to5Mac)
Єдина система нагород
Ключовим внеском UniGen-1.5 стало використання однієї й тієї самої системи нагород для генерації та редагування зображень. Раніше це було проблемою, оскільки редагування може включати як невеликі зміни, так і повні трансформації.
Обмеження
Однак дослідники зазначають, що UniGen-1.5 поки що зазнає труднощів із генерацією тексту і підтриманням ідентичності об’єктів:
- модель не завжди коректно відображає текст на зображеннях через обмеження легкого детокенізатора
- іноді помітні зміни в деталях зовнішності об’єктів, наприклад текстури шерсті кішки або кольору пір’я птаха.
Дослідники підкреслюють, що модель потребує подальшого доопрацювання для усунення цих обмежень.