
Apple представила власну мовну модель FS-DFM (Few-Step Discrete Flow Matching), яка створює тексти у 128 разів швидше за ChatGPT та інші сучасні системи. І при цьому — без помітної втрати якості.
Щоб зрозуміти контраст: LLM моделі як ChatGPT генерують текст послідовно, слово за словом, орієнтуючись на вже написане. Це дає гнучкість, але забирає час. Натомість FS-DFM працює інакше. Вона створює кілька частин тексту паралельно, потім кілька разів швидко їх уточнює, доки не вийде готовий варіант.
У звичайних дифузійних моделях генерація тексту або зображення відбувається поступово. Тобто в такому випадку система проходить сотні або навіть тисячі кроків, щоб дійти до фінального результату. FS-DFM працює набагато швидше: їй потрібно лише вісім уточнень (ітерацій), щоб створити якісний текст. Це дозволяє отримати результат майже миттєво, без втрати якості.
Apple пояснює, що все тримається на трьох ключових кроках. Спершу FS-DFM навчили працювати з різними обсягами уточнень. Потім додали допоміжну “модель-вчителя”, яка підказує, як робити точніші правки без спотворення результату. А на фінальному етапі — відшліфували процес, щоб скоротити кількість кроків до мінімуму без втрати стабільності.
У тестах навіть компактні версії FS-DFM (із 0,17–1,7 мільярда параметрів) показали нижчий рівень складності тексту та стабільнішу ентропію — тобто впевненість у виборі слів. Для порівняння от результати інших моделей: Dream (7 млрд) і LLaDA (8 млрд). Якщо казати простіше, то тексти FS-DFM виглядають природнішими, а система не “плаває” між варіантами.

Дослідники охрестили модель “рідкісним прикладом поєднання швидкості та якості”. У перспективі FS-DFM може змінити підхід до створення великих текстів у ШІ. Особливо там, де важлива швидкість — від чатботів до генерації сценаріїв. Власне тому з’являється питання, чи почне пізніше модель Apple навмисно “тупішати” за прикладом ChatGP?

Компанія розробила модель разом з Університетом штату Огайо. Вони опублікували дослідження під назвою “FS-DFM: швидка та точна генерація довгих текстів за допомогою малокрокових дифузійних мовних моделей”. Apple також підтвердила, що випустить код і контрольні точки моделі, щоб інші могли повторити результати й розвинути ідею.
Джерело: 9to5mac
Повідомити про помилку
Текст, який буде надіслано нашим редакторам: