Stability AI анонсувала Stable Diffusion 3 — ШІ-генератор зображень «наступного покоління»

Розділ Технології виходить за підтримки

Компанія Stability AI анонсувала Stable Diffusion 3 — модель синтезу зображень «наступного покоління». Вона «використовує напрацювання своїх попередників, генеруючи детальні, багатопредметні зображення з покращеною якістю та точністю за текстовим описом».

Stability заявляє, що сімейство моделей Stable Diffusion 3 (яке бере текстові описи, що називаються «підказками», і перетворює їх на відповідні зображення) має від 800 мільйонів до 8 мільярдів параметрів. Цей діапазон дає змогу запускати різні версії моделі локально на різних пристроях ` від смартфонів до серверів. Кількість параметрів приблизно відповідає можливостям моделі з погляду того, скільки деталей вона може згенерувати. Більші моделі також потребують більше VRAM на графічних прискорювачах для запуску, передає ArsTechnica.

Stability створює прогресивні моделі генерації зображень ШІ з 2022 року: Stable Diffusion 1.4, 1.5, 2.0, 2.1, XL, XL Turbo, а тепер і 3. Компанія зробила собі ім’я як більш відкрита альтернатива пропрієтарним моделям синтезу зображень, як-от DALL-E 3 від OpenAI, хоча і не без суперечок щодо використання захищених авторським правом навчальних даних, упередженість і можливість зловживань. Моделі Stable Diffusion можна запускати локально і тонко налаштовувати для зміни результатів.

Генеральний директор Stability Емад Мостак написав на X:

Тут використовується новий тип дифузійного трансформатора (подібний до Sora) у поєднанні з узгодженням потоку та іншими вдосконаленнями. Він використовує переваги трансформаторних удосконалень і може не тільки масштабуватися далі, але й приймати мультимодальні вхідні дані.

Some notes:
– This uses a new type of diffusion transformer (similar to Sora) combined with flow matching and other improvements.
– This takes advantage of transformer improvements & can not only scale further but accept multimodal inputs..
– More technical details soon

— Emad (@EMostaque) February 22, 2024

Stable Diffusion 3 також використовує «узгодження потоку» (flow matching) — метод створення ШІ-моделей, які можуть генерувати зображення, навчаючись плавно переходити від випадкового шуму до структурованого зображення. Вона робить це без необхідності моделювати кожен крок процесу, натомість зосереджуючись на загальному напрямку або потоці, якому має слідувати створення зображення.

Порівняння результатів роботи OpenAI DALL-E 3 та Stable Diffusion 3 з підказкою: «Нічне фото спортивного автомобіля з написом SD3 збоку, автомобіль на перегоновій трасі на великій швидкості, величезний дорожній знак з написом Faster».

Stable Diffusion 3 не є широкодоступною, але Stability стверджує, що після завершення тестування можна буде безплатно завантажити й запустити локально.

Розділ Технології виходить за підтримки

Favbet Tech – це ІТ-компанія зі 100% украі‌нською ДНК, що створює досконалі сервіси для iGaming і Betting з використанням передових технологіи‌ та надає доступ до них. Favbet Tech розробляє інноваційне програмне забезпечення через складну багатокомпонентну платформу, яка здатна витримувати величезні навантаження та створювати унікальний досвід для гравців.

ЧИТАЦЬКА ДУМКА

В матеріалі написана нісенітниця? Претендуєте на експертність? Не згодні з автором? Ви справжній ерудит? — Тоді дайте аргументну відповідь, яка не загубиться в коментарях! Для цього навіть не потрібна реєстрація. Але тут не пишуть коротко — тільки ґрунтовна думка, не менше 77 слів.

Написати

Не підтримую
0

Експертні відповіді та аргументи читачів, які не згодні з автором.

Підтримую
0

Експертні відповіді та аргументи читачів, які підтримують автора.

Stability AI анонсувала Stable Diffusion 3 — ШІ-генератор зображень «наступного покоління»

Популярні новини