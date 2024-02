Компанія Stability AI анонсувала Stable Diffusion 3 — модель синтезу зображень «наступного покоління». Вона «використовує напрацювання своїх попередників, генеруючи детальні, багатопредметні зображення з покращеною якістю та точністю за текстовим описом».

Stability заявляє, що сімейство моделей Stable Diffusion 3 (яке бере текстові описи, що називаються «підказками», і перетворює їх на відповідні зображення) має від 800 мільйонів до 8 мільярдів параметрів. Цей діапазон дає змогу запускати різні версії моделі локально на різних пристроях ` від смартфонів до серверів. Кількість параметрів приблизно відповідає можливостям моделі з погляду того, скільки деталей вона може згенерувати. Більші моделі також потребують більше VRAM на графічних прискорювачах для запуску, передає ArsTechnica.

Stability створює прогресивні моделі генерації зображень ШІ з 2022 року: Stable Diffusion 1.4, 1.5, 2.0, 2.1, XL, XL Turbo, а тепер і 3. Компанія зробила собі ім’я як більш відкрита альтернатива пропрієтарним моделям синтезу зображень, як-от DALL-E 3 від OpenAI, хоча і не без суперечок щодо використання захищених авторським правом навчальних даних, упередженість і можливість зловживань. Моделі Stable Diffusion можна запускати локально і тонко налаштовувати для зміни результатів.

Генеральний директор Stability Емад Мостак написав на X:

Some notes:

– This uses a new type of diffusion transformer (similar to Sora) combined with flow matching and other improvements.

– This takes advantage of transformer improvements & can not only scale further but accept multimodal inputs..

– More technical details soon

— Emad (@EMostaque) February 22, 2024