SAM (Segment Anything Model) – це модель сегментації зображень від Meta, яка може реагувати на підказки користувача (текстові або вказані курсором), щоб ідентифікувати певні об’єкти на зображенні чи відео, навіть якщо вона не стикалася з ними під час навчання.
Сегментація зображення – це процес розділення цифрового зображення на кілька сегментів, яку використовують для полегшення його аналізу та обробки. Зазвичай для створення точної моделі сегментації необхідні високоспеціалізовані технічні експерти, доступ до інфраструктури навчання ШІ та великих обсягів ретельно анотованих даних у домені. SAM покликана «демократизувати» цей процес, що сприятиме успішним подальшим дослідженням комп’ютерного зору.
Meta вважає, що її технологія буде корисною для розуміння вмісту вебсторінок, застосунків доповненої реальності, редагування зображень, а також в наукових дослідженнях (для автоматичної локалізації тварин або об’єктів для відстеження на відео).
На додаток до інструменту Meta зібрала набір даних «SA-1B», що містить 1 мільйон зображень, ліцензованих «великою фотокомпанією», і 1,1 мільярда масок сегментації, створених її моделлю. Meta зробить SAM і її набір даних доступними для дослідницьких цілей за ліцензією Apache 2.0.
Нині код доступний на GitHub, також можна випробувати безплатну інтерактивну демонстрацію технології сегментації Meta. Користувачі можуть завантажити знімок та скористатися функціями Hover & Click (вибір об’єктів за допомогою миші), Box (вибір об’єктів у полі вибору) або Everything (автоматична ідентифікація кожного об’єкта на зображенні).
- Нагадаємо, що в січні Meta випустила свою мовну модель ШІ LLaMA — як пакет з відкритим вихідним кодом, доступ до якого можуть отримати члени ШІ-спільноти. Однак за тиждень після того, як компанія почала приймати запити, торент для завантаження мовної моделі з’явився на сайті 4chan, а згодом поширився в інших спільнотах.
Джерело: Ars Technica