Новости Технологии 19.06.2023 в 11:42 comment views icon

Новый «мозг» для голосовых ассистентов. Meta представила Voicebox AI – инструмент, способный генерировать устную речь на основе текстовых подсказок

author avatar
https://itc.ua/wp-content/uploads/2022/09/Katya-96x96.jpg *** https://itc.ua/wp-content/uploads/2022/09/Katya-96x96.jpg *** https://itc.ua/wp-content/uploads/2022/09/Katya-96x96.jpg

Катерина Даньшина

Автор новостей

Раздел Технологии выходит при поддержке Favbet Tech

Новая генеративная модель Meta могла бы сделать голосовых ассистентов умнее и эффективнее, однако компания пока не делится программой или ее исходным кодом.

Voicebox AI работает по похожей на ChatGPT и Dall-E модели, однако генерирует не текст или изображение, а устную речь. Система обучена на 50 000 часах нефильтрованного аудио – это стенограммы общедоступных аудиокниг, записанных на английском, французском, испанском, немецком, польском и португальском языках.

По словам исследователей, такой разнообразный набор данных позволяет системе генерировать «более разговорную речь», независимо от языков, на которых говорит каждая из сторон.

«Наши результаты показывают, что модели распознавания речи, обученные на синтетической речи, сгенерированной Voicebox, работают почти так же хорошо, как и модели, обученные на реальной речи», – говорят в Meta.

Компания утверждает, что Voicebox превосходит VALL-E от Microsoft по преобразованию текста в язык как с точки зрения разборчивости (5,9% против 1,9% частоты ошибок в слове), так и сходства аудио (0,580% против 0,681%), будучи при этом в 20 раз быстрее.

Среди других полезных функций Voicebox – возможность редактировать аудио, устранять шумы и даже менять неправильно сказанные слова.

«Человек может определить, какой необработанный сегмент речи искажен шумом (например, лай собаки), обрезать его и дать команду модели обновить этот сегмент», — говорят исследователи.

Meta говорит, что использует новый метод обучения синтезу речи «с нуля» под названием Flow Matching. Пока доступны только исследовательская статья и аудиопримеры – ни программа Voicebox, ни ее исходный код пока не обнародованы, что Meta объясняет «потенциальными рисками неправильного использования».

Англійська для IT від Englishdom.
В межах курсу можна освоїти ключові ІТ-теми та почати без проблем говорити з іноземними колегами.
Дійзнайтеся більше

Исследователи надеются, что в будущем эта технология может использоваться для протезирования пациентов с повреждением голосовых связок, игровых NPC и цифровых помощников.

  • Напомним, что в январе Meta выпустила свою языковую модель ИИ LLaMA — как пакет с открытым исходным кодом, доступ к которому могут получить члены ИИ-сообщества. Однако через неделю после того, как компания начала принимать запросы, торрент для загрузки языковой модели появился на сайте 4chan, а впоследствии распространился в других сообществах.
  • Также Meta создала SAM — ИИ-модель сегментации изображений, которая может реагировать на пользовательские подсказки (текстовые или указанные курсором), чтобы идентифицировать определенные объекты на изображении или видео; и предлагает разработчикам открытый код и набор данных из 180 000 изображений к ИИ-проекту Animated Drawings, который поможет анимировать обычные рисунки.
Раздел Технологии выходит при поддержке Favbet Tech

Favbet Tech – это IT-компания со 100% украинской ДНК, которая создает совершенные сервисы для iGaming и Betting с использованием передовых технологий и предоставляет доступ к ним. Favbet Tech разрабатывает инновационное программное обеспечение через сложную многокомпонентную платформу, способную выдерживать огромные нагрузки и создавать уникальный опыт для игроков. IT-компания входит в группу компаний FAVBET.


Loading comments...

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: