Новости

Meta разработала Encodec – кодировщик аудио на основе ИИ для качественной передачи речи при экстремально низком битрейте

Meta разработала Encodec – кодировщик аудио на основе ИИ для качественной передачи речи при экстремально низком битрейте

Encodec – разработанный Meta кодек аудио нового поколения, кодирующий сигнал с помощью нейросети. Кодировщик будет использован в Metaverse и для голосовых переговоров с помощью инструментов компании. Заявлен экстремальный прирост эффективности и экономии полосы пропускания. По заявлению Meta, Encodec обеспечит примерно 1десятикратное кратного сжатие звука по сравнению со стандартом MP3. Кодек поможет добиться еще большего сжатия с сохранением приемлемого качества.

Мета обучила искусственный интеллект достигать целевого ширины канала в результате сжатия в реальном времени. Encodec может сжать поток данных MP3 со скоростью 64 Кбит/с в 6 Кбит/с при сохранении того же качества. Исследователи говорят, что подобное сжатие делает возможной дискретизацию 48 кГц для передачи речи без ущерба пропускной способности сети.

Классические кодеки, MP3, Opus или EVS, раскладывают сигнал на разные частоты и кодируют более эффективно, используя наработки психоакустики – исследований восприятия звука человеком. Новый метод сжатия основан на сложной схеме, состоящей из трех частей: кодировщика, квантизатора и декодера.

Meta Encodec

Кодировщик берет несжатые данные и преобразует их в представление большего размера и с меньшим фреймрейтом [higher dimensional and lower frame rate representation, что бы это ни значило – прим. ITC]. Квантизатор сжимает поток до целевого размера, сохраняя при этом наиболее важную информацию для восстановления исходного сигнала. Наконец, декодер возвращает конечный сигнал «в виде, максимально возможно похожем на оригинал».

Модель машинного обучения Encodec идентифицирует изменения звука, которые незаметны для человека, используя дискриминаторы для улучшения воспринимаемого качества генерируемых звуков. В Meta описали этот процесс как «игру в кошки-мышки», когда дискриминатор различает исходные и реконструированные образцы. Конечным результатом является превосходное сжатие звука в речи с низким битрейтом (от 1,5 кбит/с до 12 кбит/с).

По словам Meta, Encodec может кодировать и декодировать аудиоданные в режиме реального времени на одном ядре ЦП без ущерба для процесса и с применением возможных улучшений. Помимо поддержки нового поколения Metaverse в современных интернет-соединениях, новая модель потенциально может гарантировать более высокое качество телефонных звонков в районах со слабым покрытием мобильных сетей.

Meta создала систему ИИ Make-a-Video, способную генерировать видео из текстовых описаний

Источник: Engadget


Завантаження коментарів...

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: