Новини

Meta розробила Encodec – кодувальник аудіо на основі нейромереж для якісної передачі розмов при дуже низькому бітрейті

Meta розробила Encodec – кодувальник аудіо на основі нейромереж для якісної передачі розмов при дуже низькому бітрейті

Encodec – розроблений Meta кодек аудіо нового покоління, що кодує сигнал за допомогою нейромережі. Кодувальник буде використаний у Metaverse та для голосових переговорів за допомогою інструментів компанії. Заявлено екстремальний приріст ефективності та економії смуги пропускання. За заявою Meta, Encodec забезпечить приблизно десятикратну компресію у порівнянні зі стандартом MP3. Кодек допоможе досягти набагато меншого потоку даних зі збереженням прийнятної якості.

Мета навчила штучний інтелект досягати цільової ширини потоку у результаті стиснення в реальному часі. Encodec може кодувати потік даних MP3 зі швидкістю 64 Кбіт/с до 6 Кбіт/с зі збереженням тієї ж якості. Дослідники кажуть, що подібне стиснення уможливлює дискретизацію 48 кГц для передачі розмов без шкоди для пропускної здатності мережі.

Класичні кодеки, MP3, Opus або EVS, розкладають сигнал на різні частоти та кодують ефективніше, використовуючи напрацювання психоакустики – досліджень сприйняття звуку людиною. Новий метод заснований на складній схемі, що складається з трьох частин: кодувальника, квантизатора та декодера.

Meta Encodec

Кодувальник бере початкові дані та перетворює їх у сигнал більшого розміру і з меншим фреймрейтом [higher dimensional and lower frame rate representation, що б це не значило – прим. ITC]. Квантизатор стискає потік до цільового розміру, зберігаючи при цьому найважливішу інформацію для відновлення вихідного сигналу. Нарешті, декодер повертає кінцевий сигнал «у вигляді, що максимально можливо схожий на оригінал».

Модель машинного навчання Encodec ідентифікує зміни звуку, що непомітні для людини, використовуючи дискримінатори для покращення сприйманої якості звуків, що генеруються. У Meta описали цей процес як «гра в кішки-мишки», коли дискримінатор розрізняє вихідні та реконструйовані зразки. Кінцевим результатом є чудове стискання звуку у розмові з низьким бітрейтом (від 1,5 кбіт/с до 12 кбіт/с).

За словами Meta, Encodec може кодувати та декодувати аудіодані в режимі реального часу на одному ядрі ЦП без шкоди для процесу та із застосуванням можливих покращень. Окрім підтримки нового покоління Metaverse у сучасних інтернет-з’єднаннях, нова модель потенційно може гарантувати вищу якість телефонних дзвінків у районах зі слабким покриттям мобільних мереж.

Meta створила систему ШІ Make-a-Video, здатну генерувати відео з текстових описів

Джерело: Engadget


Завантаження коментарів...

Повідомити про помилку

Текст, який буде надіслано нашим редакторам: