Блоги Блоги 02.01.2019 в 11:42 comment

Нейросеть 2.5D Visual Sound превращает монофоническую аудиодорожку в бинауральную при наличии видеоряда

author avatar
https://secure.gravatar.com/avatar/341ba260d57a6855744e3c0760decc30?s=96&r=g&d=https://itc.ua/wp-content/uploads/2023/06/no-avatar.png *** https://secure.gravatar.com/avatar/341ba260d57a6855744e3c0760decc30?s=96&r=g&d=https://itc.ua/wp-content/uploads/2023/06/no-avatar.png *** https://itc.ua/wp-content/themes/ITC_6.0/images/no-avatar.svg

Исследователи из Университета Техаса и команды Facebook Research разработали метод преобразования монофонического звука в бинауральный при наличии видеоряда. Алгоритм назвали 2.5D Visual Sound.

Решение работает следующим образом. Получив в свое распоряжение видеозапись с монофонической аудиодорожкой, нейросеть определяет на видео источники звука, а затем с учетом их положения, фазовых сдвигов и разницы в громкости искусственным образом искажает аудиодорожку, создавая бинауральный эффект для слушателя.

Примеры работы системы можно прослушать на видео ниже (не забудьте надеть наушники):

Как утверждается, для обучения нейронной сети ученые записали 2265 музыкальных видео общей длительностью 6 часов, причем чтобы сымитировать слуховой аппарат человека для бинауральной записи, исследователи изготовили два искусственных уха, закрепили их на болванке шириной с голову человека и дополнили систему камерой GoPro.

Нейросеть 2.5D Visual Sound превращает монофоническую аудиодорожку в бинауральную при наличии видеоряда

Напоследок отметим, что пока идеальной нейросеть назвать нельзя: в частности, она не сможет определить положение источника звука, которого нет на видео, и не распознает источник, которого нет в ее базе. Вместе с тем, исследователи планируют продолжить работу над своим изобретением и в будущем расширить его функциональность.

Онлайн-курс "Бренд-менеджмент" від Laba.
Розберіться в комплексному управлінні брендом: від його структури до комунікації з аудиторією.Дізнайтесь принципи побудови бренд-стратегії, проведення досліджень і пошуку свого споживача.
Детальніше про курс

Источник: NeuroHive


Loading comments...

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: