Рубрики Блоги

Нейросеть 2.5D Visual Sound превращает монофоническую аудиодорожку в бинауральную при наличии видеоряда

Опубликовал Кирилл Иртлач

Исследователи из Университета Техаса и команды Facebook Research разработали метод преобразования монофонического звука в бинауральный при наличии видеоряда. Алгоритм назвали 2.5D Visual Sound.

Решение работает следующим образом. Получив в свое распоряжение видеозапись с монофонической аудиодорожкой, нейросеть определяет на видео источники звука, а затем с учетом их положения, фазовых сдвигов и разницы в громкости искусственным образом искажает аудиодорожку, создавая бинауральный эффект для слушателя.

Примеры работы системы можно прослушать на видео ниже (не забудьте надеть наушники):

Как утверждается, для обучения нейронной сети ученые записали 2265 музыкальных видео общей длительностью 6 часов, причем чтобы сымитировать слуховой аппарат человека для бинауральной записи, исследователи изготовили два искусственных уха, закрепили их на болванке шириной с голову человека и дополнили систему камерой GoPro.

Напоследок отметим, что пока идеальной нейросеть назвать нельзя: в частности, она не сможет определить положение источника звука, которого нет на видео, и не распознает источник, которого нет в ее базе. Вместе с тем, исследователи планируют продолжить работу над своим изобретением и в будущем расширить его функциональность.

Источник: NeuroHive