Рубрики Блоги

Нейросеть 2.5D Visual Sound превращает монофоническую аудиодорожку в бинауральную при наличии видеоряда

Опубликовал
Кирилл Иртлач

Исследователи из Университета Техаса и команды Facebook Research разработали метод преобразования монофонического звука в бинауральный при наличии видеоряда. Алгоритм назвали 2.5D Visual Sound.

Решение работает следующим образом. Получив в свое распоряжение видеозапись с монофонической аудиодорожкой, нейросеть определяет на видео источники звука, а затем с учетом их положения, фазовых сдвигов и разницы в громкости искусственным образом искажает аудиодорожку, создавая бинауральный эффект для слушателя.

Примеры работы системы можно прослушать на видео ниже (не забудьте надеть наушники):

Онлайн-курс "Business English" від Laba.
Вивчіть базу граматики, лексики та вокабуляру.Використовуйте англійську в спонтанній розмові з колегами та клієнтами.Прокачайте її до впевненого В1 — для розвитку кар’єри в бізнесі.
Приєднатись до курсу

Как утверждается, для обучения нейронной сети ученые записали 2265 музыкальных видео общей длительностью 6 часов, причем чтобы сымитировать слуховой аппарат человека для бинауральной записи, исследователи изготовили два искусственных уха, закрепили их на болванке шириной с голову человека и дополнили систему камерой GoPro.

Напоследок отметим, что пока идеальной нейросеть назвать нельзя: в частности, она не сможет определить положение источника звука, которого нет на видео, и не распознает источник, которого нет в ее базе. Вместе с тем, исследователи планируют продолжить работу над своим изобретением и в будущем расширить его функциональность.

Источник: NeuroHive

Disqus Comments Loading...