Записывать видео для образовательных платформ вроде Coursera или EdX — занятие хоть и благодарное, но трудоемкое: как правило, клипы снимаются в специально оборудованных студиях, а затем тщательно обрабатываются в программах для монтажа. Udacity, еще одна онлайновая образовательная организация, предлагающая свыше 100 000 курсов, решила радикально упростить процесс с помощью технологий ИИ и автоматически генерировать видеолекции из аудиозаписей, рассказывает VentureBeat.
Метод специалистов Udacity отличается простотой и полной автоматизацией. Нейросеть, получившая название LumièreNet, «извлекает» из ранее записанного видеоряда фигуру лектора, а затем заставляет ее двигаться, шевелить губами и моргать, имитируя поведение живого человека, в соответствии с новыми аудиоданными на входе. До сих пор такого никто не делал, говорится в статье с описанием принципов работы алгоритма, выложенной на Arxiv.org.
Чтобы проверить эффективность LumièreNet, разработчики записали в студии Udacity несколько реальных лекций в видео- и аудио- форматах, после чего «скормили» нейросети видеоряд, чтобы она воссоздала по нему образ лектора, а затем предоставили алгоритму аудиозаписи и дали задание сгенерировать на их основе видеоуроки.
В результате нейросеть создала «убедительные», по словам авторов, клипы с достаточно «реалистичным» виртуальным преподавателем и «плавными» жестами (разработчики не показали все сгенерированные ролики, ограничившись публикацией лишь двух отрывков — они представлены в новости). Вместе с тем, как отмечают сами создатели, цифровая фигура не обманет зрителя: так, виртуальный лектор редко моргает, ненатурально двигает губами, а его пальцы временами превращаются в пиксельную «кашу». Кроме того, глаза «преподавателя» иногда невозбранно смотрят в разные стороны.
В то же время, разработчики надеются, что в будущем им удастся усовершенствовать технологию и повысить реалистичность цифрового лектора до приемлемой степени.
Источник: hightech.plus
Сообщить об опечатке
Текст, который будет отправлен нашим редакторам: