Блоги Блоги 05.06.2019 в 13:52 comment

Нейросеть Speech2Face пытается воссоздать лицо человека по его голосу

author avatar
https://secure.gravatar.com/avatar/341ba260d57a6855744e3c0760decc30?s=96&r=g&d=https://itc.ua/wp-content/uploads/2023/06/no-avatar.png *** https://secure.gravatar.com/avatar/341ba260d57a6855744e3c0760decc30?s=96&r=g&d=https://itc.ua/wp-content/uploads/2023/06/no-avatar.png *** https://itc.ua/wp-content/themes/ITC_6.0/images/no-avatar.svg

Исследователи из Массачусетского технологического института разработали алгоритм, который способен реконструировать облик человека на основе записи его голоса. Как сообщает Futurism, для работы ИИ достаточно короткого аудиоклипа.

В основу алгоритма, получившего название Speech2Face, положена генеративно-состязательная нейросеть, обученная на датасете AVSpeech, способная сопоставлять особенности речи с рядом биометрических характеристик человека. Проанализировав запись продолжительностью до 6 секунд, программа выдает примерное изображение лица говорящего.

Результаты работы ИИ далеки от портретного сходства, но в качестве доказательства жизнеспособности концепции впечатляют: алгоритм достаточно уверенно определяет пол говорящего, его возраст (c точностью в 10 лет) и расовую принадлежность.

«Таким образом, Speech2Face в очередной раз подтверждает, что современные алгоритмы способны делать невероятные выводы на основе крошечных фрагментов данных», — указывает Futurism.

Нейросеть Speech2Face пытается воссоздать лицо человека по его голосу
Послушать голоса и посмотреть на воссозданные на их основе портреты можно на сайте проекта.

Отметим, что целью работы исследователей не было точное восстановление внешности человека по его голосу; ученые сосредоточились на воссоздании конкретно пола, возраста и этнической принадлежности. Именно поэтому точно показать по голосу, как выглядит человек, пока что нельзя, однако в дальнейшем авторы планируют совершенствовать разработку.

Что касается перспектив коммерциализации решения, то по словам исследователей, технология в первую очередь пригодится сервисам визуализации аудиозвонков и разработчикам видеоигр, которые смогут воссоздавать виртуальные аватары пользователей с более высокой точностью, а также правоохранительным органам, которые получат возможность эффективнее идентифицировать телефонных хулиганов. В то же время, авторы предупреждают, что точность воссоздания внешности по голосу всегда будет относительно низкой из-за огромного множества факторов, влияющих на речь человека и качество ее записи.

Психологічний профорієнтаційний тест для IT-фахівців від Ithillel.
Пройдіть психологічний профорієнтаційний тест для IT-фахівців щоб дізнатися ваші сильні сторони, вподобання і інтереси і з'ясувати, яка IT-спеціальність вам підходить.
Пройти тест

В первом столбике находятся кадры с видео, на которых запечатлено реальное лицо человека. Во втором столбике изображены лица, сгенерированные нейросетью VGG-Face, которая использует особенности лицá человека из видео для создания изображения лица в анфас с нейтральным выражением. В третьем столбике — ли́ца, сгенерированные Speech2Face на основе аудиодорожки с видео.

Кроме того, ученые отмечают, что их работа носит также исследовательскую пользу: генерация лиц на основе голоса поможет лучше изучить корреляцию голоса с внешностью.

Напоследок отметим, что создатели Speech2Face уже призвали к осторожности всех, кто планирует развивать и применять эту технологию, дабы исключить возможные нарушения конфиденциальности.

Источник: hightech.plus


Loading comments...

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: