Блоги Блоги 22.10.2018 в 16:53 comment

Китайские разработчики создали приложение для смартфона, распознающее беззвучную речь по движениям губ пользователя

author avatar
https://secure.gravatar.com/avatar/341ba260d57a6855744e3c0760decc30?s=96&r=g&d=https://itc.ua/wp-content/uploads/2023/06/no-avatar.png *** https://secure.gravatar.com/avatar/341ba260d57a6855744e3c0760decc30?s=96&r=g&d=https://itc.ua/wp-content/uploads/2023/06/no-avatar.png *** https://itc.ua/wp-content/themes/ITC_6.0/images/no-avatar.svg

Китайские ученые из Университета Цинхуа разработали голосовой помощник для смартфонов, умеющий распознавать речь по движениям губ, даже если пользователь не издает звуков.

Как сообщается, приложение состоит из двух нейросетей. Одна из них во время работы определяет лицо в кадре с камеры смартфона и после этого начинает отслеживать положение 20 контрольных точек, которые достаточно точно описывают форму губ, а также степень открытости рта, что позволяет определять моменты начала и конца команды. Затем эти данные передаются второй нейросети, которая на их основе распознает речь.

На данный момент приложение поддерживает 44 команды, часть из которых относится ко всей системе, к примеру, включение Wi-Fi, часть — к конкретным приложениям, а еще одна часть позволяет взаимодействовать с любым приложением с помощью системных служб, например, выделять текст. При этом приложение понимает контекст команд: так, если система отобразила всплывающее окно с сообщением, то пользователь сможет быстро на него ответить.

Китайские разработчики создали приложение для смартфона, распознающее беззвучную речь по движениям губ пользователя
Поддерживаемые команды.

Нейросети были обучены на примерах речи 21 человека. Затем разработчики проверили точность распознавания на речи еще одного. Средняя точность распознавания оказалась равной 95,5%.

Помимо этого, авторы проверили, насколько их приложение удобнее голосового ввода в общественных местах, и провели эксперимент в пекинском метро. Во время эксперимента пять пар добровольцев оценивали конфиденциальность и комфорт использования приложения, при этом один из них выполнял команды, а второй выступал в роли пассажира.

Испытания показали, что в обоих случаях люди считают беззвучные команды более комфортными и конфиденциальными, чем голосовые команды, причем окружающие люди оценивали комфорт даже выше, чем сами пользователи.

Онлайн-курс "Режисура та візуальний сторітелінг" від Skvot.
Перетворюй свої ідеї на сильні історії в рекламі, кліпах чи кіно Досвідом ділиться режисер, продюсер та власник продакшену, який 10+ років у професії.
Детальніше про курс

Источник: N+1


Loading comments...

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: