Блоги Блоги 15.08.2019 в 12:45 comment

«Понять каждого»: специалисты Google в рамках Project Euphonia учат ИИ распознавать невнятную речь

author avatar
https://secure.gravatar.com/avatar/341ba260d57a6855744e3c0760decc30?s=96&r=g&d=https://itc.ua/wp-content/uploads/2023/06/no-avatar.png *** https://secure.gravatar.com/avatar/341ba260d57a6855744e3c0760decc30?s=96&r=g&d=https://itc.ua/wp-content/uploads/2023/06/no-avatar.png *** https://itc.ua/wp-content/themes/ITC_6.0/images/no-avatar.svg

Люди с боковым амиотрофическим склерозом (БАС) часто имеют проблемы с дикцией. Это осложняет не только общение, но и использование систем распознавания речи, которые, как правило, обучаются на данных здоровых людей. Похожие трудности испытывают люди, которые говорят по-английски с сильным акцентом, отмечает Venture Beat.

Помочь таким людям призван Project Euphonia, над которым работают специалисты Google. Чтобы настроить стандартные алгоритмы на работу с «проблемными» пользователями, исследователи дополнили наборы данных небольшой выборкой, представляющей людей с БАС и акцентами. Так, выборка для людей с БАС состояла из 36 часов аудиозаписей, полученных от 67 пациентов, согласившихся принять участие в исследовании по просьбе некоммерческого Института развития терапии БАС (ALS TDI). Выборку с акцентами составляли 20 часовых записей из датасета L2 Arctic.

По словам исследователей, этого было достаточно, чтобы в значимой степени преодолеть дефицит данных: количество ошибочно распознанных слов для нейросетей RNN-Transduce и LAS, наиболее часто используемых в системах распознавания речи, уменьшилось в среднем на 62% и 35% для людей с БАС и сильным акцентом соответственно.

В дальнейшем в Google намерены расширить тренировочные наборы данных, чтобы довести алгоритмы до совершенства.

Напоследок отметим, что ранее в Project Euphonia был разработан отдельный экспериментальный искусственный интеллект, который служит «прослойкой» между голосовым ассистентом и человеком с нарушениями речи. Задача алгоритма состоит в том, чтобы преобразовывать невнятно произнесенные слова в обычные.

Англійська для початківців від Englishdom.
Для тих, хто тільки починає вивчати англійську і хоче вміти використовувати базову лексику і граматику.
Реєстрація на курс

Пример оригинальной речи:

Пример речи, которую нейросеть-прослойка «трансформировала» из невнятной в обычную для дальнейшей передачи голосовому ассистенту:

Источник: hightech.plus


Loading comments...

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: