Интервью
Денис Филиппов о том, зачем «Яндексу» технологии распознавания речи
12

Денис Филиппов о том, зачем «Яндексу» технологии распознавания речи

interaction

В прошлом месяце компания «Яндекс» представила облачную платформу распознавания речи SpeechKit Cloud, с помощью которой компании смогут создавать продукты и сервисы с голосовым вводом. Чтобы узнать, зачем «Яндексу» разрабатывать голосовые технологии, и что с ними можно делать, мы пообщались с Денисом Филипповым, руководителем отдела голосовых технологий и продуктов компании.

С чем была связана необходимость для Яндекса создавать свою технологию распознавания речи?

В своё время, еще в начале 2010 года, мы увидели потенциал роста мобильных сервисов и приложений. «Яндекс» начал активно развивать свои мобильные сервисы, и было очевидно, что сенсорных интерфейсов и экранных клавиатур для ввода недостаточно. Модель использования мобильного устройства гораздо шире, чем у ноутбука и десктопа, им можно пользоваться на ходу, в машине в качестве навигатора и так далее. Поэтому возникла идея сделать альтернативные интерфейсы ввода, а самым очевидным из них был голосовой. Таким образом, мы задались целью, чтобы во всех наших сервисах был голосовой ввод. Это и была основная мотивация в начале пути.

Насколько было сложно найти специалистов для этого проекта?

Денис_ФилипповОчень сложно, потому что голосовые технологии в том или ином виде существуют уже много лет, но алгоритмы и подходы, которые могут обеспечить достаточно высокое качество распознавания, появились только недавно. И специалистов, которые умеют обучать нейронные сети, разрабатывать алгоритмы для обучения и вообще владеют нужной математической базой, еще очень мало. Нам удалось найти несколько таких людей снаружи, а большую часть мы обучили внутри «Яндекса». Наша компания специализируется на машинном обучении и обработке больших данных, поэтому нашлись коллеги, которые смогли разобраться в тонкостях распознавания речи.

А не проще было бы купить компанию, которая уже этим занимается?

На самом деле не проще. Технологии и алгоритмические базы компаний, которые этим занимались, не устраивали нас по качеству. Например, в акустическом моделировании нейронные сети стали использовать буквально три года назад, поэтому готовых решений на рынке не было.

Сейчас у вас основной упор идёт на мобильные приложения, на десктоп вы принципиально не хотите выходить?

Мы пока не видим массовых примеров применения голосовых технологий на десктопе. Представьте, что человек сидит за компьютером в офисе или дома. Вряд ли он будет что-то вводить голосом на работе, потому что рядом коллеги. Дома этот сценарий более вероятен, но мы считаем, что в таких условиях люди чаще пользуются планшетами. А планшетный компьютер – это мобильное устройство. Но если мы увидим какой-нибудь удачный кейс использования распознавания голоса на десктопах, то реализовать это в наших сервисах будет несложно.

Вы не думали добавить распознавание в веб-версию своего переводчика?

Пока нет, но в качестве эксперимента можем сделать.

Не было желания объединиться с какой-нибудь компанией, которая разрабатывает переводчик, например с тем же ABBYY Compreno? 

У нас есть «Яндекс.Перевод», построенный на нашей же технологии машинного перевода, и он уже обеспечивает довольно высокое качество. Поэтому мы думаем над объединением собственных технологий распознавания речи и перевода.

Если говорить о SpeechKit Cloud как о коммерческом продукте, то изначально наверно было бы выгодно добавить поддержку английского языка, а потом все остальные или нет?

Вообще-то изначально мы не собирались делать такой продукт. Но после того как Яндекс запустил распознавание голоса для мобильных устройств, к нам начали обращаться представители бизнеса – по большей части из России. Так что мы столкнулись с большим спросом на распознавание русской речи. Кроме того, выходить на рынок с продуктом, ориентированным в первую очередь на английский язык, намного сложнее, ведь конкуренция там выше. Распознаванием английского уже давно занимается компания Nuance, качество распознавания у них очень хорошее, и их решения широко используются, например, в США.

Насколько сложно будет добавить поддержку украинского языка?

Сейчас это уже несложно – мы создали инфраструктуру и алгоритмы распознавания речи, и эти алгоритмы универсальны для любого языка. Остаётся только собрать правильные данные, на которых можно обучить систему.

Насколько зависит качество распознавания речи от самого железа, смартфоны ведь сегодня очень разные?

На самом деле не очень-то они и разные. С точки зрения железа у всех смартфонов примерно одинаковые микрофоны, и главное, что они расположены примерно в одних и тех же местах. И поскольку мы обучаем свою акустическую модель на записях с самых разных устройств, сильной зависимости от смартфона нет. Главное, чтобы в устройстве был исправный микрофон и при голосовом вводе он не зажимался или не перекрывался рукой.

Получается, что скорость интернет-соединения влияет больше всего?

Она сильно влияет на время ответа. Существует возможность потокового распознавания речи, когда запрос отправляется на сервер небольшими частями. Это повышает скорость ответа даже при плохом соединении. Маленькие кусочки данных намного быстрее передавать, чем большую запись.

Если говорить о будущем, где вы видите использование речевых технологий?

Технологически самое интересное направление – это распознавание спонтанной речи. Вот мы сейчас с вами беседуем, и было бы здорово, если бы ваш смартфон, который все это записывает, выдавал готовый текст. Для нас это сейчас основная задача.

И это реально?

Да, к этому всё идёт. Сейчас нет каких-либо видимых ограничений ни в плане вычислительных ресурсов, ни алгоритмов, потоковое распознавание помогает при плохом интернете, и в общем-то остаётся только правильно обучить акустическую и языковую модель. Это и есть самое сложное, потому что найти такие тексты в нужном количестве очень трудно.

Смартфон только записывает звук и отправляет данные для обработки на сервера, а стоит ли вообще делать мобильные устройства, которые сами могли бы всё это обрабатывать?

Конечно стоит, но всё зависит от задачи. Есть технология встроенного распознавания речи – по сути, это упрощённая система распознавания, которая уменьшается в размерах и устанавливается на смартфон.  Упрощённая версия означает, что мы сильно сокращаем языковую модель, а точнее, ее словарь. Если на мобильном устройстве нужно уметь распознавать порядка 100 команд для каких-то целей, то это можно реализовать.

Но при росте скорости мобильных соединений нивелируется зависимость от того, где будет обрабатываться запрос, на сервере или на самом устройстве, так какой смысл делать это на смартфоне?

На самом деле проблема в мобильном интернете. Всё-таки текущий уровень его проникновения, а особенно его качество оставляют желать лучшего. В крупных городах он ещё более-менее, а при выезде за их пределы мобильный интернет может и совсем пропадать. При этом для решения задач навигационной системы в автомобиле или даже просто мультимедийной интернет не нужен. Есть офлайновые навигаторы, которыми можно управлять голосом, для этого встроенное распознавание очень даже хорошо применимо.

Среди мобильных приложений, где голос используется чаще всего?

В тех мобильных приложениях, где необходимо вводить текст. А еще чаще в программах, которые используются на ходу или за рулём.


Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: