«Яндекс» представил в Берлине новую облачную платформу для распознавания речи SpeechKit Cloud. Разработка системы распознавания речи внутри компании стартовала ещё в 2012 году. «Прежде всего, мы хотели разобраться, а как же работает распознавание речи, есть ли там какой-то rocket science, и вообще, какие специалисты нам нужны, чтобы создать свою технологию» — рассказал Денис Филиппов, руководитель отдела голосовых технологий и продуктов «Яндекса». Весной 2013 года компания сделала первый шаг в этом направлении, представив проект SpeechKit Mobile SDK, распознавание речи в котором использует порядка 400 мобильных приложений, включая собственные программы «Яндекса». Выпуск SpeechKit Cloud — это дальнейшее развитие технологии распознавания речи компании, теперь она станет доступна для бизнес-пользователей. На данный момент платформа умеет работать с русским и турецким языками, и в ближайшее время «Яндекс» обещает добавить поддержку английского. По поводу украинского языка компания пока думает.

Возможности технологии SpeechKit Cloud на данный момент включают распознавание коротких текстов, это могут быть SMS или сообщения в соцсетях, поисковые запросы, состоящие из 3-5 слов, а также голосовой ввод географической информации, такой как адреса и названия организаций. Что касается качества распознавания речи, в «Яндексе» утверждают, что оно находится на высоком уровне. «В мире есть стандартная метрика Word Error Rate (пословная ошибка). Как мы её меряем? Мы берём случайную выборку запросов из сервисов «Яндекса», скажем, суммарно это будет 10 000 слов. Дальше эти запросы даются человеку, он их прослушивает, и записывает то, что там было сказано. А потом эти же запросы распознаёт система, и выдаёт свой результат. Дальше мы начинаем сравнивать то, что написал человек, что распознала система, и считаем ошибки. То есть мы определяем суммарный процент ошибок по всем 10 000 слов, и за ошибку мы считаем, когда неверно распознано слово, или когда в нём неправильно распознано окончание. В диктовке коротких текстов мы правильно распознаём 82% слов, это уже очень хорошее качество, потому что даже человек не идеально решает эту задачу, он верно распознаёт 96% слов. В коротких запросах SpeechKit Cloud распознаёт 85% слов, а человек 98%. А вот в геозапросах мы распознаём правильно уже 95% слов, это очень близко к уровню распознавания человека» — объяснил методику определения качества распознавания Денис Филиппов.

Скорость распознавания речи, по словам Филиппова, также является важным параметром, и SpeechKit Cloud в среднем сейчас отвечает за одну секунду. Кроме этого, в сервисе есть поддержка потокового распознавания, пользователь может отправлять для обработки не всю запись речи, а делать это маленькими кусками. Когда человек начинает говорить, его речь начинает понемногу передаваться на сервер, и к моменту, когда он закончит говорить, она уже будет распознана. Сервису останется только вернуть её в виде текста, а это, как уверяет Денис Филиппов, очень часто происходит без задержек. Но, безусловно, в этом плане многое зависит от скорости интернет-соединения.

Основной целевой аудиторией SpeechKit Cloud «Яндекс» видит коммерческие организации, такие как разработчики платного ПО и сервисов, системные интеграторы и другие. Доступ к SpeechKit Cloud компания будет предоставлять на платной основе, клиенты должны будут платить за каждый запрос, и цена будет зависеть от объёма. По словам Дениса Филиппова, в среднем цена составит $5 за 1 000 запросов, но есть вариант и бесплатного доступа: «Мы готовы рассматривать использование нашего сервиса на бесплатных условиях для различных образовательных и информационных проектов».

В «Яндексе» видят применение SpeechKit Cloud в самых разных областях, включая медицину, телефонию, системах управления умными домами. Одним из первых клиентов SpeechKit Cloud стала российская компания Cubic Robotics, которая создаёт персонального робота для дома Cubic.

Устройство представляет собой небольшой куб с платформой на основе Android внутри, которая использует новый сервис «Яндекса» для распознавания голосовых команд. По словам Юрия Бурова, CEO Cubic Robotics, за всё время использования SpeechKit Cloud проблем с сервисом пока не было.

В стартапе планируют в этом году выйти на один из краудфандинговых сервисов и запустить робота в серийное производство, тогда сервис «Яндекса» можно будет протестировать на полную. На данный же момент Cubic умеет отвечать на различные вопросы, ответы на которые, в основном, также берёт из поиска «Яндекса», предупреждать о пробках или плохой погоде, а также управлять умным домом пользователя.

В целом, SpeechKit Cloud может дать толчок к развитию разнообразных сервисов и стартапов, которым необходимо распознавание русского языка. Надеемся, что «Яндекс» всё-таки реализует поддержку украинского языка. Тем более что, по словам Дениса Филиппова, после того, как инфраструктура и алгоритмы готовы, сделать это совсем не сложно.