Александр Коновалов, DROTR: Наше приложение позволяет свободно общаться на 29 языках

1445blog1401269211

Совсем недавно компания Microsoft представила технологию под названием Skype Translator, которая позволят буквально на лету переводить голосовые и видеозвонки. Для широкой публики данная разработка станет доступна только к концу этого года. Тем не менее, как оказалось, украинская компания Technology Improves the World (TIW) уже давно реализовал подобную функциональность в своём мобильном приложении DROTR. О перспективности сервиса автоматического голосового перевода, его качестве, возможностях, а также о конкуренции со Skype Translator мы пообщались с Александром Коноваловым, руководителем и автором проекта DROTR – Droid Translator, а также CEO компании TIW.

Что такое DROTR и как работает этот сервис?

DROTR или полное название Droid Translator  — это универсальное средство общения. Сервис включает — чат и звонки (в том числе видео звонки) с переводом в реальном времени. Слоган нашего проекта «Говори с миром на своем языке» — полностью отображает смысл и функциональность продукта. Наше приложение позволяет свободно общаться на 29 языках.

Как давно вы занимаетесь разработкой этого проекта?

Konovalov_AleksandrС мая 2013 года. Первый релиз в Google Play был выложен 26.06.2013 года. Тогда мы реализовали первую версию, которая работала с дополнительным электронным USB-устройством. То есть, мы подключали его к телефону или планшету, и осуществляли синхронный перевод видеозвонков Skype. Потом было много работы в направлении упрощения использования, нашли решение как делать перевод без отдельного устройства, ведь это было слабым местом продукта. Кроме того, переводить Skype оказалось очень неблагодарным занятием, так как он крайне нестабильно и очень по-разному работал на всех Android-устройствах, и главное — подобную модель мы бы не смогли использовать на iOS, где приложение не может на полную работать в фоне. В Android, при вызове из Droid Translator, программа сворачивалась в фон, и осуществляла перевод во время звонка Skype. Все работало, мы это сделали первыми в мире. Тем не менее, всегда хочется большего, и чтобы пользователь был доволен простым, стабильным и кроссплатформенным решением. Поэтому мы запустили полностью новую версию DROTR с уже нашим сервисом видеозвонков. Теперь мы полностью независимый и уникальный VoIP сервис с мгновенным переводом.

Как выглядит ваша бизнес-модель?

В Android это бесплатное приложение, в котором доступен текстовый чат без перевода, а также с переводом. То есть скачав приложение, вы бесплатно можете общаться с людьми на 29 языках. Когда нужно — можно оформить подписку на голосовые звонки внутри приложения с переводом за $0,99 в месяц. Чтобы попробовать DROTR и понять как он работает — на услугу доступен бесплатный период 7 дней. Дополнительно можно приобрести видеозвонки с переводом, стоят они $3 в месяц, и платить за эту услугу только тогда, когда она необходима. Пробного периода пока нет, но для проверки мы предлагаем связываться с нашей службой поддержки, чтобы вместе с нами протестировать как это работает.

Сколько человек принимают участие в разработке?

Недавно смотрел информацию о различных проектах, которые, в определённой степени, тоже стартапы. Так вот, например, в Evernote работает 600 человек, в Fab.com — 750 человек, мы пока столько себе позволить не можем. И хотя с технологической точки зрения наш проект не проще, сегодня у нас раз в 50 людей меньше 🙂 Но нас отличная команда, и я уверен, что главное не количество, а профессионализм.

Какие технологии лежат в основе DROTR? Как он работает?

DROTR — это комбинация пяти составляюших: VoIP технологии, распознаватели речи (в Android это Google, в iOS это Nuance), машинный переводчик (Bing Microsoft), синтезаторы речи (Google, Acapella, Nuance) и наши разработки, позволяющие все это объединить и улучшить стабильность и качество.

DROTR — это полностью роботизированный перевод или в нём принимают участие живые люди?

Все что мы делаем — полностью автоматизировано. Весь смысл в том, чтобы в полной мере использовать технологии, и делать все без участия человека. Например, Skype еще в 2010 году запустил услугу перевода видеозвонков. Только, как оказалось, это был перевод с включением человека-переводчика в разговор, за $3….в минуту. Услуга эта надолго не прижилась и многие о ней даже не узнали, хотя анонсировалась она как мега прорыв от гиганта IТ-рынка.

Насколько качественным можно назвать перевод с помощью DROTR?

На каждый товар есть свой покупатель. Безусловно, автоматизированным системам пока очень далеко до качества, которое может дать человек-переводчик. Но наш сервис исключает третью сторону, он в десятки раз дешевле, и главное — общаясь на обычные жизненные темы — вы полностью поймете друг друга. Буквально на днях мне написал клиент из России, он общался с испанцем, а потом с китайцем с помощью DROTR. Он говорил с ними на русском языке, а они на своем. Все очень впечатлились, и остались крайне довольны, ждут десктопную версию и поддержку iOS, чтобы можно было общаться с большим числом людей, так как Android-клиенты — это далеко не весь рынок.

Я, например, с помощью DROTR давал интервью чешскому Forbes. В общей сложности мы пообщались с журналистом за два раза около 4 часов. Был перевод мобильного звонка — он говорил на чешском, я на русском, DROTR переводил. Мы полностью поняли друг друга, хотя были моменты неточного распознавания речи. Но так как ведется стенограмма разговора, то видно когда перевод был неправильным и фразу нужно повторить. Из этого можно сделать вывод, что благодаря DROTR можно полностью понять друг друга. Выражения или утверждения, что выучив английский язык можно будет общаться со всем миром — это уже вчерашний день. Кроме того, это глубокое заблуждение, ведь каждая нация любит свой язык, и хочет говорить с миром на нём. Французы на французском, арабы на арабском и т.д.

Есть ли задержка во время живого общения, сколько времени нужно сервису чтобы перевести фразу средних размеров?

Первая фраза немного дольше — около 5 секунд, все следующие 2-3 секунды, то есть практически лаг не заметен. Основное неудобство сегодня — что не передается оригинал речи. С каждой стороны слышен синтез речи на своем языке, оригинала речи (когда человек закончил фразу, интонация) — не слышны. Хоть и кажется на первый взгляд — зачем слышать если не знаешь языка, но все же для привычного общения важно слышать интонацию, тембр, время окончания фразы. На iOS мы сделали такую возможность, клиенты смогут слышать оригинал речи и потом синтез переведенной речи. К слову iOS-версия готова и находится на модерации. Есть одно но — такая услуга существенно удорожает сервис и бизнес-модель на iOS в силу лицензионных кабальных условий от Nuance будет обходится клиенту в 2- 3 цента за фразу. На iOS мы будем продавать не подписки на месяц, а пакеты в 100, 500 и 1000 фраз, за $3, $10 и $20, соответственно. Но за удобства надо платить, пока других решений для iOS не существует. Встроенный сервис работы с речью в мобильной ОС Apple еще крайне недоработан для широкого применения.

Сколько языков поддерживает сервис, и как вы справляетесь, например, с китайским?

Как я ужеговорил — 29 языков, это перевод любых языковых пар, из них 27 имеют и распознаватель и синтезатор, украинский язык не имеет синтезатора, а иврит — не имеет распознавателя.

Приложение локализовано на все 29 языков (интерфейс). С китайским справляемся, пусть качество еще не очень, но как я говорил — понять друг друга можно. Китайцы очень довольны и благодарны нам, как и пользователи, разговаривающие на арабском. Для них проблема языкового барьера — это проблема совсем другого уровня, чем, например, для США, где ее вообще нет. Поэтому рынок США для нас не является приоритетным, мы больше ориентированы на страны, где английский не является национальным языком.

Как приложение справляется с тем, если человек не очень грамотно говорит на своём языке? Понимает ли оно диалекты?

Пока нареканий на качество перевода или распознавания не было. Если язык для человека родной — все работает нормально. Конечно, бывают случаи, когда люди думают что знают например, английский, пытаются на нем говорить, а родной язык другой. Тогда появляется масса вариантов и качество не очень. Сейчас для качественной работы распознавания есть два основных критерия — язык должен быть родным, и говорить нельзя тихо, желательно погромче, тогда все хорошо. Но над вторым пунктом мы работаем и в наших новых продуктах мы уже скоро этот недостаток исправим.

Как вы планируете конкурировать со Skype, ведь они представили схожий сервис?

То что Skypе представил прототип полностью нашей функциональности — я только рад. Во-первых, они не представили продукт, а представили только прототип того, что у нас уже является продуктом. Во-вторых, их плановый срок запуска только на Windows 8 и только к концу года. В-третьих — то, что они за это взялись, лишь подтверждает правильность нашего пути. Ведь, например, как нам было тяжело общаться с инвесторами, менторами, которые задавали одни и те же вопросы: «если это не сделал Google и Skype значит это никому не надо…..» Понятно что это были скорее «менторы», чем менторы, но все равно, теперь этот вопрос снят, и это хорошо. И последнее — они еще не знают некоторых вещей, которые знаем мы.

В какой стране приложение DROTR пользуется самой большой популярностью?

Страны с арабским языком. Китай мы еще не пробовали отдельно, ведь там свои законы, как юридические, так и маркетинговые, но даже без продвижения люди пользуются нашим продуктом, и хорошо отзываются о нём. Большую популярность сервис имеет в Турции, Саудовской Аравии, Египте, а также в тех странах, где основной язык не английский.

Какие языки вы планируете добавить в DROTR в ближайшее время?

Самый ожидаемый — это, безусловно, хинди. Думаю, за год-два у нас появится поддержка этого языка, и тогда мы обеспечим более 95% покрытия населения Земли. Сейчас это около 80%.

Есть ли шанс увидеть поддержку редких языков?

Работа над речевыми технологиями — хороший тренд, заявленный в конце 2013 года Google. Много в этом направлении делает Microsoft, еще есть такие компании как Nuance. В целом, думаю, на сегодня вопрос стоит не столько остро в небольших, редких языках, сколько в увеличении качества работы с уже заявленными языками. Тут мы приложим и свои усилия, сейчас наше отдельное направление разработки — улучшение работы речевых технологий. Мы знаем проблематику, поэтому на основе математических моделей и программирования работаем над решением актуальных проблем. В этом месяце мы заканчиваем новую функциональность — перевод личных бесед, под брендом DROTR Local. Пользователи, работающие с сервисом Google Translate в режиме разговора, воспользовавшись нашим продуктом, сразу поймут все преимущества нашей разработки. Это будет продукт с совершенно новыми потребительскими качествами, с удовольствием покажем его уже в следующем месяце, он сразу будет портирован под iOS, потом будем переносить и на Android.