Команда Google Cloud объявила в своем блоге о стабильном выпуске API для синтеза речи Cloud Text-to-Speech с экспериментальной функцией аудиопрофилей и поддержкой нескольких новых языков, а также — о нововведениях в сервисе для расшифровки аудио Cloud Speech-to-Text, который научился распознавать разных спикеров и самостоятельно определять язык записи из нескольких возможных.

Cloud Text-to-Speech

Вместе с переходом на стабильный рабочий режим, API для перевода письменной речи в устную получил поддержку ряда новых языков и голосов, созданных с помощью технологии WaveNet. В общей сложности пользователям доступно 14 языков и диалектов (увы, ни украинского, ни русского среди них нет), на которых говорит 30 стандартных «голосов» и 26 тех, что основаны на WaveNet.

Помимо этого, в бета-режиме запущена функция аудиопрофилей. Она позволяет автоматически оптимизировать аудиофайл для конкретного устройства: «умных» часов и других носимых гаджетов, смартфонов, наушников, обычных и стереоколонок, аудиосистем «умного» дома, автомобильных динамиков. Также можно установить режим «по умолчанию».

Cloud Speech-to-Text

API для перевода аудио в текст, Cloud Speech-to-Text, в свою очередь, получил функцию распознавания спикеров по голосу. Используя машинное обучение, система при транскрибировании разделяет реплики разных людей и помечает их номерами. Впрочем, в начале обработки аудиофайла требуется указать количество спикеров.

Также команда Google Cloud добавила функцию автоопределения языка на записи. Используя API для своих приложений, разработчик может указывать до 4 языков в одном запросе. На момент написания новости инструмент поддерживает 120 языков (включая украинский язык).

Кроме этого, с обновленным Cloud Speech-to-Text разработчики могут присваивать уровни важности отдельным специфическим словам. Команда Google Cloud приводит в пример такую команду пользователя: «Занеси, пожалуйста, в календарь встречу с Джоном на завтра, в 2 часа дня». В этом предложении «пожалуйста» значит меньше, чем «Джон» или «2 часа дня», поэтому приложение при необходимости попросит человека повторить время или имя, но не пустые слова вежливости.

Напоследок отметим, что технологию синтеза речи Google долгое время использовала лишь в собственных продуктах поискового гиганта. Сторонним разработчикам она стала доступна в марте 2018 года с выбором из 32 голосов и 12 языков. А сервис расшифровки устной речи раньше назывался Cloud Speech API, и нынешнее имя получил в апреле 2018 года вместе с новыми моделями для анализа звонков и видео.

Источник: tproger