Блоги Блоги 31.08.2018 в 14:45 comment

Команда Google Cloud обновила сервисы Cloud Text-to-Speech и Cloud Speech-to-Text

author avatar
https://secure.gravatar.com/avatar/341ba260d57a6855744e3c0760decc30?s=96&r=g&d=https://itc.ua/wp-content/uploads/2023/06/no-avatar.png *** https://secure.gravatar.com/avatar/341ba260d57a6855744e3c0760decc30?s=96&r=g&d=https://itc.ua/wp-content/uploads/2023/06/no-avatar.png *** https://itc.ua/wp-content/themes/ITC_6.0/images/no-avatar.svg

Команда Google Cloud объявила в своем блоге о стабильном выпуске API для синтеза речи Cloud Text-to-Speech с экспериментальной функцией аудиопрофилей и поддержкой нескольких новых языков, а также — о нововведениях в сервисе для расшифровки аудио Cloud Speech-to-Text, который научился распознавать разных спикеров и самостоятельно определять язык записи из нескольких возможных.

Cloud Text-to-Speech

Вместе с переходом на стабильный рабочий режим, API для перевода письменной речи в устную получил поддержку ряда новых языков и голосов, созданных с помощью технологии WaveNet. В общей сложности пользователям доступно 14 языков и диалектов (увы, ни украинского, ни русского среди них нет), на которых говорит 30 стандартных «голосов» и 26 тех, что основаны на WaveNet.

Помимо этого, в бета-режиме запущена функция аудиопрофилей. Она позволяет автоматически оптимизировать аудиофайл для конкретного устройства: «умных» часов и других носимых гаджетов, смартфонов, наушников, обычных и стереоколонок, аудиосистем «умного» дома, автомобильных динамиков. Также можно установить режим «по умолчанию».Google Cloud Text-to-Speech

Cloud Speech-to-Text

API для перевода аудио в текст, Cloud Speech-to-Text, в свою очередь, получил функцию распознавания спикеров по голосу. Используя машинное обучение, система при транскрибировании разделяет реплики разных людей и помечает их номерами. Впрочем, в начале обработки аудиофайла требуется указать количество спикеров.

Также команда Google Cloud добавила функцию автоопределения языка на записи. Используя API для своих приложений, разработчик может указывать до 4 языков в одном запросе. На момент написания новости инструмент поддерживает 120 языков (включая украинский язык).

Кроме этого, с обновленным Cloud Speech-to-Text разработчики могут присваивать уровни важности отдельным специфическим словам. Команда Google Cloud приводит в пример такую команду пользователя: «Занеси, пожалуйста, в календарь встречу с Джоном на завтра, в 2 часа дня». В этом предложении «пожалуйста» значит меньше, чем «Джон» или «2 часа дня», поэтому приложение при необходимости попросит человека повторить время или имя, но не пустые слова вежливости.

Курс Full-stack розробки від Mate academy.
Станьте Full-stack розробником з нуля. Mate academy дає комплексні знання і навички для розробки повноцінних веб-рішень — від візуальної частини до серверної логіки. Ви освоїте технології, щоб створити власний проєкт від а до я — без допомоги інших.
Ознайомитися з курсом

Напоследок отметим, что технологию синтеза речи Google долгое время использовала лишь в собственных продуктах поискового гиганта. Сторонним разработчикам она стала доступна в марте 2018 года с выбором из 32 голосов и 12 языков. А сервис расшифровки устной речи раньше назывался Cloud Speech API, и нынешнее имя получил в апреле 2018 года вместе с новыми моделями для анализа звонков и видео.

Источник: tproger


Loading comments...

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: