Vall-E — нова ШІ-технологія Microsoft, що надзвичайно точно імітує голос людини на основі 3-секундного семплу

Дослідники Microsoft створили нову модель штучного інтелекту Vall-E, що здатна відтворити голос, ідентичний до людського. Зазначається, що Vall-E навчається на “дискретних кодах, отриманих зі стандартної моделі нейронного аудіокодека”, а також на записах 60 тисяч годин розмов (це у 100 разів більше, ніж у системах, що вже існують) понад 7 тисяч спікерів. Більшість діалогів взяті із загальнодоступних сайтів з аудіокнигами LibriVox.