allBanks.com.ua - крупнейший каталог банков
Банки Украины: Все
Киев Харьков Днепропетровск Одесса

Baidu представила улучшенный алгоритм клонирования речи

28.02.2018 в 11:02
Baidu представила улучшенный алгоритм клонирования речи

Китайский технологический гигант Baidu представил улучшенную систему синтеза речи Deep Voice. Технология быстро обучается и воспроизводит текст голосом говорящего с высокой точностью. «Аудиоклонирование» позволяет искусственно генерировать любые слова и предложения, воссоздавая при этом акцент и другие особенности речи говорящего.

В новом исследовании Baidu представила усовершенствованную технологию распознавания речи Deep Voice. В блоге компания рассказала, что на обучение алгоритма уходит не более получаса. За это время система изучает образцы голоса говорящего и учится их имитировать. Один алгоритм способен воспроизводить тысячи голосов. Однако чем больше образцов изучает система, тем качественнее становится имитация.

На сайте GitHub можно прослушать аудиофайлы с демонстрацией возможностей Deep Voice. Для сравнения компания опубликовала примеры клонированной речи, воссозданной на примере 5, 10, 20, 50 и 100 образцов. После 5 и 10 образцов алгоритм воспроизводит речь не слишком отчетливо. По мере обучения синтезированная речь становится все более правдоподобной. Но, как отмечает The Register, пока имитацию можно отличить от оригинала по низкому качеству звука и шумам.

Компания представила технологию Deep Voice в марте прошлого года. В мае алгоритм Deep Voice 2 уже научился имитировать акценты и синтезировать речь всего за полчаса. Тогда система могла работать с сотнями образцов. Улучшенная модель способна обрабатывать тысячи голосов. При этом синтезировать голос алгоритм может даже после прослушивания коротких фраз длиной в несколько секунд.

При клонировании голоса Baidu использует две техники — метод адаптации и метод расшифровки. В первом случае система изучает голоса нескольких говорящих. В экспериментах компания использовала набор данных LibriSpeech, в котором собраны образцы речи 2484 человек. Алгоритм выделяет отдельные компоненты в произнесенных фразах и имитирует голос с учетом особенностей произношения и ритма. При методе расшифровки система исследует речь каждого говорящего в отдельности, а сам процесс занимает всего несколько секунд.

Мы в AllBanks.com.ua ВКонтакте Следить за нами :) AllBanks.com.ua  на Facebook

Курсы НБУ на

  c
0.00 0.00
0.00 0.00
0.00 0.00
Все курсы валют НБУ

Новости RSS Новости

04:00 WhatsApp представил функцию «беспарольного» входа: как ее включить
02:15 В США представили самый большой в мире 3D-принтер, который может напечатать дом за 80 часов (фото)
01:45 Google Meet разрешил переключаться между устройствами во время вызова без прерывания связи
01:00 Toyota впервые продала рекордные 10,3 миллиона авто за год
23:15 Контроль массового туризма: в Амстердаме под запрет попало строительство новых отелей
22:15 Стало известно, сколько средств потратили TikTok и ByteDance на рекламу в попытке избежать блокировки в США
21:30 Какое место в Европе заняла Украина в рейтинге продаж электромобилей (таблица)

Главные новости RSS Новости

Microsoft опередила Amazon в рейтинге самых дорогих компаний мира
30.10.2018 в 12:32
IBM покупает производителя облачных сервисов Red Hat за $34 миллиарда
30.10.2018 в 12:32
Нейросеть научилась распознавать письменный обман
30.10.2018 в 12:31
Длительное пребывание в космосе сократило объем нервных клеток в мозге астронавтов
29.10.2018 в 10:48
Nokia намерена сократить годовые расходы на 700 млн евро
29.10.2018 в 10:43

Авторизация