Земля. Хроники Жизни.
Главная | Регистрация | Вход
 
Четверг, 14.12.2017, 12:54
Приветствую Вас Гость |Личные сообщения() ·| PDA | RSS
Меню сайта
Форма входа
Логин:
Пароль:
Категории раздела
Аномалии [3070]
Атмосфера [1339]
Археология [4192]
Авторские статьи [486]
Вулканы [2983]
Война [1012]
Гипотезы [5970]
Другое [6761]
Животные [2263]
Землетрясения [4182]
Засуха [358]
Избранное [299]
Климат [3162]
Космос [9644]
Карстовые провалы [470]
Круги на полях [488]
Медицина и здоровье [1739]
Наука [9589]
НЛО [4278]
Наводнения [3047]
Океан [746]
Оползни [593]
Пожары [805]
Прогноз [1219]
Политические факторы [3485]
Предсказания и пророчества [688]
Радиация [628]
Солнце [1896]
Стихия [3052]
Сверхъестественное [1624]
Технологии [5243]
Тайны истории [4743]
Ураганы [2827]
Факторы и аварии [7842]
Хочу все знать [29]
Этот безумный мир [1382]
Экология [1330]
Эпидемии [974]
Эксклюзив [308]
Разговоры у камина
Статистика

Онлайн всего: 213
Пользователей: 202
Новых: 11
Мурашка, Raoum, ybrjkfif70, southeast, заКадром, tom_32, Ariella, vitkon, mavik0305, Pjhon108, NDS
Главная » 2017 » Октябрь » 7 » Нейронная сеть научилась копировать человеческий голос
13:57
Нейронная сеть научилась копировать человеческий голос

В прошлом году компания DeepMind, занимающаяся разработками технологий искусственного интеллекта, поделилась деталями о своем новом проекте WaveNet – нейронной сети глубинного обучения, использующейся для синтезации реалистичной человеческой речи.  На днях была выпущена усовершенствованная версия этой технологии, которая будет использоваться в качестве основы цифрового мобильного ассистента Google Assistant.

Система голосового синтезирования (также известная как функция преобразования «текст-в-речь», text-to-speech, TTS) обычно строится на базе одного из двух основных методов. Конкатенативный (или компилятивный) метод подразумевает построение фраз путем сбора отдельных кусков записанных слов и частей, заранее записанных с привлечением актера озвучания. Основным недостатком такого метода является необходимость постоянной замены звуковой библиотеки всякий раз, когда происходят какие-нибудь обновления или вносятся изменения.

Другой метод носит название параметрического TTS, и его особенностью является использование наборов параметров, с помощью которых компьютер генерирует нужную фразу. Минус метода в том, что чаще всего результат проявляется в виде нереалистичного или так называемого роботизированного звучания.

Что же касается WaveNet, то она производит звуковые волны с нуля на базе системы, работающей на основе сверточной нейронной сети, где генерация звука происходит в несколько слоев. Сначала для тренировки платформы синтезации «живой» речи ей «скармливают» огромный объем образцов, при этом отмечая, какие звуковые сигналы звучат реалистично, а какие нет. Это наделяет голосовой синтезатор возможностью воспроизводить натуралистичную интонацию и даже такие детали, как чмокающие звуки губами. В зависимости от того, какие образцы речь прогоняются через систему, это позволяет ей развить уникальный «акцент», что в перспективе может использоваться для создания множества разных голосов.

Остра на язык

Пожалуй, самым большим ограничением системы WaveNet являлось то, что для ее работы требовалось наличие огромного объема вычислительной мощности, и даже при выполнении этого условия она не отличалась скоростью работы. Например, для генерации 0,02 секунды звука ей требовалось около 1 секунды времени.

Спустя год работы инженеры DeepMind все-таки нашли способ, как улучшить и оптимизировать систему таким образом, что теперь она способна производить сырой звук длительностью в одну секунду всего на 50 миллисекунд, что в 1000 раз быстрее ее изначальных возможностей. Более того, специалистам удалось повысить частоту дискретизации звука с 8-битного до 16-битного, что положительно сказалось на тестах с привлечением слушателей. Благодаря этим успехам, для WaveNet была открыта дорога к интеграции в такие потребительские продукты, как Google Assistant.

В настоящий момент WaveNet может использоваться для генерации английских и японских голосов через Google Assistant и все платформы, где используется этот цифровой ассистент. Так как система может создавать особый тип голосов в зависимости от того, какой набор образцов был ей предоставлен для обучения, то в скором времени Google, вероятнее всего, внедрит в WaveNet поддержку синтезации реалистичной речи и на других языках, и в том числе с учетом их местных диалектов.

Речевые интерфейсы становятся все более и более распространенными на самых разных платформах, однако их явно выраженная неестественная природа звучания отталкивает многих потенциальных пользователей. Попытки компании DeepMind усовершенствовать эту технологию, безусловно, поспособствуют более широкому распространению таких голосовых систем, а также позволят улучшить пользовательский опыт от их использования.
Категория: Технологии | Просмотров: 988 | Добавил: Maks | Рейтинг: 5.0/| Оценить
Всего комментариев: 0
Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]
Поиск по сайту
Мониторинг
Сейсмическая активность
Солнечная активность
Фазы луны
3D Планета Земля
Солнечная система
Космическая погода
Веб камеры мира
Системы мониторинга
Ионосферная активность
Вспышки на Солнце
Мониторинг вулканов
ТОП Новостей
Нейрохирург утверждает, что побывал «на том свете»
Фотограф нашел видеокамеру, украденную чайкой полг...
Глобальное потепление привело Арктику к «новой нор...
Как анестезия действует на растения
Ученые открыли новый способ похудеть
Календарь
Архив записей
Новое на форуме

1. Лунница ) тема для женщин

(152)

2. ЗЕМЛЯ ПЛОСКАЯ..!!...так ли это..??

(1722)

3. Луна. Растения. Животные. Аннотация «Часть-5».

(92)

4. Давайте предсказывать будущее

(3198)

5. ВСЁ.., ЧТО В МИРЕ.., ИНТЕРЕСНО..!!! часть №2

(3526)

Последние комментарии


хм ....Чип поставить - для воз...



Активность Солнца

При использовании материалов Земля - Хроники Жизни гиперссылка на сайт earth-chronicles.ru обязательна.
Рейтинг@Mail.ru Яндекс цитирования