Земля. Хроники Жизни.
Главная | Регистрация | Вход
 
Четверг, 27.06.2019, 01:32
Приветствую Вас Гость |Личные сообщения() ·| PDA | RSS
Меню сайта
Форма входа
Логин:
Пароль:
Категории раздела
Аномалии [3695]
Атмосфера [1579]
Археология [5602]
Авторские статьи [489]
Вулканы [3477]
Война [1017]
Гипотезы [6302]
Другое [8076]
Животные [3234]
Землетрясения [4671]
Засуха [396]
Избранное [367]
Климат [3720]
Космос [12312]
Карстовые провалы [513]
Круги и рисунки на полях [542]
Медицина и здоровье [2333]
Наука [12082]
НЛО [4775]
Наводнения [3622]
Океан [879]
Оползни [756]
Пожары [991]
Прогноз [1345]
Политические факторы [3491]
Предсказания и пророчества [745]
Радиация [654]
Солнце [2021]
Стихия [3687]
Сверхъестественное [1838]
Технологии [6135]
Тайны истории [6099]
Ураганы [3255]
Факторы и аварии [7973]
Хочу все знать [30]
Этот безумный мир [1436]
Экология [1592]
Эпидемии [1099]
Эксклюзив [308]
Разговоры у камина
Статистика

Онлайн всего: 110
Пользователей: 109
Новых: 1
Eidos
Главная » 2019 » Май » 28 » Нейросеть нарисовала лицо по голосу
14:31
Нейросеть нарисовала лицо по голосу

Американские разработчики представили нейросетевую модель Speech2Face. Обученная на нескольких миллионах видео, эта модель умеет воссоздавать по спектрограмме речи человека примерное изображение его лица, основываясь на трех основных параметрах: поле, расе и возрасте. Описание алгоритма и результаты его работы доступны в препринте, опубликованном на arXiv.org.
 
На фото выше: Реальные изображения людей, восстановленные изображения и изображения, сделанные на основе голоса

По голосу человека можно с разной точностью определить некоторые его особенности: легко можно определить пол, чуть сложнее (но все равно возможно) — возраст, а наличие акцента дает общее представление о национальности. В результате этого можно примерно представить, как выглядит человек, но это представление не будет достаточно точным.

Ученые из Массачусетского технологического института при участии Тэхёна О (Tae-Hyun Oh) решили проверить, можно ли точно восстановить внешность человека по его голосу с помощью машинного обучения. Для обучения нейросети они использовали датасет AVSpeech, состоящий из более миллиона коротких видео более ста тысяч разных людей: каждое видео в базе данных разделено на аудио- и видеодорожку. Архитектура натренированной нейросети устроена следующим образом. Сначала предварительно натренированный алгоритм VGG-Face (ранее его использовали для создания модели, которая умеет определять сексуальную ориентацию человека — при условии ее бинарности) использует особенности лица человека из кадра на видео для создания изображения лица человека в анфас с нейтральным выражением лица. Другая часть алгоритма воссоздает из аудиодорожки использованного видео (небольшого фрагмента — от 3 до 6 секунд) спектрограмму речи и, используя результаты из параллельной нейросети, генерирующей изображение лица, дает на выход примерное изображение лица человека, который разговаривает на видео.
 

Схема работы алгоритма

Точность разработанного алгоритма оценили по трем демографическим показателям: ученые сравнили пол, примерный возраст и расу оригинального изображения человека из видео и изображения, восстановленного на основе голоса. Несмотря на то, что авторам удалось добиться успехов в восстановлении изображений некоторых людей по видео, объективные метрики показывают несовершенство разработанной модели. В частности, модель хорошо угадывает пол человека, но редко может определить возраст с точностью до десяти лет, а также лучше всего «рисует» людей с европеоидной и азиатской внешностью. Последнее разработчики объясняют неравномерным распределением рас в обучающей выборке.
 

Матрица ошибок для пола, расы и возраста. Чем контрастнее цвет по диагонали, тем точнее определен параметр
   
Исследователи отметили, что целью их работы не было точное восстановление внешности человека по его голосу; сосредоточились они именно на выделении и точности некоторых важных параметров: пола, возраста и этнической принадлежности. Именно поэтому точно показать по голосу, как выглядит человек, пока что нельзя: при этом определенных параметров хватит для того, чтобы создавать, к примеру, анимационные аватары человека по его голосу. Также ученые отмечают, что их работа носит также исследовательскую пользу: генерация целых лиц на основе голоса поможет лучше изучить корреляцию с внешностью.
На прошлой неделе другой алгоритм, который выделяет особенности лица из изображения человека, использовали для того, чтобы превратить статичные изображения (не только фотографии, но и картины) в анимированные изображения.
Категория: Технологии | Просмотров: 728 | Добавил: Maks | Рейтинг: 5.0/| Оценить |Источник:https://nplus1.ru
Всего комментариев: 1
0
1 Eternal_change  
Не получится. Нет зависимости. Если человек развивает речь, его лицо не меняется.

Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]
Поиск по сайту
Мониторинг
Сейсмическая активность
Солнечная активность
Фазы луны
3D Планета Земля
Солнечная система
Космическая погода
Веб камеры мира
Системы мониторинга
Ионосферная активность
Вспышки на Солнце
Мониторинг вулканов
ТОП Новостей
Загрузка...
Календарь
Архив записей
Новое на форуме

1. ВСЁ.., ЧТО В МИРЕ.., ИНТЕРЕСНО..!!! часть №2

(8108)

2. ЗЕМЛЯ ПЛОСКАЯ..!!...так ли это..??

(3310)

3. Давайте предсказывать будущее

(5676)

4. Прогулки в Квантовом Мире

(1876)

5. Калейдоскоп

(635)

Последние комментарии

Если спать так, можно и не про...

А торф это что? Хватит березов...



При использовании материалов Земля - Хроники Жизни гиперссылка на сайт earth-chronicles.ru обязательна.
Top.Mail.Ru Яндекс цитирования