В Сети появился онлайн-сервис, который может менять голос
Как с помощью нейросети в Интернете можно изменить свой голос
Компания Dwango Media Village , занимающаяся исследованиями и разработками, а также применением сервисных приложений, ориентированных на машинное обучение, анонсировала систему преобразования голоса, которая может изменить звучание любого человека, переформатировав его голос в чужой.
Вот пример работы искусственного преобразования голоса, которое может изменить любой голос в голоса сотни других человек — Dwango Media Village (dmv)
Демонстрация работы системы преобразования голоса, названная Dwango Media Village «Seiren Voice», доступна на следующих сайтах: Seiren Voice (AI Voice Changer) . Стоит отметить, что существуют и отечественные аналогичные проекты, с гораздо более интересным подбором тембров голосов, привычных слуху соотечественников, например технологии на основе методики DeepFake .
Видео взято с YouTube-канала «Vera Voice»
Но что отличает продукт от Dwango Media Village, так это возможность опробовать его собственным голосом. По крайней мере, попытаться это сделать, поскольку сайт японский и может неверно распознавать иностранную речь, да и не со всеми браузерами и платформами он «дружит». Например, с iPhone может не воспринимать речь через любой из браузеров, а с десктопа через браузер Firefox сработает. Как бы то ни было, в компании обещают, что технология будет развиваться и сайт будет также улучшен, а значит, и функционал будет расширен.
Вы можете записать собственный голос, нажав «Запись» (для удобства элементы управления выделены на скриншотах)
Появится всплывающее окно с запросом разрешения на использование микрофона. Нажмите «Разрешить», чтобы немедленно начать запись (для этого компьютер должен быть оборудован микрофоном).
Пишем любую фразу, но ее лучше не растягивать более чем на 5 секунд.
Когда запись будет завершена, справа от кнопки Записи/ Воспроизведения (на скриншоте она выделена) появится тембр вашего голоса в форме волны.
Далее нужно будет ввести текст, который вы прочитали вслух. Говорят, что таким способом точность изменения голоса будет повышена.
В программе существует 100 типов тембров, от высокого до низкого, а преобразование голоса может выполняться для восьми человек одновременно. Нажмите «Начать преобразование» (кнопка выделена).
Когда начинается преобразование голоса, сначала отобразится результат анализа. Для входящего голоса результат преобразования фонетического элемента и результат обнаружения интонации показаны на рисунке.
После переформации, которая продлится порядка 40 секунд, в окне результата преобразования появится видео с записанным голосом. Если проиграть его, то можно услышать собственный голос и 8 типов результатов конвертации.
Качество конвертации будет зависеть от качества записи. Если все удалось, то вы услышите следующий результат, только со своей озвучкой: