Microsoft научилась имитировать любой голос. Роботу нужно всего 3 секунды

. Искусственный интеллект может копировать тембр и эмоции человека
Обновлено 18 января 2023, 07:45
Drew Angerer / Getty Images
Фото: Drew Angerer / Getty Images

Компания Microsoft объявила о разработке искусственного интеллекта под названием VALL-E, который способен имитировать любой голос. Программе требуется всего несколько секунд, чтобы послушать человека и c точностью воспроизвести его речь.

В отличие от многих других подобных инструментов VALL-E копирует тембр и эмоциональный окрас речи. Модель обучения основана на 60 тыс. часов записи англоязычной речи от более чем 7 тыс. человек.

Искусственному интеллекту достаточно прослушать трехсекундную запись, чтобы досконально скопировать голос и манеру речи, которая будет использована даже в тех словах, которые человек никогда не произносил.

Gizmochina называет VALL-E значительным прорывом в области голосов, генерируемых искусственным интеллектом, так как предыдущие программы могли воспроизводить только сам голос, но не эмоции или тон говорящего. При этом некоторые записи звучат естественно, в то время как в других слышны «роботизированные нотки». Однако по мере развития технологии и совершенствования ИИ дальнейшая имитация будет звучать все более убедительно.

Вместе с этим прогресс подобных разработок поднимает этические вопросы. Подобными инструментами могут воспользоваться мошенники. Например, для воспроизведения голосов людей, с которыми знакома потенциальная жертва.

Однако Microsoft пока не озвучивает планов выпуска VALL-E в открытый доступ. Программу продолжат разрабатывать и совершенствовать строго внутри компании.

Ранее компания Disney представила нейросеть под названием Face Re-aging Network (FRAN), позволяющую делать актеров моложе или старше на экране. В зависимости от поставленной задачи программа может выполнить свою работу в среднем за пять секунд. На подобную работу у гримеров уходит несколько часов. «Омолодившийся» или «состарившийся» актер может двигаться: выражать эмоции, смотреть по сторонам или же дотрагиваться до лица. Автор сможет менять освещение в кадре или же корректировать и наслаивать уже полученные изменения.

Поделиться
Авторы
Теги