Новый искусственный интеллект Microsoft может клонировать голос из трех секунд аудиозаписи

Компания Microsoft объявила, что ее новый искусственный интеллект преобразования текста в речь может клонировать голос, тон и все остальное из трехсекундного фрагмента аудиозаписи. Ее название — VALL-E, и Microsoft называет технологию, лежащую в основе этой системы, «нейронной моделью языка кодеков». Она сложна, хотя на практике использование системы кажется чрезвычайно простым.

Конечно, уже существует множество приложений для синтеза речи. Большинство новостных сайтов предлагают услуги машинной диктовки, а такие разговорные помощники, как Siri и Alexa, пользуются огромной популярностью.

Однако большинство существующих программ генерации речи требуют большого количества входных данных. Кроме того, голоса ИИ не могут звучать особенно по-человечески, в основном из-за того, что эмоциональный тон и небольшие отступления невероятно сложны для передачи.

По словам его создателей, VALL-E имеет ряд приложений, а также систему моделирования языка GPT-3 от OpenAI, технологию, в которую Microsoft, судя по ее абсолютно огромным инвестициям в OpenAI, вложила много ресурсов и уже использует в нескольких продуктах.

Теоретически, объединив VALL-E и GPT-3 — две мощные части технологии, управляемой искусственным интеллектом, — можно невероятно быстро создать тонну реально звучащего, правдоподобного контента. Критики говорят, что проблемой здесь являются поддельные и вводящие в заблуждение звуковые байты — в конце концов, если вам нужно всего три секунды звука, вы теоретически можете использовать что угодно, от интервью со знаменитостью до истории реального человека в Instagram, чтобы выдать себя за кого-то.

Однако Microsoft объясняет, что она воздерживается — по крайней мере, пока — от предоставления кода с открытым исходным кодом из-за «потенциальных рисков злоупотребления моделью». Они также утверждают, что работают над внедрением некой системы, которая определит, был ли звук создан с помощью VALL-E.