Meta представила модель голосового автоответчика с искусственным интеллектом, который генерирует и редактирует устную речь«>
Инженеры компании Meta представили нейросетевую модель Voicebox, которая обладает широкими возможностями по работе с разговорной речью: генерирование, редактирование или стилизация под образец. Авторы описывают ее как прорыв в моделях искусственного интеллекта речи.
Voicebox может генерировать высококачественный голос или изменять предварительно записанный голос, например, удалять посторонние звуки, такие как автомобильные гудки или лай собак, сохраняя при этом содержание речи и стилистику. При необходимости он может даже воспроизвести часть записи, например, исправить неправильно произнесенное слово. Поддерживаются шесть языков: английский, французский, немецкий, испанский, польский и португальский. Voicebox можно использовать в качестве синхронного переводчика, передавая голос и манеру речи собеседника.
Модель обучена на 50 часах аудиокниг, что достаточно для того, чтобы она хорошо понимала устную речь: она генерирует профиль голоса и манеры говорить на основе образца длительностью всего две секунды, а затем может воспроизвести его с любым текстом. На практике эти возможности могут оказаться полезными в приложениях метавселенной, обеспечивая естественные голоса для виртуальных помощников и неигровых персонажей; а для людей с ослабленным зрением модель может озвучивать письма голосами их авторов.
Meta часто публикует свои модели ИИ, но не в этот раз. Компания не раскрывает, какие материалы использовались для обучения Voicebox, и не предлагает проверить технологию на практике — она опасается злоупотреблений.