Meta выпускает аудиоинструменты с открытым исходным кодом AudioCraft

Бендж Эдвардс — 2 августа 2023 г., 20:56 UTC

В среду Meta объявила, что представляет AudioCraft с открытым исходным кодом — набор генеративных инструментов искусственного интеллекта для создания музыки и аудио из текстовых подсказок. С помощью этих инструментов создатели контента могут вводить простые текстовые описания для создания сложных звуковых ландшафтов, сочинять мелодии или даже моделировать целые виртуальные оркестры.

AudioCraft состоит из трех основных компонентов: AudioGen — инструмента для создания различных звуковых эффектов и звуковых ландшафтов; MusicGen, умеющий создавать музыкальные композиции и мелодии из описаний; и EnCodec, кодек сжатия звука на основе нейронных сетей.

В частности, Meta сообщает, что EnCodec, о котором мы впервые рассказали в ноябре, недавно был улучшен и позволяет «генерировать музыку более высокого качества с меньшим количеством артефактов». Кроме того, AudioGen может создавать звуковые эффекты, такие как лай собаки, гудок автомобиля или шаги по деревянному полу. А MusicGen может с нуля создавать песни разных жанров, основываясь на таких описаниях, как «Поп-танцевальный трек с запоминающимися мелодиями, тропическими перкуссиями и оптимистичными ритмами, идеально подходящий для пляжа».

Meta предоставила на своем веб-сайте несколько образцов аудио для оценки. Результаты, кажется, соответствуют их современной маркировке, но, возможно, они недостаточно высокого качества, чтобы заменить профессионально созданные коммерческие аудиоэффекты или музыку.

Мета отмечает, что, хотя модели генеративного ИИ, основанные на тексте и неподвижных изображениях, получили много внимания (и людям относительно легко экспериментировать с ними в Интернете), развитие инструментов генеративного аудио отстает. «Есть кое-какая работа, но она очень сложна и не очень открыта, поэтому люди не могут с ней легко поиграть», — пишут они. Но они надеются, что выпуск AudioCraft под лицензией MIT внесет вклад в более широкое сообщество, предоставив доступные инструменты для аудио и музыкальных экспериментов.

«Модели доступны для исследовательских целей и для дальнейшего понимания людьми технологии. Мы рады предоставить исследователям и практикам доступ, чтобы они могли впервые обучать свои модели с помощью своих собственных наборов данных и способствовать развитию современного уровня техники. », — сказала Мета.

Meta — не первая компания, которая экспериментирует с генераторами звука и музыки на базе искусственного интеллекта. Среди наиболее примечательных недавних попыток OpenAI представила свой Jukebox в 2020 году, Google представила MusicLM в январе, а в декабре прошлого года независимая исследовательская группа создала платформу для генерации текста в музыку под названием Riffusion, используя базу Stable Diffusion.

Ни один из этих генеративных аудиопроектов не привлек столько внимания, как модели синтеза изображений, но это не значит, что процесс их разработки не менее сложен, как отмечает Meta на своем веб-сайте:

Генерация высококачественного звука любого типа требует моделирования сложных сигналов и шаблонов в различных масштабах. Музыка, пожалуй, самый сложный тип звука для создания, поскольку она состоит из локальных и долгосрочных шаблонов, от набора нот до глобальной музыкальной структуры с множеством инструментов. Создание связной музыки с помощью ИИ часто решается с помощью символических представлений, таких как MIDI или пианино. Однако эти подходы не способны полностью уловить выразительные нюансы и стилистические элементы музыки. Более поздние достижения используют самоконтролируемое обучение представлению звука и ряд иерархических или каскадных моделей для генерации музыки, подачи необработанного звука в сложную систему для захвата структур сигнала с большим радиусом действия и одновременного создания качественного звука. Но мы знали, что в этой области можно сделать больше.

На фоне разногласий по поводу нераскрытых и потенциально неэтичных учебных материалов, используемых для создания моделей синтеза изображений, таких как Stable Diffusion, DALL-E и Midjourney, примечательно, что Meta утверждает, что MusicGen обучался на «20 000 часах музыки, принадлежащей Meta или лицензированной специально для этого». цель." На первый взгляд это кажется шагом в более этическом направлении, что может понравиться некоторым критикам генеративного ИИ.

Новости

Meta выпускает аудиоинструменты с открытым исходным кодом AudioCraft