Stability AI запустила модель Stable Audio для генерации музыки по текстовому описанию — SAMESOUND

По словам разработчиков, диффузионная модель Stable Audio обучалась на наборе из текстовых метаданных и коллекции из 800 000 аудиофайлов. Среди данных присутствовали как коммерческие записи и звуковые эффекты, так и отдельные партии инструментов. Отмечается, что общее количество аудиоматериалов превышает 19,5 тысяч часов.
Stability AI  заявляют , что Stable Audio отличается полной юридической прозрачностью. Так, например, данные для обучения были предоставлены компанией AudioSparx, владеющей внушительным каталогом музыки для коммерческого использования. Таким образом разработчики получили официальное право на использование защищённого копирайтом контента.
Использование нейросети доступно как в платном, так и бесплатном формате. В рамках бесплатного тарифа платформа генерирует до 20 аудиофрагментов в месяц, при этом длительность каждого отрезка не превышает 45 секунд. Платные тарифы начинаются от $11,99 в месяц и позволяют генерировать до 500 композиций длительностью до полутора минут.
Согласно условиям использования, использовать сгенерированные композиции в коммерческих целях могут только пользователи платных тарифов. Вместе с тем всем пользователям нейросети запрещено тренировать и обучать собственные алгоритмы искусственного интеллекта на основе сгенерированных Stable Audio треков.
Разработчики отмечают, что алгоритм может создавать не только полноценные композиции, но и отдельные звуковые эффекты или партии инструментов. На эффекты и партии распространяются те же ограничения, что и на треки: запрет на коммерческое использование пользователям бесплатных тарифов и запрет обучения на их основе собственных ИИ-моделей.
В компании заявили, что созданная модель «идеальна для музыкантов, создающих уникальные сэмплы для собственной музыки». В качестве примеров работы алгоритма, Stability AI показала генерацию фрагментов с любым темпом: к примеру, по запросу «116 BPM rock drums loop clean production» нейросеть создаёт барабанный луп в темпе 116 ударов в минуту с чистым звучанием.