Разоаботана модель создания символической музыки с использованием музыкальных метаданных

by · Android-Robot

Искусственный интеллект (ИИ) открыл новые интересные возможности для музыкальной индустрии, например, позволив разрабатывать инструменты, которые могут автоматически генерировать музыкальные композиции или определенные инструментальные треки. Однако большинство существующих инструментов предназначены для использования музыкантами, композиторами и музыкальными продюсерами, а не неопытными пользователями.

Исследователи из LG AI Research недавно разработали новую интерактивную систему, которая позволяет любому пользователю легко переводить свои идеи в музыку. Эта система, описанная в статье, опубликованной на сервере препринтов arXiv , объединяет декодер-только авторегрессионный трансформатор, обученный на музыкальных наборах данных, с интуитивно понятным пользовательским интерфейсом.

«Мы представляем демонстрацию символической генерации музыки, сосредоточившись на предоставлении коротких музыкальных мотивов, которые служат центральной темой повествования», — написали в своей статье Санджун Хан, Дживон Хам и их коллеги. «Для генерации мы принимаем авторегрессионную модель, которая берет музыкальные метаданные в качестве входных данных и генерирует 4 такта многодорожечных MIDI-последовательностей».

Модель на основе трансформатора, лежащая в основе системы генерации символической музыки команды, была обучена на двух музыкальных наборах данных, а именно наборе данных Lakh MIDI и наборе данных MetaMIDI . В совокупности эти наборы данных содержат более 400 000 файлов MIDI ( цифровой интерфейс музыкальных инструментов ), которые представляют собой файлы данных, содержащие различную информацию о музыкальных треках (например, сыгранные ноты, длительность нот, скорость, с которой они воспроизводятся).

Для обучения своей модели команда преобразовала каждый файл MIDI в файл представления музыкального события (REMI). Этот специальный формат кодирует данные MIDI в токены, представляющие различные музыкальные характеристики (например, высоту тона и скорость). Файлы REMI фиксируют динамику музыки способами, которые особенно благоприятны для обучения моделей ИИ для генерации музыки.

«Во время обучения мы случайным образом выбрасываем токены из музыкальных метаданных, чтобы гарантировать гибкий контроль», — пишут исследователи. «Это дает пользователям свободу выбора типов ввода, сохраняя при этом генеративную производительность, что обеспечивает большую гибкость в сочинении музыки».

В дополнение к разработке своей модели на основе трансформатора для генерации символической музыки, Хан, Хэм и их коллеги создали простой интерфейс, который сделал бы его доступным как для опытных, так и для неопытных пользователей. Этот интерфейс в настоящее время состоит из боковой панели и центральной интерактивной панели.

В боковой панели пользователи могут указать аспекты музыки, которые они хотят, чтобы модель сгенерировала, например, какие инструменты должны играть и темп песни. После того, как модель сгенерирует песню, они могут редактировать трек на центральной панели, например, удаляя/добавляя инструменты или настраивая время начала воспроизведения музыки.

«Мы проверяем эффективность стратегии с помощью экспериментов с точки зрения емкости модели, музыкальной точности, разнообразия и управляемости», — пишут Хан, Хэм и их коллеги. «Кроме того, мы масштабируем модель и сравниваем ее с другими моделями генерации музыки с помощью субъективного теста. Наши результаты указывают на ее превосходство как в плане контроля, так и в плане качества музыки».

Исследователи обнаружили, что их модель работала достаточно хорошо и могла надежно генерировать максимум 4 такта музыки на основе спецификаций пользователя. В своих будущих исследованиях они могли бы еще больше улучшить свою систему, увеличив длительность музыкальных треков, которые может создавать их модель, расширив спецификации, которые могут задавать пользователи, и еще больше улучшив пользовательский интерфейс системы.

«Наша модель, обученная генерировать 4 такта музыки с глобальным контролем, имеет ограничения в увеличении продолжительности музыки и управлении локальными элементами на уровне такта», — пишут исследователи. «Однако наши попытки имеют значение в создании высококачественных музыкальных тем, которые можно использовать в качестве цикла».