Как я мучил музыкальные нейросети

Когда мой знакомый-программист год назад сказал, что музыканты станут скоро не нужны, я ему не поверил. И правильно сделал! Все доводы этого фаната современных технологий в пользу использования искусственного интеллекта в музыкальном искусстве, я отмёл сходу. А потом решил самостоятельно проверить, так ли хороши нейросети в создании музыки?

Долго думал, стоит ли освещать мой болезненный опыт по использованию нейросетей, которые создают музыку. Но тут наткнулся на статью одного довольно известного отечественного эстрадного певца, который сетовал, что скоро нейросети заменят музыкантов-исполнителей. Вот тогда я понял, что пора бы рассказать таким неопытным в современных технологиях людям, что из себя представляют нейросети и могут ли они кого-то заменить.

Нейросети для создания музыки

Нейросеть – это программа, которая имитирует (именно имитирует!!!) работу человеческого мозга и может обучаться на основе скармливаемых ей разработчиками данных. Она состоит из множества связанных между собой нейронов, которые обрабатывают информацию и учатся на основе примеров. Нейросети могут быть использованы для решения различных задач, включая распознавание образов, перевод текста, создания изображений, видео и музыки.

Я уже десять лет пользуюсь нейросетями и прекрасно знаю, какой непростой путь они прошли. Ещё совсем недавно они рисовали людей с шестью пальцами, а в текстах писали откровенную галиматью. Но эти программы «искусственного интеллекта» стремительно совершенствуются. И я постоянно использую их в своей работе как довольно эффективный инструментарий.

Существующие на данный момент нейросетевые технологии (в частности, нейросети Suno и Riffusion) позволяют также создавать оригинальные музыкальные композиции, которые, как утверждают их создатели, могут конкурировать с произведениями, написанными человеком. Так ли это, разберём далее.

Как нейросети создают музыку?

Существует несколько подходов к созданию музыки с помощью нейросетей. Один из них – это генеративно-состязательные сети (GAN), которые состоят из двух нейросетей: генератора и дискриминатора. Генератор создаёт музыкальные композиции, а дискриминатор оценивает их качество и определяет, насколько они похожи на музыку, написанную человеком. Этот процесс повторяется множество раз, пока генератор не научится создавать музыку, которая будет высоко оценена дискриминатором.

Другой подход – это использование рекуррентных нейронных сетей (RNN), которые могут обрабатывать последовательности данных, такие как музыкальные ноты. RNN могут быть обучены на больших наборах музыкальных произведений и затем использованы для создания новых композиций в том же стиле.

Также существуют нейросети, которые используют алгоритмы машинного обучения для анализа музыкальных произведений и выявления закономерностей. Эти закономерности затем могут быть использованы для создания новых музыкальных композиций, которые будут соответствовать определённым критериям.

Перспективы использования нейросетей в музыке

Убеждённые технофилы считают, что нейросети, создающие музыку, представляют собой перспективную технологию, которая может открыть новые горизонты в мире музыки. Они, якобы, могут помочь композиторам и музыкантам создавать более оригинальные и интересные произведения, а также сделать музыку более доступной для широкой аудитории. В будущем, по словам таких энтузиастов, программы искусственного интеллекта (ИИ) могут быть использованы для:

создания оригинальных музыкальных композиций;
помощи композиторам в написании музыки;
создания музыки для видеоигр, фильмов и рекламы;
обучения музыке и помощи в изучении музыкальных инструментов;
создания персонализированной музыки для пользователей на основе их предпочтений.

Однако, использование нейросетей всё чаще вызывает серьёзные опасения у здравомыслящих людей как с точки зрения этики, так и плане законности использования ИИ-инструментов. Например, нейросети сейчас очень активно применяются для создания музыки, которая копирует или имитирует стиль известных композиторов или групп. Это приводит к нарушению авторских прав и снижению качества музыки.

Мой опыт использования нейросетей для создания музыки

Целый год я потратил на изучения нейросетей Suno и Riffusion. Могу теперь даже написать учебник по их использованию. Проблема только в том, что когда он выйдет в свет, нейросети уже уйдут далеко вперёд, и мой труд будет никому не нужен. За то время, что я мучил эти несчастные программы, они выросли буквально на порядок. И, каюсь, кажется, я тоже внёс свой гнусный вклад в их развитие. Такое огромное количество треков, что я создал, вряд ли кому вообще в здравом уме и твёрдой памяти придёт в голову создать. Мне даже пришло письмо от Suno, в котором было написано, что они видят, как профессионально я использую их нейросеть и спрашивали, не хочу ли я поделиться с другими пользователями своими треками? Я ответил честно: «не хочу».

Suno и Riffusion, действительно, очень креативные программы. Мне, как человеку, получившему в своё время небольшое композиторское образование, было интересно, какого же творческого результата можно добиться с их помощью?

Инструментальная музыка нейросетей

Прежде всего я попробовал создать инструментальную музыку. Получилась она тогда, в 2024 году, мягко говоря, очень плохой. Сейчас, в 2025 году, Suno и Riffusion способны создавать уже довольно интересные инструментальные композиции. Но это не Дворжак и не Бетховен! Это даже не Морриконе и не Ховард. В таких нейро-сочинениях нет развитой мелодической линии и оригинальной звучности. Хотя для интернет-проектов, кино и телевидения такие поделки уже вполне годятся. Особенно созданные в последних версиях нейросетей. Возможно, что в будущем эти ИИ-программы, действительно, смогу создавать что-то убедительно классико-подобно и академично-звучащее. Но человеческой души и таланта в них не будет никогда!

Вокальная музыка нейросетей

Оперные арии нейросети, на момент написания статьи, способны создавать весьма аутентичные. Что-то среднее между Моцартом и Беллини, но глубоко вторично и для меня абсолютно не интересно. В них нет того глубокого содержания, как в оперной музыке Верди, и такого тонкого психологизма, как у Чайковского. В общем, копия-с!

А вот популярную и рок-музыку Suno и Riffusion делают уже очень даже хорошо. Прямо-таки страшно делается от реалистичности звучания. Suno, вообще, как известно, специально дрессируют на создание современных поп-хитов. Эти нейросети подчас создают эстрадные композиции гораздо лучшего качества, чем у многих современных российских исполнителей.

Возможно, когда в промте (запросе, который пишется пользователем для нейросети при создании трека) указаны не только стиль, тембр голоса, инструменты и т.д., но и слова, на которые нужно создать композицию, нейросетям легче создавать оригинальный продукт, нежели, когда этих слов нет.

Слова для песен нейросеть тоже может создавать, но на уровне Незнайки из знаменитой сказки Николая Носова. Не умеет пока что ИИ писать хорошие стихи, ибо не хватает ему жизненного опыта и поэтического мастерства. Тексты нейросетей я решил вообще не использовать в опытах, поэтому пришлось брать для экспериментов свои стихи.

Одна более-менее хорошо звучащая песня требует большого количества генераций. Прежде, чем нейросеть поймёт, чего от неё хочет пользователь, проходит немало времени. Пользователю приходится не только лайкать удачные варианты, или дизлайкать откровенно бракованные, но и постоянно менять текст промта, подправлять или транслитерировать слова песни.

Готовый вариант тоже приходится редактировать: удалять в редакторе лишние части или добавлять новые, вырезать и склеивать, заставлять программу заново создавать отдельные куски и т.д.

Но это ещё не всё! Тот трек, который вам после всех этих мучений выдаст нейросеть, необходимо ещё будет потом самостоятельно редактировать в аудиоредакторе. Иногда приходится проводить прямо-таки подорожечную редактуру, а затем заново сводить всё в один трек. Ну а уж потом можно и мастеринг делать. Нейросеть-то сама за вас его не сделает! Точнее сделает, но уже другая нейросеть, вокруг которой вы тоже потанцуете с бубном себе на радость и соседям на горе. Шучу! 🙂 Я всегда работаю в наушниках и вам так же советую.

В отдельных случаях приходится применять нашу любимую программу для восстановления фонограмм iZotope. Но она мало помогает. Если изначальный трек от нейросети низкого качества, то никакое редактирование ей уже не поможет, лучше сгенерировать новый трек. Благо делают их нейросети за секунду.

Между прочим, можно загрузить в нейросеть собственный (или не собственный – но это уже откровенное нарушение закона!) голос и научить её петь вместо вас, можно дать ей для работы образец собственной музыки, и она её продолжит. Можно вообще заставить её петь вашим голосом под наигранную вами на инструменте мелодию. В общем, нейросеть – весёлая игрушка для взрослых детишек.

Нейросети не заменят музыкантов!

За год я получил навыки написания очень подробных и точных промтов, научился заставлять нейросеть петь моим голосом и развивать мелодический материал так, как мне хочется. При этом, как композитора, меня очень сильно расстраивает то, что нейросеть не даёт мне той свободы, которая есть в любом секвенсоре. Хотя нейросети уже позволяют редактировать полученные треки в DAW, но всё равно, творческой свободы при использовании нейросетей для меня пока что недостаточно.

И, самое главное, я понял, что нам, музыкантам, особенно академическим, волноваться нечего. Потому что нейросети на сегодняшний день, даже при очень умелом их использовании, создают совершенно вторичный музыкальный продукт! Когда нейро-музыку начнут клепать в промышленных масштабах и она будет звучать изо всех утюгов и кофемашин, любой человек, который сможет хоть как-то что-то сыграть на музыкальном инструменте, или спеть своим голосом, будет на вес золота. А настоящие композиторы-человеки, скорее всего, вообще обогатятся, потому что смогут создавать абсолютно новые по звучанию и технике письма музыкальные сочинения!

Слушаю композиции, созданные мной за этот год с помощью ИИ, и понимаю, что не хочу их слушать. Мне всё время хочется крикнуть как Станиславский: «Не верю!». Вот не верю и всё тут! Всё, что создано нейросетями, звучит эмоционально фальшиво, абсолютно не искренне. Да и по качеству звука – так себе… Как такое вообще можно слушать? Пойду лучше включу 2-й концерт С.В. Рахманинова в исполнении автора. А затем наслажусь песней «Екклесиаст» в исполнении Олега Погудина.