【重要】パソコン製品の一部販売再開に関するお知らせ詳しくはこちらをご覧ください

音楽生成AIを楽しもう

画像生成、動画生成、LLM(大規模言語モデル)と比較すると見落とされがちですが、音楽生成のためのAIです。どういう音楽のジャンルにしたいか、歌詞をどうするかを指定すると、AIが完成された曲を作り上げてくれるというものです。

中でも有名なのが、オンラインサービスで有料プランのある「Suno」「Udio」。簡単な操作で商用音楽に匹敵するサウンドを作曲できるのが魅力で、どちらもプロミュージシャンを含む多くのユーザーが活用しています。さらに踏み込んで、専用の音楽生成AIのオープンソースソフトを活用すればローカルPC上でより多様な表現の作曲活動も可能です。

※ サービスやソフトなどは2025年5月時点の情報です。

音楽生成AI おすすめPC一覧

「こういう感じの曲を作りたい」で作曲できる「Suno」

特にユーザー数が多いのが「Suno」。歌詞と音楽スタイルを入れるだけで、およそ人類が想像できるどんな音楽も、歌声入りで作ることが可能です。無料でも1日あたり10曲を生成できますが、毎月10ドルからの有償プランに入れば、パートごとの音源をダウンロードしたり、商用利用したりも可能です。

作曲する方法にはいくつかあります。手軽なのは「こういう感じの曲を作りたい」というテキスト命令を入れて、あとはお任せするやり方。一度の命令で同時に2曲を生成します。生成する時間は10秒ほどです。

より高度なやり方として、歌詞を自分で作るか、キーワードから自動作詞させるかして、さらに音楽スタイル(音楽のジャンル、使用楽器、感情表現、ボーカル)などを指定するやり方もあります。Sunoを本格的に使いたいなら、こちらのやり方が本命でしょう。

エッジのたった音楽を作るなら「Udio」

Sunoと同じように簡単に音楽を生成できるのが「Udio」です。こちらは無料の場合、一度に4曲まで。最大2分10秒の曲は1日に3曲まで生成できます。有償プランの場合は1日での生成数の制限が外れるなどのメリットもあります。

Udioでの生成は、Sunoに比べると若干時間がかかり、数十秒から数分かかります。同じ歌詞や音楽スタイルを指定しても、それぞれのアルゴリズムの癖があるのです。Sunoは多少面白みには欠けるきらいはありますが、非常に完成度の高い曲を作り出し、Udioはちょっとエッジのあるものを作りがちです。

オープンソースソフトを使うと

SunoとUdioに共通するのは、使用できるキーワードに制限があるという点です。また、有償プランの場合であっても利用回数などに制限もあります。クラウド上での作業にデータの漏えいなどを気にする人もいるでしょう。そんな時、ローカルPCで導入できるオープンソースソフトを使えば、手元のPCでも気兼ねなく“作曲活動”に打ち込めます。

若干の初期投資が必要です。大事なのは高性能のグラフィックスカードを備えたPC。音楽生成は画像や動画に比べて作業が重くないという印象がありますが、実際にはかなりの計算量をこなしています。現時点ではNVIDIAのグラフィックスカードで、一定以上の容量のVRAMを搭載したPCは必須です。

クラウドのメリット/デメリット

メリット
  • 手軽に始められる
  • 高性能
デメリット
  • 利用に制限がある
  • 情報漏えいなどのセキュリティに不安

ローカルのメリット/デメリット

メリット
  • 自由度が高い
  • クラウドにアップロードしないためクラウド経由の情報漏えいの恐れが少ない
デメリット
  • 初期投資が高額

そのPCの上で、WindowsまたはLinuxに対応した「Pinokio」という仮想環境上でオープンソースソフトを動かすのがおすすめです。Pinokioは、AIのオープンソースソフトをほぼワンクリックでインストールし、Webブラウザ上での操作で簡単に動かせる仮想環境です。WindowsでもLinuxでも(Macでも)動かせて、操作方法も共通しています。Pinokioを使えば、さまざまなAIソフトが「pip install」に始まる面倒なコマンドラインや複雑なライブラリへの依存などを気にせずにインストール可能です。

ただし、オープンソースAIソフトの常として、多くの場合「NVIDIA Only」という但し書きが付いてきます。これらを全て使えるようにするには、先ほど述べたようにNVIDIAの、しかもRTX 40または50シリーズのグラフィックスカードが組み込まれているPCにする必要があります。

ここで紹介する3つの生成AIソフトのうち2つの音楽生成AIソフトも「NVIDIA Only」です。

高性能で制限のない、日本語の歌も作れる音楽生成AI「YuE」

中国産のオープンソースソフト「YuE」は、歌詞と音楽スタイルを指定すると、ボーカルの入った楽曲を生成してくれるAI作曲ソフト。10GB以上のVRAMを搭載したNVIDIAのグラフィックスカードが必要です。

YuEは英語、中国語、そして日本語にフル対応。日本語の歌詞を入力して作曲させたら、ちゃんと日本語で歌ってくれるのです。発音はしっかりしているし、歌詞の読み間違いも少なく、なかなかの高性能ぶりです。

YuEでは、歌詞と音楽スタイルを指定して楽曲を生成する通常モードと、参照する楽曲を指定し、それに音楽スタイルと歌詞を指定することで参照する楽曲のニュアンスを込めた音楽を生成できる「Audio Prompt」の2つのモードが使えます。これらのモードを駆使することで、自由に音楽を作れる環境が得られるのです。

現在のYuEで生成できる楽曲は、メロディーや曲の構造はなかなかよくできているのですが、音質はイマイチで、Sunoなどの商用サービスにはまだかないません。曲の長さも、グラフィックスカードのVRAM容量に依存します。1曲を完成させるにはRTX 4090の24GBメモリでも足りないくらいですが、現在はメモリの容量が比較的少なめでも利用できるようになりました。

英語と中国語のみだが高性能なAI作曲ソフト「DiffRhythm」

「DiffRhythm」も中国製のAI作曲オープンソースソフトです。出来上がった楽曲の音質はYuEよりも上なのですが、生成できるボーカル曲は英語と中国語に限定、日本語の歌詞はまだ歌えません。動作にNVIDIA Onlyの記載はありませんが、他のプラットフォームでは動かせないので、事実上NVIDIA グラフィックスカードが必須と見たほうがいいでしょう。

もう一つ注意点があります。それは歌詞の入力フォーマットが他のAI作曲ソフトと違うところ。歌詞の1行ごと、その先頭にその位置を示す秒数を記載したLRCというフォーマットを用意する必要があります。Sunoなど多くのAI作曲ソフトで使われる、[Verse]や[Chorus]などのタグも不要なので、外しておきましょう。

そういった要因もあり、あらかじめ曲のテンポや歌詞をどのタイミングで入れるといったところがわかっていないと上手く曲が作れないという点で、難易度は高いと言えそうです。

なお、このLRCフォーマット化を支援するツールも用意していますが、そのためにはOpenAIのAPI Keyが必要です。

音楽スタイルは、テキストで記述することもできますが、オーディオデータのアップロードでも可能。SunoやUdioなどの商用サービスではアップロードした音楽が利用できないこともありますが、ローカルPCで処理する場合には、私的利用の範囲内であれば自由に利用できます。

例えば商用楽曲を提供しているミュージシャンが音楽生成AIを使おうとすると、自分自身の曲が入力できないという事態もあり得ます。YuEやDiffRhythmの場合にはそうした制限はなく、自分の楽曲をもとにさまざまなバリエーションを生み出すことが可能なのです。

最大で95秒まで生成できます。生成した音楽の中でいいと思ったフレーズをトリミングし、SunoやUdioのオーディオ入力機能で3〜4分の完成品に持っていくことも、自身の演奏を加えて完成させるといった選択肢もあります。

BGMを含む環境音を動画から生成する「MMAudio」

もう一つ、「MMAudio」というソフトも紹介します。

これは、ソニーなどが開発したオープンソースのAIソフトですが、音楽だけを生成するわけではありません。アップロードした動画の内容に合わせてサウンドを自動的に生成するという仕組みです。

登場人物が歩いていれば足音、街中であれば雑踏のサウンド、車が走っていれば走行音などを生成し、話している場面では声も追加してくれます。そういう映像シーンにありがちなBGMも生成することもあります。ただし、歌声が入る場合には意味不明な言語となってしまいます。

MMAudioはNVIDIA専用ではなく、PCへの負荷もそれほど高くないので、気軽に導入できそうです。Hunyuan VideoやWanなどのローカルAIソフトによって生成した動画に音をつけるのに役立ててみてはいかがでしょう。

なお動画だけでなく、静止画でも、テキストプロンプトからでもサウンドの生成が可能です。ネガティブプロンプトも入力できるので、音楽がいらない場合は、そこに「Music」と入れておけばいいでしょう。

音楽生成用AI PCの
スペックは?

音楽制作をするPCに必要なスペックとしては、DAW(音楽制作用のソフト)を動かし、さらにブラウザ上でこうしたAI作曲ソフトを動かしておく必要があります。

NVIDIA Onlyをクリアするためには少なくともRTX 40または50シリーズのグラフィックスカードを搭載していること。さらに、DAWではさまざまなソフトウェアシンセサイザーやエフェクトプラグインなどが動いており、それらは多くのメモリを消費し、さらに処理にもPCに負荷をかけるのです。

メモリは32GB、VRAMは16GB、CPUはCore 5以上、処理能力には余裕を持っておいたほうがいいでしょう。加えて、音楽をモニタリングする際にはファンノイズも気になるところ。動作音が静かなものであれば問題はなさそうです。

音楽生成AI おすすめPC
BRAND