音楽生成AIのLyriaってどうなんでしょう?

2025/06/06に公開されました。
2025/06/06に更新されました。

音楽生成AIのLyria


author: Nov

音楽生成AIのLyriaってどうなんでしょう?

ジーアイクラウドでマネージャーをやっているNovです。

かつてはコーディングやら実装やらやっておりましたが、20代終わり位からマネージメントが主になって早ン十年。手は動かさないけど口は出すおっさんに成り果てております。

弊社のエンジニアが楽しそうに様々な生成AIの取組をやっているので、せっかくなので自分も何か書いてみようかなと思っておりましたが、今年4月のGoogle Cloud Next ‘25で音楽生成モデルであるLyria 2が発表されたのでこちらで遊んで検証してみました。

Lyriaとは

GoogleのLyriaは、Google DeepMindによって開発された高度な音楽生成AIモデルです。テキストによる指示(プロンプト)から、高品質な音楽を自動で作り出すことができます。

Lyria - Google DeepMind

Lyriaの利用方法

Lyriaは大きくわけて2つの利用方法があります。

  • Gemini APIを通じたリアルタイム利用(Lyria RealTime)
  • Google CloudのVertex AIでの利用:

Gemini APIを通じたリアルタイム利用(Lyria RealTime)

Gemini APIでリアルタイムに音楽を生成させる利用方法です。

Lyria RealTime を使用した音楽生成 | Gemini API | Google AI for Developers

Google AI Studio内のLyria Realtimeから利用できます。今回はあんまり触っていないので割愛します。触って面白そうだったらまた書きます。

Lyriaのトップ画面イメージ

また MusicFX DJというページでは生成された音楽をDJ的にリアルタイム再生させることができます。

Lyriaのトップ画面イメージ

とりあえずBGM流しとくかという場面があったらMusicFX DJ使うというのもありですね。

Google CloudのVertex AIを通じた利用

Google CloudのVertex AIに組み込まれたLyriaの機能を使う利用方法になります。

Lyria | AI Music Generator | Generative AI on Vertex AI | Google Cloud

こちらが今回メインで検証してみた利用方法になります。

それではVertex AIのMedia StudioからLyriaを選択して使ってみます。

MediaStudioのコンソール画面からLyriaに音楽生成をさせることができます。

早速プロンプトを入力していきます。

Googleの Lyria 音楽生成プロンプト ガイド によると以下の要素を考慮する必要があるみたいなのでそれを意識して作っていきましょう。

  1. ジャンルとスタイル: 主な音楽カテゴリ(エレクトロニック ダンス、クラシック、ジャズ、アンビエントなど)とスタイルの特徴(8ビット、シネマティック、ローファイ)。
  2. ムードと感情: 音楽で表現したい感情(エネルギッシュ、メランコリック、平和的、緊張感など)。
  3. 楽器: 聞きたい主な楽器(ピアノ、シンセサイザー、アコースティック ギター、弦楽オーケストラ、電子ドラムなど)。
  4. テンポとリズム: テンポ(速いテンポ、スローバラード、120 BPMなど)とリズムの性質(ドライブ感のあるビート、シンコペーション リズム、優しいワルツ など)。
  5. (省略可)アレンジ/構造: 楽曲の進行やレイヤの構成(ピアノのソロから始まり、ストリングスが加わる、力強いコーラスにクレシェンドするなど)。
  6. (省略可)サウンドスケープ/アンビエンス: バックグラウンド サウンドや全体的な音響環境(雨の降る音、都市のナイトライフ、広々としたリバーブ、水中にいるような感覚など)。
  7. (省略可)制作品質: 望ましい音質または録音スタイル(高品質の制作、クリーンなミックス、ビンテージ録音、未加工のデモ音源など)

なお、2025年6月1日現在では日本語入力に対応していないので英語でプロンプトを作成していきます。

まず最初に作ってみたプロンプトがこれ。

Jazzでも生成してもらおうかという感じで書きました。

1.  **Genre  and  Style:**  Jazz
2.  **Mood  and  Emotion:**  Beautiful  melody  with  a  sense  of  comfort
3.  **Instruments:**  Trio  formation  of  piano,  double  bass,  and  drums
4.  **Tempo  and  Rhythm:**  Swing  Jazz  at  BPM  97
5.  **Arrangement/Structure:**  Key  of  C  minor,  starting  with  a  4-bar  piano  solo,  followed  by  bass  and  drums  joining  in.
6.  **Soundscape/Ambience:**  Small  room  reverb
7.  **Production  Quality:**  Clear  sound  quality  with  each  instrument  clearly  separated

大体20秒位で生成されました。

4トラック作成されましたが、なぜか1トラックだけ右横に配置されました…(なぜだ?)

そして生成された音楽が以下になります。

生成された音楽のクオリティは…?

生成された音楽を聴くとまあ悪くない感じですね。

プロンプトに書いてあることを微妙に理解できていない部分もありますが、一発でこのレベルだったらよーしプロンプト直していい感じにしちゃうぞという意欲も持てますね。

この後、音楽のジャンルってどれくらい書き分けるのか色々試してみました。

Jazzとか世間的にイメージが固まっているジャンルだとまずますのモノが生成されましたが、例えばPOPSみたいにジャンルとして様々な形態がある音楽はプロンプトを色々工夫しないと求めるものに近い形は難しいかなと感じました。

以下のプロンプトは色々試したのですが、マニアックなジャンルではあるので読み飛ばしていただいて結構です。

  • Musica Popular Brasileira(ブラジルのPOPS)
1.  **Genre  and  Style:**  Musica  Popular  Brasileira
2.  **Mood  and  Emotion:**  Beautiful  melody  with  a  sense  of  comfort
3.  **Instruments:**  Trio  formation  of  piano,  electric  bass,  and  drums
4.  **Tempo  and  Rhythm:**  Partido  Alto  rhythm  pattern,  tempo  105
5.  **Arrangement/Structure:**  Key  of  C  minor,  starting  with  a  4-bar  piano  solo,  followed  by  bass  and  drums  joining  in.
6.  **Soundscape/Ambience:**  Small  room  reverb
7.  **Production  Quality:**  Clear  sound  quality  with  each  instrument  clearly  separated

なぜかムード歌謡が出来上がったでござる…。

  • ミナスジェイラスやノルデスチの音楽
1.  **Genre  and  Style:**  Minas  Gerais  Sound
2.  **Mood  and  Emotion:**  Beautiful  melody  with  a  sense  of  comfort
3.  **Instruments:**  Trio  formation  of  piano,  electric  bass,  and  drums
4.  **Tempo  and  Rhythm:**  Baiao  ,  tempo  105
5.  **Arrangement/Structure:**  Key  of  C  minor,  starting  with  a  4-bar  piano  solo,  followed  by  bass  and  drums  joining  in.
6.  **Soundscape/Ambience:**  Small  room  reverb
7.  **Production  Quality:**  Clear  sound  quality  with  each  instrument  clearly  separated

これは結構いい感じ。

画像から音楽を生成してみる

ただ音楽を生成するだけだと面白くないので風景写真から音楽を生成させてみました。

マルチモーダルってことになるのかな。

いきなり画像を音楽にする機能はないので、画像を文字情報化した後に音楽生成をします。

まずVertex AIのプロンプト作成から以下の形式で指示を出します。

  • Model: gemini-2.5-flash-preview-05-20
  • システム指示
    あなたは作曲家です。作曲のインスピレーションは自然風景から得ています。
  • プロンプト
    添付画像をみてあなたが表現したい曲調を教えてください。
    回答はLyriaにプロンプトとして入力できる形にしてください。
    回答は英語でお願いします。

ちなみに添付画像は自宅近所の沼になります。昨冬通りかかった際に広々として気持ちの良い光景だったのでなんとなくスマホで撮影しました。

まさか半年後に生成AIに食わせる素材になるとはその時は微塵も思いませんでしたが。

そしてGeminiで生成された回答は以下になります。

Here  is  the  musical  direction  I  envision,  tailored  for  Lyria's  prompt  input,  inspired  by  the  tranquil  yet  expansive  scene:

Music  Prompt:  "Winter  Lake  Serenity"

Overall  Concept:  Compose  a  serene  and  reflective  ambient  piece,  capturing  the  quiet  grandeur  of  a  vast,  calm  lake  under  a  layered,  tranquil  sky  on  a  cool,  clear  day.  The  music  should  evoke  a  sense  of  peaceful  contemplation  and  subtle  hope.

Mood:

Peaceful,  tranquil,  and  contemplative.  Spacious  and  expansive.  A  touch  of  gentle  melancholy  transitioning  into  calm  hope  and  clarity.  Meditative  and  still,  yet  subtly  evolving.  Instrumentation:

Main:  Grand  piano  with  extensive  sustain  and  reverb,  playing  sustained  chords  and  gentle,  arpeggiated  figures  that  mimic  the  gentle  rippling  of  the  water  surface.  Pads:  Warm,  evolving  synthetic  or  orchestral  string  pads  providing  a  rich,  atmospheric  background,  reflecting  the  vastness  of  the  sky.  Melodic  Elements:  Delicate,  breathy  woodwinds  (e.g.,  flute  or  clarinet)  for  occasional,  sparse  melodic  lines,  or  high,  ethereal  plucked  strings  (harp/pizzicato)  for  delicate  accents.  Bass:  Deep,  resonant,  sustained  synth  bass  or  low-end  piano  notes,  providing  a  grounding  and  meditative  foundation,  like  the  depth  of  the  lake.  Percussion:  Minimal  to  absent.  If  any,  very  light,  shimmering  textures  (e.g.,  sustained  cymbals,  distant  chimes)  to  enhance  the  sense  of  space,  almost  like  subtle  environmental  sounds.  Tempo:

Adagio  to  Larghetto  (very  slow,  around  50-70  BPM).  Dynamics:

Primarily  soft  to  mezzo-piano.  Long,  gradual  swells  and  decays  to  enhance  the  sense  of  ebb  and  flow,  spaciousness,  and  natural  movement.  Harmony:

Utilize  modal  harmonies  or  minor  keys  with  occasional  shifts  to  major,  creating  a  sense  of  reflective  beauty  and  gentle  optimism.  Avoid  abrupt  changes.  Structure:

Evolving  and  atmospheric,  with  long  sustained  notes  and  slowly  shifting  chord  progressions,  allowing  the  listener  to  settle  into  the  soundscape.  This  piece  aims  to  be  a  soundscape  that  envelops  the  listener,  much  like  the  quiet,  wide  expanse  of  the  landscape  in  the  image.

さてこれを何も考えずにLyriaにぶち込んで生成された音楽がこちらです。

どうでしょうか?結構いい線いっているなと感じました。

まとめ

プロンプト次第という点はありますが、Lyriaから生成される音楽のクオリティは悪くない印象です。

音楽生成AIの未来としてはやはりマルチモーダルでの利用で様々な活用やビジネスが生まれそうですね。

※本記事は、ジーアイクラウド株式会社の見解を述べたものであり、必要な調査・検討は行っているものの必ずしもその正確性や真実性を保証するものではありません。

※リンクを利用する際には、必ず出典がGIC dryaki-blogであることを明記してください。
リンクの利用によりトラブルが発生した場合、リンクを設置した方ご自身の責任で対応してください。
ジーアイクラウド株式会社はユーザーによるリンクの利用につき、如何なる責任を負うものではありません。