音楽生成AIのLyriaってどうなんでしょう?
音楽生成AIのLyria
Table of contents
author: Nov
音楽生成AIのLyriaってどうなんでしょう?
ジーアイクラウドでマネージャーをやっているNovです。
かつてはコーディングやら実装やらやっておりましたが、20代終わり位からマネージメントが主になって早ン十年。手は動かさないけど口は出すおっさんに成り果てております。
弊社のエンジニアが楽しそうに様々な生成AIの取組をやっているので、せっかくなので自分も何か書いてみようかなと思っておりましたが、今年4月のGoogle Cloud Next ‘25で音楽生成モデルであるLyria 2が発表されたのでこちらで遊んで検証してみました。
Lyriaとは
GoogleのLyriaは、Google DeepMindによって開発された高度な音楽生成AIモデルです。テキストによる指示(プロンプト)から、高品質な音楽を自動で作り出すことができます。
Lyriaの利用方法
Lyriaは大きくわけて2つの利用方法があります。
- Gemini APIを通じたリアルタイム利用(Lyria RealTime)
- Google CloudのVertex AIでの利用:
Gemini APIを通じたリアルタイム利用(Lyria RealTime)
Gemini APIでリアルタイムに音楽を生成させる利用方法です。
Lyria RealTime を使用した音楽生成 | Gemini API | Google AI for Developers
Google AI Studio内のLyria Realtimeから利用できます。今回はあんまり触っていないので割愛します。触って面白そうだったらまた書きます。
また MusicFX DJというページでは生成された音楽をDJ的にリアルタイム再生させることができます。
とりあえずBGM流しとくかという場面があったらMusicFX DJ使うというのもありですね。
Google CloudのVertex AIを通じた利用
Google CloudのVertex AIに組み込まれたLyriaの機能を使う利用方法になります。
Lyria | AI Music Generator | Generative AI on Vertex AI | Google Cloud
こちらが今回メインで検証してみた利用方法になります。
それではVertex AIのMedia StudioからLyriaを選択して使ってみます。
MediaStudioのコンソール画面からLyriaに音楽生成をさせることができます。
早速プロンプトを入力していきます。
Googleの Lyria 音楽生成プロンプト ガイド によると以下の要素を考慮する必要があるみたいなのでそれを意識して作っていきましょう。
- ジャンルとスタイル: 主な音楽カテゴリ(エレクトロニック ダンス、クラシック、ジャズ、アンビエントなど)とスタイルの特徴(8ビット、シネマティック、ローファイ)。
- ムードと感情: 音楽で表現したい感情(エネルギッシュ、メランコリック、平和的、緊張感など)。
- 楽器: 聞きたい主な楽器(ピアノ、シンセサイザー、アコースティック ギター、弦楽オーケストラ、電子ドラムなど)。
- テンポとリズム: テンポ(速いテンポ、スローバラード、120 BPMなど)とリズムの性質(ドライブ感のあるビート、シンコペーション リズム、優しいワルツ など)。
- (省略可)アレンジ/構造: 楽曲の進行やレイヤの構成(ピアノのソロから始まり、ストリングスが加わる、力強いコーラスにクレシェンドするなど)。
- (省略可)サウンドスケープ/アンビエンス: バックグラウンド サウンドや全体的な音響環境(雨の降る音、都市のナイトライフ、広々としたリバーブ、水中にいるような感覚など)。
- (省略可)制作品質: 望ましい音質または録音スタイル(高品質の制作、クリーンなミックス、ビンテージ録音、未加工のデモ音源など)
なお、2025年6月1日現在では日本語入力に対応していないので英語でプロンプトを作成していきます。
まず最初に作ってみたプロンプトがこれ。
Jazzでも生成してもらおうかという感じで書きました。
1. **Genre and Style:** Jazz
2. **Mood and Emotion:** Beautiful melody with a sense of comfort
3. **Instruments:** Trio formation of piano, double bass, and drums
4. **Tempo and Rhythm:** Swing Jazz at BPM 97
5. **Arrangement/Structure:** Key of C minor, starting with a 4-bar piano solo, followed by bass and drums joining in.
6. **Soundscape/Ambience:** Small room reverb
7. **Production Quality:** Clear sound quality with each instrument clearly separated
大体20秒位で生成されました。
4トラック作成されましたが、なぜか1トラックだけ右横に配置されました…(なぜだ?)
そして生成された音楽が以下になります。
生成された音楽のクオリティは…?
生成された音楽を聴くとまあ悪くない感じですね。
プロンプトに書いてあることを微妙に理解できていない部分もありますが、一発でこのレベルだったらよーしプロンプト直していい感じにしちゃうぞという意欲も持てますね。
この後、音楽のジャンルってどれくらい書き分けるのか色々試してみました。
Jazzとか世間的にイメージが固まっているジャンルだとまずますのモノが生成されましたが、例えばPOPSみたいにジャンルとして様々な形態がある音楽はプロンプトを色々工夫しないと求めるものに近い形は難しいかなと感じました。
以下のプロンプトは色々試したのですが、マニアックなジャンルではあるので読み飛ばしていただいて結構です。
- Musica Popular Brasileira(ブラジルのPOPS)
1. **Genre and Style:** Musica Popular Brasileira
2. **Mood and Emotion:** Beautiful melody with a sense of comfort
3. **Instruments:** Trio formation of piano, electric bass, and drums
4. **Tempo and Rhythm:** Partido Alto rhythm pattern, tempo 105
5. **Arrangement/Structure:** Key of C minor, starting with a 4-bar piano solo, followed by bass and drums joining in.
6. **Soundscape/Ambience:** Small room reverb
7. **Production Quality:** Clear sound quality with each instrument clearly separated
なぜかムード歌謡が出来上がったでござる…。
- ミナスジェイラスやノルデスチの音楽
1. **Genre and Style:** Minas Gerais Sound
2. **Mood and Emotion:** Beautiful melody with a sense of comfort
3. **Instruments:** Trio formation of piano, electric bass, and drums
4. **Tempo and Rhythm:** Baiao , tempo 105
5. **Arrangement/Structure:** Key of C minor, starting with a 4-bar piano solo, followed by bass and drums joining in.
6. **Soundscape/Ambience:** Small room reverb
7. **Production Quality:** Clear sound quality with each instrument clearly separated
これは結構いい感じ。
画像から音楽を生成してみる
ただ音楽を生成するだけだと面白くないので風景写真から音楽を生成させてみました。
マルチモーダルってことになるのかな。
いきなり画像を音楽にする機能はないので、画像を文字情報化した後に音楽生成をします。
まずVertex AIのプロンプト作成から以下の形式で指示を出します。
- Model: gemini-2.5-flash-preview-05-20
- システム指示
あなたは作曲家です。作曲のインスピレーションは自然風景から得ています。 - プロンプト
添付画像をみてあなたが表現したい曲調を教えてください。
回答はLyriaにプロンプトとして入力できる形にしてください。
回答は英語でお願いします。
ちなみに添付画像は自宅近所の沼になります。昨冬通りかかった際に広々として気持ちの良い光景だったのでなんとなくスマホで撮影しました。
まさか半年後に生成AIに食わせる素材になるとはその時は微塵も思いませんでしたが。
そしてGeminiで生成された回答は以下になります。
Here is the musical direction I envision, tailored for Lyria's prompt input, inspired by the tranquil yet expansive scene:
Music Prompt: "Winter Lake Serenity"
Overall Concept: Compose a serene and reflective ambient piece, capturing the quiet grandeur of a vast, calm lake under a layered, tranquil sky on a cool, clear day. The music should evoke a sense of peaceful contemplation and subtle hope.
Mood:
Peaceful, tranquil, and contemplative. Spacious and expansive. A touch of gentle melancholy transitioning into calm hope and clarity. Meditative and still, yet subtly evolving. Instrumentation:
Main: Grand piano with extensive sustain and reverb, playing sustained chords and gentle, arpeggiated figures that mimic the gentle rippling of the water surface. Pads: Warm, evolving synthetic or orchestral string pads providing a rich, atmospheric background, reflecting the vastness of the sky. Melodic Elements: Delicate, breathy woodwinds (e.g., flute or clarinet) for occasional, sparse melodic lines, or high, ethereal plucked strings (harp/pizzicato) for delicate accents. Bass: Deep, resonant, sustained synth bass or low-end piano notes, providing a grounding and meditative foundation, like the depth of the lake. Percussion: Minimal to absent. If any, very light, shimmering textures (e.g., sustained cymbals, distant chimes) to enhance the sense of space, almost like subtle environmental sounds. Tempo:
Adagio to Larghetto (very slow, around 50-70 BPM). Dynamics:
Primarily soft to mezzo-piano. Long, gradual swells and decays to enhance the sense of ebb and flow, spaciousness, and natural movement. Harmony:
Utilize modal harmonies or minor keys with occasional shifts to major, creating a sense of reflective beauty and gentle optimism. Avoid abrupt changes. Structure:
Evolving and atmospheric, with long sustained notes and slowly shifting chord progressions, allowing the listener to settle into the soundscape. This piece aims to be a soundscape that envelops the listener, much like the quiet, wide expanse of the landscape in the image.
さてこれを何も考えずにLyriaにぶち込んで生成された音楽がこちらです。
どうでしょうか?結構いい線いっているなと感じました。
まとめ
プロンプト次第という点はありますが、Lyriaから生成される音楽のクオリティは悪くない印象です。
音楽生成AIの未来としてはやはりマルチモーダルでの利用で様々な活用やビジネスが生まれそうですね。
※本記事は、ジーアイクラウド株式会社の見解を述べたものであり、必要な調査・検討は行っているものの必ずしもその正確性や真実性を保証するものではありません。
※リンクを利用する際には、必ず出典がGIC dryaki-blogであることを明記してください。
リンクの利用によりトラブルが発生した場合、リンクを設置した方ご自身の責任で対応してください。
ジーアイクラウド株式会社はユーザーによるリンクの利用につき、如何なる責任を負うものではありません。