Implementation of Customizable Parameter Control for Music Editing Using Large Language Models
Ryosei Kawaguchi (Kwansei Gakuin University)
Haruhiro Katayose (Kwansei Gakuin University)
音楽作編曲システムでユーザの意図を正確に反映した作品を作るために,ユーザからのフィードバックを受けて作品を改良する 「Human-in-the-loop」の枠組みが注目されている。その中で課題となるのが,ユーザがシステムへ指示を与えるためのインタフェースである。 代表的なアプローチにパラメータ制御が挙げられるが,現状ではユーザがパラメータを自由に設定できないという制約がある。 本稿では,ユーザがパラメータを任意に設定できる「可変概念パラメータ」を提案する。また,その実装に向けて大規模言語モデル(LLM)を プロンプトエンジニアリングによって調整する手法を検討した。評価の結果,明暗やテンポに関連する制御では安定した操作が可能である一方, パラメータ調整の精度や限界値の取り扱いといった課題が明らかとなり,モデル性能やインタフェース設計にさらなる改善の必要性が示された。
To reflect user intentions in music generation AI, the "Human-in-the-loop" framework, which iteratively improves outputs based on user feedback, has gained attention. One of the challenges lies in the interface through which users provide instructions to the system. One common approach is parameter control, but traditional methods have the limitation that users cannot freely define the meaning of parameters. In this study, we propose "Customizable Semantic Parameters," which allow users to define control targets arbitrarily. For its implementation, we employed a method that adjusts large language models (LLMs) through prompt engineering. The evaluation showed that specific controls, such as brightness and tempo, were stable, but challenges related to adjustment precision and handling of parameter limits were identified. This highlights the need for further improvements in model performance and interface design.
本システムでは、ユーザの指示に合わせて、メロディとコード進行からなる楽曲を生成・編集できる。 その手段として提供されている可変概念パラメータは、楽曲の調節したい雰囲気(例: 明るさ・ジャズ感)をテキスト形式で指定したり、その強度を数値で設定したりできる。
図1. システムの構成図
図2. ユーザインタフェース
| 軸の名前 | 0 | 0.5 | 1 |
|---|---|---|---|
春 |
|||
明るさ |
|||
厳かな |
|||
気まぐれな |
|||
勇敢な(case 1) |
|||
勇敢な(case 2) |
|||
堂々とした(case 1) |
|||
堂々とした(case 2) |
|||
静かな |
|||
沈んだ |
|||
クラシック感(case 1) |
|||
クラシック感(case 2) |
|||
ジャズ感(case 1) |
|||
ジャズ感(case 2) |
|||
スイング感(case 1) |
|||
スイング感(case 2) |
本研究では、比較的安定して楽曲を記述できるLLMとしてGPT-4o-2024-05-13 を使用する。 ただし、楽曲の記述が十分には安定しないため、プロンプトエンジニアリングを通じて生成の安定性を向上させる手法を検討する。
本研究では、有効と思われた以下の四つの工夫を検討し、これらの有効性をAblation Studyの形式で調査する。
以下の6種類のプロンプトを用意し、各プロンプトを100回使用して楽曲を生成する。
楽曲を安定的に生成できるとは、正しいABC形式を高い確率で生成できることを指す。 安定性の評価には、ABC形式をMIDI形式に変換するコンパイラ abc2midi を用いて、以下の2種類の成功率を定義する。
| LLMに与えたプロンプト | perfect | success |
|---|---|---|
| 工夫なし | 30 | 73 |
| すべての工夫を適用 | 41 | 87 |
| rulesetを適用しない | 51 | 69 |
| instrumentを適用しない | 41 | 87 |
| examplesを適用しない | 22 | 63 |
| refine-patternを適用しない | 73 | 92 |
以上の結果を踏まえ、本提案システムでは refine-patternを適用しないプロンプト を採用している。
音響信号へのレンダリングには以下のツールを用いました。