大規模言語モデルを用いた作編曲システムにおける
カスタマイズ可能なパラメータ制御

Implementation of Customizable Parameter Control for Music Editing Using Large Language Models

論文

  • 情報処理学会 一般号 査読中
  • 概要

    音楽作編曲システムでユーザの意図を正確に反映した作品を作るために,ユーザからのフィードバックを受けて作品を改良する 「Human-in-the-loop」の枠組みが注目されている。その中で課題となるのが,ユーザがシステムへ指示を与えるためのインタフェースである。 代表的なアプローチにパラメータ制御が挙げられるが,現状ではユーザがパラメータを自由に設定できないという制約がある。 本稿では,ユーザがパラメータを任意に設定できる「可変概念パラメータ」を提案する。また,その実装に向けて大規模言語モデル(LLM)を プロンプトエンジニアリングによって調整する手法を検討した。評価の結果,明暗やテンポに関連する制御では安定した操作が可能である一方, パラメータ調整の精度や限界値の取り扱いといった課題が明らかとなり,モデル性能やインタフェース設計にさらなる改善の必要性が示された。

    To reflect user intentions in music generation AI, the "Human-in-the-loop" framework, which iteratively improves outputs based on user feedback, has gained attention. One of the challenges lies in the interface through which users provide instructions to the system. One common approach is parameter control, but traditional methods have the limitation that users cannot freely define the meaning of parameters. In this study, we propose "Customizable Semantic Parameters," which allow users to define control targets arbitrarily. For its implementation, we employed a method that adjusts large language models (LLMs) through prompt engineering. The evaluation showed that specific controls, such as brightness and tempo, were stable, but challenges related to adjustment precision and handling of parameter limits were identified. This highlights the need for further improvements in model performance and interface design.

    可変概念パラメータとその修正例

    本システムでは、ユーザの指示に合わせて、メロディとコード進行からなる楽曲を生成・編集できる。 その手段として提供されている可変概念パラメータは、楽曲の調節したい雰囲気(例: 明るさ・ジャズ感)をテキスト形式で指定したり、その強度を数値で設定したりできる。

    図1. システムの構成図

    図2. ユーザインタフェース

    修正対象とする楽曲

    修正例

    軸の名前 0 0.5 1
    明るさ
    厳かな
    気まぐれな
    勇敢な(case 1)
    勇敢な(case 2)
    堂々とした(case 1)
    堂々とした(case 2)
    静かな
    沈んだ
    クラシック感(case 1)
    クラシック感(case 2)
    ジャズ感(case 1)
    ジャズ感(case 2)
    スイング感(case 1)
    スイング感(case 2)

    LLMに楽曲を記述させるために

    本研究では、比較的安定して楽曲を記述できるLLMとしてGPT-4o-2024-05-13 を使用する。 ただし、楽曲の記述が十分には安定しないため、プロンプトエンジニアリングを通じて生成の安定性を向上させる手法を検討する。

    本研究では、有効と思われた以下の四つの工夫を検討し、これらの有効性をAblation Studyの形式で調査する。

    • ruleset: 確認された出力誤りを列挙し、それらを抑制するように指示する。
    • instrument: 楽曲がどの楽器で演奏されるかを明示する。本研究ではピアノ演奏を指定。
      • (楽器を変更しても生成傾向に変化は見られなかった)
    • examples: 生成されるべき楽曲の具体例をプロンプトに含める。
    • refine-pattern: 出力された楽曲を見直し、誤りを訂正する指示を含める。

    安定性評価のために使用するプロンプト

    以下の6種類のプロンプトを用意し、各プロンプトを100回使用して楽曲を生成する。

    1. 工夫なしプロンプト: プロンプトの例
    2. すべての工夫を適用したプロンプト: プロンプトの例
    3. rulesetを適用しないプロンプト: プロンプトの例
    4. instrumentを適用しないプロンプト: プロンプトの例
    5. examplesを適用しないプロンプト: プロンプトの例
    6. refine-patternを適用しないプロンプト: プロンプトの例

    評価指標

    楽曲を安定的に生成できるとは、正しいABC形式を高い確率で生成できることを指す。 安定性の評価には、ABC形式をMIDI形式に変換するコンパイラ abc2midi を用いて、以下の2種類の成功率を定義する。

    • success値: abc2midiのコンパイルでエラーが出なかった試行数。エラーはABC形式の文法ミスで発生する。
    • perfect値: abc2midiのコンパイルで警告が出なかった試行数。警告の多くは、拍子と一小節内の音価の不一致に起因する。

    結果

    LLMに与えたプロンプト perfect success
    工夫なし 30 73
    すべての工夫を適用 41 87
    rulesetを適用しない 51 69
    instrumentを適用しない 41 87
    examplesを適用しない 22 63
    refine-patternを適用しない 73 92

    以上の結果を踏まえ、本提案システムでは refine-patternを適用しないプロンプト を採用している。

    その他詳細

    使用ツール

    音響信号へのレンダリングには以下のツールを用いました。