- 投稿日:2026/03/06
皆さん。こんにちは!こんばんは!
ゆうきです😊
今回は少し古い論文
(といっても2024年発表論文)
をもとに
AIへの指示出しについて
新たな視点を享受してくれる
知識をご紹介したいと思います✨
「あなたは専門家です」は逆効果?
AIのプロンプトに関する
驚きの研究結果
ChatGPTなどのAIを使うとき、多くの人が
「あなたは有能なアシスタントです」や
「あなたはプロの編集者です」
といった指示(システムプロンプト)
を書き込んでいるのではないでしょうか?
実は、ChatGPT自身のデフォルト設定も
「You are a helpful assistant
(あなたは有能なアシスタントです)」
となっています。
こうした「役割(ペルソナ)」を与える手法は
AIの回答精度を高める「魔法の言葉」
として皆さんも信じているのではないでしょうか?
しかし、カーネギーメロン大学や
スタンフォード大学などの
共同研究チームが発表した
最新論文のタイトルは
私たちの常識を真っ向から否定するものでした。
その名も
『「有能なアシスタント」が、
実はあまり有能ではないとき』。
研究の結論は衝撃的でした。
「AIに役割を与えても
客観的な知識を問う問題の正解率は上がらない」。
私たちが信じてやまなかった
「一行」には
期待ほどの効果がないかもしれないのです💦
【衝撃の事実】
役割を与えてもAIは賢くならない
研究チームは
162種類の多様な役割と
幅広い知識を問う2,410問のクイズ
(MMLUデータセット)を組み合わせ
大規模な実験を行いました
(例えば法律の専門役割を与え
法律問題のクイズを解かせる等)
使われたAIは
Llama-3、Mistral、Qwen2.5
FLAN-T5といった
「オープンウェイト
(モデルの内部構造が公開されている)」
AIたちです。
実験の結果
役割を一切与えない場合と比べて
役割を与えたからといって
正解率が向上することはありませんでした。
研究チームは論文内で次のように言及してます。
システムプロンプトにペルソナを追加しても
モデルのパフォーマンスは向上しない。
(adding personas in system
prompts does not improve
model performance)
さらに興味深いのは
モデルが賢くなればなるほど
役割設定が「ノイズ(邪魔)」
になる可能性があるという点です。
例えば、非常に高性能な
「Llama-3-70B」のような大規模モデルでは
役割を設定することでかえって
成績が下がる傾向が見られました。
これは「スケーリング効果(簡単に言うと
AIを大きくすればするほど賢くなる)」
と呼ばれ
AIが複雑になるほど
余計な設定が本来の推論能力を
邪魔してしまう可能性があるとのことです。
「誰になりきるか」より
「誰に話すか」が重要?
研究では
指示の出し方(フレーミング)
についても面白い発見がありました。
AIに対して「あなたは弁護士です(話し手の設定)」
と指示するよりも
「あなたは弁護士に話しかけています(聞き手の設定)」
とした方が、わずかに成績が良かったのです。
なぜ、自分が誰かになるよりも
相手が誰かを想定する方が良い結果を生むのでしょうか?
これは
AIが「特定のキャラクターを演じること」に
リソースを割くよりも
「聞き手の文脈に合わせて情報を整理すること」
に集中できるからだと考えられます。
「専門家になりきる」という自己中心的な設定よりも
「専門家に伝わるように話す」
という状況設定の方が
AIが本来持っている知識を引き出しやすいのかもしれません。
ではどのような質問の仕方がいいのか?
これまでの内容を踏まえて
どのような指示出しが良いか?
一例を示します。
例えば、あなたが
「腰痛にはスクワットが良い」
と耳にしたことがある場合
以下のように指示出しを
してみてください。
指示文:
「以下の『スクワット』という
運動が腰痛を持つ患者に与える効果について
医学的(または理学療法)
な観点から教えてください。
[ご自身の運動の頻度や
状況をシンプルに記載]」
これは
「役割(ペルソナ)を一切与えない指示が
多くの場合で最も安定して良い結果を出す」
ということなので
単刀直入に事実だけを聞いています。
本研究の限界と
「言えること・言えないこと」
この研究結果を日々のAI活用に活かすために
判明したことと注意点を整理しましょう。
判明したこと(言えること)
MMLU(26分野の知識問題)
のような客観的なクイズ形式では
役割設定は正解率を上げない。
大規模で高性能なモデルほど
役割設定がかえって「ノイズ」になり
成績を下げる場合がある。
まだわからないこと(言えないこと)
会話の「質」への影響
今回の実験はあくまで「正解・不正解」の評価です。
AIの「口調を優しくする」
「特定のキャラクターらしく振る舞う」
といった
役割を与えることが
回答の出力に差が出るかどうかは分かりません。
最新の有料モデル
実験はLlama-3やQwen2.5などの
オープンウェイトモデルで行われました。
GPT-4oやClaude 3.5 Sonnet
(2024年の論文なので
少し古いモデルです。。)
といったモデルでは
差があるかどうかわからない。
結論:
これからのAIとの付き合い方
私たちはこれまで
AIを賢くするためや
最良の回答を得るために
「型」に頼りすぎていたのかもしれません。
「あなたは専門家です」という魔法の呪文を唱えれば
AIが魔法のように賢くなると信じてきました。
しかし今回の研究は
AIが本来持っている能力を最大限に引き出すのは
複雑なペルソナではなく
むしろシンプルで偏りのない言葉
であることを教えてくれました。
もちろん
AIに特定のトーンで話してほしい場合には
役割設定は今後も有効です。
しかし
もしあなたが「正しい答え」や
「質の高い知見」を求めているのなら
凝った役割設定に時間をかけるよりも
質問そのものの具体性や論理構成に目を向ける方が
ずっと近道かもしれません。
「型」を一度忘れ
ありのままのAIと対話してみる。
そんな柔軟な姿勢が
AIを正しく使う方法かもしれません。
※注意点:
・今回の論文で使用されているモデル
は現在の主流よりも
古いモデルです。
その為、現在では
また違った使い方があるかもしれません。
参考文献:
Zheng, M., Pei, J., Logeswaran, L.,
Lee, M., & Jurgens, D.
When “A Helpful Assistant” Is Not Really Helpful:
Personas in System Prompts
Do Not Improve Performances of
Large Language Models.
AIツールを使った時短術から
運動や心理学を通じた心と体の健康まで。
私が記事を書き続ける原動力は
「皆さんの毎日が、昨日より少しでも豊かで
軽やかになってほしい」
という、ただ一つの願いです。
テクノロジーは
私たちの生活を便利にしてくれます。
そして
自分自身の心と体についての正しい知識は
私たちの人生そのものを豊かにしてくれます。
これからも
この両輪で皆さんの「知りたい!」
に応え続けていきたいと思います。
今回の記事が少しでも「面白い!」
「役に立った!」と感じていただけたら
ぜひいいねやコメントで教えてください。
それが、私の次なる記事への
何よりのエネルギーになります。
長くなりましたが
最後まで読んでいただき
本当にありがとうございました。
また次回の記事で
新しい発見を一緒に楽しみましょう!😊