AIはチームで働き始めた——ただし「誰の手柄か」はまだ測れない
複数のAIを組ませて働かせる研究が、単体エージェントの研究に並ぶ勢いで積み上がっています。ところが、チームの成果を測るものさしはまだ揃っていません。手柄の配分、失敗の原因究明、評価のコスト——人間の組織が長年抱えてきた悩みによく似た問題が、AI研究に現れ始めています。前回予告した「エージェントのチーム化」の深掘り回です。
前回の定点観測で、ひとつ宿題を残していました。複数のAIを協調させる「マルチエージェントシステム」(*1)の研究が、単体のエージェント研究に匹敵する量で積み上がっている。けれどもチームの成果は測りにくく、共通のものさしはまだ見えない——近いうちに1本の記事として掘り下げる、と書きました。今回はその回です。
まず件数の確認から。直近7日間(6月27日〜7月3日)の観測でも、LLMエージェントが21件、マルチエージェントシステムが19件と、先週とほぼ同じ比率で並んでいました。1週間だけの偶然ではなく、「一人のAIに仕事を任せる」研究と「AIのチームに仕事を任せる」研究が、同じ規模で走り続けていると見てよさそうです。
チーム化を後押しする実務側の報告もあります。Anthropicは、自社の調査機能を複数エージェント構成で作った際の記録をエンジニアリングブログとして公開しており、そこでは社内評価で単体エージェント構成の成績を9割ほど上回ったとされています。ただし同じ記録には、通常のチャットのおよそ15倍の計算量(トークン)を消費するという数字も並んでいます。強力だが安くはない、という構成です。そうなると「実際どれだけ強いのか」を正確に測って判断したくなりますが、その測り方こそ、いま研究の世界で定まっていないものです。
今回は蓄積の中から、この「チームとものさし」を巡る論点を3つ拾います。
論点1: チームの「組ませ方」が出揃ってきた
そもそも、AIはどうやってチームに組まれているのでしょうか。直近2週間の研究群を眺めると、組ませ方にいくつかの型が見えてきます。
ひとつは分業型です。大規模なプログラムの読解を、要約担当・キーワード抽出担当・品質保証担当という役割の違うAIで分担させる研究(Agent4cs)では、1つのモデルに丸ごと任せるより一貫性の高い要約が得られたと報告されています。
もうひとつは、情報の配り方を設計する型です。将来予測をAIの合議で行う研究(InfoDelphi)は、興味深い観察から出発しています。全員のAIに同じ資料を渡して議論させると、意見がすぐに横並びになってしまい、結局は単体のAIと大差なくなる。そこで、全員が共有する資料と各自にしか渡さない資料をあえて分けたところ、議論が機能して予測の精度が上がったと報告されています。
さらに、発言の手前を作り込む型もあります。社会シミュレーションの研究(Think-Before-Speak)は、各AIに「内心の評価」と「実際の発言」を分けて持たせ、発言したいAIたちの意図を調停役がさばくという構造を提案しています。
お気づきかもしれませんが、これらはどれも人間の組織づくりの語彙で説明できてしまいます。役割分担を決める、会議資料の配り方を工夫する、発言の場を設計する。AIのチーム研究は、組織論や会議設計がずっと扱ってきた問題系に、急速に近づいているように見えます。
論点2: 成果は見えても「誰の手柄か」が見えない
組ませ方が多様になるほど重くなるのが、前回も触れた測りにくさの問題です。チーム全体の成果は測れても、その中の個々のAIの貢献が測れません。
graph LR
TASK[仕事] --> A[AI A・計画]
TASK --> B[AI B・実行]
TASK --> C[AI C・検査]
A --> OUT[チームの成果]
B --> OUT
C --> OUT
OUT --> Q1[成果の採点はできる]
OUT -.-> Q2[個々の貢献は外から見えない]
一人のAIなら、仕事の結果を見れば成否を判断できます。チームになると、良い結果はどのAIのおかげなのか、悪い結果はどこで最初に狂ったのか、外からは切り分けられません。そして貢献がわからなければ、どのAIをどう鍛えれば良いチームになるのかもわからない。つまり評価の問題は、そのまま訓練の問題でもあります。
今週は、この急所に正面から取り組む研究がありました。チーム全体の評価を個々のAIへ、さらに個々の発言レベルへと配り直す枠組みの提案です。成功したときは、協力ゲーム理論のShapley値(*2)という考え方で手柄を公平に配分し、失敗したときは「最初の誤り」を探し当てて、そこに修正を促す信号を送る。手柄と責任の配分を、そのまま学習の信号として使う設計です。
もうひとつ、測る側の足元を疑う研究も出ています。エージェント向けベンチマーク(性能試験)の点数は、モデル本来の実力と、試験ごとの実装や道具立ての違いが混ざったものになりがちで、試験をまたいだ比較が難しい。そこで多様なベンチマークを統一形式に揃え、どこまでがモデルの力で、どこからが環境の効果なのかを分けて測ろうという提案です。ものさし同士の目盛りを揃える作業だと言えます。
チームの成果を個人にどう配分するか——これは、人間の組織が人事評価という形で何十年も悩んできた問いと、構造がほとんど同じです。ただしAIのチームには、人間の職場と決定的に違う点がひとつあります。やりとりの記録がすべて残ることです。誰がいつ何を発言したかが完全に残る組織は、人間の世界にはまず存在しません。断定はできませんが、貢献の切り分けは、案外人間の組織より先にAIチームで実用になるのかもしれません。
論点3: 評価そのものが高くつく——ものさしが揃う前に、現場は走り出している
3つ目は、より現実的な話です。仮に良いものさしが設計できたとしても、測ること自体のコストが重いのです。
代理評価を提案する研究(PACE)は、原文で率直な数字を挙げています。エージェント用のベンチマークは実行環境の構築が複雑で、1回の評価に数千ドルの費用と数日の時間を要することがある。そこで、安価に実行できる単発能力のテスト(推論やコード生成など)の結果から、高価なエージェント評価の成績を予測できないかという発想が出てきます。健康診断の全項目を毎回受ける代わりに、少数の検査値から全身の状態を推定するような割り切りです。
運用の現場も、完璧なものさしを待ってはいません。先ほどのAnthropicの記録では、採点基準を渡したLLMに評価させる方法と人間によるレビューを併用して品質を保っていると説明されています。また、失敗の側から語彙を整える動きもあります。複数のエージェント基盤で200を超えるタスクを分析し、失敗のパターンを「仕様の問題」「エージェント間のすれ違い」「検証の不備」の3系統・14種類に分類した研究(MAST)が昨年発表され、後続研究の共通言語になりつつあるように見えます。この研究は、マルチエージェント構成の成績が単体構成と大差ない場合が少なくないことも指摘しており、「チームにすれば強くなる」が自明ではないからこそ測る道具が要る、という出発点を示しています。
そして、測れないまま走ることへのもう一つの答えが、事前に壊れない仕組みを作る方向です。複数のAIが同じプログラム置き場を同時に書き換える状況で、それぞれの書き込みの意図を事前に審査して衝突を防ぐ枠組み(ATM)のような研究は、事後の評価ではなく事前の統制で品質を守ろうとしています。評価とガバナンスは、ものさし問題の表と裏の関係にあると言えそうです。
観測点
いつものように未来の断定はせず、観測点を置いておきます。
- チーム専用のものさしが固まるか。 失敗分類(MAST)のような共通語彙や統一評価の枠組みが、後続研究の標準として引用され続けるかどうか。
- 手柄の配分が実務の道具に降りてくるか。 Shapley値のような貢献配分が、論文の中の理論から、エージェント基盤の管理画面で確認できる機能へと変わっていくかどうか。
- 「チームは割に合うか」が数字で語られ始めるか。 単体で十分だった、チームで勝った——その比較が、計算コスト込みの費用対効果として報告される例が増えるかどうか。
複数のAIを組ませる研究を追いかけていくと、行き着いた先は意外にも、役割分担・会議設計・人事評価という、私たちがよく知る組織の問題でした。AIチームの研究が人間の組織論から学ぶのか、それとも記録がすべて残るAIチームの側から、人間の組織論へ新しい知見が返ってくるのか。この交差点は、引き続き定点観測していきます。
注釈
*1 マルチエージェントシステム: 複数のAIエージェント(道具を使いながら自律的に仕事を進めるAI)が、分担や協調をしながら1つの仕事に当たる構成のこと。単体のエージェントと対比して使われます。
*2 Shapley値(シャープレイ値): 協力ゲーム理論の概念で、チームで得た成果を「各メンバーが参加した場合としない場合の差」に基づいて公平に配分する計算方法。1950年代に提案され、経済学などで長く使われてきました。
この記事で参照した Signal Field Notes の記事
関連する外部記事
- How we built our multi-agent research system (Anthropic)
- Why Do Multi-Agent LLM Systems Fail? (arXiv)