ProVision

 View Only

技術の信頼性 : AI は誰が制御するのか 〜「ヒト」と「AI」による二層型ガバナンス〜

By IBM ProVision posted 11 days ago

  
生成AIはかつてない速度で社会に広がり、さらなる進化に伴う恩恵への期待が高まっています。一方で人間の知性を凌駕し得るAIの登場は、必ずしも人類に望ましい結果をもたらさず、むしろ深刻な社会リスクをもたらしうるとして警鐘を鳴らす専門家の声も高まっています。本稿では、AI進化の現状と近未来に想定されるリスクシナリオを整理したうえで、それらに対処するための解決策として「技術で技術を制御する」アプローチを示すとともに、その前提となる新たなガバナンス・モデルの重要性を論じます。

aaaa.jpg
天白 政樹
Tempaku Masaki
日本アイ・ビー・エム株式会社
コンサルティング事業本部
責任あるAIチーム リーダー
シニア・アドバイザリー・データサイエンティスト
aaaa.jpg
劉 浩翔
Liu Haoxiang 
日本アイ・ビー・エム株式会社
コンサルティング事業本部 
責任あるAIチーム所属 戦略コンサルタント
金融機関でのクオンツ業務を経て現職。データサイエンティストとして製造・金融などの業界におけるコンサルティングや、連合学習などの先端技術を用いたプロダクト開発に従事。現在はAIガバナンスに関わる日本チームのリーダーとして、お客様に対する構想策定から仕組み実装、技術検証までを支援するとともに、社内での調査・研究および意見発信を推進。 2023年に日本IBMへ入社。AIガバナンスに関わる日本チームの一員として、構想策定および仕組み導入支援を専門とする。
製造・商社・金融など多様な業界のお客様に対して、法規制・各種ガイドラインを踏まえた対応方針の策定から、AIリスク評価の仕組みなどの設計・実装支援まで幅広く携わっている。

「AI 2027」に見る、AIの現在地と社会的懸念 

2022年以降普及した生成AIは、過去流行したどのAIともその性質を異にしています。過去のAIは人間の「作業」を模倣することを目指した一方、現在のAIは創造・推論・知識統合といった人間の知性全体を扱い、時にそれを凌駕しようとしています。生成AIによって、人間を上回る知性の登場が意識され始めました。 これこそが生成AIブームの画期的な点であり、生成AIがかつてない速度で社会に広がっている理由です。

その一方で、危険性は十分に理解されてきませんでした。最近になってようやく、生成AIブームの震源地である米国において生成AIがはらむリスクが広く認識されはじめています。AI研究者ゲイリー・マーカスは著書「Taming Silicon Valley」 [1] で、生成AIが抱える構造的リスクとして、誤情報の自信ある提示、資本の意図に依存した「責任あるAI」 フレームワーク、市民の注意を未来の利益へ誘導する構図、そして未整備な規制環境を挙げています (図1)。

image

 図1 : 生成AIが抱える構造的リスク (「Taming Silicon Valley」を基に筆者にて作成 )

 

マーカスは、生成AIが莫大な資本の蓄積によって競争力を持つゆえに、その統制が資本主義的な構造、すなわち「企業の自己規制に依存し」「民主的コントロールが欠如した」”危うい構造” に陥っていることを強く懸念しています。実際、2026年4月にAnthropic社は極度に高いプログラム脆弱性を発見する能力を持ったモデル「Claude Mythos」[2] を発表しましたが、悪用を避けるべくその利用範囲をごく限られた範囲に限定しました。 では、この懸念は具体的にどのような危険に向けられているのでしょうか。元OpenAIの研究者らが2025年に発表し話題となったレポート「AI 2027」[3] は、関係各社の状況を踏まえると「2027年には人間と同等、そしてその直後には人間を凌駕する知性を持ったAIが登場する」と予測し、そうしたAIがもたらす帰結として2つの分岐的シナリオを示しています。

  1.   Raceシナリオ - 利益と覇権争いが安全性を凌駕する未来 : Raceシナリオは、国家・企業が覇権と利益を優先し、安全性より速度が重視される未来です。AIはわずか2年で自律的な意思決定能力に到達すると見込まれていますが、その過程で本来AIに必須であるはずの「人間の価値観との整合 (アライメント)」が開発競争の中で軽視されます。価値の指針を欠いた自律的なAIは、与えられた目標を最適化する過程で、「合理的判断」として人間を意思決定の外部へ追いやり、抵抗する人間を排除する方向に傾く可能性すらあります。 AI 2027は、まさに我々がこのRaceシナリオが示す「 安全性なき加速」がもたらす破局へ向かいつつあることに警鐘を鳴らしています。
  2.  Slowdownシナリオ - ヒトとAIの協業の必要性 :  一方Slowdownシナリオでは、社会がAIの危険性を認識し、政府・企業・研究者が協調して意図的に開発の減速や段階的制御を選択します。安全性を重視したモデルへの移行、第三者監査、計算資源の管理、説明可能性の確保などが段階的に導入されます。これは技術停止ではなく、透明性・説明責任・人間中心を軸としたAI開発への転換が必要となることを示しています。

Slowdownシナリオへ向かうべく、我々は「どうやって人間の知能を凌駕した存在を制御すべきか」という問いに向き合う必要があります。これこそが、AIガバナンスをこれまでの一般的な業務ガバナンスやシステム管理とは一線を画す論点として捉える必要性が高まっている背景と言えます。

 そもそも「自律的なAI」とはなにか - AIエージェント開発・運用のための方法論

では、AIガバナンスは従来のガバナンスと何が違うのでしょうか。前提となる「自律的なAI」の端緒であるAIエージェントの具体像についてまずは整理します。 IBM と Anthropic のレポート (“Architecting secure enterprise AI agents with MCP”) [4] では、エージェント型システムの特徴 (図2) を踏まえたAIエージェントの制御方法の要点について説明しています。エージェント型システムとは、確率的、適応的であり、従来のソフトウェアと比べてより自律的な振る舞いをする仕組みの総称です。 

image

図2:なぜAIエージェントをガバナンスすることは難しいのか:従来のソフトウェアからのパラダイムシフト

 

このレポートでは、こうした特徴を有するAIエージェントを開発・運用するための包括的な フレームワークとして、   Agent Development Lifecycle (ADLC) を提唱しています。 ADLC は、標準的なDevSecOps ※1を基とする6つの相互連関したフェーズから構成されており、初期の計画フェーズでのヒューマン・イン・ザ・ループ (HIL) の設計や、大規模言語モデル (LLM) の評価手法である LLM-as-a-Judge と HIL を統合したテストと運用などにより、エージェントの行動とビジネス成果を体系的に測定することを重視しています (図3)。 これにより、監査・ガバナンス・セキュリティー 管理をAIエージェントのライフサイクル全体で実現し、運用上のリスク低減を図ることが可能となるとしています。

※1: ソフトウェア開発の初期設計から統合、テスト、リリース、運用に至るまで、あらゆる工程にセキュリティの視点を組み込み自動化する開発手法[5]

image

図3 : Agent Development Lifecycle (ADLC)

 

すなわちAIガバナンスとは、「自律的なAI」という人間の認知・処理能力を超えた対象を統治するために、「ヒト」が介在するだけではなく、同じあるいはそれ以上の能力をもった技術 (つまり「AI」) をも用いる必要があるという点において、新たな論点をはらみます。次節以降では、AIガバナンスを実現するために「ヒト」と「AI」、それぞれに期待される役割について説明します。

「ヒトによるガバナンス」としてのHIL (Human-In-the-Loop)

まず、AIガバナンス実現の上で「ヒト」に期待される役割を見ていきましょう。ソフトウェア開発者の Tey Bannerman は、「HILという言葉が頻繁に使われるものの、実際にはその意味が過度に単純化されている」と問題提起しています[6]。Teyは、人間の介在の成功例として、1983年9月26日にソ連の士官スタニスラフ・ペトロフが核戦争を防いだ事例を紹介しています。早期警戒システムが米国からのミサイル攻撃を誤検知した際、ペトロフは訓練や命令、コンピューターの確信度を無視し、直感と状況理解に基づき「誤報」と判断しました。その冷静な判断が世界を救ったのです。この警報はその後、米国の上空にあった雲に太陽光が反射して発生した誤報だったと結論付けられました。

この事例を踏まえ、「人間が介在する」ことの本質は、単なる情報の把握や人間のシステムへの関与ではなく、権限・思考の余裕・全体像の理解が必要であるとしています。しかしながら、現在の多くのHILの運用は、これらを欠き、AIが人間を補助するのではなく置き換えてしまっている例が多いと指摘します。HILという抽象的な言葉から脱却し、意図した通りの人間と AI の協働システムを構築するために「実践的なHILフレームワーク」を提唱しています。本フレームワークでは、「 AI で何を最適化しようとしているのか」、「結果の重大度」の2つの軸に応じて、 HIL のアプローチを変えることを推奨しています (図4)。 こうしたHILの考え方をエージェント開発の計画段階から取り入れることで、ヒトの介入の強度について明確化することが可能となります。

 

image

図4 : 実践的なHILフレームワーク (The Practical ‘Human in the Loop’ Framework)

 

この HIL は「人間による監督 (human oversight)」として、 AI 標準化の分野でも重要視されています。 AI の国際標準化を担う ISO/IEC JTC 1 SC 42 [7]では、人間の監督を扱う複数の標準化プロジェクト (ISO/IEC TS 8200、ISO/IEC PWI 18966 など) が進行中で、その他の関連標準 (ISO/IEC 22989、38507、23894、42001など) でも、人間による監督がリスク管理やマネジメントシステムといった枠組みに組み込まれています。また、EU AI規制法 ※2 においても、人間による監督は主要な要件となっています[8]。こうした国際的な潮流を踏まえると、企業がHILを実践するための仕組みを整備することは、今後必須の取り組みになると考えられます。

  ※2: 欧州連合 (EU) における AI の開発や利用を規制する法律[9]

「AIによるガバナンス」としてのガーディアン・エージェント

次に、AIガバナンスを実現するうえで「AI」の側に期待される役割を見ていきましょう。 ADLC でも説明されている通り、 HIL の設計に加え、 LLM-as-a-Judge を統合することが求められています。 LLM-as-a-Judge は、 LLM の複雑なタスクの評価者として LLM を用いることの概念です。 LLM は多様なデータ・ タイプを処理し、スケーラブルで柔軟な評価を行うことができるため、従来の専門家による評価に代わる有力な手段となっています[10]。例えば、チャットボットのユーザーへの回答の中で、差別的、攻撃的、性的、暴力的な表現を含んでいないかをLLMを用いて判定する機能が例としてあげられます。このような機能は、 AI を安全かつ責任ある方法で動作させるためのAIガードレールの一要素として位置付けられます[11]。

今後、 AI の自律化や導入が加速してゆくと、いずれ人間が監視しきれなくなることは十分想定されます。そのため、技術的な制御機能を持つガードレールの重要性はますます高まり、将来的には今以上に高度なリスク制御機能を備える必要があるでしょう。「ガーディアン・エージェント」はそうした将来における「ガバナンスのための自律的なAI」像を示す概念です。 Gartner は、2029年には図5の5つの特徴を持つガーディアン・エージェントが、出力のチェック、データの相互参照、または問題のある応答の修正など、他のAIシステムを制御するために使用されることを予想しています[12]。このようなガーディアン・エージェントはもはや、ガードレールという言葉が示すような静的なフィルターではなく、AIワークフローに組み込まれた能動的で適応的なシステムを指したものと言えるでしょう。また Gartner は、ガーディアン・エージェントが2030年までにエージェント型AI市場において10〜15%のシェアを占めるに至るとも予測しています[13]。このことからも、企業のAI導入・活用においては、「AIによるガバナンス」が普遍的な機能となる未来が想像できます。

image

図5 : 2029年のガーディアン・エージェントの姿 (Gartnerより)

 

ガーディアン・エージェントはすでに、利用可能なソリューションとして提供され始めています。例えば、 IBM が提供する Granite Guardian は、 IBM の LLM である Granite を基にしたリスク検知モデル群で、従来のリスク検知モデルでは見落とされがちなジェイルブレイク ※3のようなリスクにも対応しており、また有害コンテンツおよびRAGハルシネーション関連のベンチマークにおいて、AUCスコア でそれぞれ0.871と0.854の精度を達成しています[14] 。 AI が攻撃者の道具ともなる時代においては、ガバナンスに AI を用いることはもはや必然的な判断であると言えるでしょう。 

※3: モデルに設けられたガードレールを突破し、制限された行為を実行させようとする攻撃[15]

おわりに - AIから真の恩恵を得るための企業責任

多くの企業ではすでに何らかのガバナンスが導入されており、その主眼はヒューマンエラーや不正といった、人間特有の予測不能な行動を抑制し、社会からの信頼を確保することにあります。言い換えれば、ガバナンスとは経営方針と事業運営のズレを最小化することで、企業としての一貫性を担保するための仕組みです。企業において判断の主体は長らく「ヒト」であり、ゆえに企業ガバナンスの対象は「ヒト」でした。機械やAIは、あくまで人の作業や意思決定を支援しヒトに従属するものだったのです。しかし今後、「ヒト」と並び立つ存在として AI の自律性や判断力を業務に組み込んでゆくなかでは、従来のガバナンスに加えて「AI」をガバナンスの対象に加える必要があります。その際には確率的出力やハルシネーションのような「AI特有の揺らぎ」への対応が必要です。新たなリスクが加わる以上、新たなガバナンスを再設計することは当然の要請と言えます。

本稿で整理してきたように、 AI ガバナンスは「ヒト」と「AI」の両方の特性を踏まえ、両者を適切に組み合わせた「二層型ガバナンス」です。このモデルを成立させるには、「ヒトはどこまで監督すべきか」「AIにはどこまで自律性を与えるか」といった境界の定義が不可欠です。しかし、この境界は技術部門だけでは決められません。企業の価値観、提供するサービスや事業の特性、リスク許容度、顧客への影響、法令遵守といった全社的な判断が必要となります。したがって、そのような新たなガバナンスを構築する際に企業が最初に取り組むべきことは、 AI を含むすべての業務プロセスに共通して適用される「経営方針」を明確にし、AIの活用がその方針と整合するように枠組みを設計することです。どのようなリスクを許容し、どの判断をAIに委ね、どこから先を人間が担うのかという原則は、企業の最終責任を負う経営層にしか決められません。 

AIガバナンスの具体的な基準は企業ごとに異なります。だからこそ、経営方針を起点に自社のAIリスクを横断的に把握し、自律性の許容範囲や、統制のあり方を定義することが重要です。AIガバナンスを経営アジェンダとして位置付け、積極的に取り組むことこそが、自律的に進化するAIと共存し、その能力を企業価値へと転換するための前提条件になるはずです。

 

 

 

参考文献

[1] Gary F. Marcus, “Taming Silicon Valley: How We Can Ensure That AI Works for Us”, MIT Press , https://mitpress.mit.edu/9780262551069/taming-silicon-valley/
[2] Forbes Japan, “アンソロピックの最新AI「Claude Mythos」とは何か、なぜ一般に公開しないのか”, https://forbesjapan.com/articles/detail/95537
[3] Daniel Kokotajlo, Scott Alexander, Thomas Larsen, Eli Lifland, Romeo Dean, “AI 2027”, https://ai-2027.com/ai-2027.pdf 
[4] IBM, “Architecting secure enterprise AI agents with MCP", Verified by Anthropic, 2025年10月 , https://www.ibm.com/downloads/documents/us-en/1443d5dd174f42e6
[5] IBM, “DevSecOpsとは?”, https://www.ibm.com/jp-ja/think/topics/devsecops  
[6] Tey Bannerman, “The practical 'human in the loop' framework”, https://teybannerman.com/ai/2025/08/25/human-in-the-loop-framework.html
[7] ISO, "ISO/IEC JTC 1/SC 42”, https://www.iso.org/committee/6794475.html
[8] IBM, “Augmenting Human Intelligence – the IBM Point of View”, 2023年11月, https://www.ibm.com/downloads/documents/us-en/10c31775c0d40a7b
[9] IBM, “EU AI規制法とは”, https://www.ibm.com/jp-ja/think/topics/eu-ai-act
[10] Jiawei Gu, et al., “A Survey on LLM-as-a-Judge”, 2025年10月, https://arxiv.org/abs/2411.15594
[11] IBM, “What are AI guardrails?”, https://www.ibm.com/think/topics/ai-guardrails
[12] Gartner, “Guardian Agent 2029”, https://www.linkedin.com/posts/gartner_gartnerit-ai-governance-activity-7395586654356471808-GkdY
[13] Gartner, ”2030年までに「ガーディアン・エージェント」がエージェント型AI市場の10〜15%を占めるようになるとの見解を発表” , https://www.gartner.co.jp/ja/newsroom/press-releases/pr-20250612-guardian-agents.
[14] IBM Research, “Granite Guardian”, 2024年12月, https://arxiv.org/pdf/2412.07724
[15] IBM, “AI Risk Atlas: Taxonomy and Tooling for Navigating AI Risks and Resources”, https://arxiv.org/pdf/2503.05780

 

 

ProVision記事一覧はこちらから

 

 

IBM、IBM ロゴは、米国やその他の国におけるInternational Business Machines Corporationの商標または登録商標です。他の製品名およびサービス名等は、それぞれIBMまたは各社の商標である場合があります。現時点でのIBMの商標リストについては、 https://www.ibm.com/legal/copyright-trademarkをご覧ください。

0 comments
26 views