AIの普及と関心事のシフト近年、多くの企業がデータやAIの活用によるビジネス変革を成長戦略の重要な柱として挙げています。AIはもはや一部の専門的なデータサイエンティストによる実験の段階を超え、AIをビジネスの現場でどう活用していくかという点に主な関心が移ってきています。一方で、闇雲にAI活用を推進すればよいという単純な話でもありません。企業にとっては、AIの活用が本当にビジネス価値の向上につながるのかを見極める必要がありますし、また逆にAIのつたない活用によりビジネス価値を損なってしまう可能性やブランドイメージや評判に悪影響を与えてしまう可能性も認識しておく必要があります。極めて単純化して言えば、AIはデータを使用して学習させたモデルによって未知の事象を推論する技術であり、どういったデータを準備するか、データを利用してどのようにモデルを開発するかによってモデルの振る舞いが変わります。AIの本格的な展開においては、その推論モデルがビジネス上最適な判断を支援できるよう統制すること、すなわち、モデルの精度や公平性、説明性といった様々な課題にしっかりと向き合い対処することが重要となります。また、そもそも何が最適な判断なのかという点はビジネス環境を取り巻く社会的な規範も大きく影響するため、テクノロジーの観点はもちろんのことビジネスの観点も含めてAI実装における倫理的な考慮がなされる必要があります。AI活用に潜むリスクここで少し、統制されていないAIによる企業への影響の具体例を共有してみたいと思います。顧客マーケティングにおけるセグメンテーションは、顧客ごとに伝えたいメッセージやコミュニケーション方法を最適化し、企業が顧客に効果的にアプローチする上で非常に有効な手段となりますが、一方でそのセグメンテーション・モデルが適切に調整されていない場合、企業を様々なリスクに晒すことにつながります。例えば、人種や性別といった慎重に取り扱われるべき属性情報を共通項として持つ特定の集団に対して不当に有利もしくは不利なセグメンテーションを行い、それに基づくビジネス活動を実施した場合、その企業は不適切な差別を助長しているとして世の中の批判を集める可能性があります。ダイバーシティーやインクルージョンの重要性が叫ばれる中、企業のビジネス倫理に対する世間の目は厳しさを増しており、不適切なAI活用はこれまで以上にビジネス活動に対して大きなインパクトを与えることになります。また、AIモデルに限った話ではありませんが、ビジネス活動へのモデル活用に伴うリスクが幅広い悪影響を与え得ることへの懸念の高まりから、モデル・リスク管理体制の強化を求める動きも進んでいます。こういった動きは金融業界において顕著に進んでおり、特にモデル活用が進む米国で先行していました(SR Letter 11-7 [1]、等)が、日本においても2021年11月に金融庁が「モデル・リスク管理に関する原則」 [2]を公表し、金融システム上重要な金融機関に対しモデル・リスクを管理する態勢の整備を求めるようになってきています。プライシング・モデル、市場リスク・信用リスク等のリスク計測モデルのほか、AMLモデルや市場監視モデル等も含む領域において、モデルの不適切な使用は誤った情報に基づく意思決定につながり市場の混乱に直結すると懸念されているためです。こういった流れは金融業界以外にも広がりを見せており、モデルをしっかりと統制し対策することの重要性がますます高まってきています。Trustworthy AIとはさて、ここからは、AI活用のビジネスへの悪影響を回避するために「推論モデルがビジネス上最適な判断を支援できるよう統制する」という点について、具体的にどのように対処していけばよいのかについて説明していきたいと思います。統制されたAI活用にあたって考慮すべき課題は大きく分けて3点あります。まず1つ目は、データに関する課題です。適切なデータを準備することができなければ、そのデータから生み出されるモデルを適切に統制することはできません。ただ、昨今企業が保有するデータはオンプレミスやクラウドにまたがる様々な場所に分散して存在するため、多くの企業がAI活用のためのデータ・アクセスには大きな問題があると考えています。さらにGDPRや個人情報保護法を始めとする個人情報に関わるデータ・セキュリティ強化の流れは、この問題をより複雑なものにしています。2つ目は、AIモデルの本番展開や運用に関する課題です。大半のAI/機械学習プロジェクトは本番展開に至る前にストップしてしまうと言われており、モデルの本番運用を想定した仕組みが構築されていない企業は多く、実際にモデルを本番に展開した後に継続的にモデルを洗練させ続けることができないことが、モデルの適切な利用にとって阻害要因となります。3つ目は分析ツールの氾濫に関する課題です。AIやデータ活用は現場主導で進められることが多く、企業内の各部門がそれぞれ独自に分析ツールの活用を推進することで、企業全体で一貫した統制を実現することが難しいという課題があります。IBMでは、これらの課題を解決し、AIモデルをしっかりと統制しながらビジネスに適用するために、Trustworthy AI(信頼できるAI)というコンセプトを打ち出してお客様を支援しています。Trustworthy AIは、「データの収集」、「データの整備」、「モデルの構築」、「モデルのデプロイ」、「モデルのモニタリング」といったデータサイエンスの各フェーズを、それぞれ独立した”点”としてではなく、反復的にAIモデルを洗練していく”end to endのライフサイクル”として捉え、その全体に対して包括的に信頼を確保するという考え方に基づいています(図1)。
図1「Trustworthy AIライフサイクル」
Trustworthy AIを実現するためのアプローチTrustworthy AIの実現にあたっては、Data、Models、Processの3つの領域における信頼(Trust in Data、Trust in Models、Trust in Process)を獲得する仕組みの構築が重要となります(図2)。どれか一つだけを対処すればよいというわけではなく、3つの信頼をあわせて獲得することが、Trustworthy AIの実現に繋がります。ここからそれぞれについてアプローチを説明していきます。
図2.「Trustworthy AIを実現するための3つの信頼の獲得」
・Trust in Data(データへの信頼)Trust in Data(データへの信頼)では、Trustworthy AIライフサイクルの最初のフェーズである「データの収集」および「データの整備」に焦点を当てています。データサイエンティストに対して品質やセキュリティーをしっかりと担保したデータを提供し、かつセルフサービスでデータを簡単に利用できるようにすることが、データへの信頼を獲得することに繋がります。また、スキル・レベルの異なるデータ分析者にそれぞれ適した分析ツールを提供しつつ、いずれのツールを使用したとしても共通のデータにアクセスできる基盤を提供することが、データへの信頼の獲得をより確かなものにします。IBMでは、IBM Watson® Knowledge Catalogというデータ・ガバナンス、データ・カタログ管理のテクノロジーを中心に、信頼性の高いデータを提供する仕組みを構築することを支援しています。具体的には、社内に分散する様々なデータをカタログに一覧化するとともに、データに対してビジネス視点のメタデータを付与し、データサイエンティストがセルフサービスで求めるデータの探索を行うことができるように支援します。データのアクセスに際しては、データに対するユーザーごとのアクセス可否をポリシーやルール・ベースで管理することにより、データ・セキュリティを確保したデータ提供を実現します。また、データをプロファイリングし、来歴を管理しながら効率的にデータ加工を行う機能を提供することで、分析Readyなデータ品質を確保することを支援します。これらの機能に組み込まれているAI技術を活用した自動化をうまく活用することで、継続的に生み出されるデータに対して反復的にデータ準備を行い統制することを容易にし、データに対する信頼を確保することができるようになります。(データに対する信頼の確保については、別稿の「DataOpsで実現される、データが整備された世界」[3]もぜひご参照ください。)・Trust in Models(モデルに対する信頼)Trust in Models(モデルに対する信頼)は、Trustworthy AIライフサイクルの中で「モデルの構築」、「モデルのデプロイ」、「モデルのモニタリング」の領域において取り組むべき視点です。この領域では、MLOpsの仕組みを構築しモデルの開発および本番展開の信頼性を高めることが求められますが、それだけに留まらず、説明性やドリフト、バイアス、公平性などのモニタリングを加えることで、多角的にモデルに対する信頼を確保することが重要であるとIBMは考えています。IBMでは、IBM Watson Studioというテクノロジーを通じてこの領域におけるお客様の取り組みを支援しています。まずモデル構築の段階では、スキル・レベルの異なるデータ分析者に対応する複数のツールを統合された環境上で提供することができます。プログラミング・ベースのモデル開発だけではなく、ローコード/ノーコード開発によるモデル開発の手段も提供することで、データ分析に携わるユーザーの裾野を広げ、モデル開発の効率性を高めることに繋がります。モデルのデプロイの段階では、モデルのデプロイや依存関係管理、バージョン管理、再トレーニング、モデル・アクセスのためのコード・スニペットの生成といった機能を提供し、モデルの本番展開を効率的に進めることを支援します。モデルのモニタリングの段階では、モデルの推論において特定の集団に対し意図せず発生してしまうバイアスの検知と低減の機能や、推論結果の理由を定量的かつ理解しやすい言葉で説明し、どの入力値が変われば異なる推論結果が出るのかといったWhat-If分析も含めた説明性確保の機能を提供し、倫理的な考慮を踏まえたAIモデルの本番運用を支えます。また、モデルの本番運用を継続する上では、時間の経過とともにモデル構築時の想定データと現在のデータに乖離が発生し、精度に変化が出る(ドリフト)ことがあるため、モデルの継続的な再トレーニングによる精度の維持が重要になります。IBM Watson Studioでは、ドリフトの発生を継続的にモニタリングし、精度の低下をユーザーに通知しつつ自動的な再トレーニングを支援します。これらの機能を活用することで、組織のステークホルダーがAIモデルを公平で説明可能であることをチェックし、信頼できるモデルであることを継続的に確認できるようになります。(モデルに対する信頼の確保については、別稿の「なぜMLOpsが必要なのか」、「失敗しないMLOps」[4]もぜひご参照ください。))・Trust in Process(プロセスに対する信頼)Trust in Process(プロセスに対する信頼)では、パイプライン自動化、ファクトの自動収集、一貫した検証プロセス、包括的なガバナンスという4つのアプローチでAIライフサイクルの各ステージの自動化を支援することにより、AIモデル開発全体を統制する必要性に対処します。Watson Studio Pipelinesというテクノロジーにより、最新の教師データの取り込み、モデルの再トレーニング、モデル評価、デプロイといった作業を再実行可能なプロセスとして定義し自動化することを支援します。AI Factsheetsというテクノロジーを活用いただくことで、モデル構築に関わったユーザーやモデル構築に使用したデータセット、使用したアルゴリズム等のAIライフサイクルを通じて生じる情報(ファクト)をメタデータとして収集・トラッキングを行うことが可能です。IBM OpenPagesというテクノロジーを通じて公平性も含めたモデルのメトリクスを蓄積・管理・モニタリングする仕組みを提供し、わかりやすいダッシュボードで関連するリスク・スコアを把握することができます。また、IBM Watson StudioとIBM OpenPagesを連携させて活用することにより、本番モデルと新たに開発したモデルを比較して新しいモデルを本番に展開するべきかどうか根拠を持って判断するといった、モデルの検証と統制が可能となります。これらの機能を活用し、モデルの構築とデプロイ、モデルに関する情報(ファクト)の文書化、公平性も含めたモデル・パフォーマンスの検証のプロセスを確立し自動化することで、AIライフサイクル全体を反復可能なものとすることができます。Trustworthy AIの実現を支えるテクノロジーここまで見てきたように、Trustworthy AIの実現のためには様々なテクノロジーを活用した仕組みの構築が重要です。IBMでは、企業内の情報アーキテクチャを確立し、データプラットフォーム構築を包括的に支援するクラウドネイティブ・ソフトウェアとしてIBM Cloud Pak® for Data(図3)というプラットフォームを提供しており、このプラットフォーム上でIBM Watson Knowledge CatalogやIBM Watson Studioといったテクノロジーを活用いただくことが可能です。End to endのAIライフサイクル全体を意識した仕組みを構築する上では、様々なテクノロジーを統合的に活用することが必要となるため、そのような組み合わせを予め想定して統合して提供するIBM Cloud Pak for Dataを活用いただくことが、Trustworthy AIの実現を目指す上で大きなアドバンテージになるとIBMは考えています。
図3.「IBM Cloud Pak for Data」