ProVision

 View Only

FLOps - 企業に分散したデータからビジネス価値を継続的に創出する手法

By IBM ProVision posted Wed July 12, 2023 12:12 PM

  
「AI × 共創」-  企業横断での共創が求められる時代。データが分散して存在する状況で、データを一箇所に集めずに機械学習ができる「連合学習」を用いて、継続的にビジネスに活用する手法を紹介します。
1章:いま注目される企業の枠を超えるデータ活用の技術  

昨今、Chat GPTをはじめとする生成AIやその土台となる基盤モデルの進展は目覚ましいものがあります。企業はこれまで、各企業が自社のバリューチェーンの様々な領域において、活動の生産性を高め、サービスや製品の付加価値を高めるAIアプリケーションを、長い時間をかけて個別に開発してきました。 これからは、大量かつ多様なデータによって事前学習された基盤モデルを元に、各業務に特化したAIアプリケーションを、短時間で開発していくこととなります。基盤モデルの構築から業務活用までのEnd To Endのワークフローをいかに迅速に手の内化するかが企業の競争優位を築く要諦となっている[1] 一方、基盤モデルであれ、通常の機械学習モデルであれ、学習に使いたいデータ全部を必ずしも自分の”手元”に集められるとは限りません。例えば、不正な取引を行っている銀行口座を見つけたいとき、そのインプットとなる銀行口座の取引履歴データは、世の中の複数の銀行に分散しており、プライバシーやデータの機密性に対する懸念等から、それらを一箇所に集めることは難しいでしょう。つまり、世の中のデータは、分散して存在しています。 仮に、世の中に分散されたデータをまとめて学習に用いることができたのならば、従来よりも圧倒的に高精度なモデルを構築できることが想像されるでしょう。さらに、ML Ops[2]の世界観で、企業がそれらのモデルを単発ではなく、継続的な形で構築・運用することができるのならば、それはデータ活用の新しいパラダイムとも言える、と筆者らは考えています。   本稿では、連合学習(Federated Learning: FL)という、データが分散した状況においても機械学習モデルが構築できる手法を土台として、企業横断で継続的にモデルの構築・管理・デプロイを行うための新しい手法として"Federated Learning Operations(以下、FLOps)"を提唱します。以下、まず2章で筆者らが行った連合学習の実証を元にFLOpsが必要とされる背景について述べます。3章では、FLOpsの概念と、最後に4章で今後に向けた展望を述べます。 なお、本稿で扱うのは、基盤モデル学習によく用いられる自己教師あり学習ではなく、一般的な機械学習(例:線形回帰、XGBoost)であることに注意ください。将来的には、今回提唱するFLOpsの概念と基盤モデルの概念が交わることも十分想定されるでしょう。  

2章:活用が進む連合学習とFLOpsが必要とされる背景  

本章では、連合学習について振り返り、筆者らが実際に行った実証を通じて得た連合学習の価値と実現上の課題を紹介し、FLOpsが必要とされる背景を述べます。まず、連合学習について振り返ります。連合学習とは、データが分散している状況で、データを動かすことなく学習ができる技術です。図1で示すように、パーティ(個別のデータを保持している主体)とアグリゲータ(中央でパーティとやりとりをする主体)が互いに協力して学習することで、データの機密性を保護しつつ、1社で持つデータから構築した機械学習モデルよりも高性能なモデルを構築できることが期待できます。複数の企業で機械学習モデルを構築する文脈では、各社は互いにデータを開示することなく、モデルのパラメータをアグリゲータと通信し、その情報から統合モデル(連合学習によって構築されたモデル)を構築し、それを各社の環境で利用することができます。[3]
図1. 連合学習のイメージ

この連合学習の価値を実感するために、筆者らはクレジットカードの不正取引の検知に関するオープンデータ[4]を用いた実証を行いました。2社での連合学習を想定し、各社が個別に構築したモデルの精度と、2社で連合学習を使って構築したモデルの精度を比較すると、後者の精度が1.6%ptが高いこと(再現率が91.8%から93.4%に改善)が確認されました。加えて、筆者らは大手地方銀行様の協力のもと、カードローン獲得モデルを用いたPoCを実施したところ、上述同様の効果が確認できています(各社での学習と複数社の学習で同一のアルゴリズムを用いた場合)。   一方で、今回の実証を通じて、本格的に連合学習モデルを継続的に構築・運用する上での課題が見えてきました。まず挙げられるのが、連合学習のモデル構築では企業間で多くの調整が生じることです(図2-a)。連合学習では複数企業の環境と連携して統合モデルを構築しますが、学習に使用する説明変数や目的変数の定義が整合している必要があります。そのため、各企業のデータの持ち方や、データ収集可否、データの傾向を考慮した上で、データ項目のすり合わせやデータの加工手順を確立する必要がありました。   次に、連合学習の実行手順の複雑さです(図2-b)。連合学習実行にあたっての通信の準備のために、学習の都度、全ての環境で実行情報を同期させる必要があります。そのため、精度改善のための繰り返し実行や試行錯誤には時間と労力を要しました。 また、連合学習を評価するためには、統合モデルの評価に加えて、個社データのみで構築したモデルの評価と比較も必要になるため、実験管理も複雑化します(図2-c)。学習の前提条件(例:ハイパーパラメータ)の組み合わせに応じて検証すべきモデル数は増加し、複数のモデルを横断的に比較してモデルを選定する必要があるため、評価のプロセスが煩雑になり工数がかかります。 最後に、データのセキュリティを担保するための対応が必要となることです(図2-d)。各企業でデータに対するセキュリティー要件があり、連合学習の機能によるデータ保護に加えて、ネットワーク面でのセキュリティーの確保や、個人情報の仮名加工化によるリスクの低減など、様々な考慮が必要であることも、実証を通じて得られた知見でした。
図2: 連合学習における課題

3章:連合学習による継続的なモデル構築・運用を可能にするFLOps 

本章では、前章で述べた課題を踏まえ、連合学習モデルの構築・運用を効率的かつ継続的にする方法であるFLOpsを提案します。FLOpsは、機械学習のモデル構築・運用における一連の作業を円滑に行って、ユーザーに迅速に安定したサービスを提供するというML Opsの考え方に立脚しますが、連合学習でそれを実現するには、前章で述べたような、連合学習独自の課題に対応する必要があります。 FLOpsの概念図が図3です。ここでの要点は、企業単独でデータ収集からモデルモニタリングまでのモデル構築・運用のプロセスを回すだけでなく、多くのプロセスで企業横断での連携が必要となることです。よって、その連携を効率化するための仕組みが必要となります。

図3: FLOpsの概念図

前章で述べた課題も踏まえ、FLOpsの要件を整理すると、次のように表現できます。
・統合モデルを作成するために、モデル設計の段階において、企業間でデータ項目の意味や説明変数・目的変数の定義が、標準化されていること
・連合学習におけるモデルの学習からデプロイまでの繰り返し・試行錯誤のプロセスを、企業をまたがって円滑に実行できること
・構築中の試行錯誤におけるモデルの評価(実験管理)や、運用中のモデルのモニタリングにおいて、構築したモデルの品質を企業横断的に評価できること
・企業をまたがるプロセスを実行する際に、各企業が保有するデータに対してセキュリティが担保されること
 
これらの要件に基づき、考案したFLOpsのシステムアーキテクチャが図4です。 
1. 標準データモデル:パーティごとのデータの差異を吸収して統合モデルを構築可能とするデータ項目のテンプレートを提供する 
2. 連合学習エンジン/データハンドラー:各パーティでの学習とアグリゲータへのフィードバック(学習データそのものは送信しない)を繰り返し実行して統合モデルを構築する
3. 統合実験管理:連合学習のサイクルごとのモデル評価の結果を、アグリゲータにフィードバックして、横断的なモデル品質の可視化を行う
4. 統合コードレポジトリ/統合モデルレジストリ: パーティの実行に必要な自動化プログラムと、生成した統合モデルを格納・配布する
5. 統合モデルモニタリング:各パーティのモデルモニタリングの結果をアグリゲータにフィードバックし、横断的なモデル品質の可視化を行う
6. 連合学習オーケストレーション/エージェント: アグリゲータと各パーティとの間でプロセスを横断的に自動実行するための制御を行う
7. セキュアネットワーク通信/データアクセス保護:パーティ間の通信を遮断し、データ漏洩を予防するセキュリティ管理を適用する

図4:FLOpsのシステムアーキテクチャ

4章:FLOpsの実用化と今後の展望  

FLOpsは、企業に分散したデータからのビジネス価値の創出を実行可能なものとし、その実現性を高めるためのものです。 2023年6月7日にIBMが発表した、金融業界のお客様向けのSaaS型データ利活用プラットフォーム「IBM Consulting Data Utilization Platform for Financial Services [5]」(以下 DUP)には、IBM Cloud及びCloud Pak for Dataのテクノロジーを活用し、FLOpsのシステムアーキテクチャが反映されています。 DUPは、EBM(イベント・ベースド・マーケティング)などの実績のある分析モデルと、そのモデルを実行するために必要なデータ処理プロセスを搭載したデータ分析基盤を提供します。DUPを通じて、FLOpsに則った枠組みで連合学習を行い、企業横断での継続的な価値創出をすることが可能となります。 今回提唱したFLOpsは、金融業界やマーケティングの領域にとどまるものではなく、あらゆる業界や業務領域で適用可能な汎用的な枠組みです。今回の記事を通じて、様々な業界にて企業横断の継続的なデータ活用が進む一助となれば幸いです。

著者  
“Minami.jpg 南 隆志
Takashi Minami

日本アイ・ビー・エム システムズ・エンジニアリング株式会社
シニアITアーキテクト
データサイエンティスト

Tempaku.jpg 天白政樹
Masaki Tempaku

日本アイ・ビー・エム株式会社
IBMコンサルティング AI & アナリティクス
データサイエンティスト

Joko.jpg 上甲 昌郎
Masao Joko

日本アイ・ビー・エム株式会社
東京基礎研究所セミコンダクター部門 データサイエンティスト

1998年に日本アイ・ビー・エムに入社。流通業のお客様を担当するプリセールスエンジニアとして、様々なテクノロジーエリアの提案活動に従事。2021年より日本アイ・ビー・エム システムズ・エンジニアリングに所属し、データ&AI プラットフォームのテクノロジーを専門として活動中。

大手金融機関にて金融商品の組成やリスク分析などに従事後、2018年に日本アイ・ビー・エムに入社。日本アイ・ビー・エムではデータサイエンティストとして、製造、金融、卸売などの業界にて、データとテクノロジー双方の観点から様々なテーマのプロジェクトに参画。

2011年に日本アイ・ビー・エムに新卒入社。コンサルティング部門にて、データサイエンスを軸に戦略立案からシステム開発まで、幅広いプロジェクトに参画。アナリティクス部門のシニアマネージャーを経て、東京基礎研究所セミコンダクター部門に異動。東京大学工学部航空宇宙工学科卒、同大学院卒。


参考文献 

[1] “IBM、ビジネスのための次世代基盤モデルを支える「watsonxプラットフォーム」を発表”, IBM Newsroom https://jp.newsroom.ibm.com/2023-05-09-IBM-Unveils-the-Watsonx-Platform-to-Power-Next-Generation-Foundation-Models-for-Business
[2] “なぜMLOpsが必要なのか(vol97-0014-ai)”, IBM Community Japan ProVision https://community.ibm.com/community/user/japan/blogs/provision-ibm1/2021/08/17/vol97-0014-ai
[3] “デジタルサービス・プラットフォームを強化する連合学習・MLOps (vol98-0002-AI)” IBM Community Japan ProVision https://community.ibm.com/community/user/japan/blogs/provision-ibm1/2022/05/31/vol98-0002-ai
[4] “Credit Card Fraud Detection”, Kaggle https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud?search=cit
[5] “データ利活用に必要なサービスを包括的に提供するSaaS型プラットフォームIBM Consulting Data Utilization Platform for Financial Servicesの提供を開始”, IBM Newsroom https://jp.newsroom.ibm.com/2023-06-07-IBM-Consulting-Data-Utilization-Platform-for-Financial-Services


ProVision一覧は
こちらから


0 comments
67 views

Permalink