ProVision

 View Only

DataOpsで実現される、データが整備された世界(vol97-0020-ai)

By IBM ProVision posted Fri November 12, 2021 02:02 AM

  

Tanimatsu.jpg

久保 俊平
Kubo Shumpei
日本アイ・ビー・エム株式会社
Data, AI , Automation事業部 第三テクニカルセールス
テクニカルセールス

Maeda 岡崎 史博
Okazaki Fumihiro
日本アイ・ビー・エム株式会社
Data, AI , Automation事業部 第三テクニカルセールス
テクニカルセールス 

2020年2月よりIBMに中途入社し、CP4D、Boxのテクニカルセールス、またIBM Cloud Ambassadorとして活動。IBMの前は銀行系システムエンジニアやセキュリティ製品のセールスエンジニアを経験している。

Data and AIのテクニカルセールスとして、データ・カタログやETL等のデータ整備領域のソリューションを担当。

ビジネスへのデータの活用が叫ばれている昨今ですが、活用に先立ってはデータの整備が不可欠です。本稿では、データ整備の必要性やその方法論であるところのDataOps、またDataOpsを執行するデータ執事(後述)の業務要件や体験談、データ執事の業務に役立つ各種ツールについて解説します。

1. ビジネス・レディなデータの必要性
現在、業種や業務に限らず、様々な組織の中でデータ分析やAIの活用が行われています。多様かつ刻々と変化する顧客の期待や社会情勢に応えるために、データを活用してイノベーションを起こしていくことが重要です。

しかし、多くの組織では、データの準備に多くの時間を費やしている(データを分析に活用するための準備に80%の時間を使っている)と言われています。ビジネスのスピードと同じペースでデータを活用するには、余りに時間がかかりすぎてしまっています。
実際のデータ活用にスムーズに移れない理由は、いわゆる「ビジネス・レディなデータ」がないことにあります。

データサイエンティストを採用している組織も増えていると認識していますが、いざ分析を始めたいと思っても、データの所在が分からなかったり、データベースの権限がなかったり、権限があってもデータの意味を解釈する必要があったり、品質の低いデータしか見つからなかったりと、良質なデータを効率よく入手できない現状があります。
また、このプロセスは規制にも配慮しながら進める必要があります。都度、データ管理者側に問い合わせをして確認したり、分析用途に合わせてデータを加工したりすることに時間と労力が費やされています。

多くのお客様は散らばったデータを有機的に組み合わせて、新しい知見を得たいと思っています。しかし一言に有機的と言っても、そこにいたるまでには長い道のりがあります。
データへ接続できること、データを使える状態に整備すること、データを分析すること、それらを経て、ようやくデータの活用になります。多くのお客様としてはデータの活用や分析をしたいのですが、実はその更に手前でデータを集めて整備して、というステップが地味ながら重要で不可欠です。

IBMとしてはそのデータを集めるところから活用するところまでをAI-Ladder(AIのはしご)と呼んでいます。データ活用を実現する為に登っていくはしご、というイメージなのですが、そのステップとして4段階あります。(図1

   1.データにシンプルにアクセスする「Collect」(収集)
   2.データを使える状態に整備する「Organize」(整備)
   3.整備されたデータを分析する「Analyze」(分析)
   4.分析されたデータを業務に活用する「Infuse」(活用)
図1:AI-Ladder(AIのはしご)

データの流れとしては収集、整備、分析、活用、というステップを経ることで、ビジネス・レディなデータから価値を引き出すことが出来るようになります。
逆に言えば、実際にデータを活用する為には、その活用に至るデータ分析(Analyze)をし、分析の為にはデータを使える状態(ビジネス・レディ)に整備しておき、さらにその手前で各種データベースへの接続が出来ている必要があります。(図2
図2. データ活用の流れとデータ要件の流れ

このようにAIラダーとは、まず目指すべきデータの活用要件や分析条件から、データの整備、データへの接続、と、はしごをまず降りて(目的から手段へ)、その後に改めてはしごを登る(手段から目的へ)必要があります。   

実際の話として、あるオンライン・コンファレンス[1][2]で「データ整備人」の方々(AI-Ladderでいうところの収集・整備を業務に含む方々)から聞いたのですが、彼らは元々業務としてデータ整備をしていたわけではなく、データ分析、活用を行う為には整備も自分で実施せざるを得なかった、という話でした。つまり活用・分析の業務を行うために、その前段階としてのデータ準備(収集・整備)を業務として行う必要があったというわけです。

2. ビジネス・レディなデータを整備するデータ執事とDataOps
ここでは、上記でご紹介したAI-Ladderのうち、データをビジネス・レディな状態にする為のデータ整備と、それを執り行うデータ執事について記載します。

データ整備は、組織としてのデータの活用には不可欠でありながら、あまり目立たない業務であり、また多数のデータ・ソースがある場合は、その整備・管理は大変手間のかかる作業と言えます。

実際にデータ・ウェアハウスやデータ・マートなどにきれいにデータがまとまって整備されればよいのですが、現実社会・経済環境・業務要件・システム環境の変化などにより、一箇所にデータを集める(まとまったままその状態が永続的に続く)ということは実際には難しいようです。

ですので、今はデータを一箇所に集めるよりも、データがどこにあるのかだけを把握しておいて、必要となれば検索して見つける、そういったアプローチが隆盛となってきています。

データをかき集めて整備する労力を止めて、個々のデータ・ソースがどこにあるのかだけを把握・整備しておく。そのような環境をユーザに提供する為の一つのツールとしてデータ・カタログが有力であり、そういったツールを使って、ユーザにとって使えるデータをすぐ準備できるようにする仕組みと運用、つまり方法論をDataOpsとIBMでは呼んでいます。
DataOpsの具体的な項目としては、データの自動収集や同期及び統合、メタデータや品質及び来歴の管理によるカタログ化、検索や整形等のユーザによるセルフサービス、マルチクラウド、AIと機械学習、マスター・データ管理などになります。

以前登壇した勉強会[3][4]で、筆者は「DataOpsという観点からデータ整備人を考える」[5]と称して、データ整備人の新しい呼び名として、データ執事、という呼称を提唱しました。これは英語名でいうところのData Stewardを翻訳したものです。

現在日本の多くの企業においてもデータ活用が盛んに叫ばれていますが、データ整備を行うデータ執事という業務や、その方法論であるDataOpsについては、そもそもきちんと議論されていないのではないでしょうか。

しかしそのデータ執事の業務要件の定義とDataOpsの策定こそが、組織におけるAI-Ladderの実現に必要だと思います。

3. DataOpsを実現する各種ツール群
以下ではDataOpsを実現するツールの一例として、IBMソリューションをご紹介します。「理解しやすく、使いやすいデータ」を「ガバナンスが行き届いた状況」で「自由に」活用できる環境を実現するために、IBMは様々なDataOpsソリューションを展開しています。(図3

データ同期:必要なデータを必要な場所にスムーズに同期できます。データ同期製品であるInfoSphere ® Data Replicationが該当します。

データ統合:様々なデータ・ソースにあるデータを、必要な用途に応じて加工し、統合します。ETL(*)製品であるInfoSphere DataStageは、基幹システム間の連携や分析用データ・ウェアハウスへのデータ連携の実績が多数あります。
(*:ETL:データの統合処理における、データの抽出(Extract)、変換(Transform)、ロード(Load)、の3つのプロセスの略をとったものです。ETL製品はこのプロセスの簡素化を支援します。)

マスター・データ管理:全社で利用するデータの統制を図るために、データのマスターを作成して管理できます。InfoSphere Master Data Managementという製品で社内データのマスターを作成することにより、信頼できる唯一のデータ・ソースを確立できます。

データ整形(Preparation) :ETLと用途は重なっていますが、より分析者に近い場面で、簡単にデータを整形することができます。Data Refineryという製品でこれを実現出来ます。

カタログ&メタデータ管理:データとデータの意味する用語を紐づけてカタログ化しておくこと、またそこに様々なメタデータを付与して管理しておくことで、データ利用者が容易にデータを見つけることができます。
また、品質分析や規制対応のルールを定めておくことで、安全に活用できる環境を実現します。IBM Cloud Pak® for Data というデータ・プラットフォーム上で稼働するIBM Watson® Knowledge Catalogが該当します。
図3:DataOps製品群

4. DataOps執行のための体制
DataOpsを執行するには、データ執事(DataOpsの全体を見る人)、データ・エンジニア(データ提供者)、データサイエンティスト(データ利用者)の役割の人間の協働が必要です。
データ執事のツールとして、データ・カタログとメタデータ管理、データ連携やガバナンス機能が中心的な役割を担います。

データ執事は、データ同期機能やETLによって実データとの接続を確保し、データ・カタログに登録し、利用者がカタログ上のデータを利用する流れとなります。この時、データ・ガバナンス機能がデータ・カタログを監視し、ガバナンスを効かせた状態を保てます。
データ執事は、データ・エンジニアと協業し、データのカタログ化や統制すべきガバナンス・ルールを設定します。
データ執事は、データサイエンティストと協業し、ビジネス・レディなデータとはどういうものかを理解し、カタログに登録するデータの品質や視認性を管理します。
データ・エンジニアの視点とデータサイエンティストの視点を両方含めることで、「ビジネス・レディなデータ」を用意できる体制が完成します。(図4
図4:DataOpsを執行する体制と機能

5. DataOpsの先行事例
IBMのCloud Pak for Data やデータ・カタログをお使いのお客様の中で、最も先進的な事例を公開されているひとつとしてING様があげられます。DataOpsのツールのみならず、データ仮想化という技術も組み合わせて、グローバルな大組織の中でガバナンスを効かせたデータの運営に取り組まれています。詳細はこちらの動画[6][7]をご参照下さい。

6. 終わりに
データ活用において重要な役割を果たすビジネス・レディなデータとDataOpsについて解説しました。
データ執事が、データ・カタログ等のツールを駆使してデータ・エンジニアとデータ・サイエンティストを繋ぎ、組織のデータ活用を支えていくことが重要です。データ執事、データ・エンジニア、データサイエンティストの協働の一連の流れは下記のYouTube上の動画[8]をご覧ください。
またDataOpsについてのより詳細な解説はこちらのブログ[9]を、DataOps製品群を触ってみたいという方はこちらの資料[10]もご参照ください。

[参考文献]
[1]Cross Party;データ整備人が語る!DXにも不可欠なデータ整備の姿, https://www.cross-party.com/sessions/58Hvs6ep
[2]Youtube, Cross Party:CROSS2020 B会場/データ整備人が語る!DXにも不可欠なデータ整備の姿(1:48:20〜):https://youtu.be/1_p6c8nOs7k?t=6501
[3]Connpass:データ分析とインテリジェンス, https://analytics-and-intelligence.connpass.com/
[4]Connpass, データ分析とインテリジェンス:第5回 データアーキテクト(データ整備人)を”前向きに”考える会, https://analytics-and-intelligence.connpass.com/event/180202/
[5]SpeakerDeck, 久保俊平:DataOpsという観点からデータ整備人を考える, https://speakerdeck.com/shumpei3/think-about-data-maintenance-people-in-terms-of-dataops
[6]IBM Media Center:ING銀行のAIアーキテクトが語るING銀行のビジョン, https://mediacenter.ibm.com/media/ING%E9%8A%80%E8%A1%8C%E3%81%AEAI%E3%82%A2%E3%83%BC%E3%82%AD%E3%83%86%E3%82%AF%E3%83%88%E3%81%8C%E8%AA%9E%E3%82%8BING%E9%8A%80%E8%A1%8C%E3%81%AE%E3%83%93%E3%82%B8%E3%83%A7%E3%83%B3/1_9bqnzy5f
[7]Youtube, ING QCon Plus - Ferd Scheepers “A governed Data Mesh needs (open) metadata”, https://www.youtube.com/watch?v=vT6sINXtfDw
[8]Youtube, 日本IBM:データ活用プラットフォームで促進するデジタル変革(DX), https://www.youtube.com/watch?v=mIG4UM9rwpc&list=PL97CF7A9CC2DCCA6C
[9]IBM ソリューションブログ:DataOpsに不可欠な6つの要素とは, https://www.ibm.com/blogs/solutions/jp-ja/6-dataops-essentials/
[10]Qiita, 久保俊平:IBM Cloud Pak for Data as a Service ハンズオン資料 目次 2021年8月作成, https://qiita.com/Shumpei_Kubo/items/993e0fabfaebf56fe547

IBM、IBMロゴ、InfoSphere ®、IBM Cloud Pak®、IBM Watson®は、米国やその他の国におけるIBM Corp.の商標または登録商標です。


*ProVISION 記事一覧はこちらから


#ProVISION
#ai
#Highlights
#Highlights-home
#ProVision
#ProVision-AI
0 comments
5588 views

Permalink