逆に言えば、実際にデータを活用する為には、その活用に至るデータ分析(Analyze)をし、分析の為にはデータを使える状態(ビジネス・レディ)に整備しておき、さらにその手前で各種データベースへの接続が出来ている必要があります。(
図2. データ活用の流れとデータ要件の流れ
このようにAIラダーとは、まず目指すべきデータの活用要件や分析条件から、データの整備、データへの接続、と、はしごをまず降りて(目的から手段へ)、その後に改めてはしごを登る(手段から目的へ)必要があります。
実際の話として、あるオンライン・コンファレンス[
1][
2]で「データ整備人」の方々(AI-Ladderでいうところの収集・整備を業務に含む方々)から聞いたのですが、彼らは元々業務としてデータ整備をしていたわけではなく、データ分析、活用を行う為には整備も自分で実施せざるを得なかった、という話でした。つまり活用・分析の業務を行うために、その前段階としてのデータ準備(収集・整備)を業務として行う必要があったというわけです。
2. ビジネス・レディなデータを整備するデータ執事とDataOpsここでは、上記でご紹介したAI-Ladderのうち、データをビジネス・レディな状態にする為のデータ整備と、それを執り行うデータ執事について記載します。
データ整備は、組織としてのデータの活用には不可欠でありながら、あまり目立たない業務であり、また多数のデータ・ソースがある場合は、その整備・管理は大変手間のかかる作業と言えます。
実際にデータ・ウェアハウスやデータ・マートなどにきれいにデータがまとまって整備されればよいのですが、現実社会・経済環境・業務要件・システム環境の変化などにより、一箇所にデータを集める(まとまったままその状態が永続的に続く)ということは実際には難しいようです。
ですので、今はデータを一箇所に集めるよりも、データがどこにあるのかだけを把握しておいて、必要となれば検索して見つける、そういったアプローチが隆盛となってきています。
データをかき集めて整備する労力を止めて、個々のデータ・ソースがどこにあるのかだけを把握・整備しておく。そのような環境をユーザに提供する為の一つのツールとしてデータ・カタログが有力であり、そういったツールを使って、ユーザにとって使えるデータをすぐ準備できるようにする仕組みと運用、つまり方法論をDataOpsとIBMでは呼んでいます。
DataOpsの具体的な項目としては、データの自動収集や同期及び統合、メタデータや品質及び来歴の管理によるカタログ化、検索や整形等のユーザによるセルフサービス、マルチクラウド、AIと機械学習、マスター・データ管理などになります。
以前登壇した勉強会[
3][
4]で、筆者は「DataOpsという観点からデータ整備人を考える」[
5]と称して、データ整備人の新しい呼び名として、データ執事、という呼称を提唱しました。これは英語名でいうところのData Stewardを翻訳したものです。
現在日本の多くの企業においてもデータ活用が盛んに叫ばれていますが、データ整備を行うデータ執事という業務や、その方法論であるDataOpsについては、そもそもきちんと議論されていないのではないでしょうか。
しかしそのデータ執事の業務要件の定義とDataOpsの策定こそが、組織におけるAI-Ladderの実現に必要だと思います。
3. DataOpsを実現する各種ツール群以下ではDataOpsを実現するツールの一例として、IBMソリューションをご紹介します。「理解しやすく、使いやすいデータ」を「ガバナンスが行き届いた状況」で「自由に」活用できる環境を実現するために、IBMは様々なDataOpsソリューションを展開しています。(
図3)
データ同期:必要なデータを必要な場所にスムーズに同期できます。データ同期製品である
InfoSphere ® Data Replicationが該当します。
データ統合:様々なデータ・ソースにあるデータを、必要な用途に応じて加工し、統合します。ETL(*)製品である
InfoSphere DataStageは、基幹システム間の連携や分析用データ・ウェアハウスへのデータ連携の実績が多数あります。
(*:ETL:データの統合処理における、データの抽出(Extract)、変換(Transform)、ロード(Load)、の3つのプロセスの略をとったものです。ETL製品はこのプロセスの簡素化を支援します。)
マスター・データ管理:全社で利用するデータの統制を図るために、データのマスターを作成して管理できます。
InfoSphere Master Data Managementという製品で社内データのマスターを作成することにより、信頼できる唯一のデータ・ソースを確立できます。
データ整形(Preparation) :ETLと用途は重なっていますが、より分析者に近い場面で、簡単にデータを整形することができます。
Data Refineryという製品でこれを実現出来ます。
カタログ&メタデータ管理:データとデータの意味する用語を紐づけてカタログ化しておくこと、またそこに様々なメタデータを付与して管理しておくことで、データ利用者が容易にデータを見つけることができます。
また、品質分析や規制対応のルールを定めておくことで、安全に活用できる環境を実現します。
IBM Cloud Pak® for Data というデータ・プラットフォーム上で稼働する
IBM Watson® Knowledge Catalogが該当します。
図3:DataOps製品群
4. DataOps執行のための体制DataOpsを執行するには、データ執事(DataOpsの全体を見る人)、データ・エンジニア(データ提供者)、データサイエンティスト(データ利用者)の役割の人間の協働が必要です。
データ執事のツールとして、データ・カタログとメタデータ管理、データ連携やガバナンス機能が中心的な役割を担います。
データ執事は、データ同期機能やETLによって実データとの接続を確保し、データ・カタログに登録し、利用者がカタログ上のデータを利用する流れとなります。この時、データ・ガバナンス機能がデータ・カタログを監視し、ガバナンスを効かせた状態を保てます。
データ執事は、データ・エンジニアと協業し、データのカタログ化や統制すべきガバナンス・ルールを設定します。
データ執事は、データサイエンティストと協業し、ビジネス・レディなデータとはどういうものかを理解し、カタログに登録するデータの品質や視認性を管理し
ます。
データ・エンジニアの視点とデータサイエンティストの視点を両方含めることで、「ビジネス・レディなデータ」を用意できる体制が完成します。(
図4)
5. DataOpsの先行事例IBMのCloud Pak for Data やデータ・カタログをお使いのお客様の中で、最も先進的な事例を公開されているひとつとしてING様があげられます。DataOpsのツールのみならず、データ仮想化という技術も組み合わせて、グローバルな大組織の中でガバナンスを効かせたデータの運営に取り組まれています。詳細はこちらの動画[
6][
7]をご参照下さい。
6. 終わりにデータ活用において重要な役割を果たすビジネス・レディなデータとDataOpsについて解説しました。
データ執事が、データ・カタログ等のツールを駆使してデータ・エンジニアとデータ・サイエンティストを繋ぎ、組織のデータ活用を支えていくことが重要です。データ執事、データ・エンジニア、データサイエンティストの協働の一連の流れは下記のYouTube上の動画[
8]をご覧ください。
またDataOpsについてのより詳細な解説はこちらのブログ[
9]を、DataOps製品群を触ってみたいという方はこちらの資料[
10]もご参照ください。
[参考文献]
[1]Cross Party;データ整備人が語る!DXにも不可欠なデータ整備の姿,
https://www.cross-party.com/sessions/58Hvs6ep[2]Youtube, Cross Party:CROSS2020 B会場/データ整備人が語る!DXにも不可欠なデータ整備の姿(1:48:20〜):
https://youtu.be/1_p6c8nOs7k?t=6501[3]Connpass:データ分析とインテリジェンス,
https://analytics-and-intelligence.connpass.com/[4]Connpass, データ分析とインテリジェンス:第5回 データアーキテクト(データ整備人)を”前向きに”考える会,
https://analytics-and-intelligence.connpass.com/event/180202/[5]SpeakerDeck, 久保俊平:DataOpsという観点からデータ整備人を考える,
https://speakerdeck.com/shumpei3/think-about-data-maintenance-people-in-terms-of-dataops[6]IBM Media Center:ING銀行のAIアーキテクトが語るING銀行のビジョン,
https://mediacenter.ibm.com/media/ING%E9%8A%80%E8%A1%8C%E3%81%AEAI%E3%82%A2%E3%83%BC%E3%82%AD%E3%83%86%E3%82%AF%E3%83%88%E3%81%8C%E8%AA%9E%E3%82%8BING%E9%8A%80%E8%A1%8C%E3%81%AE%E3%83%93%E3%82%B8%E3%83%A7%E3%83%B3/1_9bqnzy5f[7]Youtube, ING QCon Plus - Ferd Scheepers “A governed Data Mesh needs (open) metadata”,
https://www.youtube.com/watch?v=vT6sINXtfDw[8]Youtube, 日本IBM:データ活用プラットフォームで促進するデジタル変革(DX),
https://www.youtube.com/watch?v=mIG4UM9rwpc&list=PL97CF7A9CC2DCCA6C[9]IBM ソリューションブログ:DataOpsに不可欠な6つの要素とは,
https://www.ibm.com/blogs/solutions/jp-ja/6-dataops-essentials/[10]Qiita, 久保俊平:IBM Cloud Pak for Data as a Service ハンズオン資料 目次 2021年8月作成,
https://qiita.com/Shumpei_Kubo/items/993e0fabfaebf56fe547IBM、IBMロゴ、InfoSphere ®、IBM Cloud Pak®、IBM Watson®は、米国やその他の国におけるIBM Corp.の商標または登録商標です。
*ProVISION 記事一覧は
こちらから