この事例は販売会社様の方で蓄積されている販売データを分析・可視化するサービスです。
具体的には、ベテラン営業さんが持つ暗黙知だったり勘だったり、経験値とかスキル、ノウハウをデータと照らし合わせて、
それをデータモデル化してお客様の購買行動を可視化してそのデータをご提供するサービスとなります。
■主なストレージ要件
- 貯めたデータにアクセスするために、外部ソフトウェアからの受け付ける様々なインターフェースに対応している
- 詳細な洞察機能の提供や素早い復旧に対応している
■ディスカッションのやりとり(抜粋)
- データ貯めるにしても最近はランサムウェアにやられたといったことがほんと多い
- データの保全や仮に暗号化されても素早く復旧できるといったこと、検知だったりすばやい復旧だったりといったことをストレージ自体に求めているお客様も多い
- セキュリティー侵害を受けてしまった際にフォレンジック対応も必要になってくる可能性もあるのでログをためておく、いう意味でもストレージは重要な役割を持つ
- アプリケーション側に接続の選択肢を持たせてあげる、というのが重要
- 例えば、汎用的に使用されるCSVといったファイルベースや、ODBC/JDBC、SQLなど
- クラウド上のストレージに直接接続とかだと REST API が対応しているかどうかも重要
→
他システムとの多様な
接続性の担保は、今やデータ基盤には欠かせない必須要素と言えるでしょう。
また、データを
素早く復旧する話題が上がりました。
2.【事例】E コマース データレイク基盤 事例(IBM 吉岡)
IBM 吉岡より、E コマースのデータレイク・ソリューションの事例をご紹介しました。
■概要
この事例ではS3 ストレージの IBM Storage Ceph(以下 Ceph)、データパイプラインとして Kafka & Knative (Openshift)、分析基盤として IBM watsonx (Spark、Prestoを包含) を使用しています。
このシステムの一データの取り扱いおよび、データの流れは以下のとおりです:
- 店舗の売上データを日次バッチ処理で、Ceph のバケットに 収集
- バケットにアップロードされると、Cephのバケット通知を使用して、コンテナ上のサーバレス上でリアルタイムでの分類処理、その後再度バケットに格納
- Spark のジョブでデータのクレンジング処理を実行
- Presto 側で非構造化データから構造化データに変換。その後、公開用バケットにそのデータを配置
- 小売部門による BI ツールを使用して公開用バケットにアクセスし、分析業務を実行
■主なストレージ要件
- バケットにファイルが更新された後、後続処理を実現するための外部通知機能
- ユーザー認証(SSO、OpenID Connect)によるセキュアなバケットデータ・アクセス
- OSS 分析ツール(Spark、Presto)との親和性
■ディスカッションのやりとり(抜粋)
- ランサムウェアなどの外部からデータを保護するためには、イミュータブルなデータを保証できる仕組みが必要
- ユーザー認証やデータの暗号化対応に、外部製品との柔軟な組み合わせができるとソリューションの幅が広がってよい
- ストレージの機能に不要なデータを自動削除できる機能があると、無駄に逼迫するリスクが減るのでよい
→
認証・暗号化、OSS ツールの連携など、外部ソリューションとの組み合わせの話題が上がりました。
弊社の IBM Storage Ceph もそうですが、データ統合基盤は今後もこのような外部連携の強化が求められると感じます。
イグアス野澤様より、締めのお言葉として以下のコメントをいただきました。
「企業は色々なデータを持っていますので、様々な媒体を使って皆様と一緒に勉強しながら、
データをどのようにうまく活用できるのか、歩んでいければと思っております」
IBM Japan ストレージ は 今後も今回のようなディスカッション形式のイベントを増やしていき、
皆様と一緒に切磋琢磨しながら盛り上げて行きたいと思っておりますので、乞うご期待ください!