IBM TechXchange Japan Storage User Community

 View Only

タッキーBlog #4:AI、データ活用を考える際のポイント その2(解決編)

By TAKAFUMI SASAKI posted Sat December 02, 2023 04:59 AM

  

前回の振り返り

前回は「AI、データ活用を考える際のポイント」と題しまして社会背景やお客様の課題とニーズについてお話ししました。今回は、解決に必要な考え方やアプローチ、今できる解決策についてお話ししたいと思います。

データは溜まる一方で、放っておけば未整理のまま、コストも工数も増大していってしまいます。
今から2025年までに蓄積データは2.5倍以上に増加すると予測されており、お客様の82%は複数の拠点に散らばったデータのサイロ化の悩みをお持ちです。
遠く離れた拠点のデータにアクセスしたり、クラウド上の低速なストレージに分析の度にアクセスしていたらリアルタイムなAI、データ活用は実現できません。
さらにデータの用途や形式が多様化しており、データ活用にかかる時間の8割を必要なデータを見つけ利用可能にするための準備作業に費やしてしまっています。また、データの移動、更新、複製などを繰り返すことで重複したデータで異なるバージョンが生まれ、そのどれが信頼できるデータソースなのか分からなくなってしまっているという問題を82%のお客様が課題として挙げられています。

この面倒さに終止符を打つためには、データが連携・集約・整理できて保管、運用、活用、セキュリティポリシーやガバナンスが効いている次世代インフラの実現が必要ですよね。

AI開発、データ活用はデータ中心(Data-centric)の考え方が重要です。開発環境のCPUとGPUは、より多くのデータに高速にアクセスする必要があります。また、多くのデータ発生場所、保管場所がありますが、個別に重複したデータを保管するのではなく、唯一信頼できるデータソースを特定できることが大切です。つまり、データを利用する度にアクセス方法や、保管場所が変わるのではなく、インフラ全体で一貫した統一されたデータサービス基盤が必要となります。

それには、下の図のような要件を満たすことが必要となります。

  1. データが分散し離れた場所にあろうともどこでも高速に、どんな形式でも柔軟にアクセスできること
  2. ユーザーはデータ保管場所を意識することなく自由に置け、コスト効率の良い保管場所を実現できること
  3. たくさんの同じようなファイル名や異なるバージョンがあっても、唯一信頼できるデータはどれかすぐわかること

言うは易く行うは難し、そんなことが実現できるのか?できたとしても今の環境を全て1から作り直しになるのではないか?と不安になっていらっしゃるかも知れませんが、既存環境はそのままで、キャッシュとタグ付け機能を追加するだけで実現できます。イメージはこちらです。

上の段はAI学習、データ活用のプロセスです。青丸の数字に合わせて以下に説明します。

  1. 大量のデータを集めるわけですが、ユーザーは溜める場所を意識せず自由なプロトコルでデータを置くことができ、自動的に最適な保管場所にデータを配置できたら、一元管理できたら便利ですよね。
  2. データを溜めたり利用した際に自動でタグづけしておくのです。タグづけされているので必要なファイルを簡単に見つけることができるようになります。
  3. さらにAIに学ばせる段階ですが、これは高速なアクセス性能が求められますので事前に自動でFlashストレージ側にキャッシュしておきます。先ほどタグ付けしているので欲しいファイルだけキャッシュすることができます。またマルチプロトコルでアクセスできますよ。
  4. 使い終わったデータのキャッシュはクリアし、分析結果はコストパフォーマンスが良い大容量ストレージに簡単にアーカイブできます。キャッシュは無駄にならず、他の分析に使えるようになる点がポイントです。
  5. GDPによって世界中のデータが統一されコスト効率が良くなり、どこからでも柔軟にセキュアにアクセスできる基盤が実現できます。アーカイブにはテープを、データ共有にはクラウドなどはいかがでしょうか。

そんなことができる解決策 = ソリューションがあるの?
それが下記の、IBM Global Data Platformソリューション、略して GDP です。

そんな製品名を聞いた事ないって方がほとんどだと思います。実はこれ、IBM Storage Scale もしくは IBM Storage Fusion というソフトウェア製品に入っている機能なんです。つまり、早速試されたい方はこのソフトウェアをお手持ちのサーバー、もしくはクラウドで稼働させれば実現できます。

もう一度申し上げますが、既存のファイルサーバ、部門ストレージ、クラウド上のデータはそのままでOKですよ。

上の図を使って、これまでとGDP導入後の違いをおさらいしてみましょう。青四角の数字に合わせて以下に説明します。

  1. これまでは、保管場所が拠点毎に分かれ個別にデータ管理・運用、データが点在しアクセス方法も異なっていて困りました。
    これからは、データを一元管理・運用でき、ユーザーは保管場所や拠点を意識する必要がなくマルチ・プロトコルで柔軟にアクセスできます。

  2. これまでは、データが未整理のため、信頼できるデータソースが特定できず、必要なデータをすぐに見つけられませんでした。
    これからは、自動で自由にタグ付けすることでデータを整理し、タグ検索により必要なデータを簡単に発見できます。

  3. これまでは、不要なデータも高価なFlash領域にコピーしてしまい転送負荷が高く、重複によりデータ量が増え、コスト悪化に悩んでいました。
    これからは、必要なデータのみキャッシュするので不要なデータ転送やデータ重複が起こらずコスト効率が抜群に良くなります。

一つGDPの事例をご紹介しましょう。自動運転技術を開発してらっしゃる自動車会社様の事例です。全世界に数万人の開発者を抱えており、マルチクラウド+各国のオンプレ環境で開発されています。

テスト車両を全世界で走らせ、取得されたデータを元にAI開発をなさるのですが、必要なデータは自分の開発環境上にあるとは限りません。よって、GDPを利用し、必要な際に必要なデータを高速キャッシュにのせて、高速に学習させているのです。以前はデータのコピーを作っていたのでデータがデータが二重三重に増えて大変でした。
また、素晴らしいアプローチとしては1拠点だけで開発するわけではないのでキャッシュ環境を各拠点においてお互いにデータを活用、コラボレーションできるようにしたところです。

事例は自動車会社様だけでなく、病院様、研究機関様、製造業様など豊富にございます。

面白い事例としては、GDPさえ実現できれば世界中のどのデータにもマルチプロトコルで一元的にアクセスできるので、バックアップの一元化を実現したお客様もいらっしゃいます。下記前回もお話ししたようにアイデア次第ということです。

前回のポイント「お客様の環境は千差万別でご要件も異なりますので実現の仕方、カスタマイズ、それこそアイデアがポイントになります。」

さぁ、皆様はどんなことに IBM Global Data Platformソリューション を使ってみたいでしょうか?

ご興味ございましたら遠慮なくご連絡ください。詳しい機能詳細については、またお時間ある時に紹介したいと思います。

以上、タッキーがお送りしました。


#AIOpsFeaturedWebinar
#ai
#analysis
#BigData
#data
1 comment
27 views

Permalink

Comments

Sat December 02, 2023 05:04 AM

本ブログ記事内容へのご質問は、当該コミュニティ上の Discussion をご利用下さい。Disscussionいただくには本コミュニティにメンバー登録が必要です。by タッキー