IBM TechXchange Japan Storage User Community

 View Only

タッキーBlog #3:祝JSUC Blog100件記念:AI、データ活用を考える際のポイント その1

By TAKAFUMI SASAKI posted Thu October 19, 2023 04:51 AM

  

読者の皆様、タッキーです。
お客様やパートナー様との会話からの学び、最新ニュースから私的で旬なトピックをタッキーBlogとして連載投稿しています。
なんと本サイトJSUCのブログも100件目となります。ご愛顧本当にありがとうございます。

さて、今回から「AI、データ活用を考える際のポイント」と題しまして複数回に渡って、社会背景やお客様の課題とニーズ、解決に必要な考え方やアプローチ、今できる解決策などについてポイントをお話ししていきたいと思います。

なぜ、私がこの話題を選んだかというと一昨年、昨年、今年と年を追うごとにこの話題でお客様と会話する機会が増えており、とうとうお客様との会話の8割がこの話題になったからです。本日、本ブログを読んでいただいている皆様はいかがでしょうか?

既に事例になっているお客様、実際のデータサービス基盤の実現を進められているお客様もいらっしゃいますので焦ってしまうかも知れません。ですがご安心ください。まずは、デモやPoCをご覧いただき、ワークショップを進め将来計画を立てているお客様がほとんどです。また、アプローチや解決策は同様ですがお客様の環境は千差万別でご要件も異なりますので実現の仕方、カスタマイズ、それこそアイデアがポイントになります。
それでは内容に入ってまいりましょう。


社会背景

あらゆる業界で、AI、データ活用は検討されておりデータは爆発的に増えております。年率30%で増え、2025年には180ZBになるとの予想があります。年率30%というのは2年で1.7倍、5年で3.7倍ですから2030年には600ZBを超える、その先の単位YBが見えてきますね。しかもこの予想を超えて増えているという報告もあります。この途方もないデータの8割以上が非構造化データでありファイルです。この非構造化データの管理、活用がポイントとなります。

Tips:1ZB(ゼタバイト)は10億TB(テラバイト)、100万PB(ペタバイト)です。1YB(ヨタバイト)は1000ZB(ゼタバイト)です。


Tips:構造化データとはデータベースに代表される整形されたデータです。非構造化データとはメールやSNSなどのテキスト、コールセンターなどの音声、カメラなどの画像や動画、センサーからの検査データといったデータで様々なファイル形式があります。非構造化データを細かく分類するとXMLやJSONといったある程度構造が決まっているものを半構造化データと呼んだりします。

下記の図を見ても世の中には非構造化データが溢れており、身近なところでAI、データ活用され役立っていることがわかります。
例えば1日1千万回以上の医療画像スキャン、街には10億台以上のスマートシティ・カメラ、2025年には3200万台のセンサーが我々の身の安全を守るためにデータを生成します。


お客様の課題やニーズ

お客様には様々な業種・業界があると思いますが、前述の例を含め全てに共通するニーズは、AIにデータやヒントを与え学習させて学習モデルを作り、そのモデルに日々のデータを与え結果を得てビジネスや業務目的に活用したいということです。当然、学習モデルを作るのに1年かかったり、日々のデータを活用するのに1週間かかるのでは遅過ぎ、リアルタイム性が求められます。つまりAI環境から必要なデータに如何に柔軟に高速にアクセスできるかがポイントとなります。
個人や小さな環境でAI活用や検証する場合は、お手持ちのPCにAIソフトやツールをインストールし、内蔵SSDにデータを置いて行えば快適ですね。しかし、他のPC、外付けHDD、クラウドに置いてあるデータも使いたい時、また異なるPCや携帯等のAIからデータを読みたい時が来たらどうでしょうか?どんな課題が想定されますか?

実際のお客様と会話するともっと複雑です。まずAI、データ活用に関わる部門が複数あり、使うソフトもツールも異なりますし、目的や環境、そもそも拠点も異なるかも知れません。これまで伺った話をなるべく集約するため下記の図のように3つの部門(役割)に分けてまとめてみました。それぞれの部門について課題とニーズをお話しします。

データを収集・分析しビジネスや業務目的に活かしたい部門(図の左上)

商品開発部門や、お客様サービス提供部門などがあげられます。いざデータ活用するために収集しようとすると適切なデータが見つからなかったり、見つかってもすぐに利用できないといった課題があります。データ・アナリストの方に伺うと業務の8割はデータを準備する時間に費やしており手間がかかり、準備できてから分析やAI学習を実行する時間は簡単で短いとおっしゃていました。

その原因は必要なデータが手元になく他部門管理で点在しているからです。データを持っている部門に連絡して利用目的を説明、アクセス権やセキュリティルールの認識合わせ、申請手続きを経てデータをもらう必要があり、これを複数部門と調整します。電話やメール一本で済むはずがなく幾度も会議を重ねますので簡単な気持ちでデータ活用を推進できません。もう一つの原因は、やっとのことで申請承認されたデータを使おうとした時にAI、分析ツールから使えないファイル形式だったり、他拠点やクラウドなど離れた場所にあってアクセス速度が遅すぎるとか、それならコピーして持ってこようとすると転送速度が遅いだとか、そもそも持って来れる高速ディスク領域が余っていないなどインフラ面でも課題山積みです。情報システム部にお願いすれば解決しますか?

データが生成され、管理しなければならない部門(図の下)

実際にデータが発生もしくは作成している工場や現場の社内ユーザ様の部門です。ここでは日々生成されるデータを保管する場所や整理方法など管理について課題をお持ちです。

もしかして後で提出必要かも、データ活用されるかもと思えばデータは消せず、溜まる一方です。自分たちで個別に保管場所を用意するとなるとバックアップや災害対策、セキュリティなどを個別に検討する必要があり面倒です。またフォルダー名やファイル名で整理するにも限界があり、コピーによる重複や異なるバージョンが沢山あり、こんなデータが欲しいと言われても探すのも困難です。保管場所も整理方法も運用やセキュリティポリシーもガバナンスも会社全体で統一して決めて欲しい、情報システム部に全てお願いしたいというのが本音であったりします。

会社全体にインフラ基盤提供しポリシーやガバナンスを統一する部門(図の右上)

これまでのインフラ基盤での分析といえばデータベース、データウェアハウスなど構造化データを取り扱っており、ファイルではなくブロック・データを保管することが主でした。例えばブロック・ストレージから10TBのボリュームを切って仮想化サーバーやデータベース・サーバーに見せて、有事の際のためにそのボリュームのバックアップや災害対策をするといったことです。それが急にAI、データ活用基盤というリクエストを受け、新たなインフラ要件となり膨大な非構造化データ(ファイル)を取り扱う新しいインフラ基盤の提供と利用ルールを決めなければならないという課題があります。

非構造化データのデータ量は構造化データとは比べものになりません。1日1TBの動画を毎日溜めたら3年で1PB超えます。さまざまな形式のファイルをまとめる保管場所、そのスペースとコスト、これまでのバックアップや災害対策の仕組みで良いのか、各部門からどうやってデータを持ってくるのか、持ってきたとして安全に、セキュアにデータを保持できるのか、AI、分析する部門にはどこまでデータ開示して良いのか、どうやって連携するのか、課題が山積みでどこから手をつけて良いのかお困りではないでしょうか?


本日のまとめ

データは溜まる一方で、放っておけば未整理のまま、コストも工数も増大していってしまいます。この面倒さに終止符を打ちませんか。理想としてはデータが連携・集約・整理できて保管、運用、活用、セキュリティポリシーやガバナンスが効いている次世代インフラの実現が必要ですよね。

本日は「AI、データ活用を考える際のポイント」と題しまして、社会背景やお客様の課題とニーズについてお伝えいたしました。

次回は、解決に必要な考え方やアプローチ、今できる解決策についてお話ししたいと思います。

多分、皆さんは次世代インフラは全て作り直しが必要なの?と不安になっていらっしゃるかも知れませんが、そんなことはございません。
既存インフラに2つの機能を追加するだけで解決できますので次回のタッキーBlogをお楽しみに!

>>> 解決編はこちら:タッキーBlog #4:AI、データ活用を考える際のポイント その2(解決編)


#AI
#Data
#BigData
#analysis

1 comment
80 views

Permalink

Comments

Thu October 19, 2023 04:55 AM

本ブログ記事内容へのご質問は、当該コミュニティ上の Discussion をご利用下さい。Disscussionいただくには本コミュニティにメンバー登録が必要です。by タッキー