ProVISION

DXを継続させる運用高度化の提言 (vol97-0003-cloud)

By IBM ProVISION posted Tue March 23, 2021 06:55 PM

  

急激な進化を遂げるIT環境。企業もデジタルトランスフォーメーション(DX)への対応が急務となり、アプリケーションの近代化やAPIによるエコシステムの構築、クラウドへの移行を進めています。しかし、コストセンターと揶揄される運用の現場は変化に対応が出来ていないばかりか、更なるコストの削減を求められるという負のスパイラルに陥っている傾向にあります。企業はこの事実を認識し、DXを継続させていく運用の仕組みを早急に構築する必要があります。その解決策として注目されるのがAIであり、本稿ではそのAIを活用した運用の高度化について説明します。

 

運用の現場が直面する事実

「2025年の」問題はみなさんご存知かと思います。
2025年以降、人口の減少やコストの不足により、現状のシステムをメンテできる人材が不足しシステム障害が頻発する可能性が高くなり、経済や我々の生活をマヒさせてしまう、というものです。 

しかし、企業の運用の現場では、2025年を待たずして、すでに深刻な問題が起きていることをご存知でしょうか。
「医療崩壊」ならぬ「運用崩壊」とも言える問題です。

ここ数年、クラウドへの移行やデジタルトランスフォーメーションへの取り組みが加速しています。
それを受けて各企業では、

  • パブリック、プライベートを含むクラウドへの移行
  • アプリケーションのコンテナ化、モダナイズ化
  • アジャイルによる迅速な開発
  • DevOps に代表されるような新しい運用体制・マインドセットの導入

などが進んでいます。

一見、華々しく見えるこれらの新技術や手法ですが、実際には運用の現場に新たな複雑性やリスクなどの問題をもたらしていることも事実です。
運用チームには既存のオンプレミスの管理に加えて、これら全ての新技術に対しての知識や対応力が求められます。
そして、新技術への対応だけでなく、専門的知識を持った人材(いわゆる匠と呼ばれる人々)の高齢化に伴うナレッジの継承・喪失という問題も存在します。

運用の現場は、これら新技術や複雑化するIT環境の管理運用と、資産とも言えるナレッジの継承・蓄積という両極端の課題への対応をしなければなりません。

しかし、現実には限られた人員で、複雑化・多様化するIT環境の全てのリソースを管理したり、そこから上がってくる全てのアラートやイベントを正確に把握し、適切な対応をとっていくことは、もはや不可能なレベルに達しています。イベントやアラートの洪水の中で本当に必要な情報を選び出すことが難しく、障害の原因分析や影響範囲の特定に至っては、専門のスキルを持った人材を投入してもかなりの時間を要します。

また、アプリケーションはコンテナでの開発が主流になりつつあり、アジャイルの手法で日々リリースや修正が加えられるようになります。

コンテナ化やマイクロサービス化はアプリケーションの迅速なリリースや修正、冗長性確保によるサービスの安定化やサービスレベルの細分化などの効果をもたらしますが、一方で細分化され複雑に絡み合い、そして動的に変化しながら稼働を続けるアプリケーションを正確に管理することは、人手ではまず不可能です。

このような状況下では、運用部隊のワークロードが高くなることから、抜本的な解決策が施されず同様の問題を繰り返す傾向にあります。
つまり、解決までの時間が長くなるだけでなく、同じ問題を繰り返し、無駄に機会損失を増大させることになります。

それではこれらの問題は人的リソースを投入すれば解決するのでしょうか。
残念ながら、ある調査では労働投入量という観点で見ると、2020年にはピークを迎え、2023年からは減少が始まると報告されています。[1]
つまり、これからは人を増やすどころか、もっと少ない人員で、これまでよりも複雑なIT環境を管理していくことが必要となります。
「運用崩壊」という言葉が決して大袈裟な表現ではないことがお分かりいただけたでしょうか。

 

運用崩壊を解決するAIOps

企業は前述の課題にどのように向き合っていけば良いのでしょうか。
そこで登場したのがAIOps(Artificial Intelligence for IT Operations)という考え方です。
AIOpsはガートナーの定義によると[2]、「ビッグデータと機械学習を組み合わせて、イベントの相関関係、異常検知、因果関係の判定などのIT運用プロセスを自動化すること」を指します。ビッグデータというのは、イベント、メトリック、トポロジーなどの構造化データに加え、ログやチケットなどの非構造化データも含みます。機械学習とは、AIの一種であり、過去の経験から学習によって自動的にプログラムの性能を改善するアルゴリズムを指します。

AIOpsを導入すると運用の現場はどう変わるのでしょうか。AIOpsは発展途上であり、今後の機能拡張も含んだ上での一例ですが、AIOpsを導入することで、ITオペレータはルーチンワークから開放され、オブザーバビリティを元にシステムの健全性や何が起こっているかをリアルタイムで把握します。障害発生時にはAIOpsが自動的に整理した関連するイベント、チケット、ログ、障害の影響範囲を元に次に取るべきアクションが分かります。ITオペレータはその情報を元に素早く障害を復旧させ、必要な報告を上げることができます。このように、AIOpsを活用した未来はほぼ全ての運用業務が自動化され、多くの障害は未然に回避され、人間は最小限の判断を下すのみになると言われています。

AIOpsの強みを最大限生かすためには、なるべく広範囲にAIOpsを適用することが重要です。様々なツールから生成されるデータを一元的に収集して分析することで、個々のツール特有の管理方法に依らず、日常的に使用しているメッセージングツールに情報を集約することができます(ChatOpsと呼ばれています)。

AIOpsによって実現できる具体なメリットとして次のことが挙げられます。

  • 重要でないと判断される情報の排除による運用者の負担の軽減
  • 正常時の情報から外れた異常の早期発見
  • 異常発生時の影響範囲の分析と過去の類似事例とその対応策の提示(MTTRの削減)
  • 統合されたシステムのオブザーバビリティの提供
  • より高度な問題やビジネス課題に時間を集中することができる

一方でAIOpsのデメリットとして次のことが挙げられます。

  • 期待した効果を得るための学習コストや、データの収集や保護かかるコスト
  • AIOpsを扱うためのスキルが必要
  • AIOpsの出力は根拠に基づいて行われるが、必ずしも正しいとは限らない

次の節ではIBM が提供する AIOps ソリューションである IBM Cloud Pak for Watson AIOps について紹介します。

 

IBM Cloud Pak for Watson AIOps

IBM Cloud Pak for Watson AIOps [3](以降、Watson AIOpsと称す)は異常に対して検知・診断・対応を行う過程をA Iを使用して自動化することで運用高度化を支援するプラットフォームです。Watson AIOpsを使用することで問題が深刻になる前に問題箇所、影響範囲の特定、効率的に解決することができ、これまでより運用全般において工数を削減・属人性を排除することができます。

それではWatson AIOpsの導入効果を実感いただくために、PoC事例を元にソリューションの説明をしていきます。PoC事例 ( 図1)では、前提として正常時・異常時のログを4日分A Iに学習させています。その結果、従来の運用では異常を検知するまで平均2時間24分必要だったのがWatson AIOpsを使う事でリアルタイムで検知できる様になりました。また、解決までの平均時間も2時間31分から7分に大幅短縮されました。

図1



この特出した結果は、どのような仕組みでもたらされているのでしょうか。今回の流れを表したものが図2になります。

図2

 1.データの取り込み・AIを使った異常検知の仕組み 図2の①

Watson AIOpsでは、メトリックやイベント、トポロジーのような構造化データ、ログやチケットのような非構造化データをリアルタイムに取り込み検知・診断を行なっています。
例えば、ログの異常検知では、事前に正常時のログをAIが学習(教師なし学習)し、正常時の振る舞いをモデル化します。そして、リアルタイムに出力されるログを分析し、モデルに当てはまれば正常、当てはまらなければ異常と判断する仕組みになっています。
 

2.根本原因を特定し解決方法を提案 図1の②

異常検知後、AIを使って異常ログと関連がある情報(イベント、アラート、メトリック、トポロジー)を1つのイベントとして関連付けます。また、トポロジーを使った障害箇所と障害影響範囲の視覚化、過去の対応から類似インシデント検索を行い、次に取るべきアクションを加え、最後に、Watson NLP (自然言語処理)を使用し、人間が理解できる文脈を生成したレポートをメッセージングツールに通知します。 

 

3.ChatOpsで障害対応 図1の③

Watson AIOpsでは、ChatOpsにより障害の通知や対応を行うことができます。現在はSlack、TeamsがChatOpsに対応しています。

インシデントが発生すると以下の4つの項目を簡潔に通知します。

  • インシデントの概要、重要度
  • 問題が発生している箇所と影響を受ける範囲
  • 通知の根拠となるログやアラートの件数
  • AIが導き出した推奨されるアクション

この自動生成されたレポートを使用して運用担当者は迅速に障害対応を始めることができるのです。なお、Runbook Automationを使って復旧手順を自動実行する事にも対応しています。

 

これまでWatson AIOpsのしくみを異常検知・診断・対応の流れを使って紹介しました。これらの一連の流れは、従来の運用ではエンジニアが障害の第一報を受けた後に、複数の画面を切り替え、様々なツールからアラートやログの情報を相関させようとストレスを抱えながらたくさんの労力や時間をかけていた部分です。Watson AIOpsを導入することで単一の画面でシステム全体の状況が把握でき、これまでより運用全般において工数を削減・属人性を排除することができるのです。

 

AIOpsに取り組むべき理由とは

企業が今すぐにAIOpsに取り組むべき理由について考えていきます。それはシステムの運用高度化に留まらず、組織の人材の高度化にあると考えています。I Tシステムがより高度になるに連れて、運用技術者に求められるスキルも同様に高度になっています。例えば、CI/CDを実装し、業務システムの迅速なリリースサイクルに対応するDevOpsエンジニア、レガシーな環境からクラウドネイティブ環境まで様々なアプリケーション実行環境の安定稼働を担うSRE(Site Reliability Engineer)です。従来ルーチンワークを主に行なってきたITオペレータにとって、すぐにDevOpsエンジニア、SREの役割を果たすことは、非常に困難だと言われています。AIOpsを導入することで、大部分をAIが自動的に作業を行うため、人が注力すべき点が明確になります。AIOpsを活用する人材を育成することで、DevOpsやSREに対応し、人とAIがお互いの得意分野を活かしスピード・品質を向上させる働き方を実現することができるのです。

 

Cloud Pak for Watson AIOpsの関連製品

CP4WAIOpsは、本稿で紹介した以外にもハイブリッドクラウド環境のプロビジョニング、ガバナンスおよびコンプライアンス管理、イベント統合管理の機能を持ち、また、監視ソフトウェアであるIBM Observability with Instana [4]と連携することができ、変化し続ける様々な環境を一元管理することが可能となっています。https://www.ibm.com/cloud/instana

[参考文献]

[1] 三菱UFJリサーチ&コンサルティング :「2030年までの労働力人口・労働投入量の予測」より抜粋 
[2] Gartner Glossary https://www.gartner.com/en/information-technology/glossary/aiops-artificial-intelligence-operations
[3]Cloud Pak for Watson AIOps https://www.ibm.com/jp-ja/cloud/cloud-pak-for-watson-aiops
[4] IBM Observability with Instana https://www.ibm.com/cloud/instana

日本アイ・ビー・エム株式会社
テクノロジー事業本部 クラウド&データプラットフォーム
AIOps オファーリングマネージャ
堤 康広
Yasuhiro Tsutsumi

金融系ユーザ企業での長年のインフラ運用・設計をへて2020年にIBMに入社。2021年はAIOpsを中心としたオファーリングを担当しており、ユーザ企業の運用の高度化・自動化の必要性を訴求している。

日本アイ・ビー・エム株式会社
テクノロジー事業本部 データ・AI・オートメーション事業部
Automationテクニカル・セールス
江田 幸弘
Yukihiro Koda

SIerとして多数のインフラ構築案件のデリバリーに従事。
IBM入社後はテクニカルセールスとして、主にハイブリッド環境の構築/運用自動化、及びAIOpsの分野に注力している。

日本アイ・ビー・エム株式会社
テクノロジー事業本部 データ・AI・オートメーション事業部
Automationテクニカル・セールス
平岡 大祐
Daisuke Hiraoka

業務系や基幹系システムの設計、開発、運用など広範な業務に従事した後、2017年よりIBM Cloud上でOpenShiftの商用環境の構築/運用業務を担当。以降、コンテナやOpenShiftの業務を多く経験する。現在はテクニカル・セールスとして企業システムのクラウドネイティブ化を支援。著書は『コンテナ・ベース・オーケストレーションDocker/Kubernetesで作るクラウド時代のシステム基盤』(共著/発行:翔泳社)


*ProVISION 記事一覧はこちらから

 

#ProVISION #cloud

#Highlights-home
#Highlights
0 comments
1117 views

Permalink