サステナブルなITによるDX推進(第4回) AIOpsを利用したIBM zSystemsの運用改善(vol98-0012-mainframe)

View Only

サステナブルなITによるDX推進(第4回) AIOpsを利用したIBM zSystemsの運用改善(vol98-0012-mainframe)

By IBM ProVision posted Mon December 19, 2022 12:02 AM

Like

zSystemsにおけるAIテクノロジーの適用。ビジネスにおけるITサービスの価値とともに投資との連携を可視化し、より高度な運用へ。

久貝　貴子
Kugai Takako
日本アイ・ビー・エム株式会社
テクノロジー事業本部プリンシパルITスペシャリスト

1987年入社。入社以来メインフレームを中心とした運用ソリューションの品質検証、設計、構築、研修に従事。現在はテクニカル・セールスとして、業種を問わずメインフレームのお客様に対して運用分野における数々の最新技術の適用検証や啓蒙活動を実施中。専門はITサービス運用全般、セキュリティー。itSMF Japan会員。

IBM zSystems [1] は現在も世界中のお客様の基幹業務を支えているメインフレームです。本稿では IBM zSystems をモダナイゼーションし、サステナブルな IT に位置付けることで、お客様のデジタル・トランスフォーメーションを推進する方法を論じます。今号は全5回シリーズの第4回として、AIOpsを利用した運用改善について述べます。

AIテクノロジーによるデータ分析とは、データの傾向を分析し、パターンやルールを読み解いて現在の状況や将来の判断に繋げることを目指したものです。この手法をITサービス運用の分野に適用する場合、対象となるデータは運用の履歴を記録したログ・データです。このログを分析し現在のシステム状況を業務視点から判断し、インシデントの把握や予測によるITシステムの障害抑止及び連続稼働を目指し、さらに将来のIT計画に役立てることが期待されます。これはログという単なる莫大なデータから、ITサービス運用がビジネスを支援していることを証拠づけるというITサービス運用の目的に合致した価値を割り出すことになります。
ログ・データの分析によるIT運用の高度化の手法（AIOps）において、最も顕著な効果は可用性維持のための障害回復時間の短縮です。障害対応プロセスには、「インシデントの検知」、「問題の特定」、「原因の診断」、「回復対応」、「対応内容に対する検証」の５つのフェーズがありますが、AIOpsは特に、初期のインシデントの検知、診断の時間を短縮し、より少ない労力やスキルで業務遂行できるようにすることが期待されています。また、システム異常をより早く検知することで、障害発生の範囲やリスクを軽減することが可能となります。

今回はこのAIOpsテクノロジーの、zSystems (z/OS®) への適用をご紹介します。

図1. AIOpsテクノロジーによる障害回復の例

１．日本のお客様におけるzSystems運用の現状と課題

z/OSのログについては、メッセージ・ログはWTOマクロによるシステム・コンソール・ログ(SYSLOG)、パフォーマンス・ログはSMFログといった、標準化されたログ管理機能を持ちます。この機能により、OS、ミドルウェア、業務アプリケーションからのメッセージをOSコンソールに集約して出力することで、リアルタイム監視が容易になります。日本国内の多くのお客様のIBM zSystems運用は、このOSの標準機能を利用し、約40年前に設計・確立されたメッセージのリアルタイム監視をベースとしています。さらにこれらのメッセージを長年の運用実績から分析・分類し、監視対象メッセージとして分類し、日常運用や障害対応を自動化できるようにしてきました。この手法は長期に渡りIBM zSystemsの安定稼働に貢献し、多くの重要なビジネスのIBM zSystemsでの稼働を支えてきました。

昨今、多様化する業務に最適なプラットフォームを選択する動きはますます加速し、分散サーバーやクラウド環境とIBM zSystemsを接続するケースも増えてきました。この高速化するビジネス変革を支えるために、ITシステムはより複雑な構成と柔軟性が求められ、ITサービス運用にも新しい手法が求められるようになってきました。ビジネスの特性に合わせてアプリケーションを選択する中で稼働プラットフォームやネットワークの最適化を図ろうとした結果、ITシステムは多くの種類のコンポーネントを組み合わせた複雑なものとなリました。このため、サーバー等ハードウェア単位での運用設計に基づく従来の手法を踏襲する運用方法では、様々な問題が生じています。

1-1. 運用スキルの不足
マルチ・プラットフォーム環境の運用における課題の一つは、運用スキルの不足です。それぞれのプラットフォームやシステム資源の運用に必要なスキルが多様化し、ビジネスの重要度の向上に合わせて要求されるレベルも高くなっています。さらに、共通の課題になっているのが、z/OSスキルのある専門家の絶対数の減少です。このため、以前作成した運用手順の変更影響を見極めきれずに、システムの安定稼働を維持する為に必要な運用手順の見直しができないという問題が生じています。

1-2. 運用プロセスのサイロ化
２つ目の課題は運用プロセスのサイロ化です。これは運用部門の組織がインフラ単位に分かれていることを原因と考えることもできますが、それぞれの組織が分かれているということより、ITサービス運用のレベルで必要な情報を、各部門の担当者が共有できていないことが根本原因です。

1-3. 投資対効果
３つ目の課題は、運用の更改（最適化・高度化）を計画した際に投資対効果（ROI）が示しきれず、計画実行が進まないことです。ITサービス運用の評価は運用部門単体ではなく、ビジネス全体の評価の１つとして企業レベルで検討するべきものですが、それを運用部門のみで数値化しようとすると検討が進まない要因となりがちです。

２．AIOpsとは

スキル、プロセス、投資対効果の課題を解決する一つの解として、近年運用分野におけるAIテクノロジーの利用が話題になっています。運用分野でのAIテクノロジーの活用とは、様々な種類かつ莫大な量の運用ログを集約・分析する機械学習を行うことでログを単なる記録データから運用指針を示すものとして価値を高めていこうとするものです。
AIテクノロジーによる運用で期待される効果の一つは、対象システムやアプリケーションに特化したスキルを必要としないことです。全てのログを同じスキームで分析していくことで、全てのシステム資源へのスキルが充足していなくても、多くの結果を引き出すことが可能となります。
２つ目の期待される効果は、分析結果を多くの立場のメンバーが共有することで、プロセスのサイロ化が解消されることです。AIテクノロジーにより結果が迅速に引き出されることで、情報共有も迅速化されます。
ROIに関する効果としては、まずは運用手順の効率化やスキル要員確保が不要になることによるコスト削減が挙げられます。さらに、ITサービス運用のビジネス貢献を明確化できることで、より効果が可視化されることが期待されます。

2-1. ログの監視方法　―「APM」
ログの詳細分析の前段階として、それぞれの監視対象資源別に監視することで、資源の状況を詳らかにすることが可能です。しかしながら、日常的にそれぞれの資源別の大量なログを１つづつ監視していくのは物理的に無理があります。そこで、監視ベスト・プラクティスとしてのメトリックを用いる手法である「APM」（Application Performance Monitoring : アプリケーション・パフォーマンス監視）が求められます。つまり、個々の資源の課題や対応を明らかにするために必要な監視項目を定義し、項目別あるいは複合的にその値を確認・判定していく方法です。何を監視するべきか、監視結果をどのように評価するべきかは、IBM zSystemsのパフォーマンス評価の実績に基づくベスト・プラクティスにより定義されます。さらに、個別のイベントだけではなく、複数のイベントの相関関係を確認し、発生している事象を多角的に評価することを目指します。

2-2. ログの監視方法　―「可観測性」
メトリック・ベースの「APM」に加え、「可観測性」というアプローチがあります。これは、監視を個別資源の可視化ではなく、業務の視点でシステム資源の状況監視・原因・改善アクションをクリアにすることを目指すものです。運用監視では、トランザクションを自動検知し一気通貫に監視することで、稼働サーバー、OSやミドルウェアやAPI（Application Program Interface）の関連をクリアにした上での業務トランザクションの状況を可視化します。この「可観測性」と「APM」を組み合わせることで、業務上の問題可視化とシステム問題分析を同時に行うことは、業務の維持・改善というIT運用の最終目標に直接近づけることとなります。

2-3. 運用ログの機械学習分析手法
運用ログの詳細分析には、機械学習の利用が一般的です。予兆検知を目標とした機械学習の代表的な結果として、「可変しきい値」「アノマリー検知」「将来予測」が挙げられます。
「可変しきい値」とは、単一或いは複数のログの傾向を分析し、システム健康状態を示すしきい値を季節や時間など時間軸で可変するものとして示すものです。例えば多くのお客様でCPU使用率の監視要件がありますが、ピーク時とそれ以外を同じ値でしきい値監視するのは現実的ではありません。過去のCPU使用率を傾向として学習し、時間別・季節別の適正なしきい値を自動設定するのが、「可変しきい値」です。
「アノマリー検知」は過去の実績から問題発生が推測される状況を事前に検知するものです。過去の問題発生の事前状況を学習し、問題発生前に通知するという利用方法のほか、可変しきい値と組み合わせて、いつもと異なる状況を確認し通知することも可能となります。
「将来予測」は文字通り将来発生しうる問題を予測することですが、運用においては、ディスク容量の増加の予測や、トランザクション増の予定に対するCPU増の予測などが挙げられます。

図2. 運用分野におけるAIテクノロジー活用のサイクル

3. IBM zSystemsにおけるAIテクノロジーの進化

この章では、z/OS環境でのIBM AIOpsソリューションをご紹介します。

3-1. z/OS環境が扱うログの種類
z/OS環境では様々なログを書き出しますが、前述のように標準化されたログ出力手法があり、ログの種類としては他プラットフォームに比べて非常にシンプルです。
まず、パフォーマンス・ログの大部分はSMFログとして出力します。ユーザー・アプリケーションのパフォーマンスについても、z/OS資源としての監視が可能であることから、ほぼSMFログのみでカバー可能となっています。例外となるのはInformation Management System(IMS)、WebSphere® Application Server(WAS)で、それぞれの独自の手法でのトランザクション・イベントをログとして出力します。これは複数のイベントの関連からパフォーマンス情報を紐解くため、パフォーマンス可視化のためには独自の手法が必要です。
メッセージ・ログは、WTOメッセージとして標準化すれば、SYSLOGとして管理可能になります。その他、自動運用処理を含むメッセージ管理としてのNetView[2]ログ、その他ミドルウェアやアプリケーションがメッセージを出力するログ・ファイルがあります。これらは、出力先のPSファイル、VSAMファイル、USSファイルを直接読む手法を確立することで、これらのログを情報源として利用することができるようなります。

3-2. z/OSログの分析手法
「APM」のエリアでは、ミドルウェアのパフォーマンス可視化を担当するIBM OMEGAMON® for z/OSシリーズ[3] (OMEGAMON)、種類によらず全てのログの可視化・分析を可能にするIBM Z Operational Log and Data Analytics (IZLDA)[4]があります。いずれも、z/OSやミドルウェアそれぞれの監視特性を生かしたKPI（Key Performance Indicator）定義を提供し、導入直後のパフォーマンス可視化と分析機能を提供するものです。OMEGAMONは40年の歴史を持つ監視ソリューションで、お客様のご要望を機能拡張として取り込みながら、日本国内でも多くのお客様でご利用いただいています。
「可観測性」ソリューションのIBM Instana® Observability (Instana)[5]では、z/OS環境も監視対象にできるようになりました。現在多くのz/OSコンポーネントやミドルウェアが新たな監視対象として、追加されつつあります。さらに、InstanaにOMEGAMONやIZLDAの監視情報を統合し、より多角的なパフォーマンス監視・分析を実現することが可能になってきました。
機械学習のエリアでは、IBM Z Anomaly Analytics with Watson (IZAA) [6] が「可変しきい値」「アノマリー検知」を実現します。過去のパフォーマンス情報やメッセージ・フローを機械学習機能で「トレーニング」し正常稼働モデルを作成し、現行の情報を可変しきい値としての正常稼働モデルと比較検証して「スコアリング」します。数値化された“いつもと異なる状況”は「アノマリー検知」され、通知されます。トレーニングには90-120日間のログが必要ですが、対象資源のKPIが製品で標準実装されることで、導入後直ちに結果を得られることが特徴です。
「将来予測」を実現するのはIBM Z Performance and Capacity Analytics (IZPCA) [7]です。過去のパフォーマンス情報を収集しレポート可能にするIZPCAは、様々な予測アルゴリズムを利用して、将来のトランザクション数、ディスク容量を予測します。また、IBM zSystemsサーバーのパフォーマンス値情報を生かしたWhat if分析として、プロセッサー・モデルやCP/zIIP数などのスペック変更に伴うパフォーマンス・データのシミュレーションの機能も実装されています。中長期のキャパシティー計画のためだけではなく、業務変更に伴うIT資源の増減予測にもご利用いただけるようになっています。
これらのソリューションは、生成したイベントの通知先としてIBM Cloud Pak® for Watson AIOps (CP4AIOps) [8]が利用できます。CP4AIOpsでイベントを統合することで、分散サーバー環境も含めた全てのシステム環境のインシデント情報と分析結果が可視化できます。

図3. AIOpsによるログ分析のフロー

IBM z16[9]では、プロセッサーのオンチップにAI推論用のアクセラレータを搭載し、基幹業務においてリアルタイムにAI推論処理を実行できるようにしています。2022年12月時点では、上記のソリューションではこのハードウェア機能の利用はありませんが、今後複数のソリューションでの機能実装が計画されています。

4. 日本での適用について

日本のIBM zSystemsのお客様の多くは、監視対象メッセージやパフォーマンスしきい値を定義し、緻密な運用設計の下日常運用を安定稼働させてきた実績をお持ちです。この実績を活かしながら、現在の運用をより高度化するために様々なチャレンジが始まっています。

4-1. プラットフォーム共通の運用スキーム　〜障害発生前も後も役に立つ可観測性
運用スキルの不足を補う方法の一つとして、すべての管理対象の運用を標準化することが挙げられます。運用メソドロジーの標準化には様々な方法がありますが、昨今話題になっているのが可観測性ソリューションの実装です。これは、分散サーバー環境とz/OSミドルウェアの連携を伴うアプリケーションの開発段階から検討されているものです。開発中のアプリケーションのパフォーマンス検証に利用した後、本番稼働後の監視ソリューションとしての活用が予定されています。業務アプリケーションとしての監視は問題が発生していないことの容易な証明とともに、障害発生時の検知、問題切り分けなど全解決時間の短縮に繋がることが期待されています。

4-2. 情報の統合と共有　〜メッセージ監視にパフォーマンス監視を組み合わせる
メッセージ監視、パフォーマンス監視をそれぞれ別の部門の担当者が異なる目的で行っていることは、運用プロセスのサイロ化の顕著なパターンです。この２つのプロセスを統合するだけでも、新しい価値が創造できます。つまり、メッセージ監視によるシステム資源の生死監視にパフォーマンスという稼働品質の評価を加えることが可能となります。
ポリシー・ベースでシステム運用の自動化を実現するIBM Z System Automation (IZSA) [10]は、OMEGAMONシリーズのAPI機能を持ちます。このAPIを利用して、OMEGAMONで検知したパフォーマンスしきい値超情報をIZSAに送付し、担当者への通知を自動化します。さらに、定型的なシステム回復処理の自動化についても、範囲が拡大されつつあります。

4-3. ITサービス運用のビジネス貢献　〜パフォーマンス・レポートに将来予測機能を追加する
投資対効果に対する運用のチャレンジの最終目標は、ITサービス運用のビジネス貢献を可視化することです。サービス報告書としてパフォーマンス・レポートを出力することはシステム運用部門の業務ですが、さらに将来予測機能を組み込むことで、ITサービス全体の計画性を高め、ビジネス投資との連携を明確にすることが出来ます。IZPCAは、レポート出力の仕組みをそのまま使って将来予測レポートも準備することができます。障害予防のための資源見積もりの他、ハードウェア更改時や業務変更のシミュレーションにも利用されています。

図4. 運用高度化により実現される価値

5. まとめ

海外では、日本国内に数年先んじて、AIOps実装による運用改善事例が増えています。最近の例では、可変しきい値からのアノマリー検知の情報を含め、現在のシステム資源の状況や関連性を業務の重要度を加味して可視化したダッシュボード画面のカストマイズ事例があります。IBMは先人の事例やノウハウの技術情報を汎用化し、ソリューションとして幅広く展開してきました。さらに、メインフレームのAIチップの利用も含め、最新テクノロジーを利用したITサービス運用ソリューションをご提案していきます。

IBM z16 シリーズ (全5回)
1. z16で日本のITをサステナブルに 4月発行
2. CI/CDによるアプリケーション開発のモダナイゼーション 10月発行
3. レジリエンシーにおけるIBM zSystemsのイノベーション 11月発行
4. AIOpsを利用したIBM zSystmsの運用改善今号
5. z16によるAIを利用した基幹系処理のイノベーション 12月発行

[参考文献]
[1] IBM: IBM Z, https://www.ibm.com/jp-ja/it-infrastructure/z
[2] IBM: NetView, https://www.ibm.com/products/z-netview
[3] IBM: IBM Z OMEGAMON, https://www.ibm.com/it-infrastructure/z/omegamon
[4] IBM: IBM Z Operational Log and Data Analytics, https://www.ibm.com/products/z-log-and-data-analytics
[5] IBM: IBM Instana Observability, https://www.ibm.com/products/instana?lnk=flatitem
[6] IBM: IBM Z Anomaly Analytics with Watson, https://www.ibm.com/products/z-anomaly-analytics
[7] IBM: IBM Z Performance and Capacity Analytics, https://www.ibm.com/products/z-performance-and-capacity-analytics
[8] IBM: Cloud Pak for Watson AIOps, https://www.ibm.com/products/cloud-pak-for-watson-aiops?lnk=flatitem
[9] IBM: IBM z16, https://www.ibm.com/products/z16
[10] IBM: IBM Z System Automation, https://www.ibm.com/products/z-system-automation

IBM、IBM ロゴ、z/OS、IBM OMEGAMON、IBM Instana、IBM Cloud Pakは、米国やその他の国におけるInternational Business Machines Corporationの商標または登録商標です。他の製品名およびサービス名等は、それぞれIBMまたは各社の商標である場合があります。現時点での IBM の商標リストについては、ibm.com/trademarkをご覧ください。

*ProVision 記事一覧はこちらから

#ProVision
#ProVision-mainframe
#Highlights
#Highlights-home

0 comments

1310 views

IBM Community Japan

考える未来へ、仲間と.

Japan

サステナブルなITによるDX推進(第4回) AIOpsを利用したIBM zSystemsの運用改善(vol98-0012-mainframe)

By IBM ProVision posted Mon December 19, 2022 12:02 AM