IBM TechXchange AIOps Group Japan

AIOps Group Japan

当ユーザーグループは、AIOps製品(Instana, Turbonomic, Cloud Pak for Watson AIOps, IBM SevOne NPM, Flexera One with IBM Observability, IBM Workload Scheduler等)

 View Only

Cloud Pak for AIOpsのセルフモニタリング

By MITSUHIRO MOTOZUMI posted Thu June 20, 2024 11:53 PM

  

このブログでは、CP4AIOpsのセルフモニタリングを実装するためのベストプラクティスと簡単に設定できる統合について説明します。

=================================================================

Cloud Pak for AIOps(以下 CP4AIOps) は、多くのソースからイベントをインジェストし、それらを分析して、ネットワークで最も重要なイベントに集中することができます。

ただし、CP4AIOps 自身や、それを実行するインフラストラクチャーに問題が生じて、イベント管理システムを失うことになるとしたらどうでしょうか。例えば、1 つ以上の PVC が満杯になっている場合などです。

Cloud Pak for AIOps は Red Hat Openshift 上で実行されるため、Openshift の組み込みの Alert Manager 機能を使用して、基盤となるインフラストラクチャーの監視を行うことができます。例えば、Pod の再起動、低いストレージ、レイテンシーの問題などです。

注:Alert Manager は通常、初期の警告アラートを送信し、それがより深刻になるにつれて Critical になるアラートを送信します。例えば、ストレージが閾値を超えると、初めに警告アラートを受け取り、80%、90% になると Critical になるアラートを受け取ります。

ハイレベルでの設定手順は、以下の通りです。

  1.     ジェネリック Webhook 統合を作成する。
  2.     Openshift Alert Manager のユーザーインターフェースに Webhook URL をコピーする。
  3.     Alert Manager で、関心のあるアラートを送信するように構成する。

ジェネリック Webhook 統合を作成する

  •  CP4AIOps メインメニューから、Define-->Integrations-->Add Integration を選択します。
  • 「Generic Webhook」を検索し、新しい Webhook 統合エンドポイントを設定するタイルをクリックします。

  • 統合に名前を付け、「Authentication type」に「None」を選択し、「Next」をクリックします。

  • 「Load sample mapping」をクリックし、「Prometheus Alert Manager」を選択して、Prometheus から CP4AIOps アラートへのスキーママッピングを構成します。
  • 「Done」をクリックします。

Openshift Alert Manager のユーザーインターフェースに Webhook URL をコピーする

作成したジェネリック Webhook 統合から、フル Webhook URL をコピーし、Openshift コンソールに切り替えます。例えば、以下の Webhook URL です。

https://whconn-6492ea38-cf72-4f3d-b7d3-9fbbc2b1065c-aiops.apps.example.com/webhook-connector/ezca4fgo2tj

Openshift コンソールで、Administration-->Cluster Settings-->Configuration-->Alertmanager に移動し、「Receivers」セクションを編集します。

「Receiver Type」に「Webhook」を選択し、フル URL を「URL」フィールドに入力します。

「Routing labels」セクションでは、CP4AIOps に送信されるアラートをさらにフィルタリングすることができます。上記の例では全てのアラートを送信するために「.*」の値を使用しています。

例えば、Openshift アラートが生成されたときには、以下のように「ラベル」が付与されます。

Webhook レシーバーの「Routing labels」セクションでは、「alertname」と値「.*」を使用して、すべてのアラートを許可するか、例えば「alertname」と値「SystemMemoryExceedsReservation」や、CP4AIOps で管理したいアラートのセットを取得する他の正規表現を使用してフィルタリングすることができます。

Alertmanager 構成を保存後、アクティブな既存のアラートが CP4AIOps アラートリストに表示されます。以下はアラートリスト画面例です。

また、ポリシーを作成して、これらの Prometheus ベースのアラートを 1 つのインシデントにグループ化することもできます。上記のように、「GROUP(17 alerts)...」と表示されます。システム内の他のアラートと同様に、これらのアラートも処理されるため、ChatOps、Seasonality などの他の CP4AIOps 機能も利用することができます。

以下は、スコープ ベースのグループ化を提供する単純なサンプルポリシーです。

重要:Openshift Alert Manager は、信頼できる Webhook エンドポイントを必要とします。CP4AIOps デプロイメントが Openshift によって信頼される証明書を使用していない場合、アラートは送信されません。信頼できる証明書用するか、CA 署名証明書を Openshift CA バンドルに追加する必要があります。

当ブログは、IT Automation Communityで公開されているブログの抄訳をもとにしています。原文はこちらを参照ください。

0 comments
18 views

Permalink