IT技術の発達に伴い、生成されるログは量・種類ともに増加し続けています。
ログ収集やログ管理は既に多くの場面で行われているものの、残念ながらほとんどの場合において生成されるログの増加スピードに対応できるほど人的リソースを増やすことはできません。
運用チームでは膨大なログデータの中から重要なログを探し出し、問題を特定するという作業をする必要がありますが、そのプロセスの一環として膨大なログ データを手動でふるいにかける面倒なプロセスにしばしば取り組んでいます。
このようなアプローチは非効率でエラーが発生しやすく、特に現在の変化の激しい環境に応答しきれずに、運用に大きな混乱が生じる可能性があります。
ゴールデンシグナルに基づいたログ異常検知の強み
Cloud Pak for AIOpsではゴールデンシグナルに基づいたログ異常検知の機能を提供しています。
監視対象から生成される、膨大かつ多種多様なログのうち、問題の特定に無関係なものが多くの割合を占めているケースが一般的です。
ゴールデンシグナルに基づいたログ異常検知の高度なアルゴリズムは、ログデータを自動的に評価して分類し、無関係な情報をふるいにかけることで、運用チームは、重要な洞察が含まれている可能性が高いと特定された、より小さく管理しやすいログのサブセット (たとえば、約 10%) に集中することが出来ます。
ゴールデンシグナルに基づいたログ異常検知の強みはテンプレートによる分類にあります。生のログデータを学習することによって作られるテンプレートでは、入力されたログデータを読み込み、Latency, Error, Availability, Exception, Traffic, Saturationと、それ以外のInformationの7種のゴールデン・シグナルに自動で分類し、フィルタリング処理を行うことでメトリック・データに変換されます。
変換されたメトリック・データはメトリック異常検出アルゴリズムに渡され、さまざまなパターンのベースライン頻度をリアルタイムで学習および理解する能力に長けたモデルトレーニングを通じて異常を推測することが出来ます。
IT運用チームは、生成されたアラートを使用して、通常の動作から逸脱したログ パターンと異常が観察された期間を特定できます。チームはこの情報を根本原因分析に使用して、インシデントの解決に役立てることができます。
またテンプレートについては、より細かいレベルの制御とカスタマイズが可能になり、特定のユーザーのニーズや好みに合わせてシステムをカスタマイズできます。この機能は、ログ データ管理において情報に基づいた意思決定を容易にし、継続的な監視の必要性を減らすように設計されています。
ゴールデンシグナルに基づいたログ異常検知によるアプローチは、従来の統計ベースラインに基づく異常検知や自然言語処理による異常検知と比較して、システム内のノイズを減らして、より有意義な洞察を提供することを目指しています。
なお既存の統計ベースラインに基づくログ異常検知や自然言語処理によるログ異常検知はv4.6.1において非推奨となっています。是非ゴールデンシグナルに基づいたログ異常検知をご活用ください。
本記事は以下のIT Automation Communityで公開されている記事の抄訳をもとにしています。
https://community.ibm.com/community/user/aiops/blogs/warren-zhou/2023/12/13/log-anomaly-golden-signals