IBM TechXchange AIOps Group Japan

AIOps Group Japan

当ユーザーグループは、AIOps製品(Instana, Turbonomic, Cloud Pak for Watson AIOps, IBM SevOne NPM, Flexera One with IBM Observability, IBM Workload Scheduler等)

 View Only

SevOneによるGPUクラスター監視(NVIDIA Infiniband)

By Yukihiro Koda posted Wed May 15, 2024 01:37 AM

  

はじめに

かねてより高速な演算環境の実現にGPUが活用されてきておりましたが、昨今の生成AIブームにより一層GPUコンピューティングが着目されていると思います。
GPUを搭載可能なサーバーに最新の高性能GPUを複数搭載し、並列処理させることでより高速化させることができます。
1台のサーバーに搭載可能なGPUの枚数には限界があり、それ以上は複数のGPUサーバーをネットワーク接続させクラスタ化を行う必要があります。
並列演算のためのネットワークは、その特性からInfinibandなど超高速、超低遅延の専用ネットワークの構成が求められます。

本稿ではNVIDIA社GPUとそれを並列化するためにInfiniBandネットワークで接続されているGPUクラスター構成において、
どのようにSevOneで監視できるかを記載します。

NVIDIA Infinibandスイッチのデバイス認定

SevOneで新しいデバイスを監視する場合、そのデバイスにデバイス認定があるかを確認する必要があります。
SevOneはデバイス認定チームがあり、すべてのSNMPデバイスについてデバイス認定プロセスを経ることで10営業日以内に認定することができます。

NVIDIA Infinibandの場合は、図1のようにデバイスタイプが追加され情報を取得することが可能です。
取得項目は右側のオブジェクトの一覧になります。
  • Inherited: Genericデバイス共通のオブジェクト
  • Local: NVIDIA Infiniband独自のオブジェクト
図1:SevOneデバイスタイプ - NVIDIA Infiniband スイッチ
SevOneデバイス認定



各オブジェクトの中に実際に取得する値(インジケーター)が複数含まれます。
例えば、Ethernet(NVIDIA Infiniband) オブジェクトに含まれるインジケーターは図2のようになります。
よく質問のあるCRCエラーを監視することも可能です。

図2:NVIDIA Infiniband スイッチの各Ethernetオブジェクトで収集されるインジケーター



以上のとおり、SevOneはInfinibandネットワークに対応します。
あとは通常のSNMPデバイスと同じようにデバイスを自動検出し、情報の収集・監視を行うことができます。



NVIDIA GPUメトリックの取得

GPUネットワークの監視に加えて、実際のワークロードを実行している各サーバーのGPUを監視したい場合、それらをSevOneで一元管理をすることができます。
※各サーバーのGPUはIBM Instanaを用いても監視することができます。

NVIDIA社GPUの場合は、DCGM(NVIDIA Data Center GPU Manager)というツールで情報取得を行うことができ、それをテレメトリデータとして扱うためのexporterが提供されています。

SevOneと一緒に提供しているRapid Network Automationワークフロー(図3)でPrometheus exporterからSevOneへのデータの取り込みが可能です。

図3:DCGM exporterからSevOneにデータを取り込むワークフロー

SevOneへGPUのテレメトリーデータを取り込み、SevOne Data Insightで可視化することができました。(図4)
これで、GPUクラスタの観点において、サーバーGPUとInfinibandネットワークを共通のUIで分析することが可能となります。

図4:SevOneに取り込んだGPUメトリックをSevOne Data Insightで可視化



SevOneによる詳細な分析

もちろん、SevOneの目的は可視化だけではありません。
何千、何百万ものメトリックを収集している場合、すべてのデータを人手で分析するのは極めて困難です。
SevOneでは収集されたメトリックすべてを自動的に機械学習で学習し、平常時の動作からの逸脱を検知することができます。

SevOneからの通知を受けてSevOne Data Insight上で詳細を確認していきます。
図5では、GPU使用率のベースライン(平常時)と実際の値の推移を表しています。

実線:GPU使用率の実際の値
点線:GPU使用率のベースライン(平常時)

通常であればGPUワークロードの実行のタイミングで使用率が上昇しその後は元の水準に戻るところが、高止まりしてしまっていることが分かります。

図5:GPU使用率の推移(ベースラインとの比較)

また、SevOne Data Insightの中でInstant Graph Workspaceという画面があり、
比較対象のインジケーターを選択してグラフ上で重畳させることができます。

図6では、GPU使用率とGPU温度を関連付けてみると、GPUの温度が上昇しており、その結果GPUの処理能力が低下している可能性が窺えました。

図6:GPU使用率とGPU温度の関連付け

まとめ

SevOneではGPUクラスターの演算環境全体の可視化と分析を提供することができます。
・GPUクラスターを構成するネットワークの監視
・各サーバーのGPUの監視
・機械学習ベースの異常検知とUI上での詳細な分析機能



本記事はこちらの記事を参考に日本語で記載したものです。


#SevOne
#GPGPU
#network

0 comments
10 views

Permalink