はじめに
ChatGPTの浸透に始まり、近年は生成AI関連の話題を聞かない日がないくらい、業界的にもすっかり注目の分野になったかと思います。
そんな注目を裏付ける数値・指標も諸々踊っており、弊社の調査でも、経営層の約3分の2が生成AIの導入の加速を求めるプレッシャーを受けているといった状況なども報告されています。
そういった近年のテクノロジー環境に於いて、インフラの観点では、オンプレ・クラウド問わず、仮想マシン (VM) 環境でGPU (グラフィックス プロセッシング ユニット) の使用がますます普及しています。
一方で、GPU自体は、その需要の急増も相まってそのコストの高騰が続いており、効率的な利用が求められているため、仮想 GPU (vGPU) を使用して VM を構成することが一般的です。但し、オンプレ環境でvGPU を搭載した VM を別のホストに移行する場合は、いくつかの重要な考慮事項が必要になります。
-
GPU カード モデル: vGPU を使用して VM をシームレスに移行するには、移行先ホストに移行元ホストと同じモデルの GPU カードが搭載されている必要があります。
- GPU の可用性と互換性: 宛先ホスト上の GPU チップは利用可能である必要があります。つまり、GPU チップが他の VM に割り当てられていないことを意味します。または、既に使用されている場合は、同じ vGPU タイプを使用する VM に割り当てる必要があります。さらに、これらのチップには、移行する VM のニーズに対応できる十分な GPU メモリ バッファが残っている必要があります。
TurbonomicのGPU最適化機能
Turbonomicではオンプレの仮想 GPU (vGPU) に関連する考慮事項をサポートするようになりました。 (クラウドのGPUインスタンス向けの機能も実装されておりますが、それはまた別のブログなどで。今回はオンプレの話題です。)
オンプレ環境でVM 配置アクションを推奨する際、Turbo はソース ホストと宛先ホストの両方にインストールされている GPU と、VM に割り当てられている vGPU タイプを評価します。これにより、宛先ホストに互換性のある GPU カードと vGPU タイプがあり、VM の vGPU タイプをサポートする適切な GPU メモリ バッファがある場合にのみ配置アクションが提案されるようになります。
Turbonomicからの見え方
ホストエンティティ情報ウィジェット
Turbonomic には、VC (仮想センター) ホストにインストールされている GPU カードを検出する機能が追加されました。この情報は、ホストのエンティティ情報ウィジェットから簡単にアクセスできます。

サポートされている仮想 GPU タイプ:このセクションでは、GPU チップがサポートできる仮想 GPU タイプをリストします。互換性は、GPU カードの特定の性質と機能によって異なります。Nvidia の vGPU ドキュメントを参照してください。
インストールされている GPU デバイス:これは、ホストにインストールされている GPU チップの数と GPU チップのモデルを示します。ここでの数字は GPU チップの数を表しており、1 つのカードに複数の GPU チップが統合されている場合は GPU カードの数とは異なる場合があることに注意することが重要です。
VM エンティティ情報ウィジェット
ホスト機能に加えて、Turbonomic は VC 内の VM に割り当てられた vGPU タイプも検出します。
この詳細は、VM のエンティティ情報ウィジェットに表示されます。

仮想 GPU プロファイル:これは、VM 上に構成された vGPU タイプを示します。Nvidia の vGPU ドキュメントを参照してください 。
仮想マシンのポリシー
[仮想マシン ポリシー] -> [運用上の制約] で、設定を見つけることができます。

有効な GPU を移動:配置アクションを有効にする GPU チップ モデルの正規表現 (regex) を指定します。
上記の例では、vGPU を搭載した VM の場合、ホストの GPU カードが Nvidia A16 シリーズまたは Nvidia T4 シリーズに属している場合にのみ、Turbonomic は MOVE アクションを開始します。
さらに、Turbonomic は、宛先ホストの GPU チップで現在使用されている vGPU タイプを検証します。これらのチップがすでに異なる vGPU タイプの VM に割り当てられている場合、またはチップ上のすべての GPU メモリ バッファーが VM に完全に割り当てられている場合、Turbonomic は MOVE アクションを生成しません。このような状況では移動は成功しないためです。
結論
如何でしょう、これらの機能により、オンプレ環境におけるVM の移行を正確に検討し、GPU および vGPU の構成に関する詳細な洞察が提供されるため、正確な移行の推奨事項が保証されます。
IBM Turbonomicは2週間毎のアップデートによって日々進化を続けており、昨今の生成AIの普及に伴うテクロジーの変化に対しても、インフラ側からの機能強化を進めています。
引き続きご期待下さい!
※今回はオンプレ環境に於けるGPUの管理についてご紹介いたしましたが、AWSのGPUインスタンスに対しても類似した機能が既に実装されておりますので、そちらは別途ご紹介させて頂ければと思います。
※本ブログはこちらの資料をベースに記載しております。