Scaleの魅力ポイント
日本IBMでストレージのテクニカルセールスを担当しております増田です。
お待たせしました!Scaleブログ第二弾です。
第一回では、弊社の分散ファイルシステム製品であるIBM Storage Scale(以下Scale)とはなにか?について簡単に紹介しました。読んでみて概要はなんとなくイメージできたけど、何を実現できるのかまではいまいち理解できていないという方も多いのではないかと思います。
前回は以下4点をScaleの魅力ポイントとしてあげたのを覚えておりますでしょうか?
- 高い拡張性とパフォーマンス
- 様々なプロトコルとユースケースへの対応
- 最適なデータ配置を実現するデータの階層化
- 複数拠点にあるデータの一元化
今回はこれらの点についてもう少し詳しく解説し、皆さんがScaleを活用したデータ管理の進め方をよりイメージできるように紹介していきたい思います。
初めましての方や、もう忘れてしまったという方はぜひ第一回のブログと併せて読んでみてください!それでは早速解説していきますね。
魅力ポイント1: 高い拡張性とパフォーマンス
前回の記事でも少し触れましたが、IBM Storage ScaleはGPFSと呼ばれる分散並列ファイルシステムから成り立っております。実はGPFSは1990年代から存在し、現在にいたるまで世界的なスパコンたちにも使われてきました。(歴史の部分は長くなりそうなのでまた今度にしましょう。)
GPFSはGeneral Parallel File Systemの略で、名前の通り並列処理を行うことでデータの高速処理を実現します。
GPFS用にフォーマットしたボリュームをNSD(Network Shared Disk)と呼び、クライアントから処理要求を受け、NSDへIO処理を行うのがNSDサーバーと呼ばれるものです。Scaleに書き込まれるファイルはブロック単位で分割され、複数のNSDサーバーに分散して処理されます。このNSDを束ねてファイルシステムを構成するのですが、Scaleのファイルシステムは論理的には最大2^99Byteまで拡張可能です。2^99Byteはざっくりというと約600万yottabyte(YB)、1YB=1兆TBなので、圧倒的に高い拡張性を持っていることがわかりますね。

魅力ポイント2: 様々なプロトコルとユースケースへの対応
ScaleはPOSIXネイティブで高速処理を行えるだけでなく、NFS、SMB、HDFS、S3、GPU Direct Access、CNSA/CSIと多様なプロトコルに対応しております。
これにより同じデータに複数のプロトコルでのアクセスが可能です。異なるプロトコルで書き込まれたデータを複数の異なるアプリケーションから利用することができるため、幅広いユースケースで同一データを活用することが可能となります。

魅力ポイント3: データの階層化
ScaleではGlobal Namespaceという仕組みにより、複数のストレージシステムをまたがって論理的に単一で管理することができます。そのため、ユーザーは物理的なファイルの所在地を意識する必要がなくなり、一貫したデータ管理が行えるようになります。
この仕組みを活用してScaleではデータを階層化して管理することができます。例えばアクセス頻度が高いファイルは高速なSSDに、アクセス頻度が中程度のファイルはHDDに、アクセス頻度が低いファイルはテープに、というような感じで階層的に振り分けることが可能です。もちろん全てのデータを高速なストレージに保存できればいいのですが、コスト的な観点から見てもそれは難しいのが現状です。なので、データの用途に応じてSSD、HDD、クラウド、テープなど保管場所を分けるのが現実的な運用方法になるかと思います。
ただこれを個別に手動でやっていたらかなりの手間ですし、運用コストもかかりますよね。Scaleはこれらの振り分け処理を自動的に行なってくれます。さらにGlobal Namespaceの仕組みにより、ユーザー側はどこの階層にデータが配置されたか意識する必要がありません。これらの機能を総じてILM(Information Lifecycle Management)と呼びます。
このILMでポリシーというものを設定することで最適なデータの配置を行うのですが、こちらについては詳しくはまた今後の連載の回で説明していきたいと思います。

魅力ポイント4: 複数拠点にあるデータの一元化
ScaleではAFM(Active File Management)という機能で遠隔地にある複数のストレージと連携することで、単一ファイルシステムに全てのデータがあるように見せることができます。実際に利用する時に実データを転送し、一度読んだデータをディスクにキャッシュすることで効率よく遠隔地のデータを利用することができます。
複数の拠点にストレージが点在する状態で、どこの拠点からでもデータを利用・集約・整理することができ、データのサイロ化を防ぐといったことが可能となります。
下の図は一例ではありますが、各拠点でお互いのメタデータをキャッシュとして持ち合い、あたかも単一ファイルシステムであるように見せております。ここでも先ほどあげたGlobal Namespaceを利用し、ユーザーは透過的に場所を意識せずにデータを利用できます。

AFMもILMと同様にできることが大変豊富なので、こちらも詳しくは別の回で紹介しますね。
まとめ
さてここまででScaleの特徴を以下の4点に分けて紹介させていただきました。
- 高い拡張性とパフォーマンス
- 様々なプロトコルとユースケースへの対応
- 最適なデータ配置を実現するデータの階層化
- 複数拠点にあるデータの一元化
Scaleの活用方法について少しイメージはつきましたでしょうか?
ILMやAFMといったScale特有の機能についても簡単に触れましたが、これらは多様化する大量なデータの管理を実現する上で非常に有効な機能です。
では実際はこれらの特徴や機能がどのような場面で使われているのか、気になりますよね?
ということで、次回はこれらのユースケースを紹介するのでどうでしょう。名付けて「ユースケース編(仮)」です!
お楽しみに。