ストレージ階層化のお話
Storage Scale は、マルチノード間で一つのファイルシステムを高速に共有することを目的として開発されました。その登場以来、さまざまなニーズに応じて多くの機能拡張が行われてきました。その中の一つが、Storage Protect と連携することで実現する、ディスクとテープによる階層管理(HSM:Hierarchical Storage Management)機能です。
今回は、この階層管理機能について、ストレージ初心者の方向けにわかりやすく解説していきます。中級者以上の方にとっては「そんなの知ってるよ」と思われるかもしれませんが、復習がてら軽い読み物としてお付き合いいただければ幸いです。
・HSM(Hierarchical Storage Management)とは
データを扱う際には、アクセス速度の異なる記憶領域をうまく使い分けることが重要です。これはコンピューターのCPUでも同様で、CPUに近い一次キャッシュ(L1キャッシュ)、二次キャッシュ(L2キャッシュ)、さらに外部メモリの順に、アクセス速度の異なる記憶領域が階層的に配置されています。

図.1 CPUのメモリ階層構造
ファイルシステムにおけるHSMも同じ考え方に基づいています。
· よく使うデータは高速ストレージに配置
· 使う頻度が低いデータは低速で安価なストレージに移動
必要なデータは段階的に高速領域に戻されるため、利用者はストレージ速度の差を意識せずにデータを扱えます。

図.2 ファイルシステムの階層構造(HSM)
HSMは歴史が古く、メインフレームで実装された IBM DFHSM(現DFSMShsm) が最初の製品とされています。その後、AIXなど商用Unixシステムにも実装が拡大しました。私自身も 1990 年代に、ディスクとテープを組み合わせた階層管理ストレージ「Unitree」を活用したビジネスを展開していましたが、残念ながら現在ではインターネット上にほとんど情報が残っていません。
【参考情報】
神戸大学の広報誌『MAGE』では、当時理学部に在籍していた松田卓也名誉教授が Unitree を紹介しています。Google で「Unitree+ Convex」と検索すると、その記事を確認することができます。50歳代以上で高速コンピューターの世界に関わっていた方にとっては、懐かしく、また興味深い読み物となっていますので、ぜひご覧になってみてください。
・HSMにおけるファイル移動(マイグレーション)のルール設定
HSMでは、ディスクとテープ間でファイルを自動的に移動させるためのルールを設定します。一般的には以下の2種類です。
1. しきい値の設定(High water mark / Low water mark)
o ディスク使用容量が High water mark に達した場合、Low water mark まで容量を下げるようファイルを移動
2. ファイルの特徴による重みづけ
o 作成日時(ファイルの古さ)
o ファイルサイズ
o 拡張子
o 配置ディレクトリ
o その他属性
これらにより、ファイルは自動的に高速ストレージと低速ストレージ間で移動され、効率的な階層管理が実現されます。
なお、手動で対象ファイルを選んでマイグレーションする方法もあり、Storage Scale では自動・手動の両方に対応しています。
・HSMはどんな場合に有用か
HSMは以下の条件に当てはまるユーザーに有効です。
· 大量のデータが発生する
· データを長期間保管する
· 古いデータへのアクセスも時々必要になる
具体例として 地球観測データ(気象データなど) が挙げられます。
· 日々新しいデータが様々な場所から収集・保管される
· 古いデータも時系列分析でアクセスが必要になる
利点
テープに移動されたファイルも、ディスク上に残されたショートカット(Storage Scaleでは「スタブ」)を通して、通常のファイル操作で扱えます。特別な操作をせずにテープ上のデータを取り出せます。
・ディスクとテープの配分は?
「ディスクとテープの容量の割合はどのくらいが最適ですか?」という質問をよくいただきますが、最適な割合は一概には決められません。ディスク:テープの容量比を 1:10 前後に設計することが一般的ですが、以下の要因によって適切な比率は大きく変わります。
· ファイルの発生状況やアクセス頻度
· マイグレーションポリシー(データの移動条件やタイミング)
基本的には、「常にディスク上に保持しておきたいファイルの容量」と「全体のデータ容量」を正確に把握したうえで、システム設計を行うことが重要です。
・実際のシステム構築事例

少し古いシステムになりますが、最もオーソドックスなHSM構成の事例として、理化学研究所様で Storage Scale + Storage Protect を導入したシステムがあります。
システム構成
· Storage Scaleサーバー:Dell IAサーバー(Linux) 4台
· Storage Protectサーバー:Dell IAサーバー(Linux) 1台
· 共有ストレージ:FCスイッチ経由で接続(容量 300TB)
· テープライブラリ:TS4500 with LTO5テープドライブ ×6台(容量 4PB)
特徴とメリット
· 高速アクセス
→ 複数の Storage Scale サーバーへの高速並列アクセスで、複数シーケンサーからの大量データにも対応
· 保管コスト削減
→ LTOテープライブラリ導入により、低消費電力かつ大容量の保管を実現
· 容易なアクセス性
→ 新旧さまざまなファイルに、一般的なファイル操作でアクセス可能
1回のシーケンサー稼働によって、数日間で最大数百GBのデータが生成されます。これが複数並行して動作するため、それらを効率的かつ確実に保管する仕組みとして、本構成が設計されました。このシステムの導入により、課題であった I/O 性能の向上と煩雑だった保存作業の簡素化が実現され、ゲノム分析の所要時間を約半分に短縮するという成果が得られたとの評価をいただいています。
本事例以外にも、様々な目的で Storage Scale + Storage Protect による HSM を導入している機関や企業があります。今後も、順次事例をご紹介していく予定です。
※ 本資料に記載されている会社名・サービス名・製品名等は、当社または各社の商号、商標または登録商標の場合があります。