ProVision

View Only

社会インフラであるITシステムの安定稼働

By IBM ProVision posted Sun March 05, 2023 09:59 PM

「IBMの5つの価値共創領域を構成する重要技術」シリーズ第2回 (全7回)

世の中の激しい変化により多様化するITシステム環境。多種多様なコンピューティングが混在する環境における「安定稼働」とは。実現に向けたアプローチと技術を解説します。

はじめに
電気、ガス、上下水道、交通、通信、送電網や通信網をはじめとして、病院、学校、金融、製造、流通などさまざまな仕組みが、社会インフラとして私たちの日常生活を支えてくれています。それらの仕組みの構成要素として稼働しているコンピューター・システムにひとたび障害が発生すると、利用する人々の生活に深刻な影響を及ぼし、時には生命や健康に関わる事態に発展することもあります。そして障害は、それらのサービスを提供する社会インフラ企業に対し、重大な信用の失墜や損害を生みます。このように極めて重要性の高いITシステムの安定稼働は、それぞれの社会インフラ提供企業とIBMの密接な共創と連携によって実現しなければならない社会的な使命のひとつであると、IBMは考えています。
本稿のシリーズでは、お客様の課題に取り組むためにIBMが注力する5つの価値共創領域を、関連する重要技術とその活用の観点からご説明し、読者の皆様に共感いただくことで、共創する仲間として参画いただけることを目指しています。第二回となる今回は、社会的に極めて有用性の高いITシステムを含め、複雑化するITシステムの安定稼働実現に向けた技術的な取り組みを解説します。

今日のITシステム安定稼働の課題
IBMは何十年にもわたり、金融、製造、流通、公共公益など幅広い業種で堅牢なITシステムで世界の人々の生活を支えてきました。近年、より多くの場面において生活がITによって支えられるようになり、ITシステム安定稼働の重要性がさらに増しています。そして、昨今のITシステムでは安定稼働に新しいアプローチが求められるようになってきています。
コロナ禍を契機としたデジタル変革の加速で、数ヶ月前には誰も予想できなかったようなサービスが次々とリリースされるなど、生活において利用できるサービスの変化のスピードがさらに増してきています。クラウドは、サービスのリソース増減や構成の変更を柔軟に行うことができるため、デジタル変革のスピードを可能にするITインフラとして利用が拡大しています。一方で、クラウド環境では、クラウド事業者が提示するサービス内容に沿った利用方法となりオンプレミス環境における運用管理とは異なる考え方が求められます。たとえば、クラウド環境では、システムのインフラ基盤部分のメンテナンスに関する計画は、ユーザー企業ではなくクラウド事業者に委ねられます。また、障害発生時の対応においても、クラウド事業者による復旧を待つのではなく、ユーザー自ら疑わしいサーバーをキャンセルし、新たにオーダーしなおして復旧するといったような、オンプレミスとは異なる考え方が望ましい場合もあります。したがって、ITシステムを設計する際には、クラウドとオンプレミスそれぞれの利点を見極め、そのシステムに必要な柔軟性や信頼性、扱うデータの性質などによって適材適所のインフラ選択を行い、それぞれに適した安定稼働の方法論を用いることが求められています。
また、クラウドとオンプレミス、そして複数ベンダーのクラウドを横方向に相互に接続して構成されるような、複雑なハイブリッドクラウド/マルチクラウドのITシステムが増えています。このようなシステムが持つ多様性や、データのやりとりを行う接続先やその種類が増えたこと、扱うデータ量やトランザクション数が膨大になっていることも、新しい考え方が要求される理由です。障害が起きた際の影響範囲や、原因特定、リカバリー作業に以前よりも時間がかかるだけでなく、障害が起きていることの検知にも新しい仕組みが必要となっています。また、セキュリティーの観点では、社内ネットワークの外部と内部に分ける境界対策モデルが成立し難い環境となってきています。
このように複雑な環境においてもシステム全体を俯瞰し、可能な限り想定されるリスクに対して対策や準備を行い、信頼できるサービス品質をエンドユーザーにお届けするのが、現在のITシステムの安定稼働における重要な課題です。IBMは、オンプレミスとクラウドの両方で堅牢なITシステムの構築や維持・管理等に長年取り組んできました。その知見を生かし、多角的観点でお客様ごとに合わせた最適なサービスをご提供したいと考えます。以下の章では、安定稼働の実現を支える技術的な取り組みを解説します。

ITシステム安定稼働の4側面とそこで重要な技術
システムの安定稼働には設計、未然防止、影響最小化、リカバリー最短化という４つの側面があり、活用するべき重要な技術がそれぞれにあります。総じて鍵となるのは、対象の環境に必要な技術を備えお客様の運用要件に見合った運用体制を整えること、お客様IT部門と運用チーム、サービス・プロバイダーが密接に連携して安定稼働を共創すること、そしてこれらの基盤としてAIをはじめとする新技術を用いて運用を高度化していくことです。

(a) 安定稼働を実現するITシステムの設計
まず、システムの開発に先立ち、障害が起きにくく、起きても影響を最小限に留め、リカバリーしやすいアーキテクチャーを設計することが重要です。たとえば、システムを構成する一部が故障した場合にシステム全体停止を起こしたり業務継続に影響を与える単一障害点を作らない可用性設計が欠かせません。すなわち、冗長性をもったシステム構成が、システム全体停止を最小化するとともに、業務の早期回復に必要な設計となります。たとえば、パブリッククラウドのサービスを一部に用いる場合、この部分の品質はクラウド事業者のサービス品質保証（SLA）に準じた設計になるため、より冗長性を高めるには、他のリージョンやクラウド事業者も利用する等の業務継続プランが必要となってきます。
また、アーキテクチャー設計にあたっては、前例があり十分にテストされたシステム構成や設計であれば障害発生の可能性を低減することができるため、システム構成の事例をなるべく多く蓄積・共有し、実績のある設計を再利用することや、共通基盤としてシステム設計を標準化することが有効です。IBMのデジタルサービス・プラットフォーム (DSP)はその一例と言えます[1]。セキュリティーに関しては、ネットワークの境界で防御するという考え方から、モニタリング機能を強化し、守りたいデータそのもののセキュリティーに比重を置く考え方に転換し、ゼロトラスト・アーキテクチャーが選択されることが増えています[2]。ゼロトラストとは言っても、闇雲にいつも信用しないのではなく、アクセスの種類ごとにリスクを考えてセキュリティー設計を行います。

従来は、システムの設計・構築開発・テストを終え、運用を開始するという一方向の流れとなり開発担当チームと運用担当チームが切り離されて担当するのが通例でした。近年、アプリケーションが高頻度でリリースされるクラウド環境においては、運用もソフトウェア開発の一環としてとらえて信頼性向上や自動化を目指す、サイト・リライアビリティ・エンジニアリング（SRE）が注目されています[3]。SREではシステム運用もソフトウェア・エンジニアが担当し、運用を自動化するプログラムを開発することで人的エラーを防ぎ安定稼働の信頼性を向上します。

(b) 障害の未然防止
システム運用開始後は、障害発生前に適切なタイミングで行動し予防することが重要になります。運用しているシステムの実行ログを適切に取得し、その内容を解析することや、処理しているデータ量やアクセス数、システムの負荷などを監視することが、障害に対してもセキュリティー攻撃に対しても予防に繋がります[4]。セキュリティーの予防的措置のためには、マルウェアの発生状況や攻撃の動向を地球規模で監視すれば、自社システムに攻撃が及ぶ前に対策をとることが可能です[5, 6]。監視にあたっては、前述のシステム複雑化によって、従来のような人手での監視では何が起きているか把握し対処することが困難になってきているのが現状です。そこで重要度を増しているのが、IT運用に各種AI技術を利用する、AIOpsと呼ばれる一連の技術です[7]。その一つである可観測性（オブザーバビリティー）向上は、人が指定した対象を監視する従来のモニタリングを超えて、動的に変化する環境で自動的にデータを収集し、複雑に関係するサービス間の依存関係を自動的に把握して、人が捉えきれないシステム挙動を可視化するものです[8]。そうして収集されたデータから正常時の動作モードをAIが学習し、そのモードからの逸脱を早期に発見することによって、予兆を捉えた予防保全が可能になり、障害の未然防止にもつながります[9, 10]。AIを使ったアプリケーション・リソースの自動的な最適化[11]も障害の未然防止に有効です。

(c) 障害の影響最小化
前述(a)、(b)の対策を行なっていてもシステムの一部に問題が生じてしまうことを完全に回避することは残念ながらできません。そこで次に重要になるのは、問題が起きた時にそれを早期に検知し、対応を行い、影響を広範囲に波及させないことです。この点において、従来からの要件であった対応手順の標準化に加えて、AIを用いた自動化・半自動化が組み合わせて利用されるようになってきています。対応手順の標準化とは、起きた問題に対してその場のスタッフのスキルによって場当たり的に判断し対処するのではなく、事前によく考えられ準備された手順に従った判断および対処を行うことで、限られた人員で質の高い対処を実現することです。これに加えAIによって検知・対応が自動化されれば、人手による対応作業が大幅に削減されます。たとえばセキュリティーに関して言うと、社内外の全ての通信をモニターし、アクセス・行動履歴を常に監視していれば、不正発生時にリアルタイムで検知し、アクセスを禁止する、ネットワークを遮断するといった対応をAIを用いて瞬時に行うことができます[12]。完全に自動化されずとも、適切な作業手順を選択するための診断や、手順の選択自体にAIを利用すれば、半自動的に適切な対処を迅速に取ることができます[7, 13]。
問題が発生した際の影響範囲を理解し、それらに対する業務継続プランを準備することも不可欠です。問題が一部に生じた時に起きる予測不可能なシステムの振る舞いを理解し、頑健性を確認・改善する一つの方法がカオス・エンジニアリングです[14]。これは、影響が及ぶ最大範囲をきちんと制限した上で、意図的に本番システムの一部機能を実際に停止させて不安定な状況を作り出し、影響範囲を観察します。実際にアタックをしてみてセキュリティー脆弱性を発見するペネトレーション・テストも考え方に共通する部分があります[15, 16]。

(d) 障害発生後のリカバリー最短化
起きてしまった障害に対処しサービス提供を速やかに再開するためには、障害を想定した訓練をあらかじめしておくことが重要です。その訓練においては、クラウドなどのサービス提供元や、ソフトウェア/ハードウェア製品提供元など問い合わせ先の情報と、そことの連携プロセス、復旧のための切り替え手順やバックアップの所在、リストア方法、人的な体制などを、障害のさまざまな深刻度に場合分けして把握/策定しておきます。運用体制にパートナー企業が関係する場合には、体制・対応手順の策定、訓練においてもパートナー企業と協力し実施する必要があります。ITシステムは24時間365日止まることなく稼働し続けることが一般化しており、いつなんどきどこで起こるかわからない障害への対処に、時差の影響を受けることがないよう、海外のオペレーション・センター利用を含めて24時間対応できる体制が、止めることのできない業務では必須です[17, 18]。一方で、リカバリー作業には、技術者が直接データセンターへ速やかに駆けつける必要がしばしば生じます。ハードウェアの故障の修復については、故障箇所に対応する交換部品の手配や技術者の到着時間、障害対応スキルが重要な要素となるため、それらに必要な情報を把握し、障害修復時間を想定した上で迅速な意思決定を行わなくてはなりません。この局面における障害の状況把握や調査等についても、遠隔での分析や類似障害情報の検索、派遣する技術者の手配等についてAIを活用することが可能です[19]。遠隔地でのシステム障害に対し専門性を持った技術者が駆け付けるまでの間、現地に最も早く駆け付けた作業員を、遠隔地の専門家がビデオ会議や拡張現実(AR)といったツールを使って遠隔サポートする仕組みも利用可能となっています[20, 21 ,22]。
災害からの速やかなリカバリーのための事業継続計画 (BCP、Business Continuity Plan) については、業務データをどの地域のデータセンターに配置しておき、どこのバックアップからどのような方法で、どのくらいの時間をかけて業務を回復できるかを想定し、構成や仕組み、手順を準備しておくことが重要です。この際には、データセンター単独被災から地域的被災など規模の異なる状況を踏まえたBCPを立案し、想定される状況に合わせた災害対策センター要否の検討や、メインセンターと災害対策センターの所在地、センター間を接続するネットワーク・キャリア分散等を考慮してあらかじめ備えておかなければ、もしもの時の業務回復に長時間を要してしまいます。このことは阪神淡路や東日本の地震災害、コロナ対応などから得られた教訓です。

おわりに
本稿では、ITシステムの安定稼働について新しい考え方が求められていることを説明し、4つの側面のそれぞれについてそのための関連技術を概観しました。全てのITシステムに等しい信頼性が求められるわけではなく、システムや業務の全体像の理解に基づいてリスクやコストを勘案し、適材適所の考え方でアーキテクチャー、技術、運用体制を選択することが大切です。IBMは、さまざまな製品と幅広い業務知識、経験に基づいた体制をもって、社会インフラのサービス提供を行う企業や幅広いパートナーの皆さまと協力し、安心できる社会を共創してまいります。

「IBMの5つの価値共創領域を構成する重要技術」シリーズ (全7回)

序章	なぜIBMは 5つの価値共創領域に注力しているのか	山口明夫
I.	社会インフラであるITシステム安定稼働の実現 (今号)	今木正英、新島智之、二上哲也、山崎洋典
II.	ハイブリッドクラウドやAIなどのテクノロジーを活用したDX	二上哲也、山田敦、田中孝、野村幸平
III.	CO2やプラスチック削減などのサステナビリティー・ソリューション	大塚泰子、坂本佳史、磯部博史
IV.	半導体、量子、AIなどの先端テクノロジーの研究開発と社会実装	福田剛志、小野寺民也、山道新太郎、坂本佳史
V.	IT/AI人材の育成と活躍の場	井上裕美、大久保そのみ、國生恭子、服部翔大、松本宗樹、下村裕美
終章	終章社会への責任と貢献	2023年前期発行予定