2023年4月7日
カオスエンジニアリング
このブログでは、ディザスターリカバリー(災害復旧)計画と、その作成・実行のためのベストプラクティスについて説明します。
POSソフトを使う小売業でも、患者の記録を電子的に保存する病院でも、組織はソフトウェアに依存しています。では、予期せぬダウンタイムや、最悪の場合、データを失うような大災害が発生した場合はどうするのでしょうか?この失われたデータを回復し、システムを復元し、通常の運用を再開するための計画を立てていますか?ディザスターリカバリーは、もはやオプションではなく、どの組織にも必要不可欠なものです。
このブログでは、ディザスターリカバリー計画と、その作成・実行のためのベストプラクティスについて説明します。
まず、「ディザスター」(災害)とは何かについてお話しましょう。ITの世界では、次のような災害が発生する可能性があります。
これらの災害が発生すると、サービス損失やデータ損失が発生し、事業運営に大きな影響を与える可能性があります。さらに悪いことに、Southwest Airlinesなどの最近のインシデントが示しているように、組織の評判を傷つけ、セキュリティポリシーに対する顧客の信頼に悪影響を与える可能性があります。
ディザスターリカバリーとは、その名の通り、ソフトウェアで予期せぬ出来事や壊滅的な出来事が発生したときに失われたものを、全て回復する計画のことなのです。Gartnerはそれを次のように定義しています。
優れた災害復旧計画には、データセンターの災害復旧計画も含まれている必要があります。この計画には、データがオフサイトに保存され、迅速に復旧できるようにするためのバックアップとレプリケーションの戦略、さらに、ディザスターリカバリー専門チームなど、業務を復旧するために必要な人員と設備が含まれている必要があります。その代表的なものが、ディザスターリカバリーサイトです。
ディザスターリカバリーサイトは、災害発生時に重要なデータとシステムを格納するために使う予備の物理的な場所です。自然災害やサイバー攻撃、停電などの災害からデータを守り、安全で信頼性の高い環境を企業に提供するものです。これらのサイトには、ファイアウォール、暗号化、バックアップシステムなどの高度なテクノロジーが装備されており、インシデントが発生した場合でもデータを安全に保てます。さらに、ディザスターリカバリーサイトには、あらゆる災害から の迅速な復旧を支援する専門家へのアクセスを提供するものもあります。
はい。クラウドベースの企業であり、アプリとデータが全てクラウドに存在する場合でも、ディザスターリカバリー計画が必要です。クラウドディザスターリカバリー(CDR)は、クラウドベースのシステムでデータを保護、バックアップ、復元するプロセスです。CDR計画には、重要なアプリを潜在的な災害から隔離するためのデータ保護が含まれています。CDRを使うことで、企業は重要な情報をクラウドで安全かつ確実に保護できます。さらにCDRは、失われたデータやアプリをクラウドで迅速に復元することで、災害時における企業のダウンタイム短縮に役立ちます。
ディザスターリカバリーは、自然災害、サイバー攻撃、その他の緊急事態が発生した場合に事業の継続性を確保するための重要な部分です。ディザスターリカバリーとは、事業の継続性を回復させる方法であり、予期せぬ事態に直面しても事業を維持するためには、どちらの概念も不可欠です。事業継続とディザスターリカバリーは関連していますが、概念は異なります。
災害はいつ、どこでも発生する可能性があるため、緊急時にビジネスを継続できるように計画を立てることが重要です。明確に定義された計画を立てることで、ダウンタイムを最小限に抑え、事業を円滑に運営し続けられます。災害は顧客だけでなく、収益にも影響を与えます。Uptime Instituteによる2022年のレポートでは、次のことが分かりました。
ディザスターリカバリープランには戦略が必要です。あらゆる緊急事態に備えるためには、ディザスターリカバリー戦略を計画・実行する際に、ベストプラクティスに従うことが重要です。ベストプラクティスには、以下のようなものが含まれます。
これらのベストプラクティスに従うことで、災害発生時にコストのかかるダウンタイムやデータ損失から組織を保護できます。
ディザスターリカバリーをサポートする新しいテクノロジーの1つに、カオスエンジニアリングがあります。カオスエンジニアリングとは?レジリエンシー(回復力)を測定するために意図的にシステムに障害を起こして、 システムの信頼性とフォールトトレランスのテストに重点を置いた、ソフトウェアエンジニアリングの分野です。大きな問題になる前に、システムの潜在的な問題や弱点を特定するために使用されます。他の科学的手法と同様に、カオスエンジニアリングは実験と仮説に焦点を当て、その結果を基準(定常状態)と比較します。
分散型システムにおけるカオスエンジニアリングの典型的な例として、ランダムにサービスを停止して、アイテムの反応やユーザーに影響を与える可能性のある問題の確認が挙げられます。カオスエンジニアリングを活用することで、組織は災害への備えを強化し、予期せぬ事態に対応できる強靭なシステムを確保できます。
カオスエンジニアリングの目標は、中断を最小限に抑え、災害から迅速に回復できる堅牢なシステムを構築することです。厳密なテストを通じて、システムの脆弱な部分を特定し、強化するための対策を講じることで、災害時の迅速な復旧を可能にします。カオスエンジニアリングには、ユーザーエクスペリエンスの向上、インシデント対応時間、アプリ性能の監視など、他にも多くの利点があります。エンジニアは、インシデント対応、ポストモーテム(事後分析)レポート、システム障害の修正などの気を散らすものを取り除いて、開発に集中で きます。
Harness Chaos Engineeringは、オンプレミスとSaaSの両方を提供する唯一のソリューションであり、ユーザーはソフトウェアの導入方法に応じてカオス試験を実行できます。How Harness Chaos Engineering Strengthens Your Disaster Recovery Plan(Harnessがディザスターリカバリープランをどう強化するか)という記事をご覧ください。また、あなたの組織がこのプラクティスを採用して、どう信頼性向上に役立てられるかを確認したい場合は、今すぐデモをリクエストしてください。
この記事はHarness社のウェブサイトで公開されているものをDigital Stacksが日本語に訳したものです。無断複製を禁じます。原文はこちらです。