2022年3月22日
製品アップデート
SRM
SLO管理、変更影響分析、サービス信頼性チェックなど、Service Reliability Managementの主要な機能を深く掘り下げてみましょう。
Harness SRMは、エンジニアリングチームと信頼性チームのためのソリューションです。SRMでは、SLI、SLO、エラーバジェットを定義するためにチームが協働します。また、SRMのユーザーは、CI/CDパイプラインに信頼性ガードレールを作成します。これらの信頼性ガードレールは、パイプラインを次のステージに進めるかどうかを決定します。SLOとエラーバジェットのデータは、信頼性ガードレールの動作を駆動するために使用されます。SLOの違反が頻発すると、エラーバジェットが枯渇し、信頼性ガードレールによってパイプラインの実行が停止されます。パイプラインの実行が停止されると、パイプラインを継続するために明確な承認が必要となります。これは全てSRM監査ログに記録され、コンプライアンスのために使用されます。
より優れた本番環境での信頼性を実現するために、ソフトウェアのデリバリーライフサイクルの全ての段階において、サービスの信頼性チェックが行われます。これらの信頼性チェックの中には、Harnessのネイティブエラー追跡のように、アプリケーションサービスにエージェントを追加する必要があるものもあります。その他の信頼性チェックは、外部ツール(APM、ログ分析、テストなど)との統合によって実行されます。これらのチェックの目的は、稼動前に信頼性の問題をできるだけ多く特定することです。適切に実施されれば、本番環境の信頼性は継続的に改善されます。
Harness SRMでは、SLI、SLO、エラーバジェットを定義、測定、追跡することができます。また、エンジニアリングおよび信頼性チームがこれらの主要な指標を定義し、表示するための協働ワークスペースを提供します。旧態依然としたサイロとはおさらばです。
信頼性問題の最大の要因は、変化です。本番環境のインシデントの80%以上は、インフラやアプリケーションの変更による人的ミスであると言われています。Harness SRMは、信頼性管理と変更検知の世界を統合します。Harnessは、導入や特定の種類のインフラ変更と、SLOおよびエラーバジェットメトリクスを時系列で関連付けます。これにより、各変更が本番アプリケーションサービスの信頼性にどのような影響を及ぼすかが示されます。信頼性チームは、何が変更されたかを知りたいと思ったときに、その情報をすぐに利用することができます。
信頼性の高い本番環境サービスを実現するためには、開発ライフサイクルを通じてチェックを行い、問題があれば即座に発見・修正することが最善の方法です。この方法は、問題発生時に信頼性が回復するまで新機能の作業を停止するよりもはるかに迅速です。Harnessは、CI/CDパイプラインのステップやステージを通じて、このようなサービスの信頼性チェックを開始します。早目にチェックし、こまめにチェックし、自信を持ってデプロイしてください。
全ての組織は、サービス信頼性プロセスをビジネスに合わせて拡張する必要があります。そうしないと、アプリケーションサービス全体の品質と信頼性に一貫性がなくなり、顧客満足度の問題につながる危険性があります。Harness SRMには、OPA(Open Policy Agent)を使用したガバナンスが組み込ま れており、組織全体の必要に応じてポリシーを柔軟に定義することができます。どのようなサービスの信頼性チェックをどの段階で実行するか、そのチェックの合格・不合格をどう判断するかなどを簡単に定義でき、必要に応じてこれらのポリシーを変更することができます。
Harnessは、非常に詳細な監査証跡ときめ細かいRBACを備えていることで、CI/CD業界において高い評価を得ています。これらの監査証跡により、エンジニアリングチームは迅速かつ容易に監査に合格することができ、多くの場合、何日もかかる作業をわずか数時間に短縮することができます。きめ細かいRBACモデルは、どんなに複雑な組織でも、そのニーズに合った権限システムを実装できることを意味します。
Harness SRMは、多くの一般的な可観測性、APM、ロギングソ リューションと統合されています。Harnessは、このデータにAIやML技術を適用し、対処すべき信頼性の問題があるかどうかを自動的に把握します。
解説動画や分かりやすいイラストを掲載したHarness SRMのウェブページはこちらです。
この記事はHarness社のウェブサイトで公開されているものをDigital Stacksが日本語に訳したものです。無断複製を禁じます。原文はこちらです。