2022年6月21日

SRM

サービス信頼性管理の活用がGAに。SLOマネジメントのパワーを実感してください。

Harness Service Reliability Management (SRM) SRMは、2022年6月21日付で正式にGeneral Availability (GA)のステータスに到達しました。

62d0ef3181fb9e32552da6df_SRM-Design_Blog-header-1.png

サービスレベル目標(SLO)管理は、サービスレベル合意(SLA)違反が発生する前に、サポートチームにアプリケーションの信頼性問題をプロアクティブに警告し、企業が罰則や風評被害を回避できるよう支援します。Harness Service Reliability Management (SRM)は、SLO管理プロセスの導入、拡張、自動化を支援するために開発されました。本日、Harness Service Reliability Managementの一般提供を開始したことを発表します。

今回のプレビューでは、SLO管理における課題を克服するために必要なことや、SLOを採用することで得られるメリットなど、お客様からの貴重なご意見をいただきました。

ビジネスソフトウェアとサービスのプロバイダであり、Harnessの顧客でもあるAdvanced社は、Harness SRMがもたらす利益を楽しみにしています。「Harness SRMによって、開発チームと信頼性チームの新しいレベルのコラボレーションがどのように促進されるか、とても期待しています」と、Advanced社のDevOpsおよびIaaSの責任者であるマーティン・レイノルズ氏は述べています。「これまで修理に何週間もかかっていた問題を迅速に特定し、修正することで、システム全体の信頼性を向上させることができます。HarnessのSLOとエラーバジェット機能は、SLA違反やペナルティを回避し、サービスオーナーに潜在的な問題を警告して、対策を講じさせるのに役立ちます。"

ここでは、SLO 管理が企業のアプリケーションサービスの信頼性向上にどのように役立ち、それがどのようにビジネス価値につながるかを詳しく見ていきましょう。

SLOマネジメントの共通痛点

ITの黎明期から、企業はアプリケーション・サービスの問題を未然に発見し、顧客への影響を回避する方法を模索してきました。そのため、観測ツール、監視ツール、ログ取得ツールが普及しました。これらのツールは、問題が発生したときにそれを検知することには長けていますが、それだけでは、SLA違反が起こらないようにするために、ソフトウェアデリバリーの実践の速度をどのように調整すればよいかを判断することはできません。

ここでは、SLO管理に関して、お客様から最も多く寄せられた課題をご紹介します。

SLO 管理の実践には時間がかかる - SLO 管理の実践を構築するには、正しい知識を持った適切な人材の組み合わせが必要である。このためには、新入社員を雇用し、組織内のプロセス、ツール、および文化を変えるための時間を与える必要があります。

信頼性チームとエンジニアリングチームが同じデータに基づいて作業していない - 信頼性チームがSLOに目を光らせている間、エンジニアリングチームはソフトウェアの構築に頭を悩ませている。信頼性の問題が発生したとき、エンジニアリングチームはスピードを落とすように言われ、驚いてしまう。

信頼性チームは、SLOの管理、追跡、アクションを手動で行っています。これは、信頼性エンジニアに余分な作業を強いるだけでなく、ソフトウェアデリバリパイプラインのエラーと一貫性のないガバナンスにつながります。

どのような変更がSLOに影響を与えたかを判断するのは難しく、時間がかかる - SLOに違反した場合、SLAに違反して罰則が発生する前に根本原因を特定し、それを改善することが重要である。頻繁に行われる変更では、これは困難で時間のかかる作業になる可能性があります。

SLO 管理を少数のアプリケーションサービス以上に拡大するのは面倒 - 手動プロセスが多いため、SLO 管理を必要とするすべてのサービスに導入することは困難です。

アプリケーションの全体的な信頼性は向上するが、そのスピードは遅すぎる - 手動のプロセスであっても、時間の経過とともに信頼性は向上するはずです。このプロセスを加速するために設計されたツールがなければ、改善は遅々として進まないと思われます。

個々のデプロイの品質と信頼性を検証するのは、手作業によるプロセスです。各ソフトウェアのデプロイ後、エンジニアはログとメトリクスを何時間も見て、ソフトウェアの品質を判断します。信頼性エンジニアは、同様のダッシュボードを何日も、あるいは何週間も見て、各配備の信頼性を判断します。

SLOマネジメントのビジネス上のメリット

SLOの管理手法は、ソフトウェアの信頼性目標とソフトウェア提供の速度のバランスをとるために作成されました。信頼性を重視しないビジネスもあれば、技術革新のスピードよりも信頼性を優先するビジネスもあります。信頼性チーム、開発チーム、ビジネスリーダーは、各アプリケーションでどのようなアプローチを取るかについて合意し、SLOとエラーバジェットを適切に設定して、これらの目標を達成する必要があります。

効果的に実装された場合、SLOとError Budgetのデータは、ソフトウェアデリバリライフサイクル全体を通して自動化されたガードレールを提供するために使用することができます。これらのガードレールは、新しいソフトウェアのデプロイメントを許可またはブロックするかどうかを制御することができます。その結果、信頼性と革新性のバランスを実現し、それを繰り返し、大規模に行うことができます。最終的には、アプリケーションの信頼性と新機能の提供スピードの両方において顧客を満足させることで、ビジネス上の利益を得ることができるのです。

企業が信頼性と速度のバランスを積極的に管理することで、以下のようなさまざまなビジネス上のメリットを実現することができます。

収益損失からの保護 - ITICの2022年グローバルサーバーハードウェアセキュリティ調査によると、ダウンタイムの1時間あたりのコストは、中小企業および大企業の91%が30万ドルを超えていることが示されています。"全体として、中堅・大企業の調査回答者の44%が、1時間のダウンタイムで、100万ドル(約1億円)以上のビジネスコストが発生する可能性があると回答しています。"

顧客維持率の向上 - BIソリューションを提供するProfitwell社が行った調査によると、顧客獲得コストは2014年から2019年にかけて60%増加したとのことです。

SLAペナルティの回避 - ソフトウェアサービスを提供するすべての企業は、SLA違反に関連する罰則のリストを公表しています。一般的に、SLA違反の重大性が増すにつれて、罰則は増加します。

展開速度の向上 - SLO 管理が信頼性の向上につながるため、エンジニアリングチームは、SLA 違反や顧客離れなど、収益に影響を与える事象を恐れることなく、ソフトウェア提供速度を向上させるために必要な自信を得ることができます。

Harness SRMによるSLO管理の導入、拡張、自動化

Harness SRMは、企業がSLO管理を導入、拡張、自動化できるよう支援し、上記のような問題に悩まされることなく、信頼性向上というメリットを享受できるようにします。SRMを使用すると、信頼性チームとエンジニアリングチームは、統一されたワークスペースを使用してSLO管理でより簡単にコラボレーションでき、各チームが同じデータから作業できるようになります。

SRMは、Harness Policy as Codeを活用し、DevOpsチームがパイプライン内にガードレールを提供するPolicy as Codeを記述することを可能にします。また、この強力な機能により、SLOの違反やSLA違反の危険性がある場合に、信頼性エンジニアがソフトウェア配信プロセスを自動的に制御できるようになります。このような自動化により、最大規模の企業組織全体でSLO管理プラクティスを拡張することが可能になります。

現在、Harness SRMで利用できる主な機能を紹介します。

SREと開発者のセルフサービス - 開発者と信頼性担当者が共有する、きめ細かいロールベースのアクセス制御(RBAC)を備えた直感的なユーザーインターフェイスです。

62d0ef2febbe5086d6921388_image-19-1024x534.png

データ駆動型SLO管理 - APM、インフラストラクチャ監視、ログなど、SDLC全体のほぼすべてのソリューションからのメトリクスを使用して、サービスレベルインジケータ(SLI)、SLO、エラーバジェットを作成および管理します。

62d0ef2f2a71cccc319b207c_image-20-1024x548.png

変更影響分析 - SRMは、データを構造化、相関化、強化し、どの変更が信頼性の低下に寄与しているかを可視化することで、サービスヘルス・スコアを含む単一の統一ビューを提供します。

62d0ef2f5f70f42c3bd802b4_image-21-1024x694.png

継続的な信頼性向上 - Javaおよび.NETアプリケーションのキャッチできない例外や飲み込まれた例外を自動的に解決し、サービスの健全性への影響を特定します。

62d0ef2f12d3c8eaf808828f_image-22-1024x425.png

アクティブなSLO管理ガバナンス - SLOとエラーバジェットに基づく信頼性チェックとパイプラインガバナンスポリシーを追加します。

62d0ef2febbe50761992138e_image-23-1024x413.png

継続的な検証 - SLO違反につながる欠陥のあるデプロイメントやその他の変更を追跡し、自動的にロールバックすることができます。

62d0ef2f68ea16080822e7b8_image-24-1024x634.png

継続的な検証ログファイル解析

62d0ef2f68ea1630ee22e7b3_image-25-1024x555.png

継続的な検証のための指標分析 

これらの機能については、SRMの主要機能についてのブログで詳しく説明しています。また、実際に使ってみたいという方は、今すぐデモをリクエストしてください。


この記事はHarness社のウェブサイトで公開されているものをDigital Stacksが日本語に訳したものです。無断複製を禁じます。原文はこちらです。


 

Harnessに関するお問い合わせはお気軽にお寄せください。

お問い合わせ