成功事例: お客様との信頼できるSREパートナーシップの構築方法

Akshay Bhide
4月13日
読了時間: 7分

更新日：4月21日

サイト信頼性エンジニアリング（SRE）の世界では、信頼、知識、そして実行力が何よりも重要です。私たちのチームが推論システム分野の大手クライアントの一つにサービスを提供する機会を得たとき、競争が熾烈になることは覚悟していました。多くの大手企業が同じプロジェクトを競い合っていました。しかし、私たちはこれを、専門知識、コミットメント、そして適切なアプローチが、規模やスケールを凌駕することを証明する機会だと捉えました。

私たちは比較的小規模な企業ですが、お客様のニーズに的確に応えられるよう、綿密なベンチマーク調査の専門知識と業界知識という独自の強みを提供できました。複雑なシステムを迅速に理解し、データセンター運用における連携を確立し、ソリューションを開発する能力は、競合他社との差別化要因となっています。この専門知識と、適応力、そして学ぶ姿勢が相まって、契約を獲得し、お客様のシステムのL1サポートという、事業継続にとって極めて重要な業務を担うことができました。

初期学習曲線: SRE の強固な基盤の構築

最初の数ヶ月は容易ではありませんでした。複雑なシステムであればなおさらですが、可用性を確保するために必要なインフラストラクチャは、私たちに厳しい学習曲線を要求しました。私たちはすぐに以下の点を理解する必要がありました。

インシデントワークロードが本番環境でどのように機能するか。
推論エコシステム内のアーキテクチャ構成要素。
顧客のデータセンターの構造を含むホスティングメカニズム。
システムが障害を起こす可能性のあるさまざまな方法と、各障害モードの潜在的な影響。

シフトごとに新たな学習の機会が訪れました。何が問題だったのかだけでなく、なぜ問題が起きたのかを理解することに全力を注ぎました。ゆっくりと、しかし着実に知識は蓄積されていきました。あらゆるインシデントがケーススタディとなり、お客様のエンジニアとのやり取りを通して理解が深まりました。これが、その後の成功の基盤となりました。

影から主たる責任者へ：責任への移行

当初は24時間体制で作業し、主な窓口となるクライアントのエンジニアをサポートしました。あらゆるインシデントに対し、何時間もかけてチームと協議し、問題のあらゆる側面を分析しました。根本原因の特定から解決策の実装まで、問題を解決するだけでなく、それがアーキテクチャに与える影響も理解しました。

このアプローチにより、システムの包括的な概要を把握することができました。依存関係、エスカレーションパス、そしてダウンタイムの最小化の重要性を特定しました。特に、クライアントのエンドユーザーは厳格なSLAを遵守していたためです。

数週間後、役割が逆転しました。私たちが主なオンコール対応を引き継ぎ、お客様のエンジニアはサポート役に就きました。これは私たちにとって重要な瞬間でした。お客様が私たちの能力に寄せている信頼を示すものでした。

それ以降、私たちはインシデント対応の責任を負い、依存関係を分析し、必要に応じて上位チーム（L2/L3）にエスカレーションを行いました。タイムリーかつ正確なエスカレーションのおかげで、お客様は少なくとも2件の重大なケースでSLA違反を回避することができました。これらのインシデント発生時のダウンタイムを大幅に削減することで、対応能力だけでなく、事業継続性を確保する能力も実証しました。

イノベーション：ダッシュボードと監視ツールの開発

業務内容を把握した結果、既存のツールでは、私たちが目指すプロアクティブな監視とレポート作成には不十分であることに気づきました。このギャップを埋めるため、私たちは率先して、透明性と実用的なインサイトを提供するカスタムダッシュボードを開発しました。

シフトダッシュボード: 現在勤務中の技術者、未解決の問題、解決済みのケース、エスカレーションなどをリアルタイムで表示します。
インシデントダッシュボード: 日次、モデル、データセンターレベルでインシデントの傾向が表示されるため、週次分析に欠かせないツールになりました。
週次概要ダッシュボード: エスカレーションデータや問題のパターンなど、過去 1 週間のインシデントに関する詳細なレポートが自動的に生成されます。

これらのツールは当初サービス範囲には含まれていませんでしたが、付加価値をもたらすと確信していました。時が経つにつれ、クライアントの週次分析プロセスに不可欠な要素となり、ワークフローの簡素化と意思決定の改善に貢献しました。

継続的な学習と変化への適応

予測管理システムは本質的に動的です。毎週の導入、新しいモデル、そして継続的なアップデートにより、環境が常に静的になることはありませんでした。私たちは、こうした変化に対応し、知識を常に最新の状態に保つためのプロセスを確立しました。

お客様のエンジニアとの定期的な短いミーティング、レビューセッション、そして知識共有は、私たちの日常業務に欠かせないものとなりました。この協調的なアプローチにより、両者の連携が確保され、プロトコル、アーキテクチャ、導入方法の変更にも迅速に対応できるようになりました。

5 ～ 6 か月以内に、私たちはまだ手探りのチームから、付加価値のあるイノベーションを実現しながら L1 タスクを独立して処理できる、自信に満ちた信頼できるパートナーへと変貌を遂げました。

課題とその克服方法

旅には困難がつきものでした。私たちは次のようなことに遭遇しました。

新しいタイプのインシデント: 新しい問題が発生するたびに、問題と解決手順を文書化し、将来の参照用としてリポジトリを構築しました。
頻繁な展開: これには、俊敏性を維持し、プロセスを毎週適応させる必要がありました。
複数のモデルと新しいデータセンター: 監視とトラブルシューティングの複雑さが増します。
ピーク時の障害：8時間シフト中に、時折、複数の障害が発生することがありました。当社のオンコール技術者は、これらの状況を冷静に処理し、問題の優先順位を決定し、必要に応じてエスカレーションを行い、システムの安定性を確保しました。