SLI/SLO策定に向けて

Adways Advent Calendar 2020 16 日目の記事です。


 

こんにちは!こんばんは!ほったです(`・ω・´)ゞ
エンジニアブログ書くのは何年振りだろう?というくらい久々ですが、
今回はSLI/SLO策定に向けてやったこと、その中で感じたことを
自分の振り返りも兼ねて書いていきたいと思います‹‹(´ω` )/››

※策定のPJは現在進行中で、今回の記事では
具体的なSLI/SLOの策定についての話は出てきません!
どう進めたかの具体的な話はいつか書くかも…(・∀・`*)?

SLI/SLO策定に向けて動き始めたきっかけ

  • プロダクトにとって重要としている部分にズレがあると感じた
  • 価値の高さを決める定量的な指標がない

プロダクトにとって重要としている部分にズレがあると感じた

プロダクトにとって重要な部分がどこなのかの認識がズレていることで
価値の低いアラート対応に追われたり、
逆に、プロダクトとして守らなければいけないコアな部分に気付きづらい状態になっていました。

価値の高さを決める定量的な指標がない

新しい機能の開発と、既存機能の改善どちらに着手すべきかを判断したい時に
価値の高さを比べられないことで、改善を後回しにしてしまったり、
PdMやディレクターと認識を合わせることが難しかったことがありました。

プロダクトにとっての価値にフォーカスして判断するために
SLI/SLOが策定できれば今抱えている課題解決に活かせるのでは?と思い、
少しずつ準備を始めました(`・ω・´)ゞ

策定が始まるまでにやったこと

  • SLI/SLOに関連する書籍を読む
  • SRE NEXT 資料読み会で議論

SLI/SLOに関連する書籍を読む

  • SRE サイトリライアビリティエンジニアリング
  • サイトリライアビリティ ワークブック

まずは自分のインプットとして、主に SRE サイトリライアビリティエンジニアリング を読みました。
第2部の原則 + 気になるトピックを中心に読み進めました(・∀・`*)

同じチームの先輩と毎日朝に読書の時間を確保していたので
「こう思ったけど、これってどういうことだろう?」「こう解釈したけどどう思いますか?」など
読んだ感想を都度アウトプットしたり、自分の言葉で説明する機会があったので
無理なく読み進められました‹‹(´ω` )/››

SRE NEXT 資料読み会で議論

SRE NEXT 資料読み会の企画をしてくれた戸田くんが
アドベントカレンダーで内容を詳しくまとめてくれているので
よかったら こちら を見てみてください(`・ω・´)ゞ

感じたこと

  • ブラックボックスモニタリングの大切さ
  • プロダクトの価値を考えること

書籍や、議論を通してたくさんのことがインプットできましたが
それらの中でも、わたしの中でより重要だなと思ったことを
書き留めて終わりにしようかなと思います(・∀・`*)

ブラックボックスモニタリングの大切さ

ホワイトボックスモニタリングのようなサーバ自体の監視や、ミドルウェアの状態を監視することはありましたが、
ブラックボックスモニタリングのようなユーザ視点での監視の経験はありませんでした。

ホワイトボックスモニタリングも原因を特定するためにはとても大事ですが
まずはプロダクトにとって重要な部分の問題にいち早く気付ける状態を作ることが大切だなと思いました。

プロダクトの価値を考えること

今回の話に限ったことではなく、通常の業務でも言えることだと思いますが
プロダクトにおける価値は何かを議論するのはとても大事だなと思いました。
SLI/SLOを策定していく中でも、プロダクトにとってコアになる部分は何か
それに関係するメトリクスは何かをきちんと議論した上で策定していく必要があるなと思いました。

現状、新機能の開発では新しい機能を作ることでプロダクトや、その先のユーザにどういう価値を提供できるかについて
試行錯誤しつつ取り組めているので、改善においても、プロダクトの価値のどの部分に効果を見込めそうか
改善における価値の判断指標の一つとしてSLI/SLOを活用していければいいなと思います(`・ω・´)ゞ


 

次は半田さんの記事です。