SRE はサービス品質に影響しない程度の異常をどう扱うべきか？ - 無印吉澤

テクノロジーカテゴリーの変更を依頼記事元:

muziyoshiz.hatenablog.com

40 usersがブックマークコメント

コメント

6

記事へのコメント6件

注目コメント
新着コメント

y_uuki 記事の定義でいう異常はSLOには含めず、通知のないアラートを設定するか、メトリックダッシュボードを用意し、日次か週次でチェックし異常に気づけるようにするというフレームが解の一つとしてあります。

2019/02/26 リンク

braitom 障害と異常の定義と異常をどう扱うかについての考察。長年見ているシステムの場合はあっなんかおかしいかもって気づけるけど経験則でしかないので確かにどう扱えばいいか悩む。

SRE
障害

2019/02/27 リンク

y_uuki 記事の定義でいう異常はSLOには含めず、通知のないアラートを設定するか、メトリックダッシュボードを用意し、日次か週次でチェックし異常に気づけるようにするというフレームが解の一つとしてあります。

2019/02/26 リンク

do_su_0805 このもやもや、僕もある気がする

2019/02/26 リンク

iekusup ほー。

2019/02/26 リンク

igagurimk2 想定される障害の規模がSLOを超えないなら、それにつながるような異常に対して処置する必要はない。そもそも異常が発生しているのは当然というのがエラーバジェットの概念の核。

2019/02/26 リンク

ledsun ハインリッヒの法則みたいに「300件の異常が1件の障害に繋がる」みたいに数的な重み付けのモデル化はできないかな？

2019/02/26 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

SRE はサービス品質に影響しない程度の異常をどう扱うべきか？ - 無印吉澤

今回の記事は、最近考えていたことのメモです。ここ最近いろいろ考えていたのですが行き詰まってきたの... 今回の記事は、最近考えていたことのメモです。ここ最近いろいろ考えていたのですが行き詰まってきたので、とりあえず課題意識を説明する文章だけ書いてみました。結論はまだありません。障害と異常の定義話の前に、障害︵failure︶および異常︵anomaly︶という単語を定義しておきます。人によって定義は違うと思いますが、自分が文章を書くときは以下のように区別しています。障害‥サービスの停止や、サービス品質の深刻な劣化を引き起こすようなインシデント異常‥サービスに対する深刻な問題は引き起こさないが、通常は起こらないはずのインシデントこの定義をもう少し詳しく説明するために、例として、ロードバランサと、その背後に5台のアプリケーションサーバがあるシステムを考えます。これらのサーバが5台ともダウンしたり、半数を超える3台がダウンして応答時間が極端に長くなった︵例えば10秒以上になった︶場合は

ブックマークしたユーザー

techtech05212024/02/28
laughing2019/02/28
braitom2019/02/27
somathor2019/02/27
jewel122019/02/27
boxphere2019/02/27
nishitki2019/02/27
abe_hn2019/02/26
tkscotte2019/02/26
m_norii2019/02/26
y_uuki2019/02/26
do_su_08052019/02/26
kuyo2019/02/26
fumikony2019/02/26
nyuji2019/02/26
TaaaaK2019/02/26
iekusup2019/02/26
igagurimk22019/02/26

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx