エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント6件
- 注目コメント
- 新着コメント
y_uuki
記事の定義でいう異常はSLOには含めず、通知のないアラートを設定するか、メトリックダッシュボードを用意し、日次か週次でチェックし異常に気づけるようにするというフレームが解の一つとしてあります。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
いまの話題をアプリでチェック!
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
SRE はサービス品質に影響しない程度の異常をどう扱うべきか? - 無印吉澤
今回の記事は、最近考えていたことのメモです。 ここ最近いろいろ考えていたのですが行き詰まってきたの...
今回の記事は、最近考えていたことのメモです。 ここ最近いろいろ考えていたのですが行き詰まってきたので、とりあえず課題意識を説明する文章だけ書いてみました。結論はまだありません。 障害と異常の定義 話の前に、障害︵failure︶および異常︵anomaly︶という単語を定義しておきます。人によって定義は違うと思いますが、自分が文章を書くときは以下のように区別しています。 障害‥サービスの停止や、サービス品質の深刻な劣化を引き起こすようなインシデント 異常‥サービスに対する深刻な問題は引き起こさないが、通常は起こらないはずのインシデント この定義をもう少し詳しく説明するために、例として、ロードバランサと、その背後に5台のアプリケーションサーバがあるシステムを考えます。 これらのサーバが5台ともダウンしたり、半数を超える3台がダウンして応答時間が極端に長くなった︵例えば10秒以上になった︶場合は
2019/02/26 リンク