![Slackの次世代プラットフォームを試してみた – TravelBook Tech Blog](https://cdn-ak-scissors.b.st-hatena.com/image/square/5fbc8b2be8ad0f81c65c751738189c314e5cdbe1/height=288;version=1;width=512/https%3A%2F%2Ftech.travelbook.co.jp%2Fposts%2Fslack-deno-api%2Fcover.png)
どんなことが起こったのか? モノタロウのサイトの監視について レイテンシ監視 トラフィック監視 エラー監視 リソース監視 ログ トラブルシュートの進め方 発生検知 発生箇所の特定 根本原因の調査 強化 課題 おわりに SREチームの市原(@ichi_taro3) です。 モノタロウでは、www.monotaro.com という大規模なECサイトを自社で開発、運用しています。 Webアプリケーションの運用ではトラブルはつきものです。今回は、とあるトラブルシュート事例を軸に、どのように運用を改善しているのかについて紹介します。 どんなことが起こったのか? あるとき、モノタロウのWebサービス全体でレイテンシ悪化やバックエンドAPIへのタイムアウトの増加が頻発したことがありました。 当然これらは歓迎される状況ではなく、すぐに開発者やSRE、インフラチームの担当者が集まり調査を開始しました。現象は
AWSをはじめとするクラウドプラットフォームの普及に伴い、DevとOpsの境目はかなり曖昧になっています。その中でもIAMの管理は設定によっては権限昇格を引き起こしかねないことから、その管理権限は慎重な管理になりがちです。結果的に、IAMは属人的な管理を行っている組織が多いのではないでしょうか。 一方で、DevとOpsの境目がどんどん曖昧になっていく中で、IAMロールやIAMユーザーを自由に作りにくい状況があると大変不便です。IAM関係のトライ・アンド・エラーが手軽に行えないことから、開発速度の鈍化を引き起こしたり、アーキテクチャ設計の上で運用上の足かせとなったりといったことが起こります。 また、それらの問題を回避しようとした結果として、IAMロールやIAMユーザーの使い回しが横行しはじめるなど、結果的に最小権限の原則が守られなくなっていくことも少なくはないのではないでしょうか。最小権限の
はじめに Web企業のログ解析基盤系資料をまとめてみました SlideShare, Speaker Deck, 企業技術ブロクをもとに調査しました 2014年以降の資料に限定(たぶん) 自分用メモ 勢いで調べたので、結構もれてると思う クックパッド Amazon Redshiftによるリアルタイム分析サービスの構築 from Minero Aoki www.slideshare.net リアルタイム分析サービス『たべみる』を支える高可用性アーキテクチャ from Hiroyuki Inoue www.slideshare.net techlife.cookpad.com メルカリ tech.mercari.com SmartNews speakerdeck.com developer.smartnews.com DMM labotech.dmm.com labotech.dmm.com l
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く