[B! SRE] negima1976のブックマーク

SRE Magazine - 001号（2024/04/01）

巻頭言‥SRE Magazineを始めました書いた人‥しょっさん︵ @syossan27 ︶ SRE Magazineの発刊についての想いなどを書いてます。ばばさんがお勧めする﹁SRE入門﹂と﹁SRE入門の入門﹂に効く書籍や文章書いた人‥ばば/netmarkjp さん︵ @netmarkjp ︶ SRE入門に効く書籍や文章を紹介しています。非常時の可用性をフィーチャーフラグで保つアイディア書いた人‥iwamot さん︵ @iwamot ︶アクセス急増などの非常時でも可用性を保つ手法に﹁緊急レバー﹂があります。この記事では、緊急レバーの実装にフィーチャーフラグを用いるアイディアを提示します。SIEMってサイトの信頼性向上に寄与するの？書いた人‥Yuta Kawasaki︵ゆーた︶さん︵ @yuta_k0911 ︶SIEMonAmazon OpenSearch Servi

negima1976 2024/04/02

SRE

リンク

限られた人数で MIXI のあらゆる公式サイト群を保守・運用するノウハウとその体制 | MIXI SRE秋祭り〜 MIXIのもうひとつのSRE 〜

2023年10月31日に株式会社MIXIで行われた「MIXI SRE秋祭り〜 MIXIのもうひとつのSRE 〜」での発表資料です。イベントページ https://mixi.connpass.com/event/299121/ ─────────────── MIXIのSREは、サービスの信頼性に直接関わる負荷やコスト、システムの信頼性などをサービス開発と密接に連携しながら取り組むようなSREと、社内の共通課題やスポットで相談された事業などへの技術支援など、全社的なサービスの信頼性に関わるありとあらゆることに取り組むSREがいます。本イベントでは、後者の全社的なサービスの信頼性に関わるSREから、最近の取り組み事例を紹介させていただき、Q&Aの時間などを通して、ご参加の皆様と共に情報交換ができれば幸いです。 ◎こんな方におすすめ◎ ・SREとしてサイト信頼性だけでなく、企画や事業開発な

negima1976 2023/11/01

リンク

SRE不在のチームに入って2ヶ月でやったこと - 負荷試験ツールからはじめるSREプラクティスの導入

TechFeed Experts Night#17 〜事例で学ぶSRE 〜ツール、プラクティスから組織づくりまで https://techfeed.io/events/techfeed-experts-night-17

negima1976 2023/05/08

リンク

アプリチーム x SRE チームによるアプリケーションモニタリング運用改善 - freee Developers Hub

freee人事労務の品質改善を専任で活動している keik です。 freeeではアプリケーションパフォーマンスモニタリング（APM）に Datadog を利用しています。 SRE チームが導入し、アプリケーション開発チームに利用提供する形で運用されています。導入のきっかけについては以下の記事でも触れられています。 developers.freee.co.jp Datadog APM の画面は多機能かつ柔軟で、例えばウェブサーバーが受けたリクエスト処理の内訳を視覚的にドリルダウンできたり、リクエストや SQL クエリごとのレイテンシやエラー率を計測してダッシュボード化してくれたり、また全画面で共通的に「タグ」や日時を用いたフィルタリングができたりします。直感的なだけなく、見た目もオシャレで、適当に眺めているだけでもワクワクします。しかし、私達は「ここに映っているもの」が何なのか、正直分

negima1976 2022/02/16

SRE
freee

リンク

スケールアウトの落とし穴から学ぶ、SREチームでのダッシュボードのアップデート術 - MonotaRO Tech Blog

どんなことが起こったのか？モノタロウのサイトの監視についてレイテンシ監視トラフィック監視エラー監視リソース監視ログトラブルシュートの進め方発生検知発生箇所の特定根本原因の調査強化課題おわりに SREチームの市原(@ichi_taro3) です。モノタロウでは、www.monotaro.com という大規模なECサイトを自社で開発、運用しています。 Webアプリケーションの運用ではトラブルはつきものです。今回は、とあるトラブルシュート事例を軸に、どのように運用を改善しているのかについて紹介します。どんなことが起こったのか？あるとき、モノタロウのWebサービス全体でレイテンシ悪化やバックエンドAPIへのタイムアウトの増加が頻発したことがありました。当然これらは歓迎される状況ではなく、すぐに開発者やSRE、インフラチームの担当者が集まり調査を開始しました。現象は

negima1976 2021/05/20

SRE
tech

リンク

SRE Lounge #9 エムスリーはどのようにしてSREを始めたか

https://sre-lounge.connpass.com/event/129214/

negima1976 2019/05/30

リンク

SREによる構成変更がGmailなど広範囲な障害の引き金に。3月13日に発生した障害についてGoogleが報告

SREによる構成変更がGmailなど広範囲な障害の引き金に。3月13日に発生した障害についてGoogleが報告3月13日の11時53分から15時13分︵いずれも日本時間︶までの3時間20分のあいだ、GmailやGoogle Drive、Google Photos、Google Storage、App EngineのBl obstore APIなどGoogleの広範囲なサービスで一部の機能が利用できなくなる、あるいは遅延が発生するなどの障害が発生しました。その原因と対策について、Googleが﹁Google Cloud Status Dashboardのインシデント#19002﹂として報告しています。報告では障害の原因が、ストレージ内のリソースを削減しようとしたSRE︵Site Reliability Engineer︶による構成変更にあったと説明。 SRE︵Site Reliabili

negima1976 2019/03/18

リンク

SRE チームの評価に役立つレベル別チェックリスト | Google Cloud 公式ブログ

※この投稿は米国時間 2019 年1月26日に Google Cloud blogに投稿されたものの抄訳です。このたび、﹃The Site Reliability Workbook﹄がウェブサイトで閲覧できるようになりました。Google で生まれ、他の企業にも広まりつつあるSite Reliability Engineering︵SRE︶は、運用上の問題をソフトウェア的に解決するためのエンジニアリングであり、Google におけるエンジニアリングの本質的な部分を占めています。 SRE は考え方であり、一連のプラクティスやメトリクスであり、システムの信頼性を保証するための処方箋でもあります。SRE モデルを構築すれば、サービスの信頼性が向上し、運用コストが下がり、人間が行う作業の価値が高くなって、サービスとチームの双方で大きなメリットが得られます。上述の新しいワークブックは、

negima1976 2019/02/22

リンク

アプリケーションは全員で監視する - 「入門監視」を読んだ - $shibayu36->blog;

最近話題になっていた﹁入門監視﹂を読んだ。アプリケーションの監視をするための実践的なノウハウが詰まっていて非常に参考になる書籍だった。入門監視 ―モダンなモニタリングのためのデザインパターン作者:Mike Julianオライリー・ジャパンAmazon この本では、アプリケーションを監視するための骨格となる考え方や、様々な層(フロントエンドからOSのメトリックまで)での監視の入れ方の実践的なノウハウ、さらには障害対応をスムーズに行うためのフローや障害の根本対応をチームで行えるようにするためのやり方まで書かれている。実践的なすぐに取り入れられるような内容が多く、﹁アプリケーションをどう監視したら良いか分からない！﹂﹁障害対応をもっとうまくやる方法はないのだろうか？﹂と思う人には参考になる部分が多いと思う。個人的にこの本の中で一番良いなと思ったのは、 SREだけでなくアプリケーションエ

negima1976 2019/02/13

リンク

インフラエンジニアからSREへ～クラウドとSaaS活用が変えるサービス運用のお仕事～ - 一休.com Developers Blog

2018年4月、データセンター完全クローズ一休は、今年の4月にデータセンターを完全にクローズしました。現在、すべてのサービスをAWSを使って提供しています。この過程で各種運用ツールやビルド/デプロイのパイプラインなどをすべて外部サービスを使うように変更しました。これによって、インフラエンジニアやサービス運用担当者の役割や業務が大きく変わりました。本稿では、その背景を簡単に紹介したいと思います。ざっくり言えば、物理サーバのセットアップ&データセンターへの搬入のような仕事はなくなった。アプライアンスの保守契約、パッチ適用、運用ツールのバックアップのような仕事もなくなった。各種メトリクスを見ながら、Infrastructure as Codeでクラウドリソースの管理や調整をする仕事がメインになった。必要に応じて、プロダクトのソースコードに踏み込んで必要な改修を行い、サービスの安定

negima1976 2018/11/21

SRE
運用

リンク

最高のITエンジニアリングを支える守りと攻めの「設計技術」と「SRE」 - Speaker Deck

最高のIT エンジニアリングとは、ユーザーへの価値提供に最大限集中できる状態を維持し続ける技術だと私は考えます。では、その状態を阻害する要因は一体何であり、どうすれば取り除くことができるのでしょうか。このような具体的な問題と向き合い、近年注目されているSRE の考え方を取り入れ、実装しながら乗り越えてきた体験談についてお話します。︵HashiCorp ツールの実装、運用自動化など︶また、一歩進んだIT エンジニアになるため、実装に留まらない組織的な施策実行の考え方や実際の進め方についてもお伝えします。July Tech Festa 2018 での発表資料です。

negima1976 2018/07/30

リンク

Web サービスの信頼性と運用の自動化について / iot40-rrreeeyyy

第40回インターネットと運用技術研究発表会の招待講演で『Web サービスの信頼性と運用の自動化について』というタイトルで発表しました。

negima1976 2018/03/09

リンク

「hbstudy#75 SRE大全：メルカリ編」で登壇しました | メルカリエンジニアリング

こんにちは。SREの @kazeburo です。8月17日に株式会社ハートビーツ様が主催する﹁hbstudy#75﹂において、メルカリSREの取り組みについての発表をしてきましたので、資料を公開します。 hbstudyでは、SRE大全というテーマで、#74において先日発売となりました﹁SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム﹂の翻訳者の発表があり、また#76にてXFLAG スタジオのSREによる発表が予定されています。発表内容トークの時間が2時間ありましたので、前半、後半にわけて資料を作成しました。内容も多く盛り込んでおります。メルカリがSREを採用した理由メルカリSREチームの紹介 OnCall/運用当番について先日のCDN変更での個人情報漏洩について PHPアプリケーションの最適化セキュリティの取り組み(パスワード

negima1976 2017/08/21

リンク

稼働率「99.9999％」を実現する！Webサービスを安定運用させる、SREチームとは | SELECK [セレック]

〜Webサービスのスケールに欠かせない、安定性と信頼性。従業員10,000人規模のクライアントでも対応できるサービス水準を目指す、SmartHR﹁SREチーム﹂とは〜 Webサービスは拡大するにつれ、次第に安定性や信頼性といった﹁品質﹂を、ユーザーに求められるようになる。だが、機能開発を行いながらサービスを安定運用させようとすると、どうしても後者は後回しになってしまいがちである。いまや4,800社以上の企業で使用される、クラウド労務ソフト﹁SmartHR﹂を開発する、株式会社SmartHR。同社は、導入企業が﹁10,000人﹂規模を越えたタイミングで、サービス水準の向上を目的とした専門のエンジニア部隊﹁SREチーム﹂を発足した。︵※SRE‥Site Reliability Engineering︶同チームでは、3人のエンジニアメンバーが100%のリソースを費やし、稼働率の改善やイン

negima1976 2017/06/09

リンク

「絶対要らないハズだけど、なかなか削除できずにいるもの」を対応した小話 | メルカリエンジニアリング

はじめましてこんにちは。SREの@masartzです。私は最近joinしたのですが、今回は本番環境に古くからあるテーブルの掃除作業をした案件をご紹介します。 tl;dr; 本番の住所情報テーブルを消したけど問題なかった話絶対要らないハズだけど、なかなか削除できずにいるものを対処する話本番環境の住所情報テーブルをdropするまでの作業今回、本番環境の住所情報テーブルをdropしました。と言っても、事故でもうっかりでもなく、既に使われていなかったものの整理という作業でした。何故使われていなかったかというのは、メルカリの住所情報の保持の仕方の変遷が関係しています。初期にはuser情報と住所情報は1対1の関係でした。イメージとしては以下です。 CREATE TABLE IF NOT EXISTS users ( id INT UNSIGNED NOT NULL, name VARC

negima1976 2017/05/27

リンク

SREグループができてこの半年間やってきたこと

SRE Tech Talks #2 XFLAG スタジオにおけるSREの紹介、MySQL, InnoDB, THPのチューニングなど

negima1976 2017/01/31

リンク

Google、書籍「Site Reliability Engineering」の無料公開を開始。インフラや運用をソフトウェアで改善していく新しいアプローチ

Google、書籍「Site Reliability Engineering」の無料公開を開始。インフラや運用をソフトウェアで改善していく新しいアプローチ「Site Reliability Engineering」（SRE）とは、GoogleのシニアVPであるBen Treynor氏が提唱した、高い信頼性や性能を発揮するシステムインフラを実現し、改善していくアプローチのひとつです。これまでの運用チームやインフラチームによる運用や改善とSREが異なるのは、SREでは積極的にコードを書き、ソフトウェアによって目的の達成を目指している点にあるといえます。 Googleが公開しているSREのWebサイトでは、SREを次のように説明しています。 Like traditional operations groups, we keep important, revenue-critical syst

negima1976 2017/01/30

リンク

インフラチーム改め Site Reliability Engineering (SRE) チームになりました

インフラチーム改めSite Reliability Engineering (SRE) チームになりました Organization Author: kazeburo インフラチーム改めSite Reliability Engineering チームの @kazeburo です。この記事ではまだ馴染みの薄いSite Reliability Engineer とは何かについて紹介したいと思います。 SREとGoogleのSRE Site Reliability Engineerは日本語にすると﹁サイト信頼性エンジニア﹂となりますが、あまりキャッチーではないので普段は略語の﹁SRE﹂を使用しています。SREという職種は日本ではあまり聞く事はありませんが、FacebookやAirbnb、Dropboxなどの企業でSREが募集され、それぞれのサービスを支える重要な役割を担っていると思われます。

negima1976 2015/11/18

リンク

はてなブックマーク

タグ

関連タグで絞り込む (28)

SREに関するnegima1976のブックマーク (18)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス