タグ

sreに関するsfujiwaraのブックマーク (35)

  • ゆるSRE勉強会 #7 ~1周年記念企画 真夏のSRE怖い話~ (2024/08/30 19:20〜)


     X(Twitter)X(Twitter)connpass ()FAQ  202491connpass91connpass API   connpassAPI2024523() 2
    ゆるSRE勉強会 #7 ~1周年記念企画 真夏のSRE怖い話~ (2024/08/30 19:20〜)
    sfujiwara
    sfujiwara 2024/07/22
    パネルディスカッションやります
  • SRE Magazine - 001号(2024/04/01)


    SRE Magazine  @syossan27  SRE Magazine SRESRE /netmarkjp  @netmarkjp  SRE  iwamot  @iwamot  SIEM Yuta Kawasaki @yuta_k0911 SIEMonAmazon OpenSearch Servi
    SRE Magazine - 001号(2024/04/01)
  • Meaningful availability | the morning paper

    the morning paper a random walk through Computer Science research, by Adrian Colyer Made delightfully fast by strattic Meaningful availability, Hauer et al., NSDI’20 With thanks to Damien Mathieu for the recommendation. This very clearly written paper describes the Google G Suite team’s search for a meaningful availability metric: one that accurately reflected what their end users experienced, and

    Meaningful availability | the morning paper
  • 「北欧、暮らしの道具店」を支えるインフラ技術

    2023年11月7日(火)に開催されたWomen Developers Summit2023で登壇させていただいた発表資料になります。

    「北欧、暮らしの道具店」を支えるインフラ技術
  • SRE座談会 - 株式会社はてな


    SRESite Reliability EngineerSRECTOid:motemenSREid:masayosuid:taxinttid:cohalz3 SRE
    SRE座談会 - 株式会社はてな
    sfujiwara
    sfujiwara 2023/11/15
    ecspressoのご利用、コントリビューション、いつもありがとうございます
  • エンジニアのためのSRE論文への招待 - SRE NEXT 2023 - ゆううきブログ


    2023929SRE NEXT 2023 IN TOKYOSRE NEXT SRE NEXT 2020調SRE NEXT 20223SRE NEXTNEXTDiversitySRESRE 
    エンジニアのためのSRE論文への招待 - SRE NEXT 2023 - ゆううきブログ
  • OSS 『Prepalert』 の紹介 - KAYAC engineers' blog


    SRE  SRE Next 2023  SRE Next 2023Warning OSSPrepalertOSSPrepalert github.com PrepalertTechBlog techblog.kayac.com 3 OSSPrepalertMackerel WebhookMackerel 2v1
    OSS 『Prepalert』 の紹介 - KAYAC engineers' blog
    sfujiwara
    sfujiwara 2023/09/29
    #srenext
  • 9/29(金)開催のSRE NEXT 2023 IN TOKYOにカヤックSREの池田が登壇します! - KAYAC engineers' blog

    SREチームの長田です。 9/29(金)に開催される SRE NEXT 2023 IN TOKYO にカヤックSREチームの池田が登壇します。 sre-next.dev TrackBで15:50から、『Warningアラートを放置しない!アラート駆動でログやメトリックを自動収集する仕組みによる恩恵』というタイトルで登壇予定です。 自作OSSの導入によるWarningアラート対応の改善について、カヤック社内の事例を踏まえて紹介させていただきます。 前日のアナウンスになってしまいましたが、オンラインチケットはまだ取得可能です。 興味のある方はぜひご参加ください。 カヤックではトイルを削減したいエンジニアを募集しています! hubspot.kayac.com

    9/29(金)開催のSRE NEXT 2023 IN TOKYOにカヤックSREの池田が登壇します! - KAYAC engineers' blog
    sfujiwara
    sfujiwara 2023/09/28
    わいわい
  • SRE不在のチームに入って2カ月でやったこと - 負荷試験から始めるプラクティスの導入


    TechFeed Experts Night#17  SRE      SRE(Twitter: @fujiwara)ecspresso(Amazon ECS)lambroll(AWS Lambda)Web(ISUCON) SRE SRESMOUT
    SRE不在のチームに入って2カ月でやったこと - 負荷試験から始めるプラクティスの導入
    sfujiwara
    sfujiwara 2023/06/19
    この前喋った奴のレポートでました
  • 障害対応プロセスを改善してきた話 - 10X Product Blog


     Reliability & SecuritySoftware Engineer@sota1235 10X  ~ 1 5/26稿( )     1.  2.  3.   1.  2. S
    障害対応プロセスを改善してきた話 - 10X Product Blog
  • Amazon ECSのタスクを常に新鮮に保つ仕組みをStep Functionsで - KAYAC engineers' blog

    SREチームの藤原です。今回はAmazon ECSのサービス内のタスクを定期的に再起動することで、日々のメンテナンスコストを削減する話です。SRE連載 3月号になります。 3行でまとめ ECS Fargateのタスクは時々再起動が必要 人間が対応するのは面倒 Step Functionsを定期実行して常に新鮮なタスクに入れ換えて予防しよう ECS Fargateのタスクは時々再起動する必要がある ECS Fargateでサービスを運用していると、数ヶ月に一度ほどの頻度でこのようなお知らせがやってきます。 [要対応] サービス更新のお知らせ - AWS Fargate で実行されている Amazon ECS サービスの更新が必要です [Action Required] Service Update Notification - Your Amazon ECS Service Running

    Amazon ECSのタスクを常に新鮮に保つ仕組みをStep Functionsで - KAYAC engineers' blog
    sfujiwara
    sfujiwara 2023/03/30
    書きました。SRE連載3月号です
  • ヤフーが実践するプロダクション環境でのカオスエンジニアリング


    2023101LINELINELINE Tech Blog 
    ヤフーが実践するプロダクション環境でのカオスエンジニアリング
  • SRE連載が始まります! - KAYAC engineers' blog

    あけましておめでとうございます。SREチーム(新卒)の市川恭佑です。 カヤック技術ブログでは記事が2023年初エントリですが、Happy Lunar New Year!の方が違和感のない時期になってしまいました。 年、新たにカヤックSRE連載と題した企画を始めるので、概要についてご報告します。 連載企画を始める経緯 カヤックの技術ブログといえば毎年恒例のアドベントカレンダー企画が人気ですが、これは12月限定のため、それ以外の時期にブログの更新が激減する傾向がありました。 ブログ過疎化の対策として、カヤックでは去年からSREチームで毎月1のペースでブログ記事を出していました。 実のところ、内部的にはこれを「SRE連載」と読んでいました。 「とりあえずやってみよう」というノリで始まった連載でしたが、結果的には「12月を除くすべての期間において記事を出す」という実績を作れたので、年は正式

    SRE連載が始まります! - KAYAC engineers' blog
    sfujiwara
    sfujiwara 2023/01/31
    今年もやります
  • Enterprise Roadmap to SRE - Google - Site Reliability Engineering


    Google 2Site Reliability EngineeringThe Site Reliability WorkbookGoogle Cloud Reliability Advocate  Steve McGhee  Google Cloud Solutions Architect  James Brookbank SRE  SRE  SRE 
  • 一人に頼らないSREチームの体制づくりを目指して|Kurashicom Tech Blog

    こんにちは。エンジニアの佐々木です。 先日開催したミートアップにて、カヤックの藤原さんを交えてクラシコムのSREについてお話をさせていただき、1つ目のトークテーマ「インフラ強化に向けた具体的な取り組み」について記事を書かせていただきました。 この記事では、2つ目のトークテーマである「一人に頼らないチーム体制づくりを目指して」について紹介します。 SREの必要性SREチームの話をする前に、この後の話がイメージしやすくなるよう、開発組織としては規模が小さいクラシコムにおけるSREの必要性について述べたいと思います(前回のブログに引き続きいきなりイベント当日にお話したことではなくすみません…) まずSREとは何かというのを改めて確認しておくと、SREとはサイト信頼性エンジニアリングの略で、信頼性の高い番環境システムを実行するための職務、マインドセット、エンジニアリング手法のセットであると発祥元

    一人に頼らないSREチームの体制づくりを目指して|Kurashicom Tech Blog
  • 「北欧、暮らしの道具店」インフラ構成の変遷、5年間の課題と取り組み|Kurashicom Tech Blog

    こんにちは。エンジニアの佐々木です。 先日12/6、弊社イベントにてカヤックの藤原さんを交えてクラシコムのSREについてお話をさせていただきました。 当日は96名と多くの方にお申し込みいただきありがとうございました。1時間半があっという間で、時間の関係でお話できなかったことも多々ありました。改めてではありますが、記事にて当日の内容含め話せなかったこともご紹介したいと思います。 当日のテーマは「インフラ強化に向けた具体的な取り組み」と「一人に頼らないチーム体制づくりを目指して」という2つでした。 この記事では前半の「インフラ強化に向けた具体的な取り組み」について紹介します。北欧、暮らしの道具店のインフラ構成の変遷を追いつつ、その時々の課題や実際の取組みについて説明していきます。 5年前(2017年5月頃)のインフラ構成エンジニア3人で作った月間1600万PVのECサイト 「北欧、暮らしの道具

    「北欧、暮らしの道具店」インフラ構成の変遷、5年間の課題と取り組み|Kurashicom Tech Blog
    sfujiwara
    sfujiwara 2022/12/08
    “運用が安定し信頼性が高まると、開発のパフォーマンスも上がることはこの5年間の私の肌感ではありますが強く感じました”
  • 運用中のサービスに負荷試験を導入した事例の紹介 - KAYAC engineers' blog

    SREチーム(新卒)の市川恭佑です。今回は、Tonamelという自社サービス(Web)において負荷試験を導入した事例を紹介します。 このエントリは「先送りされがちな負荷試験の導入について心理的なハードルを下げる」ことを目的としています。 そのため、事例紹介と銘打っていますが、列挙される事実の独立性よりも文脈性を優先しています。 表現が少し冗長に感じるかもしれませんが、負荷試験について距離感を感じている方は是非お付き合いください。 負荷試験を導入するに至った経緯 Tonamelは、格的なリリースから5年以上という、比較的長い運用歴を持つサービスです。 まず、何故このタイミングで負荷試験を導入することになったのかについて、その経緯を説明します。 ポストモーテムによる気づき(文化的な土台) 今年の3月に公開されたエントリにもあるように、カヤックでは着実にポストモーテム文化が浸透しつつあります。

    運用中のサービスに負荷試験を導入した事例の紹介 - KAYAC engineers' blog
    sfujiwara
    sfujiwara 2022/11/30
    SRE連載11月号
  • EKSからECSに移行して開発運用コストの削減を図る - KAYAC engineers' blog


    SRE  Amazon EKS(EKS)Amazon ECS(ECS)  coin.machino.co www.kayac.com 使 2019112 2022920 使使 APIRails Amazon AuroraPostgreSQL AWS
    EKSからECSに移行して開発運用コストの削減を図る - KAYAC engineers' blog
    sfujiwara
    sfujiwara 2022/09/29
    SREチーム連載9月号
  • SLOの運用のために OSS shimesabaの導入 - KAYAC engineers' blog

    カヤックSREの池田です。今回は、カヤックのプロダクトの一つ『Tonamel』で導入したエラーバジェット算出ツール shimesabaの話をします。 shimesabaとは? github.com shimesabaは監視サービスであるMackerelを用いて、エラーバジェットを計算しサービスメトリックとして投稿することでSLI/SLOの運用を助けるツールです。 このツールを用いることで、以下のようなグラフが得られます。 この図の上部は、エラーバジェットの使用率=信頼性の損失率の推移を表すグラフになっています。 この図の下部は、エラーバジェットをいつ?どのくらい?損失したのかを表すグラフになっています。 一言で、エラーバジェットと言ってもいくつかの計算方法が存在します。 今のところshimesabaでは、Rolling windowのコンプライアンス期間で、Windows-based SL

    SLOの運用のために OSS shimesabaの導入 - KAYAC engineers' blog
    sfujiwara
    sfujiwara 2022/06/28
    SREチーム連載6月号です
  • Don't Use Kubernetes, Yet

    Early-stage startups shouldn't run on Kubernetes yet. But eventually, growth-stage and large companies should be running on Kubernetes in some form. Kubernetes Maximalism doesn't mean one-size-fits-all. Infrastructure should progressively grow with your workloads and team. How can you choose the right technology now so that you can maximize growth and minimize pain later when you inevitably outgro

    Don't Use Kubernetes, Yet