並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 16 件 / 16件

新着順 人気順

PagerDutyの検索結果1 - 16 件 / 16件

  • ゼロトラストネットワーク

    ゼロトラストネットワークとは、ファイアウォールやVPNに代表される従来型のセキュリティ(境界防御モデル)が通用しなくなった現状を踏まえ、すべてのトラフィックを信頼しないことを前提とし、検証することで脅威を防ぐというアプローチです。近年、クラウドサービスやモバイルの普及により、セキュリティで守るべき内外の境界があいまいになってきたことにより、強く注目を集めています。本書は、ゼロトラストネットワークの概念と実装するために必要な知識が学べる解説書です。基本的な概念の説明に始まり、デバイス、ユーザー、アプリケーション、トラフィックの信頼を実際にどのように確立していくかについて、詳しく紐解いていきます。また、Googleのゼロトラストモデル「BeyondCorp」を含む2つの詳細なケーススタディも収録しており、実装に役立つ知識を深めることができます。 はじめに 1章 ゼロトラストの基礎 1.1 ゼロ

      ゼロトラストネットワーク
    • 運用に携わる人全員に見てほしい! Ops Guidesの紹介 - Qiita


      PagerDuty Advent Calendar8 Ops Guides    X !
        運用に携わる人全員に見てほしい! Ops Guidesの紹介 - Qiita
      • 障害発生!全員集合? - オンコールアンチパターンからの一歩前進 - Cybozu Inside Out | サイボウズエンジニアのブログ

        8月だというのに涼しい日が続きますね。 kintone.comのDevOpsをしている@ueokandeです。 もうすぐAWS版kintoneのローンチからから2年が経過しようとしています。 この2年間、DevOpsチームではkintone.comのサービス安定化やスケーラビリティに注力してきました。 時には本番環境の障害で休日や深夜に障害対応することもあります。 kintone.comの障害の一次対応は、我々DevOpsメンバーが実施しています。 サービスローンチ直後は、メンバーの多くがオンコールに不慣れで、慌てて障害対応したりうまく進められないことが何度もありました。 そこでメンバー全員が効率的・効果的な障害対応を目指すべく、チームでPagerDuty社のIncident Response(非公式日本語訳版)を読むことにしました。 この記事ではAWS版kintoneで実際に体験した障害

          障害発生!全員集合? - オンコールアンチパターンからの一歩前進 - Cybozu Inside Out | サイボウズエンジニアのブログ
        • 限られた人数で MIXI のあらゆる公式サイト群を保守・運用する ノウハウとその体制 | MIXI SRE秋祭り 〜 MIXIのもうひとつのSRE 〜

          2023年10月31日に株式会社MIXIで行われた「MIXI SRE秋祭り 〜 MIXIのもうひとつのSRE 〜」での発表資料です。 イベントページ https://mixi.connpass.com/event/299121/ ─────────────── MIXIのSREは、サービスの信頼性に直接関わる負荷やコスト、システムの信頼性などをサービス開発と密接に連携しながら取り組むようなSREと、社内の共通課題やスポットで相談された事業などへの技術支援など、全社的なサービスの信頼性に関わるありとあらゆることに取り組むSREがいます。 本イベントでは、後者の全社的なサービスの信頼性に関わるSREから、最近の取り組み事例を紹介させていただき、Q&Aの時間などを通して、ご参加の皆様と共に情報交換ができれば幸いです。 ◎こんな方におすすめ◎ ・SREとしてサイト信頼性だけでなく、企画や事業開発な

            限られた人数で MIXI のあらゆる公式サイト群を保守・運用する ノウハウとその体制 | MIXI SRE秋祭り 〜 MIXIのもうひとつのSRE 〜
          • ZOZOTOWN マイクロサービスプロジェクトにおける継続的な改善を支えるCI/CD戦略 - ZOZO TECH BLOG

            ZOZOテクノロジーズ SRE部の川崎(@yokawasa)です。ZOZOTOWNのアーキテクチャをマイクロサービスで再設計してリプレイス化を推進するチームに所属しております。 本記事では、このZOZOTOWNのマイクロサービスプロジェクトで実践している継続的インテグレーション/継続的デリバリー(以下、CI/CD)についてご紹介します。 はじめに まずはじめに、本記事に登場する中心的なキーワードであるCI/CDと、Infrastructure as Code(以下、IaC)について簡単に説明します。 IaCとは、インフラ構成をコード化して、そのプロビジョニングを自動化する手法です。コード化されたファイルはコードリポジトリで管理することが多く、また、IaCを実現するためのツールやサービスの利用が不可欠になります。 CI/CDは、その名の通り、CI(継続的インテグレーション)とCD(継続的デリ

              ZOZOTOWN マイクロサービスプロジェクトにおける継続的な改善を支えるCI/CD戦略 - ZOZO TECH BLOG
            • 『家族アルバム みてね』を支えるオンコールエンジニア制度 | gihyo.jp

              株式会社MIXIで『家族アルバム みてね』(⁠以下みてね)のSREグループに所属している本間です。 みてねは現在、1,500万人を超えるユーザに175の国と地域でサービスを提供しています(2022年8月現在)。そこで、より高い信頼性と可用性を担保するためにみてねのSREグループではオンコールエンジニア制度を設けています。 今回はこの「みてねのSREグループにおけるオンコールエンジニア制度の取り組み」についてご紹介させて頂きます。 オンコールの定義 まず、どのような条件でアラートを設定しオンコールを実施するかの定義について簡単に触れておきます。 現在はさまざまなソースから多種多様な情報を収集することができます。 たとえば、みてねではKubernetes(Amazon EKS)を採用しています。Kubernetesだけでも非常に多くのメトリクスが収集できますが、それだけではなくアプリケーション

                『家族アルバム みてね』を支えるオンコールエンジニア制度 | gihyo.jp
              • 燃え尽きエンジニアを救う「オンコール最適化、5つの教訓」|インシデント管理プラットフォーム│PagerDuty

                DevOpsチームの中で、業務としての「オンコール対応プロセス」はよく話題に上ることがあります。では一方で「オンコール対応に従事するチームメンバーが抱える個人的な悩みや問題」についてはどうでしょうか? 「オンコールシフト中のストレスや不安にどう対処したらよいか?」 「オンコールローテーションと子供の世話といったメンバーの個人的な事情を両立させるにはどうしたらよいか?」 「燃え尽きや離職といった問題は、チームメンバー同士の思いやりで解決できるのか?」 オンコール対応のプロセスが適切にマネジメントされていたとしても、オンコール対応チームにおけるこういった悩みは尽きません。そこでPagerDutyでは、2021年11月から12月にかけて、9つのチームからオンコール担当のエンジニアを集め「担当者の現場目線から見たオンコール対応についてのディスカッション」を実施しました。チームメンバーがオンコール対

                  燃え尽きエンジニアを救う「オンコール最適化、5つの教訓」|インシデント管理プラットフォーム│PagerDuty
                • Backlog開発チーム自身によるオンコール対応を支えるアラート通知システム | Backlogブログ

                  こんにちは、Backlog SREチームのmuziです。 この記事は SRE Advent Calendar 2019 の10日目、およびBacklog Play化プロジェクトブログの番外編です。 先日のブログ記事「SREは大規模なリプレイスプロジェクトで発生した様々な問題にどう取り組んだか【Backlog Play 化プロジェクト】」の後半では、Play化プロジェクトの終了後に、開発チーム自身によるオンコール対応の取り組みを始めたことを軽くご紹介しました。 私を含むBacklogのSREチームは、このオンコール対応を助けるためのアラート通知システムを作り、開発者なら誰でも使える形で提供しています。この記事では、前回のブログ記事では書ききれなかった、このシステムの詳細をご紹介します。 同じような問題意識を抱えていて、これからオンコール対応を見直したい、と考えているSREや開発者の参考になれ

                    Backlog開発チーム自身によるオンコール対応を支えるアラート通知システム | Backlogブログ
                  • PagerDutyでアラート管理を改善した話 - Tech Inside Drecom

                    はじめに こんにちは。インフラストラクチャー部のひらしーです。 今回はPagerDutyを導入し、システムに異常が発生した際のアラート管理を改善した話を紹介します。 アラート管理改善前 解決すべき人へのエスカレーションが必要な問題発生時、以前は以下のような問題がありました。 通知手段がメールのみで、インフラチームのメンバーは全サービスのアラートを受け取って自分でフィルタリング・転送をする必要があり、問題のエスカレーション漏れや監視設定自体の見直しがされずに監視精度のばらつきが発生していた過去のアラート情報が集約できておらず、問題の傾向把握や類似の障害の検索が困難だった PagerDutyについて 上記の問題を解決するため、メール運用のまま手法のみ改善する運用や内製ツールの開発を検討しましたがトライアルでチーム内での評価が高かったためSaaSのアラート管理ツールであるPagerDutyを採用

                      PagerDutyでアラート管理を改善した話 - Tech Inside Drecom
                    • PagerDuty|インシデント管理プラットフォーム|PagerDuty株式会社

                      「Fortune 100企業の65%」が利用する 世界のデファクトスタンダード オペレーショナル・レジリエンスに必要不可欠なインシデント管理プラットフォームPagerDuty(ペイジャーデューティ)はシステムのインシデント対応を一元化するプラットフォームです。システム障害対応に費やす時間を軽減し、貴重なエンジニアリソースをビジネス拡大に充てることができます。

                        PagerDuty|インシデント管理プラットフォーム|PagerDuty株式会社
                      • 全員野球からPagerDutyまで。NewsPicksのオンコール体制はどう進化してきたか。 - Uzabase for Engineers

                        こんにちは!NewsPicksエンジニアの森川です。今回はNewsPicksのオンコール(=障害対応)体制の変遷と試行錯誤をご紹介したいと思います。 オンコール1.0 ~ 全員野球時代 ~ オンコール2.0 ~ 当番制時代 ~ 1. 専門外のアラートに対応できない 2. 対応するエラーの数が多すぎる 3. 勤務時間の自由度が減る 4. slackに気づけない オンコール3.0 ~ PagerDuty時代 ~ 1. アラートを緊急度で仕分け 2. 当番ローテーションの変更 3. PagerDutyの導入 おわりに オンコール1.0 ~ 全員野球時代 ~ NewsPicksにはエンジニア全員が入るslackチャンネルがあり、ここで周知事項の共有や雑談、問い合わせがされています。昔はこれに加え不具合の報告や監視システムからのアラート通知もこのチャンネルに流れるようになっており、アラート通知は気づ

                          全員野球からPagerDutyまで。NewsPicksのオンコール体制はどう進化してきたか。 - Uzabase for Engineers
                        • PagerDutyを用いたアラート対応改善の取り組みとTips紹介 - freee Developers Hub

                          はじめに こんにちは!freee の Enabling SRE チームに所属している阿部 寛明 (uryy)と申します。freeeのシステムを運用する際にはDatadogからの通知をもとにアラート対応するケースが多いのですが、組織拡大により従来の方法ではうまくワークしない箇所もでてきたので改善に取り組んでおります。今回はその一環で進めているPagerDuty導入の取り組みとその際に気づいたTipsについて紹介します。 PagerDutyについて PagerDutyは監視ツールやアプリケーションからのアラートを受けてインシデント発生を担当者にオンコール通知するプラットフォームサービスです。オンコール機能だけでなく、受け取ったアラートのトリアージやシフトに基づいたエスカレーションも可能となっています。freeeでは下記図のようなシステム連携の環境構築を進めています。 システム連携イメージ 現在

                            PagerDutyを用いたアラート対応改善の取り組みとTips紹介 - freee Developers Hub
                          • ポストモーテムテンプレート - PagerDuty Incident Response Documentation

                            これはPagerDutyで利用している標準的なポストモーテムのテンプレートです。 それぞれのセクションでは、あなたがポストモーテムに書くべき情報について説明します。 ガイドライン このページはインシデント発生後5営業日以内に設定されるポストモーテムのミーティングで確認することを目的とします。 最初のステップはインシデント発生の5営業日以内に、共有カレンダーにミーティングを設定することです。 情報が埋まるまでミーティングの設定を待ってはいけませんが、ミーティングまでにページができているようにしてください。 ** ポストモーテムのオーナー:** ここにはあなたの名前が入ります。 ** ミーティングの対象:** インシデント発生後5営業日以内に、「インシデントポストモーテムミーティング」を共有カレンダーにスケジュールします。ここに日付を入力してください ** 通話の記録:** インシデントの通話

                              ポストモーテムテンプレート - PagerDuty Incident Response Documentation
                            • PagerDutyでアラートメール通知を電話通知に変える - GMOインターネットグループ グループ研究開発本部

                              こんにちは。次世代システム研究室のM.Mです。 近頃のWEBサービスは、他社のサービスや自社でも他グループのサービスと連携して構成されているケースが多いのではないでしょうか? サービス間同士の連携について意識した設計がされていないと、あるサービスがダウンしたら、引きずられて私たちが開発・運用するサービスも提供できない状態になってしまうことがあります。 その逆もあり、私たちが開発・運用するサービスがダウンしたら、連携しているサービスも提供できなくなってしまうこともあります。 もちろんそのような障害が発生しないような設計や対策をすることも重要ではありますが、特に障害発生後に盛り上がる問題があります。 障害に気づくのが遅い。 障害の連絡がない。遅い。 誰が対応しているのか分からない。 状況確認したくて連絡するが、担当者につながらない。 私たちが開発・運用するサービスの障害に、私たちより先に連携し

                              • [レポート] インシデントレスポンスの自動化及びアラートノイズ削減方法 #devio2022 | DevelopersIO

                                この記事は2022年7月19日〜29日開催の技術カンファレンス「DevelopersIO 2022」のセッションレポートとなります。 オンコールの管理、エスカレーションの自動化、スケジュール管理のツールとして2009年にサンフランシスコで創業されたPagerDutyについて、機能と実際の活用方法についてデモを混じえて分かりやすくご説明いただきましたので、その内容についてご紹介いたします。 なお、クラスメソッドがお送りするDevelopersIO 2022イベントの全セッションはこちらからご覧いただけます。 本編について 本編はこちらからご覧いただくことができます。 スピーカー Pager Duty シニアソリューションコンサルタント 大塚 清尊さま 本セッションで学べること PagerDutyのオンコール管理、イベント管理の自動化に関する機能と活用方法 レポート PagerDutyとは グ

                                  [レポート] インシデントレスポンスの自動化及びアラートノイズ削減方法 #devio2022 | DevelopersIO
                                • PagerDuty の導入支援 | クラスメソッド株式会社

                                  クラスメソッドのAWS総合支援 コスト最適化からセキュリティ、構築支援、運用保守まで、AWS活用を支援します。

                                    PagerDuty の導入支援 | クラスメソッド株式会社
                                  1