タグ

運用に関するteracy_junkのブックマーク (63)

  • 監視について思うとこ - y-ohgi's blog

    TL;DR 監視はユーザーにサービスを提供できているかを観測するための行為 SLI/SLOを定めて、SLOを守れるようにモニタリングする ダッシュボードは定常的に表示しておくものと障害時に活用するものを作ると良い アラートはレベル分けして人間が対応しなければならないものだけ人間へ通知する 監視とは サービスを健全に動作させ続けるために監視を行います。 「健全に動作している」の定義はサービスによって異なり、ユーザーにWebページを見せることができることだったり、バッチが正常に終了することだったりします。 最終的にユーザーに正常にサービスを提供できていることを観測するために行うことに変わりはありません。 さてユーザーにサービスを提供するために何を監視しましょうか? クラウド前提であれば個人的にリソースベース(CPU/Memory)より、 SLI/SLOをベース に監視する事が望ましいと考えてい

    監視について思うとこ - y-ohgi's blog
  • Computer Connector Emoji – LINE Emoji | LINE STORE

    Mild Turkey This is a Computer Connector Emoji. Used to determine the connector.

    Computer Connector Emoji – LINE Emoji | LINE STORE
    teracy_junk
    teracy_junk 2019/07/11
     使使  


     
  • バッチプログラムの運用と監視について検討しよう | メルカリエンジニアリング


     id:koemu 24   3  GoogleSRE15*1 ()The Managers Path*2*3使
    バッチプログラムの運用と監視について検討しよう | メルカリエンジニアリング
  • バッチ処理の採用と設計を考えてみよう | メルカリエンジニアリング


     id:koemu   1    OLTP(Online Transaction Processing) 2 
    バッチ処理の採用と設計を考えてみよう | メルカリエンジニアリング
  • 続・Web系の自分が想像と障害で学んだバッチ処理・設計の基本 - コンポツさん


          (@ryushi) 2016, 218  
    続・Web系の自分が想像と障害で学んだバッチ処理・設計の基本 - コンポツさん
  • タウンワーク90万原稿の掲載を支えるレガシーバッチパフォーマンスチューニング #devsumi #devisumiD

    2019/02/15 Developers Summit 2019での、森廣の講演資料になります

    タウンワーク90万原稿の掲載を支えるレガシーバッチパフォーマンスチューニング #devsumi #devisumiD
  • Krylov部分空間を導入して特異スペクトル変換による異常検知の処理を高速化した - Fire Engine

    1年くらい前に特異スペクトル変換法による異常検知ライブラリを作ったんですが、作ったっきり放置していたので、開発当初からやりたかった計算の高速化処理を書きました。 ずっと放置してた割にはちょいちょいGitHubのスターを押してもらえてて、データサイエンスの流行を感じた。自分ももう一回ちゃんと学び直していこうという気になったので、まずは昔書いたやつの拡張からやっていく。 【目次】 特異スペクトル変換とは? Krylov部分空間の導入 検証結果 さいごに 参考 特異スペクトル変換とは? 特異スペクトル変換法の特徴については以前のブログに書いているので、ぜひそちらも読んでください。 特異スペクトル変換法の全体像は以下のようになっています。 出典:上の図は井手剛氏の著書「入門 機械学習による異常検知―Rによる実践ガイド」のP200 図7.4を元に作成しました。 図のように過去と今のパターンを行列とし

    Krylov部分空間を導入して特異スペクトル変換による異常検知の処理を高速化した - Fire Engine
  • イノベーションを止めずに、端末管理と運用を行う方法 / builderscon tokyo 2018

    builderscon tokyo 2018 (https://builderscon.io/tokyo/2018/) 14:20〜 トラックE ・なぜ端末管理を行うのかについて ・macOSWindows、iOS、Android 端末管理に関すること について話をしました。 発表ノート付きはこちら https://speakerdeck.com/kenchan0130/builderscon-tokyo-2018-034dddd7-02d6-4374-86c3-01b8a93f923d

    イノベーションを止めずに、端末管理と運用を行う方法 / builderscon tokyo 2018
  • プロダクトのリリース前から新ダッシュボード「Looker」の導入に踏み切ったわけ | メルカリエンジニアリング


      Looker Looker  Looker    
    プロダクトのリリース前から新ダッシュボード「Looker」の導入に踏み切ったわけ | メルカリエンジニアリング
  • 失敗を学びに変える「障害報告書」の書き方 ─ RettyのCTOがGoogleで学んだ「問題を隠さない文化」 - エンジニアHub|Webエンジニアのキャリアを考える!


      RettyCTOGoogle RettyCTO RettyCTO @taru0216Retty RettyGoogle30 
    失敗を学びに変える「障害報告書」の書き方 ─ RettyのCTOがGoogleで学んだ「問題を隠さない文化」 - エンジニアHub|Webエンジニアのキャリアを考える!
  • 障害対応で一番最初にやるべきことは全体への周知じゃね? - Qiita

    結構「障害対応ハウツー」みたいなのはググればいくらでも記事が出てくるけどここに言及してる記事が案外少ないなあと思ってどうしても書きたくなりました. 新人でもすぐできるからぜひ覚えてもらいたくて「新人プログラマ応援」のタグも付けました. 監視ツールの通知によってとか, 誰かに「このページ見れなくなってるよ」って教えてもらうとか, 何らかの手段によってエンジニアが障害の発生に気づいたとき, 一番始めにやることは全体への周知だと思っています. 「一番始めに」 一番始めにというのは, まさに何を差し置いても一番始めにということです. 障害に気づいたエンジニアはつい 「どこのページだ」 「レスポンスタイム10秒って出てるけどホントかよ試しに俺もアクセスしてみよう」 「さっきのデプロイが原因じゃねえか?」 などと口走りがちですが, これらの気持ちをグッと堪えてまずは周知に意識を向けるべきです. 「全体

    障害対応で一番最初にやるべきことは全体への周知じゃね? - Qiita
  • フロントエンドの負債と向き合う - mizchi's blog

    某所で書いたものを公開用に書き直したもの 前提 フロントエンドでTDDは難しい、というかほぼ不可能である。なぜなら事前に副作用をデータとして表現できるか不明だからだ。たとえばあなたのプロダクトの画面の何処かにボタンを追加するために、その内部表現を事前に思い浮かべることが可能だろうか? react-redux などのFluxフレームワークは如何に副作用をアクションとして表現することで、テスト・デバッグのための情報を残すか、という視点で発展してきた側面がある。あの冗長なアクション定義は、全てデバッグのために書いていると言っても、過言ではない。それすら「Textは文字がある」といったトートロジーなデータになりがち。 フロントエンドの現実的な単体テストは、他の開発者のために、自分が書いたコードの要求を満たしているか検知する手段として、防衛的にテストアフターしておく。これぐらいしか現実的な手法がない

    フロントエンドの負債と向き合う - mizchi's blog
    teracy_junk
    teracy_junk 2018/03/20
    『フロントエンド開発で、最初に考えるべきは、 lint ルールを追加する コードフォーマッタを入れる 型を書く これらは比較的痛みがない。』
  • java-monitoring

    JJUG ナイトセミナーの登壇資料です。 https://jjug.doorkeeper.jp/events/69650

    java-monitoring
  • 目指せ!落ちない高可用性サーバ、ハードウェアの選び方 - Qiita


    10     1    Active/Standby   
    目指せ!落ちない高可用性サーバ、ハードウェアの選び方 - Qiita
  • 冗長化の難しさとNetflixの答え|こんぴゅ

    この世には、ダウンすることが許されないシステムが存在する。金融機関の基幹系、原子力発電所や鉄道の制御システム、流通業の物流管理システムなどはもちろんであるが、最近ではtoCのサービスでもダウンタイムが長くなると大事件として騒がれ、ヤフトピに載ってしまったりする。 ではダウンへの対策はどうするかというと、いくつか手法はあるのだけど代表的なのは「冗長化」である。簡単に言うと、全く同じシステムを裏側に待機系として用意して、有事の際は自動的に切り替わるようにしておくのである。素朴だが、殆どのシステムではこの種の仕組みを用意している。 それでうまくいけばいいのだけどじつは、この待機系への切り替えというのは鬼門であり、高確率で失敗する事になる。 [続報]東証のシステム障害、原因はハードウエア故障後の切り替えミス http://itpro.nikkeibp.co.jp/article/NEWS/2012

    冗長化の難しさとNetflixの答え|こんぴゅ
  • 一般的なチートの手法と対策について

    スマホゲームのチートにはメモリの改ざんを利用するお手軽なものに始まり、パケットの改ざんやコードの改ざんまで、多様な手法が存在します。しかし、それらがインターネットや書籍で語られることは多くはありません。これまでのDeNAのセキュリティチームの経験を基に、それぞれのチート手法を説明したあと、どのように対策をすれば良いのか、ご紹介させていただきます。

    一般的なチートの手法と対策について
  • 「障害に捨てるところなし」というお話をしました - Cybozu Inside Out | サイボウズエンジニアのブログ


    @yokotaso311Battle Conference U30   SpeakerDeck!           
    「障害に捨てるところなし」というお話をしました - Cybozu Inside Out | サイボウズエンジニアのブログ
  • ちゃんと復旧できる、GitLabのバックアップ運用方法 ─ GitLab meetup #01レポート - pixiv inside


    201732GitLabGitLab meetup in Tokyo #11402GitLab 2013 catatsuyGitLab GitLab GitLabgitWebGitHubBitbucket
    ちゃんと復旧できる、GitLabのバックアップ運用方法 ─ GitLab meetup #01レポート - pixiv inside
  • Googleのインフラ技術から考える理想のDevOps

    デブサミ2017で発表予定の資料です。 http://event.shoeisha.jp/devsumi/20170216 2017/02/14 ver1.0 公開Read less

    Googleのインフラ技術から考える理想のDevOps
  • 闇のDevOps DevOpsと業績評価 – ところてん – Medium


    DevOpsDevOps DevOpsDevOps DevOps     
    闇のDevOps DevOpsと業績評価 – ところてん – Medium
    teracy_junk
    teracy_junk 2017/02/14
    『DevOps云々の前に、なぜDevとOpsが対立するのか、というあたりまえの前提を理解していない』『DevOpsはOpsの仕事をDevが奪うこと』