タグ

運用とawsに関するstealthinuのブックマーク (5)

  • クラスタのノード欠損を復旧しようとしてクラスタを丸ごと落とした話 - Qiita

    これは、私が若…くはないけどピカピカのAWS1年生だった、数年前のお話です。 何をやらかしたのか やらかし前の状態 番運用しているWebアプリケーションの裏側に、EC2インスタンス3台でクラスタを組んだ某データストア製品を使用していました。データはクラスタ内でレプリケーションされており、1台がダウンしただけならクラスタは稼働を継続できます。2台がダウンするとクラスタ全体が機能しなくなります。 ある日、3台のうち1台で障害が発生してインスタンスへ疎通できない状態になりました。この時点ではクラスタは正常に応答しており、あと1台ダウンしない限りはサービスに影響が出ない状態でした。 まず、ダウンしてしまったインスタンスを再起動して復旧させようとしました。ところがEC2マネジメントコンソールから再起動、停止を選択しても障害中のインスタンスは反応しません。そして私は間違いを犯します。 やらかしたこと

    クラスタのノード欠損を復旧しようとしてクラスタを丸ごと落とした話 - Qiita
    stealthinu
    stealthinu 2020/12/11
    あー、でもこれはわかるな… あと障害出たときに急いで対処しようとして傷口広げるのもあるあるだよね…
  • AWSのWEBコンソールでミスって本番を消した話と戻すまでの15分間の話 - まぁ、つまらないものですが


     Advent Calendar 2019 - Qiita13 Twitter21?godan 15便   Web     
    AWSのWEBコンソールでミスって本番を消した話と戻すまでの15分間の話 - まぁ、つまらないものですが
    stealthinu
    stealthinu 2019/12/13
    最悪の事態はまぬがれたといえそりゃ待ってる間は死ぬ思いだわな。
  • 実際に運用してみてわかった、大規模Mastodonインスタンスを運用するコツ - pixiv inside


    ImageFluxharukasan3414PawooPawooPawoo1516 pawoo.net Pawoodigpawoo.netAWS
    実際に運用してみてわかった、大規模Mastodonインスタンスを運用するコツ - pixiv inside
    stealthinu
    stealthinu 2017/04/18
    すごいスピード感ある。あと大規模サービス運用の知見があって参考になる。『どんなシステムであろうとアラートを受け取ったら対応する、それが我らインフラエンジニアです』いいね!
  • 米国東部(バージニア北部、US-EAST-1)リージョンで発生した Amazon S3 サービス障害について


    31US-EAST-1 Amazon Simple Storage Service (S3)  S3  9:37AM PST( 2:37AM)S3S3 S3 2S31Index 
    米国東部(バージニア北部、US-EAST-1)リージョンで発生した Amazon S3 サービス障害について
    stealthinu
    stealthinu 2017/03/03
    なんと… S3の障害はオペミスが原因だったらしい。amazonですらこんなことが起きるのか。
  • サーバーレス・アーキテクチャで構築したシステムの運用はどうやるのか? | iret.media


    20161220MBSMBS444AWS Lambda AWS Lambda使 MBS444 AWS Lambdacloudpack  MBS444
    サーバーレス・アーキテクチャで構築したシステムの運用はどうやるのか? | iret.media
    stealthinu
    stealthinu 2017/02/15
    lambda使ってるシステムでの運用方法について。ログをS3に吐くようにして監視もlambdaで。複数リージョンでの監視を行なうことで多重化。
  • 1