イベント名: オブザーバビリティ再入門 - 大切さと高め方を知ろう! イベントURL: https://mackerelio.connpass.com/event/316449/ 概要: 可観測性の概念を理解し、OpenTelemetryなどの実装に必要な道具があっても、自分たちのプロダクトやチームにどう適用させていけばよいのかは、自分たちで考え、設計しなければなりません。開発チームがメトリクス、ログ、トレースをどういった基準で採用していくかについて、具体例を用いながらお話します。
Prometheusには、quantileを計測する方法としてSummaryとHistogramの2種類があります。 prometheus.io 上記公式documentに記載がある通り、Summaryはclient sideでquantileを計測するのに対し、Histogramではprometheus sideでqueryを打つ際にアドホックに算出します。 Summaryはqueryの際にaggregationすることはできないため、たとえば「複数台のAPIサーバーがあり、それら全体での99th percentile response latencyをモニタリングしたい」といった場合は必然的にHistogramを選択することになります。(「1台1台からreportされた99th percentileの平均」などは、それはそれでモニタリングする価値のある指標ではあるかもしれませんが、統計
OpenTelemetry Good to know: This feature is experimental, you need to explicitly opt-in by providing experimental.instrumentationHook = true; in your next.config.js. Observability is crucial for understanding and optimizing the behavior and performance of your Next.js app. As applications become more complex, it becomes increasingly difficult to identify and diagnose issues that may arise. By leve
はじめに こんにちは、Google Cloudでオブザーバビリティの担当をしているものです。このエントリーはOpenTelemetry Advent Calendar 2022の2日目の記事です。1日目は @katzchang の「OpenTelemetry Collectorでログファイルの更新を取り込む」でした。 さて、みなさんは分散トレースを活用しているでしょうか。分散トレースはマイクロサービスアーキテクチャのみならず、モノリスなシステムにおいてもレイテンシーのボトルネックを発見する上で有用なテレメトリーです。まだ活用されていないという方はぜひ活用していきましょう! 分散トレースのサンプリング 活用されているみなさまにおかれましては、分散トレースの取得において、トレースのサンプリング方法について頭を悩ませていることと思います。テスト環境などではサンプリングレートを100%にして、あら
著者 坪内 佑樹(*1), 鶴田 博文(*1), 古川 雅大(*2) 所属 (*1) さくらインターネット株式会社 さくらインターネット研究所、(*2) 株式会社はてな 研究会 第7回Webシステムアーキテクチャ研究会 2010年代のクラウド技術であるコンテナオーケストレーション、サーバーレス、マイクロサービス、さらにはエッジコンピューティングなどの普及により、分散システムとしての複雑度が高まっている。このまま複雑度が高まっていくと、人手によるルールベースの運用にいずれは限界が訪れるのではないかと考えている。そこで、最近は、このようなクラウドを中心とするSRE分野の課題に対して、機械学習やその他の数理的アプローチを適用するアプローチを模索している。特に、SREの中でも、システムに発生する異常への対応については、現場のエンジニアの経験に基づき直感に大きく依存している。 異常への対応を構成する
うちの会社では、各種クラウドサービスの知見を共有する勉強会を毎週行なっています。弊社ではコンサルティング事業をしていて、次々と多くの案件をこなしているし、各案件の要件も異なるため、自社でもっている知見もバラエティーに富んでいます。既存のサービスではこういう制約があってハマったとか、今回これで作りきったけど、次回クリーンに作り直すならこうしたい、みたいな話が赤裸々に語られる楽しい会です。で、僕はインフラをやることはあまりないのだけど、話を聞くだけでは申し訳ないので、2週間前の会で、最近ハマっているOpenCensusについて紹介しました。 「分散トレースとは」という話がまとまっていて、初学者に「これ読んどいて」と言えるようなページがなかったので社内向けの資料をベースに技術ブログでも公開します。 トレーシングとメトリックストレーシングはどの処理がどの順番で行われているか、どのぐらい処理時間がか
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く