クラウド対応のログ可視化ツールとして知られる「Grafana」や監視システム「Prometheus」などを開発し提供するGrafana Labsは、障害発生時に担当者へのオンコールを自動化できるオンコールマネジメントソフトウェア「Grafana OnCall」をオープンソースで公開したことを明らかにしました。 Introducing the newest member of our open source family: Grafana OnCall OSS brings on-call management to the open source community #grafanaconline #oncallmanagement https://t.co/Nkq8frQx2r — Grafana (@grafana) June 14, 2022 Grafana OnCallは、昨年(2
Trusted by the world’s best product teams. From innovative startups to iconic enterprises. Unlike Any Kubernetes Tool You’ve Used BeforeDesigned for Developers and DevOps Engineers, Lens provides an unparalleled experience for managing and troubleshooting workloads through one intuitive context-aware UI. The IDE for Kubernetes: Context-aware UIConnect to clusters, explore, gain insights, learn and
TimescaleDB を自社サービスに採用して 1 年以上過ぎたので振り返ってみます。 前提 著者は SQL に関して TimescaleDB を採用を決めたタイミングから勉強した初心者です Managed Service for TimescaleDB を採用しています まとめ TimescaleDB の利用で不満は今のところない sqlc との組み合わせは最高 開発会社が提供するマネージドサービスは最高 なぜ TimescaleDB を採用したのか 統計情報のため込みと集計 自社製品であるミドルウェアパッケージソフトウェアのクラウド版を提供するにあたり、何よりも重視したのは統計情報の提供です。それもサーバーの統計情報ではなく接続単位での接続情報を顧客に提供することです。 自社製品はリアルタイムに音声や映像を配信する製品ということもあり、一定間隔での統計情報の収集が重要になります。ネッ
追記: GoのアプリケーションをOpenMetricsを使ってObservableにする方法については別エントリを書きました。 → https://songmu.jp/riji/entry/2020-05-18-go-openmetrics.html ECSとGoで運用しているシステムに対するDatadogの日本語知見があまり無さそうだったので書いてみる。ちなみに以下の環境です。 ECS on EC2 (not Fargate) アプリケーションコンテナのネットワークモードはbridgeモード 動的ポートマッピングも利用 背景として3月にNature Remoのインフラアーキテクチャ改善をしていて、その前にもうちょっと監視を整えたほうが良いな、ということでDatadogを導入したのがある。テストがないとリファクタリングできないように、監視がないとアーキテクチャのアップデートもやりづらいとい
自社パッケージ製品のクラウド版 を開発していて、色々やりたい放題やってるのでメモ。 方針 遠回り駆動開発 やりたい放題やる 王道は無視して「じぶんのかんがえたさいきょうの」をでいく 可能な限り OSS 開発元が提供しているクラウドサービスを利用する ベアメタルサーバーを使う 三大クラウドサービス (AWS, GCP, Azure) を使わない なぜ利用している技術を公開するのか 自社で使って良かった OSS やサービスはより多くの人に知って欲しいと考えています。 また、特に隠す理由がないというのもあります、むしろ大きな声で Tailscale や TimescaleDB 、 VictoriaMetrics 、Cloudflare 、DataPacket など、ほんとうに素晴らしい使わせて頂いていると言っていきたい。 我々が利用させて頂いている製品の企業や開発者の方へ とても素晴らしい製品を
2021/03/01 追記 記載していたリポジトリにあるマニフェスト系があまりに不親切だったので、ちゃんとまとめてみました。 後日、もうちょっとちゃんと記事書こうとは思いますが、大体はREADMEにあるので読んでみてください。 sock-shopをベースにObservability(Prometheus, Loki, Istio(Jaeger, Kiali))とProgressive Delivery&自動負荷試験スタック(Flagger, Jmeter, influxdb)をHelmとKustomizeで詰め込みました。 今回はちゃんと誰もが入れれるようにがんばってみたので、どうぞ。 github.com この内容でCloudNativeDaysOnline2021に登壇することにしています。 event.cloudnativedays.jp 後、随分前ではありますが、本投稿に関連してK
米MicrosoftがOpenAIのLLM「ChatGPT」採用の「新しいBing」を公開して2週間以上が経過した。Microsoftで検索とAI担当のCVP(コーポレートバイスプレジデント)を務めるジョルディ・リバス氏が2月22日(現地時間)、Microsoft傘下のLinkedInに「Building the New Bing」というブログを投稿し、新しいBingについて解説した。 新しいBingでは、OpenAIが昨夏に共有した「GPT-3.5よりはるかに強力な、ChatGPTを強化するLLM」(「GPT-4」とはしていない)を採用している。この次世代GPTは強力ではあるが、他のLLMと同様にトレーニングデータが古い(GPT-3.5のトレーニングデータは2021年までのもの)ため、Bingのバックエンド機能と組み合わせることで最新データを利用できるように開発したのがAI技術「Prom
はじめに ログ集約・可視化・検索ツールとしてはELKスタックを利用するケースが多いが、これをLokiに置き換えることでより軽量にログを集約することができるようになる。 Grafana Lab社が開発したLokiは、ログのストリームに対してタグ付けし保存する仕組みを持つ。Prometheusと親和性がたかく、水平展開、高可用性、マルチテナントが可能。 構成 各クライアントからのsyslogは514/udpポートで送信される。これをrsyslogデーモンで受け5514/tcpポートへ転送する。fluentdは5514/tcpポートで受信したsyslogをさらにlokiへ転送する。 +------------------------------------------------+ | | | +---------+ | +--------+ 514/udp | | | | | client +
最初に断っておきますと、OpenTelemetry を良く知っていたり真面目に調査しようという人が読むべき内容はここにはありません。 公式ドキュメントなりをご参照ください。これは最近 OpenTelemetry を使いだした一般人の感想記事です。 さて、いけてる Web 開発者、特にバックエンド開発者の方はオブザーバビリティという言葉は聞き及んでいるかと思います。 なかでもオブザーバビリティ三種の神器と言われている(?)ログ、メトリクス、分散トレーシングをどう実装するか頭を悩ませているかもしれません。 頭を悩ませてきた、あるいは頭を悩ませている理由の一つは、これらを実装するときに特定の実装向けになりがちであったためです。 メトリクスであれば最近は Prometheus 向けに /metrics エンドポイントとして提供する実装が多いといった話です。しかしながら、 あらゆる人が Promet
技術開発部の相原です。好きな --feature-gates はServiceTopologyです。 この記事はLIFULLアドベントカレンダーの16日目です。 去年のエントリではIstio を本番環境に導入するまでと題して、私のチームが進めているアプリケーション実行基盤刷新プロジェクトでのIstioの導入についてお伝えしました。 移行に至るまでの経緯などはそのエントリをご覧ください。 あれからしばらくが経ち、ようやく主要サービスの(ほぼ)全てをKubernetesに移行することができましたので今回は移行を実現するまでに行った取り組みを紹介したいと思います。 移行にあたってやったこと 健全化 構成の見直し アプリケーションサーバの見直し Containerize SIGTERMへの対応 環境ごとの値を外から与えられるように 可観測性の向上 Prometheus Exporter実装による可
開催中のAWS re:Invent 2020、ヴァーナーのキーノート中に、Amazon Managed Service for Prometheus(AMP)とAmazon Managed Service for Grafana(AMG)の二つが発表されました! Amazon Managed Service for Prometheus | Fully Managed Prometheus | Amazon Web Services Amazon Managed Service for Grafana | Fully Managed Grafana Data Visualization | Amazon Web Services Our new partnership with AWS gives Grafana users more options | Grafana Labs それぞれ
Yaboo Oyabu, Machine Learning Specialist, Google Cloud Kazuhiro Yamasaki, Deep Learning Solution Architect, NVIDIA 概要このチュートリアルでは GCP 上で NVIDIA Tesla T4 と TensorRT Inference Server (以降 TRTIS) を用いて高性能なオンライン予測システムを構築する手順と、そのパフォーマンス計測・チューニング方法を説明します。このチュートリアルを完了すると、TensorRT に最適化された機械学習モデルが Cloud Storage に格納されます。また、 オンライン予測と負荷テストを実施するための GKE クラスタが作成されます。 本記事は Google Cloud Next 2019 Tokyo におけるセッション『GCP
概要 Prometheus未経験の非インフラエンジニアが、Grafanaでサーバモニタリングができるようになるまでの 軌跡を記録します。 とりあえず、モニタリングができることが目標なので運用面の考慮等はしていませんが、参考になれば幸 いです。 概要 きっかけ Prometheusとは Grafanaとは 今回構築する環境の構成 ①prometheus server ②exporter ③Grafana インストール 前提条件 ②exporterのインストール (1)ソースをダウンロード (2)ダウンロードしたソースを解凍する (3)node_exporterを起動する (4)node_exporterの起動確認 ①prometheus serverのインストール (1)ソースをダウンロード (2)ダウンロードしたソースを解凍する (3)Prometheusの設定ファイルを編集する (4)p
2019年9月11日、クックパッド株式会社にて「Cookpad Product Kitchen #3」が開催されました。今回のテーマは「IoT技術を利用したサービス開発の裏側」。私達の生活に徐々に浸透してきたIoT製品。ハードウェアとソフトウェアを連携させ、新たな価値を提供されている裏側には、どんな工夫や知見が存在しているのか? 自社でIoTサービスを開発しているIT企業4社のエンジニアが集い、サービス開発にまつわる裏話を語っていただきます。プレゼンテーション「IoTと監視」に登壇したのは、600株式会社 ProductQuality Managerの岡前直由氏。講演資料はこちら 無人コンビニ600を支える技術 岡前直由 氏(以下、岡前):それでは「IoTと監視」と題しまして600株式会社の岡前が発表させていただきます。よろしくお願いいたします。 最初に、弊社のサービスについて簡単にご紹介
課題 Lokiとはなにか? ログ転送の仕組み ログ可視化の仕組み 使ってみてわかってきたこと Grafanaでログをササっとみられるのは楽 『indexを作らない』の意味 ログから作成するメトリクスと統計情報 nginx-module-vts GrafanaのSlackが温かい 現在のLoki環境 VMの情報 コンテナの構成 負荷状況 今後 こんにちは!インフラユニットの小林です。 今回はログ監視ツール『Loki』の導入事例を紹介をします。 課題 これまでもログ可視化集約ツールを使っていたのですが、メモリ使用量の多さや気が付いたら落ちていたりして、VMのランニングコストや運用負荷が課題とされていました。 またUIが非常にリッチなツールだったんですが、我々のやる事と言えば『ApacheやNginxのログからステータスコードやリクエストタイムを可視化』したり、『アプリケーションでエラーが起きた
LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog LINE の Business Platform 開発担当フェローの Matsuno です。 今回は Spring Boot でアプリケーションを開発した場合のメトリクスの勘所についてご紹介しようと思います。 我々のチームでは Kotlin + Spring Boot での開発がデファクトスタンダードとなっているのですが、正直まだまだこのテクニカルスタックで開発しているエンジニアは日本では少ないのです。そこで、実際の運用の雰囲気を感じていただければと思いまして今回の記事を書くことにしました。 メトリクス取得の基本 我々のチームではメトリクスの格納先として Prometheus を利用しています。 Prometheus で格納し
AWS、マネージドサービスで監視ツールの「Prometheus」と監視データを可視化する「Grafana」を提供すると発表。AWS re:Invent 2020 Amazon Web Services(AWS)は、オンラインで開催中のイベント「AWS re:Invent 2020」で、監視ツールの「Prometheus」をマネージドサービスとして提供する「Amazon Managed Service for Prometheus」と、監視などで収集したデータをダッシュボードなどにより可視化する「Grafana」をマネージドサービスとして提供する「Amazon Managed Service for Grafana」の提供を発表しました。 クラウドネイティブなアプリケーションにおいては、アプリケーションの状態をつねに把握し迅速に対応する必要性が高まることから、アプリケーションの「可観測性」へ
インフラのいわほり(@egmc)です。 久々のエントリとなりますが、今回はインフラのMonitoring Unitとして長期的に取り組んでいた監視システムのリプレースについてのお話になります。 背景含めて長いエントリとなりますが、監視システムの長期的な運用の考え方、リプレースにあたって考慮した点などなにがしか参考になる点があれば幸いです。 何を移行したか? グリーのインフラ環境では冒頭で述べたMonitoring Unitというインフラ横断で監視システムを提供するチームが商用環境向けの共通システムの提供/運用を行っています。 監視システムにおけるリソースモニタリングシステムの構成として、オンプレ環境ではGanglia、AWS環境ではPrometheus/Grafanaスタックを採用、運用してきました。 規模感としてはざっくりと監視対象ノードがオンプレサーバが約1500台、AWS側は台数変動
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、システム統括本部でPrivate PaaSを担当している増田彬(@Go_zen_chu)と水落啓太(@keitam913)です。 僕たちはPaaSチームとして3年半ほど、ヤフー社内で利用されるPrivate PaaSの運用と関連システムの開発に携わってきました。 その中でどのようにPaaSを通じて利用者へ利便性を提供し、安定して稼働する体制作りをしてきたのかをお話しします。 PaaSとは? PaaS(Platform as a Service)という単語はさまざまな用途で利用されますが、その中で僕たちが提供しているのは、「社内のエンジニアが簡単にアプリケーションを動作することができるプラットフォーム」です。 この「簡単
Google Cloud上で運用監視ツールのPrometheusをマネージドサービスとして提供する「Google Cloud Managed Service for Prometheus」が正式版となりました。 Prometheusは、マイクロサービスに代表されるような監視対象となるサーバが増減するような動的な分散環境のシステム監視に適したツールとして開発された運用監視ツールです。 アプリケーションやコンテナ、Kubernetesのようなオーケストレーションツール、OS、サーバ、ネットワークなど、システムを構成するさまざまな要素を監視対象とすることができ、メトリクスとしてCPUの負荷やメモリ、ストレージの利用率、HTTPのレイテンシなど任意の値を取得、監視できます。 状況をグラフで表示しつつ、異常を検知するとアラートを発するなど、システム監視を統合的に行うことができます。さらにリッチなビジ
本記事ではRustでOpentelemetryをはじめることを目標に以下の点について書きます。 OpenTelemetryの概要RustのapplicationにOpenTelemetryを導入する方法前半は公式docを読みながら登場人物を整理し、後半は実際にdocker-compose上でそれらを動かします。 またRustではtracing-opentelemetry crateを利用します。 tracingについては別の記事で基本的な仕組みについて書いたのでopentelemetry固有の処理について述べます。 sample code traceの設定については、別の記事に詳しい説明を書きました。 OpenTelemetryとは最初にOpenTelemetryについての現時点での自分の理解は以下です。 OpenTelemetryとは文脈により以下のいずれかを指す CNFNのprojec
Amazon Web Services ブログ Amazon CloudWatch での Prometheus メトリクスの使用 Imaya Kumar Jagannathan、Justin Gu、Marc Chéné、および Michael Hausenblas 今週の初めに、AWS は CloudWatch Container Insights での Prometheus メトリクスモニタリングの公開ベータ版サポートを発表しました。この記事では、ユーザーがプロビジョニングする AWS クラスター上の Amazon Elastic Kubernetes Service (EKS) および Kubernetes で、コンテナ化されたワークロードに新しい Amazon CloudWatch 機能を使用する方法をご紹介します。 Prometheus は Cloud Native Compute
As of October 1, 2023, LINE has been rebranded as LY Corporation. Visit the new blog of LY Corporation here: LY Corporation Tech Blog This blog post is about an interesting experience I had while investigating and resolving a problem that happened in the Prometheus container which was still in the CrashLoopBackoff state. The phenomenon itself and the solution are obvious and simple; so simple that
Dockerはコンテナ化のための最も一般的なツールの1つであり、Dockerコンテナの内部で何か問題が起きていないかを監視するために、オープンソースコミュニティによっていくつかのツールが開発されています。 このガイドでは、そのうちの1つのツールであるcAdvisorに焦点を当てています。:cAdvisor なぜDockerコンテナを監視する必要があるのか? 監視により、ソフトウェアの状態に関する重要な情報を収集できるため、開発チームは製品を改善する方法を見つけることができます。 各コンテナは自己完結型のシステムであるため、監視はさらに不可欠です。 コンテナの監視には、各コンテナの使用状況の測定値を記録して監視システムに報告することが含まれます。 このようにして、バグの検出とアプリケーションの改善を確実にし、総合的なパフォーマンスと堅牢性を向上させます。 コンテナの監視にcAdvisorを使
Amazon Web Services ブログ re:Invent 2022 で公開された AWS オブザーバビリティに関する最新情報 この記事は What’s new in AWS Observability at re:Invent 2022 (記事公開 : 2022 年 11 月 29日) を翻訳したものです。 Amazon CloudWatch、AWS X-Ray、Amazon Managed Grafana、Amazon Managed Service for Prometheus について発表されたAWS オブザーバビリティのまとめとともに、AWS re: Invent 2022 ウィークの Kickoff をしましょう。CloudWatch でインターネットの問題がアプリケーションのパフォーマンスと可用性に与える影響の理解から、Managed Grafana での VPC サ
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く