サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
デスク環境を整える
aru47.hatenablog.com
(最新SSD IOはPCIe x4でした。ご指摘ありがとうございます。) はじめに どの処理で律速しているか調べる 各処理の速度改善方法 データ読み込み速度の改善 データ前処理速度の改善 GPU処理速度の改善 コンピューティングについての他記事 はじめに Kaggle Advent Calendar 2022 8日目です。 突然ですが、あなたはDNN学習時にどの処理で学習速度が律速しているか把握してますか? DNN学習には図に示すように大きく3つの要素があります: (SSDからの)データ読み込み (CPUによる)データ前処理 (GPUによる)DNN計算 学習時のデータの流れとしては SSDからデータが読み込まれ、CPUに送られる(SATA or PCIe) CPUにてaugmentationや正規化などの前処理が行われ、GPUにデータが送られる(PCIe x16) GPUにてDNNの計算・
記事について 画像はDetectron2より 物体検出をほとんど使っていない方を対象として、2021年末の物体検出ライブラリを俯瞰することが本記事の目的。 ある程度物体検出の経験ある方は学ぶことは少ないと思う。またあくまで書いてあるのは筆者の感想であるので人によっては全く違う意見になることもあるかと。また本記事ではモデルの技術的な説明はありません。それらについて理解を深める際は参考ページや元論文を当ってみると良いかと思います。 また大変遅くなりましたが、本記事はKaggleアドベントカレンダー(裏)の24日目でもあります(年明けちゃってすみません)。 qiita.com 記事について 紹介するライブラリ一覧 所感 アンサンブルについて 精度vs速度トレードオフ ライブラリ紹介 yolov5 学習について 推論について Yolox 学習について Efficientdet 学習コード torc
"Locality is efficiency, Efficiency is power, Power is performance, Performance is King", Bill Dally マルチスレッディングとは? CPUとGPUのマルチスレッディングの違いをブログにまとめていたけど例によって誰も興味なさそう— arutema47 (@arutema47) 2021年8月16日 つぶやいたら読みたい方が多そうだったので完成させました。 マルチスレッディングとはメモリ遅延を隠蔽しスループットを上げるハードウェアのテクニックです。 ただCPUとGPUで使われ方がかなり異なるため、その違いについて考えてみる記事です。 (SIMDについて並列プログラミングの観点から触れるべきでしたが、時間無いマルチスレッディングに注目するため初版では省きました。) 本記事について 本記事はCPUとG
目的 有名所のDNN特許を調べてみました。ほとんどがGoogleの特許ですがBatchNorm、transformer以外日本で登録されていないのが多いですね。 調べたところで力尽きてちゃんとクレームはトップ以外読んでません。随時リストはアップデートしていきます。 参考: https://www.reddit.com/r/MachineLearning/comments/c5mdm5/d_googles_patent_on_dropout_just_went_active_today/www.reddit.com 感想 Dropout,Batchnorm,transformerなど根幹特許を多くGoogleに抑えられていますが、基本的にはPatent Trollに対しての防衛でGoogleから権利行使することはないようです。(訴訟は今の所ない) 目的 感想 Tips 画像認識 Incept
TLdr; torch2trtというpytorchモデルをTensorRTに簡単に変換するライブラリを使い、Jetson nano+xavier上で画像認識とセグメンテーションの推論処理を10倍高速化できることを確認しました。 ただtorch2trtはカスタムモデルには対応していないため(resnetなどtorchvision標準モデルのみ)、自作モデルのTensorRT変換は大変だと思います。 TLdr; TensorRTとは TesnorRTを気軽に試す 画像認識 画像セグメンテーション 他高速化シリーズ aru47.hatenablog.com aru47.hatenablog.com TensorRTとは https://amzn.to/3q9qrEK https://amzn.to/37ndtL5 例えばJetsonNanoなどは安価に入手できるエッジデバイスだが搭載しているGP
前回のあらすじとこの記事の目的 前編: ハードウェアの速度をどう評価するか考える(1) ~クロック、OPS~ 現代ハードウェアの計算性能を評価する尺度であるメモリ律速の概念とルーフラインモデルについて理解を深めることです。 本記事を通し、あるアルゴリズムが速度が十分に出ない時、それがハードウェアのどの性能(メモリか演算)に律速されてるかイメージできるようになるのが目標です。 しかし前編は子供が起きたので前編は演算速度だけで終わってしまった! 今回は起きる前にメモリ律速まで書くぞ! アチアチのGPUお待ち! 前回のあらすじとこの記事の目的 メモリ律速 メモリが重要なワケ GPUから読み解くメモリバンド幅 ルーフラインモデル Further comments TPU vs GPU FP16, BF16, TF32などの低精度Mixed Precision学習 メモリ律速 脱線したが本線のメモリ
この記事の目的 現代ハードウェアの計算性能を評価する尺度であるメモリ律速の概念とルーフラインモデルについて理解を深めること。 対象読者はメモリバンド幅やOPSなどの概念があまりわかっていない人です。例えば本記事を通し、あるアルゴリズムが速度が十分に出ない時、それがハードウェアのどの性能(メモリか演算)に律速されてるかイメージできるようになるのが目標です。 思うままに書いていたら肝心のメモリの話まで行きませんでした。そのため前編はクロックや演算(OPS)についてです。 TPUのルーフラインモデル この図はTPUの論文に出てくるRoofline modelです。この図が意味するところを理解するのが本記事の最終目標となります。 ハードウェアの速度をどう評価すればいいか? ベンチマークによる評価 ハードウェア速度の評価は昔から大きな問題でした。わかりやすい評価指標にある代表的なアルゴリズム数種類で
https://www.kaggle.com/kyoshioka47 目的 この度約10ヶ月間Kaggleに参戦しCompetition Masterになり賞金も獲得できました。本記事では参戦したコンペ中の思考や得られた事を振り返り記録します。これからKaggleを始めMasterを目指す人の参考になればと思います。 また試しに昔登録したamazonアフィリエイトのリンクをいくつか貼ってみました。コーヒー代を寄贈する気持ちでクリック先で本を買ってもらえると嬉しいです。 目的 バックグラウンド 始まり Lyftコンペ 学んだこと Kaggleで強い人って? PKUコンペ 学んだこと Bengali Shake Downの洗礼 Shake Downの原因 ShakeDownを避けるために実践したこと PANDA チームアップ 優勝 Winner's call 闇の小麦コンペ 最後に勉強してよか
大遅刻ですが、LiDARアドベントカレンダーの記事です。 CES 2024でもたくさんLiDARが発表され、各社大きく性能を伸ばしています。 なんで各社横並びで性能向上できたかは。。今年中に情報解禁されるんじゃないでしょうか。 Valeo Scala3 news.yahoo.co.jp youtu.be www.valeo.com OEMメーカのため詳しい性能はオープンになっていないが、中国lidar導入は難しい日系OEMにとっても本命の一つか。 SCALA2に比べると10倍の解像度向上を達成しており、解像度は水平垂直共に0.05度らしい。 s % HesaiやRobosenseの同解像度品と比べるとかなり粗く見えるのは気の所為? Robosense M3 www.youtube.com www.robosense.ai 解像度0.05度、10%反射率物体の検知距離300m 940nm V
記事の目的 本記事ではdToFとiToF LiDARの基本や原理について説明します。 また込み入った理論ではなく、LiDARの大まかな種類や用途を理解するのが目標です。 LiDARセンサはLight Detection and Rangingの略で光を使った距離測定技術の総称です。 RADARが電磁波を使って距離を測るのに対して、光を使った距離センサを指します。 こちらは距離センサ全般の記事です。合わせてどうぞ。 aru47.hatenablog.com 記事の目的 LiDARには大きく2種類ある dToF LiDAR 原理 dToF LiDARの製品 dToF LiDARの種類について iPadのdToF LiDAR indirect Time of Flight 原理 iToF LiDARの製品 参考文献 最後に LiDARには大きく2種類ある LiDARには大きく2つ種類があります。
なんの論文? CenterNetの著者からの最新論文。CenterNetと同様にシンプルなアプローチながら、有効性や応用性が高く様々な研究で使われるようになりそう。 前作CenterNetはPointを用いた物体検出であったが、今回は同様のPoint-baseのネットワークでトラッキングの提案。 従来Deepトラッキング系の研究よりも高速、かつ高精度を実現。 著者のAbst.が端的で面白い。 "Our tracker, CenterTrack, applies a detection model to a pair of images and detections from the prior frame. CenterTrack localizes objects and predicts their associations with the previous frame. That’
このページを最初にブックマークしてみませんか?
『arutema47's blog』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く