並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 22 件 / 22件

新着順 人気順

CUDAの検索結果1 - 22 件 / 22件

  • AI時代に一人勝ち。NVIDIAの「CUDA」がIntelやAppleを蹴散らし業界の“実質的なスタンダード”になった背景を中島聡が徹底解説 - まぐまぐニュース!

    空前のAIブームの中にあって、その開発の現場で「一人勝ち」とも言うべき圧倒的なシェアを誇っているNvidia(エヌビディア)のGPU向け開発環境「CUDA」。IntelやAppleといったライバルたちを尻目に、いかにしてCUDAはトップに登り詰めたのでしょうか。今回のメルマガ『週刊 Life is beautiful』では世界的エンジニアとして知られる中島聡さんが、CUDA誕生の経緯から業界の「事実上の標準」となるまでを詳しく解説。さらにMicrosoftが5月20日に発表した「Copilot+PC」に関して、中島さんが注目したポイントを記しています。 ※本記事のタイトル・見出しはMAG2NEWS編集部によるものです/原題:NvidiaのCUDAが今の地位を築いた経緯 プロフィール:中島聡(なかじま・さとし) ブロガー/起業家/ソフトウェア・エンジニア、工学修士(早稲田大学)/MBA(ワシ

      AI時代に一人勝ち。NVIDIAの「CUDA」がIntelやAppleを蹴散らし業界の“実質的なスタンダード”になった背景を中島聡が徹底解説 - まぐまぐニュース!
    • AI時代に一人勝ち。NVIDIAの「CUDA」がIntelやAppleを蹴散らし業界の“実質的なスタンダード”になった背景を中島聡が徹底解説 - ページ 3 / 3 - まぐまぐニュース!

      人工知能の研究者たちに瞬く間に広まった4つの情報 なぜ彼が、OpenCLではなくCUDAを採用したかについては、本人と会う機会があったら是非とも聞いてみたいところですが、この事件は、人工知能の研究者たちに大きなインパクトを与えました。具体的に言えば、 長く続いていた「人工知能の冬」がようやく終わった ニューラルネットは、そのサイズがものを言う ニューラルネットの計算は、GPUを使うと桁違いの高速化が出来る GPUを使いこなすには、CUDAを使えば良い という情報が、瞬く間に広まったのです。4番目は、OpenCLでも良かったはずなのですが、たまたまAlexNetがCUDAを採用していたため、「ニューラルネットの高速化にはCUDAを使うべし」という情報が研究者の間に瞬く間に広まってしまったのです。 この事件をきっかけに、CUDAが人工知能の研究者たちの間に瞬く間に広まったとは言え、CUDAはN

        AI時代に一人勝ち。NVIDIAの「CUDA」がIntelやAppleを蹴散らし業界の“実質的なスタンダード”になった背景を中島聡が徹底解説 - ページ 3 / 3 - まぐまぐニュース!
      • GitHub - karpathy/llm.c: LLM training in simple, raw C/CUDA

        LLM training in simple, pure C/CUDA. There is no need for 245MB of PyTorch or 107MB of cPython. For example, training GPT-2 (CPU, fp32) is ~1,000 lines of clean code in a single file. It compiles and runs instantly, and exactly matches the PyTorch reference implementation. I chose GPT-2 as the first working example because it is the grand-daddy of LLMs, the first time the modern stack was put toge

          GitHub - karpathy/llm.c: LLM training in simple, raw C/CUDA
        • AI分野でのNVIDIA一強状態を崩すためにIntel・Google・富士通・Armなどが参加する業界団体がCUDA対抗のAI開発環境を構築中

          NVIDIAはAI開発に使われるGPUで大きなシェアを獲得しているほか、ソフトウェア開発および実行環境「CUDA」もAIの開発現場で広く採用されています。そんなNVIDIAの一人勝ち状態に対抗するべく、Intelや富士通、Google、Armなどのテクノロジー企業が参加する業界団体「Unified Acceleration Foundation(UXL Foundation)」がオープンなソフトウェア開発環境の構築を進めています。 UXL Foundation: Unified Acceleration https://uxlfoundation.org/ Unified Acceleration (UXL) Foundation https://www.intel.com/content/www/us/en/developer/articles/news/unified-accelera

            AI分野でのNVIDIA一強状態を崩すためにIntel・Google・富士通・Armなどが参加する業界団体がCUDA対抗のAI開発環境を構築中
          • 安くなってきた中古ゲーミングノートPCを使いローカル生成AIのStable-Diffusion ForgeをCUDAでチューニングしてみた。FP8+LCM Turbo+HyperTileで3.8秒〜15.4秒/枚とそこそこ高速。CPU対比5倍速。古いGPUでもオススメ

            Kapper@Linuxガジェヲタ&異世界小説家&生成AI&電子工作大好き @kapper1224 という事で中古ゲーミングノートブックPC+CUDA+Stable-Diffusion Forge+FP8+LCM Turbo+HyperTileで1024x512が7.6秒/枚 Model Memory (MB) = 819.7106971740723 Minimal Inference Memory (MB) = 1024.0 贅沢を言わなければ世代遅れマシンでも十分使える。 CPUと比べて5倍速程度だけど pic.twitter.com/IDI9ICJq8Z 2024-03-24 11:19:13

              安くなってきた中古ゲーミングノートPCを使いローカル生成AIのStable-Diffusion ForgeをCUDAでチューニングしてみた。FP8+LCM Turbo+HyperTileで3.8秒〜15.4秒/枚とそこそこ高速。CPU対比5倍速。古いGPUでもオススメ
            • NVIDIAがCUDAを他のハードウェア上で実行することを禁止

              NVIDIAが、GPU向けのコンピューティングプラットフォームとして提供している「CUDA」のソフトウェア利用許諾契約(EULA)の中で、翻訳レイヤーを通じてNVIDIA以外のハードウェアプラットフォームで実行することを禁止していることがわかりました。もともとこの条項はNVIDIAのサイト上で公開されているオンライン版のEULAには含まれていましたが、インストールしたCUDAのドキュメントにも含まれるようになったとのことです。 License Agreement for NVIDIA Software Development Kits — EULA https://docs.nvidia.com/cuda/eula/index.html Nvidia bans using translation layers for CUDA software — previously the prohi

                NVIDIAがCUDAを他のハードウェア上で実行することを禁止
              • Apple A4チップやAMD Ryzenの生みの親であるジム・ケラー氏がNVIDIAのCUDAとx86アーキテクチャを「沼」と呼んで批判

                AMDのAthlonやZenマイクロアーキテクチャ、Apple A4などさまざまなチップの開発に携わったアーキテクトでエンジニアのジム・ケラー氏が、X(旧Twitter)で「NVIDIAのCUDAは沼です」と批判したことが報じられています。 Jim Keller criticizes Nvidia's CUDA, x86 — 'Cuda’s a swamp, not a moat. x86 was a swamp too' | Tom's Hardware https://www.tomshardware.com/tech-industry/artificial-intelligence/jim-keller-criticizes-nvidias-cuda-and-x86-cudas-a-swamp-not-a-moat-x86-was-a-swamp-too ケラー氏の経歴は以下の記事を

                  Apple A4チップやAMD Ryzenの生みの親であるジム・ケラー氏がNVIDIAのCUDAとx86アーキテクチャを「沼」と呼んで批判
                • NVIDIAの「CUDA」とIntelのGPUをつなぐソフトウェア「ZLUDA」がAMD向けとして転身復活するも今後の開発は絶望的

                  NVIDIAのコンピューティング向けGPU活用技術「CUDA」をIntel GPUで実行できるようにしたソフトウェア「ZLUDA」が復活しましたが、IntelではなくAMDのGPUで動作するよう改変が加えられていました。 AMD Quietly Funded A Drop-In CUDA Implementation Built On ROCm: It's Now Open-Source - Phoronix https://www.phoronix.com/review/radeon-cuda-zluda Software allows CUDA code to run on AMD and Intel GPUs without changes — ZLUDA is back but both companies ditched it, nixing future updates | T

                    NVIDIAの「CUDA」とIntelのGPUをつなぐソフトウェア「ZLUDA」がAMD向けとして転身復活するも今後の開発は絶望的
                  • AMD Quietly Funded A Drop-In CUDA Implementation Built On ROCm: It's Now Open-Source - Phoronix

                    AMD Quietly Funded A Drop-In CUDA Implementation Built On ROCm: It's Now Open-Source Written by Michael Larabel in Display Drivers on 12 February 2024 at 09:00 AM EST. Page 1 of 4. 153 Comments. While there have been efforts by AMD over the years to make it easier to port codebases targeting NVIDIA's CUDA API to run atop HIP/ROCm, it still requires work on the part of developers. The tooling has i

                      AMD Quietly Funded A Drop-In CUDA Implementation Built On ROCm: It's Now Open-Source - Phoronix
                    • 「NVIDIA GeForce RTX 3050 6GB」がこっそり登場。CUDAコア数もメモリバス幅も減少、補助電源が不要に

                      「NVIDIA GeForce RTX 3050 6GB」がこっそり登場。CUDAコア数もメモリバス幅も減少、補助電源が不要に NVIDIAは2月2日(現地時間)、これまで展開してきた「GeForce RTX 3050 8GB」の新しいバリアントとして「GeForce RTX 3050 6GB」を投入した。NVIDIAのメーカー想定売価は169ドル(海外ソース)とされており、より廉価に設定されている。 「NVIDIA GeForce RTX 3050 6GB」がこっそり登場 - CUDAコア数もメモリバス幅も減少、補助電源が不要に RTX 3050にはすでに8GBモデルが展開されてきており、今回投入されたのはいわゆる廉価版バリアント。NVIDIA Ampereアーキテクチャを採用するGA107-325コアを搭載しており、GPUメモリにGDDR6 6GBを搭載。ベースクロックは1,042MH

                        「NVIDIA GeForce RTX 3050 6GB」がこっそり登場。CUDAコア数もメモリバス幅も減少、補助電源が不要に
                      • CUDAコア数が20%以上も増加したSUPERモデル第1弾、NVIDIA「GeForce RTX 4070 SUPER」実力検証 - エルミタージュ秋葉原

                        エルミタ的速攻撮って出しレビュー Vol.1382 CUDAコア数が20%以上も増加したSUPERモデル第1弾、NVIDIA「GeForce RTX 4070 SUPER」実力検証 2024.01.16 更新 文:編集部 池西 樹/撮影:松枝 清顕 NVIDIA Corporation(本社:アメリカ・カリフォルニア州)から、CES 2024に合わせて発表された最新グラフィックスカード「GeForce RTX 40 SUPER」シリーズ。その第1弾モデルとなる「GeForce RTX 4070 SUPER」の発売が2024年1月17日より解禁される。そこで今回は先日のファーストインプレッションに続き、「GeForce RTX 4070 SUPER Founders Edition」の実力をじっくりと検証していくことにしよう。 AD104を採用しながらコア数、L2キャッシュとも大幅に増加 今

                          CUDAコア数が20%以上も増加したSUPERモデル第1弾、NVIDIA「GeForce RTX 4070 SUPER」実力検証 - エルミタージュ秋葉原
                        • Moore Threads、CUDAコードがそのまま移植できるGPU「MTT S4000」

                            Moore Threads、CUDAコードがそのまま移植できるGPU「MTT S4000」
                          • CUDAによる局所特徴量計算の高速化とソースコード公開 - Fixstars Tech Blog /proc/cpuinfo


                               adaskitlibSGMcuda-bundle-adjustment Visual SLAMSfM(Structure from Motion)CUDAcuda-efficient-featuresGitHub fixstars/cuda-efficient-features   Visual SLAMSfM2姿
                              CUDAによる局所特徴量計算の高速化とソースコード公開 - Fixstars Tech Blog /proc/cpuinfo
                            • NVIDIA GeForce RTX 3050 8GB版が生産終了。CUDAコアを減らした6GB版が新たに登場

                              NVIDIAがGeForce RTX 3050 8GB版の生産終了へ。RTX 3050 6GB版が2024年1月に新たに登場。 消息称英伟达 RTX 3050 8G 显卡将停产,6G 版 1 月上市 – IT之家 (ithome.com) NVIDIAではGeForce RTX 3050 8GB版を2022年1月5日に発売しましたが、中国で半導体製品関係のリーク情報が流れる掲示板、『博板堂』にて同グラフィックカードがまもなく生産終了となり、2024年1月に現行モデルより性能を落としたGeForce RTX 3050 6GBが新たに登場し、置き換えられる事が明らかになりました。 It is expected use same GPU as 3050 Mobile, 2048 CUDA https://t.co/C01MZPzo7K — 포시포시 (@harukaze5719) Decembe

                                NVIDIA GeForce RTX 3050 8GB版が生産終了。CUDAコアを減らした6GB版が新たに登場
                              • GPU・CUDAを活用して数値計算やAIのトレーニングを高速化するのに必要な基礎知識のコード例付きまとめ

                                GPUはCPUよりもはるかに多くのコアを備えており、多数の並列処理を行う事が可能です。そうしたGPUの性能を活用するために必要な知識を、ITエンジニアのリジュル・ラジェシュさんがブログにまとめています。 GPU Survival Toolkit for the AI age: The bare minimum every developer must know https://journal.hexmos.com/gpu-survival-toolkit/ 現代のAIモデルで使用されているTransformerアーキテクチャは並列処理を活用して大きく性能を向上させており、そうしたAIの開発に関わる場合は並列処理についての理解が必須になってきます。CPUは通常シングルスレッドの逐次処理性能が高まるように設計されており、複雑なAIモデルで必要となる、多数の並列計算を効率的に分散して実行するのに

                                  GPU・CUDAを活用して数値計算やAIのトレーニングを高速化するのに必要な基礎知識のコード例付きまとめ
                                • How to Optimize a CUDA Matmul Kernel for cuBLAS-like Performance: a Worklog

                                  Kernel 1: Naive Implementation In the CUDA programming model, computation is ordered in a three-level hierarchy. Each invocation of a CUDA kernel creates a new grid, which consists of multiple blocks. Each block consists of up to 1024 individual threads.These constants can be looked-up in the CUDA Programming guide. Threads that are in the same block have access to the same shared memory region (S

                                    How to Optimize a CUDA Matmul Kernel for cuBLAS-like Performance: a Worklog
                                  • Nintendo Switch 2の詳細スペック判明。CUDAコアは1280基、CPUはArm A78を8コア搭載


                                    Nintendo Switch 2GPUCUDA1280CPUArm A788 Nintendo Switch 2Gamescom2023Unreal Engine 5 AmpereGPUGPUCUDACPU Samsung Foundry 7LPH(8-nanometer improved version)  Revegnus (@Tech_Reve) September
                                      Nintendo Switch 2の詳細スペック判明。CUDAコアは1280基、CPUはArm A78を8コア搭載
                                    • GREENLIGHT 1/64 1971 Plymouth 'Cuda THE BROADMOOR PIKES PEAK INTERNATIONAL HILL CLIMB  "GRAN TURISMO" RACE TO THE CLOUDS - usunonooのブログ@トミカ倉庫

                                      【当ブログではアフィリエイト広告・PRが表示されています。】 皆様、こんばんは。 usunonooです。 今夜は グリーンライト 1/64スケール パイクスピーク インターナショナル ヒルクライム 1971 プリムス クーダ をご紹介致します。 こちらはグリーンライトとレースゲームのグランツーリスモとのコラボモデルとして、2023年7月頃からトイザらスなどでも入手可能なミニカーとして発売されていました。 リンク アメリカ・コロラド州にあるロッキー山脈の東端に聳える山、パイクス・ピーク。 その山の標高2800mのスタート地点からおよそ20kmにも及ぶ一本道を、山頂がある標高4301mを目指しひた走るレースが『パイクスピーク・インターナショナル・ヒルクライム』と呼ばれています。 アメリカ国内においては、インディ500に次ぐ歴史と人気を誇るモータースポーツとして認知されており、1916年から毎年

                                        GREENLIGHT 1/64 1971 Plymouth 'Cuda THE BROADMOOR PIKES PEAK INTERNATIONAL HILL CLIMB  "GRAN TURISMO" RACE TO THE CLOUDS - usunonooのブログ@トミカ倉庫
                                      • huggingfaceのaccelerateを使って訓練時のCUDA out of memoryを回避する - Qiita

                                        はじめに 学習スクリプトを実行しているときにGPUにメモリが乗り切らなくてCUDA out of memoryで処理が落ちてしまい、学習スクリプトを最初から実行し直すハメになることがよくあります。 特に自然言語処理とかだと、batch毎に最大系列長に合わせて短い系列をpaddingするような処理をしている場合、毎ステップで必要なGPUメモリが変化するため、バッチサイズを大きく設定していると1エポック終わるまで不安で仕方ありません。 さらにTransformerベースのアーキテクチャーを使っている場合は、消費メモリが系列長に対して2乗のオーダーなので、ちょっと長い系列長のデータがあったら想定以上にメモリを消費して溢れてしまうケースとかもよくあるんじゃないでしょうか。 huggingfaceのaccelerateというライブラリ内のfind_executable_batch_sizeという機能

                                          huggingfaceのaccelerateを使って訓練時のCUDA out of memoryを回避する - Qiita
                                        • CUDA 10.xのDockerイメージをローカルでビルドする - Qiita

                                          1. はじめに https://hub.docker.com/r/nvidia/cudaを見るとわかるようにEOLとなったCUDAバージョンのDockerイメージが削除されています。ただし、Web上にある公開実装ではCUDA 10.x系のDockerイメージを使っていることがあり、これらの動作確認をするときに困ります。 幸いにもDockerイメージ作成環境はhttps://gitlab.com/nvidia/container-images/cudaにて公開されているため、ここでは以下のDockerイメージをローカルでビルドすることを試みます。 nvidia/cuda:10.2-base-ubuntu18.04 nvidia/cuda:10.2-runtime-ubuntu18.04 nvidia/cuda:10.2-devel-ubuntu18.04 nvidia/cuda:10.2-c

                                            CUDA 10.xのDockerイメージをローカルでビルドする - Qiita
                                          • CUDA&cuDNN環境構築のためのバージョン確認方法(Windows) - 101の保存箱

                                            はじめに 深層学習技術を用いたソフトを使用する際に、CUDAとcuDNNの導入が必要なケースも増えてきました。 ダウンロードやインストールもそこそこ難易度が高いですが、インストールできたとしても動かないことがよくあります。よくある問題の1つは、バージョンの相性問題です。 そこでこの記事では、各ツールのバージョンを確認する方法を記載します。(※各ツールのインストール方法は扱いません) バージョン合わせの重要性 ハード側は、GPU ドライバーのバージョンによって、動作するCUDAバージョンが決まり1、そのCUDAバージョンによって動作するcuDNNのバージョンが決まり2ます。 この条件を満たした上でさらに、ソフト側がサポートするバージョンであること、が求められます。 ※ソフト側からすれば使いたいのはcuDNNやCUDAなので、以下のように逆の流れで決まるわけですね。 ソフトはcuDNNのバージ

                                              CUDA&cuDNN環境構築のためのバージョン確認方法(Windows) - 101の保存箱
                                            • Python: LightGBM v4.0 の CUDA 実装を試す - CUBE SUGAR CONTAINER

                                              LightGBM のバージョン 4.0.0 が 2023-07-14 にリリースされた。 このリリースは久しぶりのメジャーアップデートで、様々な改良が含まれている。 詳細については、以下のリリースノートで確認できる。 github.com リリースの大きな目玉として CUDA を使った学習の実装が全面的に書き直されたことが挙げられる。 以前の LightGBM は、GPU を学習に使う場合でも、その計算リソースを利用できる範囲が限られていた。 それが、今回の全面的な刷新によって、利用の範囲が拡大されたとのこと。 ただし、PyPI で配布されている Linux 向け Wheel ファイルは CUDA での学習に対応していない。 対応しているのは CPU と、GPU でも OpenCL の API を使ったもの。 そのため、もし CUDA を使った学習を利用したい場合には自分で Wheel を

                                                Python: LightGBM v4.0 の CUDA 実装を試す - CUBE SUGAR CONTAINER
                                              1