並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 1466件

新着順 人気順

CUDAの検索結果1 - 40 件 / 1466件

  • GraphRAGシステムの使い方:初心者向け完全ガイド - Sun wood AI labs.2

    はじめに GraphRAGは、テキストデータのインデックス作成と質問応答を行うための強力なシステムです。この記事では、GraphRAGシステムの基本的な使い方を、初心者の方にも分かりやすく説明していきます。 こちらの記事もおすすめ GraphRAGの検索手法:LocalSearchとGlobal Searchの徹底比較はじめにみなさん、こんにちは!今日は、GraphRAGというすごく便利なライブラリの中にある二つの検索方法について、わかりやすくお話しします。その二つとは、「LocalSearch(ローカルサーチ)」と「Global Search(グローバ...hamaruki.com2024.07.04 GraphRagでグローバル検索システムの構築:AI駆動のデータ分析入門はじめにこのチュートリアルでは、大規模なデータセットに対して効率的な検索を行う「グローバル検索システム」の構築方法を

      GraphRAGシステムの使い方:初心者向け完全ガイド - Sun wood AI labs.2
    • Transformers高速化ライブラリvLLMのAsyncLLMEngineを利用した非同期高速文章生成 - 端の知識の備忘録

      概要 先日までKaggleのAIMOコンペ(数学の問題をLLMに解かせて正答率を競う)に参戦していました。結果は初のチーム参加でメンバーに助けられつつ運もあり、なんとか銀メダルを取れました!これでMasterにリーチがかかりましたが、金メダルは未だ取れる気がしないので遠い道のりです……。 www.kaggle.com このコンペについて、近い内に同様のコンペが開催予定なこともあり上位解法があまり出ていない状態なので、どのような手法が良かったのかまだわかっていないのですが、とりあえず公開されている情報を元にすると、 LLMとしてはほぼほぼ全員が数学問題に特化したLLMであるDeepseek-Math-7Bを利用している LLMが出力したPythonコードを実行するインタープリターを実装することで、LLMのハルシネーションによる計算ミスを防ぐパイプラインが有力であった LLMの出力を比較的高い

        Transformers高速化ライブラリvLLMのAsyncLLMEngineを利用した非同期高速文章生成 - 端の知識の備忘録
      • 「AMD ROCm」が「WSL 2」にベータ対応 ~NVIDIAでいうところの「CUDA」に相当/マルチGPU、「Tensorflow」もサポート

          「AMD ROCm」が「WSL 2」にベータ対応 ~NVIDIAでいうところの「CUDA」に相当/マルチGPU、「Tensorflow」もサポート
        • DeepLearning系の将棋AIがRyzenのiGPUで簡単に動いた - シンギュラリティ実験ノート

          DeepLearning系の将棋AI(dlshogiやふかうら王)をRyzenのiGPU(CPU内蔵GPU)で動かすのは大変だと思っていた。しかし、今日、なにげなくWindows11環境にDeepLearning系の将棋AIをインストールしたところ、onnxruntimeを使えばDeepLearning系の将棋AI(dlshogiやふかうら王)がiGPUで簡単に動くことが分かった。 これまでの経緯 RyzenのGPUで将棋AIを動かすには、ROCmというAMDのGPU用ドライバが必要だと思っていた。そのため苦労してUbuntu環境でROCmをインストールしたり、onnxruntimeをROCmに対応させるためUbuntuでonnxruntimeをビルドし直したりしていた。興味のある方はこれまでの記事を見てもらいたい。 将棋AI dlshogi(Python版)を1000ドルPCで動かす -

            DeepLearning系の将棋AIがRyzenのiGPUで簡単に動いた - シンギュラリティ実験ノート
          • AMD ROCmを使うことで何ができるのか - シンギュラリティ実験ノート

            MINISFORUM UM790 Proを注文した後、AMDもROCmというソフト(NVIDIAのCUDAに該当するもの)を提供していることを知った。このAMD ROCmを使うことで、UM790 Proで動作が期待できるAI関連ソフトについて書きたい。 ROCmでMNIST ROCmについて正確に知りたい方は本家のページを見ていただきたい。 www.amd.com ROCmを使ってAMDのGPUでMNIST(文字(数字)認識の機械学習サンプルプログラム)を動作させた報告を幾つか見つけた。まず下記サイトではノートPCのRyzenのAPU(CPU+iGPU)で無理やりであるがMNISTを動かした様子。 blog.ingage.jp こちらはAMDのGPUとして何を使ったかはわからないが、やはりMNISTを動作させている。 qiita.com 基本的にはこちらに書いてある通りにやれと書かれている

            • エヌビディア株はまだ上昇する…1年後に200ドルに到達する7つの理由

              Matthew Fox [原文] (翻訳:大場真由子、編集:井上俊彦) Jul. 01, 2024, 10:30 AM 投資 45,285 コンステレーション・リサーチは、エヌビディアの株価は今後1年間で65%上昇し、1株200ドルになるだろうと述べた。 このリサーチ会社は、エヌビディアの株価はAI分野での優位性の恩恵を受け、今後18カ月から24カ月は上昇を続けると予想している。 エヌビディアのビジネスには継続的な成長を可能にする7つの強みがあるという。 コンステレーション・リサーチ(Constellation Research)によると、エヌビディア(Nvidia)の株価は今後12カ月で1株当たり200ドルまで上昇し、現在の上昇基調はさらに2年間続くという。 コンステレーション・リサーチ創業者のR「レイ」・ワン(R"Ray"Wang)は2024年6月16日、「AIブームを加速させているG

                エヌビディア株はまだ上昇する…1年後に200ドルに到達する7つの理由
              • Document Layout Analysisに物体検出を利用したDocument Object Detectionのすゝめ - LayerX エンジニアブログ

                はじめに こんにちは。バクラク事業部 機械学習チームの機械学習エンジニアの上川(@kamikawa)です。 バクラクではAI-OCRという機能を用いて、請求書や領収書をはじめとする書類にOCRを実行し、書類日付や支払い金額などの項目内容をサジェストすることで、お客様が手入力する手間を省いています。 書類から特定の項目を抽出する方法は、自然言語処理や画像認識、近年はマルチモーダルな手法などたくさんあるのですが、今回は項目抽出のための物体検出モデルを構築するまでの手順について紹介します。 Document Layout Analysisとは Document Layout Analysisとは、文書のレイアウトを解析するタスク(直訳)のことを指します。具体的には、文書内のさまざまな要素(例えば、テキスト、画像、表、見出し、段落など)を抽出し、それぞれの位置や意味などを明らかにすることを目的とし

                  Document Layout Analysisに物体検出を利用したDocument Object Detectionのすゝめ - LayerX エンジニアブログ
                • GitHub - NVIDIA/multi-gpu-programming-models: Examples demonstrating available options to program multiple GPUs in a single node or a cluster

                  This project implements the well known multi GPU Jacobi solver with different multi GPU Programming Models: single_threaded_copy Single Threaded using cudaMemcpy for inter GPU communication multi_threaded_copy Multi Threaded with OpenMP using cudaMemcpy for inter GPU communication multi_threaded_copy_overlap Multi Threaded with OpenMP using cudaMemcpy for itner GPU communication with overlapping c

                    GitHub - NVIDIA/multi-gpu-programming-models: Examples demonstrating available options to program multiple GPUs in a single node or a cluster
                  • grapevine-AI/gemma-2-27b-it-gguf · Hugging Face

                    What is this? Googleの言語モデルgemma-2-27b-itをGGUFフォーマットに変換したものです。 imatrix dataset 日本語能力を重視し、日本語が多量に含まれるTFMC/imatrix-dataset-for-japanese-llmデータセットを使用しました。 なお、謎のエラー「GGML_ASSERT: D:\a\llama.cpp\llama.cpp\ggml\src\ggml-cuda.cu:1257: to_fp32_cuda != nullptr」を回避するため、imatrixの算出においてはf16精度のモデルを使用しました。 Chat template <start_of_turn>user ここにpromptを書きます<end_of_turn> <start_of_turn>model Note llama.cpp-b3266以降でのみご

                      grapevine-AI/gemma-2-27b-it-gguf · Hugging Face
                    • エヌビディア一強が崩れる可能性も 米中共同で開発が進む「大規模言語モデル」の革命的な進化 | マネーポストWEB


                      621AI84 1 202310使1643-1011
                        エヌビディア一強が崩れる可能性も 米中共同で開発が進む「大規模言語モデル」の革命的な進化 | マネーポストWEB
                      • BitTransformer界隈に激震!ついに使える乗算フリーLLMが登場!?|shi3z

                        今年の3月ごろに話題になって、それから僕も実験してみたけどさっぱり学習できないBitTransformerに変わり、新たにMutmulFreeTransformerというものが出てきたようだと、NOGUCHI, Shojiさんが教えてくれたので試してみた LLM 1Bパラメータで行列計算を完全に排除できた(らしい)。メモリ消費量を学習時10倍、推論時61%Max削減(らしい)。https://t.co/tB3x1kmo4Fhttps://t.co/pb0YgAKSpw HFにモデルがアップロードされているので試してみよう。 学習は8x H100で370M:5h、1.3B: 84h、2.7B: 173hらしく1x 4090は厳しい — NOGUCHI, Shoji (@noguchis) June 26, 2024 ただ、2.7Bモデルが量子化なしで4090で推論できてるとしたらそれだけです

                          BitTransformer界隈に激震!ついに使える乗算フリーLLMが登場!?|shi3z
                        • スーパーコンピューターで日本がトップに立ち続けていたら今ブームのAIに繋..

                          スーパーコンピューターで日本がトップに立ち続けていたら今ブームのAIに繋がったのか? それともスパコンとAIは関係ない? 脱Android⁠⁠、Huaweiが独自OS「HarmonyOS NEXT」てのがニュースなったけど これもスパコン技術が応用されてそこから生まれてたりするの? スパコン予算をすべてに優先してたら日本産独自OSとか日本産AIに繋がってたんだろうか? つながらない OSはもうぜんぜんまったく完璧に関係ないのでAIについてだけ説明する まず2010年代に始まった第3次AIのブームはソフトウェアというかアルゴリズムのブレークスルーがきっかけ カナダのYoshua Bengio、Geoffrey Hinton、Yann LeCunの3人がディープニューラルネットワークに関する発見をしたこと 3人はこの業績で「ディープニューラルネットワークがコンピューティングの重要な要素となるた

                            スーパーコンピューターで日本がトップに立ち続けていたら今ブームのAIに繋..
                          • インデックス以外に持っている個別株トップ5 - FIRE: 投資でセミリタイアする九条日記


                            3510.6  Microsoft 5 NVIDIA 4 Meta 3 Amazon 2 Google 1 ARCC    Microsoft 5Microsoft2023112029.6 0.45%S&P5007.19 MicrosoftAzureAI
                              インデックス以外に持っている個別株トップ5 - FIRE: 投資でセミリタイアする九条日記
                            • DeepSpeedはなぜ速いのか〜推論編〜

                              はじめに 昨今、ChatGPTに代表されるように、LLM(大規模言語モデル)が大きな盛り上がりを見せています。 本記事では、LLMの学習や推論を高速化するためのライブラリであるDeepSpeedが、どのようにしてその高速化を達成しているのかを解説します。 DeepSpeedの理論部分、特に推論について日本語で解説している記事があまりなかったため、今回執筆することにしました。 この記事を読んで欲しい人 DeepSpeedでなぜ推論が速くなるのかを知りたい人 DeepSpeedを使って手元の推論時間を短縮したい人 DeepSpeedとは DeepSpeedは、Microsoftから発表されている学習や推論の高速化、圧縮などを扱うライブラリです。本記事では、特に推論の高速化について解説します。推論高速化のためのサービスとしては、他にもvLLMやTGI、Together Inference Eng

                                DeepSpeedはなぜ速いのか〜推論編〜
                              • Optimizing AI Inference at Character.AI

                                At Character.AI, we're building toward AGI. In that future state, large language models (LLMs) will enhance daily life, providing business productivity and entertainment and helping people with everything from education to coaching, support, brainstorming, creative writing and more. To make that a reality globally, it's critical to achieve highly efficient “inference” – the process by which LLMs g

                                  Optimizing AI Inference at Character.AI
                                • GitHub - karpathy/LLM101n: LLM101n: Let's build a Storyteller

                                  What I cannot create, I do not understand. -Richard Feynman In this course we will build a Storyteller AI Large Language Model (LLM). Hand in hand, you'll be able create, refine and illustrate little stories with the AI. We are going to build everything end-to-end from basics to a functioning web app similar to ChatGPT, from scratch in Python, C and CUDA, and with minimal computer science prerequi

                                    GitHub - karpathy/LLM101n: LLM101n: Let's build a Storyteller
                                  • AIでラフを線画に整えるだけの無料webアプリ『sketch2lineart』公開|とりにく

                                    結論から言うと、こんなことができます。 カラーイラストを線画にすることも可能です。 先日、AI-AssistantV3なるお絵描き補助AIフリーソフトを公開したのですが、多くの方から『私のPCじゃ動かん!』というご意見をいただきました。 わかる~!ちょっとAIに興味あるだけの人が20万↑のPCに手を出せるわけないよね。それが本当に使えるモノかどうかもまだわからないのに。 私もできる範囲で動作サポートするものの(抜けていたらすみません!) 元々のPCのスペック問題自体はどうしようもないジレンマに葛藤していました。 ならばスマホからでも動くシンプルなwebアプリ作ったろうじゃん!!! と思ったので作りました。 機能限定版AI-AssistantV3みたいな立ち位置だと思って下さい。まぁ微妙にアルゴリズム違うんで厳密には別物ですが。 【追記】勘違いする方もいるっぽいので明記しておきます! こちら

                                      AIでラフを線画に整えるだけの無料webアプリ『sketch2lineart』公開|とりにく
                                    • Metaはどのようにして大規模なAIを稼働させるインフラをメンテナンスしているのか?

                                      Metaはオープンソースの大規模言語モデルであるLlama 3をリリースしたり、広告用の画像やテキストを生成するAIツールを導入したりするなどAIの開発・活用を積極的に進めています。そんなMetaがAIをトレーニングしたり運用したりする際のハードウェアをどのようにメンテナンスしているのかを解説しました。 Maintaining large-scale AI capacity at Meta - Engineering at Meta https://engineering.fb.com/2024/06/12/production-engineering/maintaining-large-scale-ai-capacity-meta/ Metaは従来より世界中で多数のデータセンターを運用してきましたが、AIの台頭によりデータセンター群を変革する必要に迫られました。大規模な生成AIのモデルの

                                        Metaはどのようにして大規模なAIを稼働させるインフラをメンテナンスしているのか?
                                      • diffusers での Stable Diffusion 3 の使い方|npaka

                                        以下の記事が面白かったので、簡単にまとめました。 ・Diffusers welcomes Stable Diffusion 3 1. Stable Diffusion 3「SD3」は、3つの異なるテキストエンコーダー (CLIP L/14、OpenCLIP bigG/14、T5-v1.1-XXL)、新しい MMDiT (Multimodal Diffusion Transformer)、および「Stable Diffusion XL」に類似した16チャネルAutoEncoderで構成される潜在拡散モデルです。 「SD3」は、テキスト入力とピクセル潜在を埋め込みシーケンスとして処理します。位置エンコーディングは潜在の2x2パッチに追加され、その後パッチエンコーディングシーケンスに平坦化されます。このシーケンスは、テキストエンコーディングシーケンスとともに MMDiTブロックに送られ、共通の次

                                          diffusers での Stable Diffusion 3 の使い方|npaka
                                        • お絵描き補助AIアプリ『AI-AssistantV3』公開!|とりにく


                                          AI_Assistant.exeexe VRAM6GB AI_Assistant_lowVRAM.bat LoRA使 AI_Assistant_exUI.bat  bat AI_Assistant.exe --lang=jp AI_Assistant.exe --lang=en AI_Assistant.exe --lang=zh_CNStable Diffusion Web UI UIi2i
                                            お絵描き補助AIアプリ『AI-AssistantV3』公開!|とりにく
                                          • Ryeを用いたPyTorchおよびPyG環境構築

                                            要約 Windows上のCUDA環境において、Ryeを用いてPyTorchおよびPyG (PyTorch Geometric) のライブラリをインストールすることができた。pyproject.tomlにソースを設定することが必要となる。 Ryeについて RyeはPythonのバージョン管理とライブラリ管理の両方を1つで行えるツール。Rustで内部実装されている。ここではインストール方法には触れない。インストール済みであるとして進める。 Rye CUDA環境の構築 以下が必要となる。 NVIDIAディスプレイドライバーのインストール NVIDIA CUDA Toolkit のインストール NVIDIA cuDNN のインストール この3つは組み合わせの相性があり、以下のページでサポートされている組み合わせが記載されている。 Support Matrix ここでは、最新のドライバーと CUDA

                                              Ryeを用いたPyTorchおよびPyG環境構築
                                            • GenAI Handbook

                                              William Brown @willccbb | willcb.com v0.1 (June 5, 2024) Introduction This document aims to serve as a handbook for learning the key concepts underlying modern artificial intelligence systems. Given the speed of recent development in AI, there really isn’t a good textbook-style source for getting up-to-speed on the latest-and-greatest innovations in LLMs or other generative models, yet there is an

                                              • 【Phi-3-Medium】GPU2台構成でローカルLLMを動かす【Ubuntu24】

                                                はじめに GMO NIKKOの吉岡です。 みなさん、生成AIは活用してますか? ChatGPTに始まり、Claude3やGeminiなど、実用的なAIがどんどん出てきてますね。 自分も使ってはきましたが、課金が気になってしまいます。 これではサービスに組み込むことは難しいですよね。 そのためローカルで動くLLMを追ってきましたが、今年に入って実用的な日本語を返すことができるモデルがいくつか出てきているので、サーバー構成からインストール方法、LLMの起動まで紹介しようと思います。 ローカルLLMを動かす上で一番重要なのはGPUのVRAMです。 LLMは7B、13B、70Bモデルが多いですが、量子化しない場合、必要なVRAM容量は動かすモデルの大体2倍なので、13Bモデルでは26GのVRAMが必要です。 NVIDIAのGPUを使ったCUDAが前提になっているのですが、一般向けでは24Gモデルが

                                                  【Phi-3-Medium】GPU2台構成でローカルLLMを動かす【Ubuntu24】
                                                • さまざまなNeRF・3DGSを検証してみた!! powerd by デジタル・フロンティア - Qiita

                                                  自己紹介 名城大学理工学研究科メカトロニクス工学専攻修士2年のAsterです。 現在デジタルフロンティア様にて、NeRF・3DGS検証業務を行っています。検証の目的は、将来的に実写映像作品にNeRF・3DGSを活用できないか検討することで、今回の検証はそのための第一歩となります。 2023年5月から一年間行ってきたNeRF・3DGS検証に関して記事にしました。 ぜひ見てくだされば嬉しいです。 ※本記事に記載されている情報は、著者および関係者の知識と経験に基づいて提供されているものであり、正確性や完全性を保証するものではありません。記事の内容に基づくいかなる行動も、読者自身の責任で行ってください。また、技術や規格は常に進化しており、この記事の情報は執筆時点のものであることをご了承ください。最新の情報を確認するためには、公式ドキュメントや信頼できる情報源を参照することをお勧めします。 NeRF

                                                    さまざまなNeRF・3DGSを検証してみた!! powerd by デジタル・フロンティア - Qiita
                                                  • AI時代に一人勝ち。NVIDIAの「CUDA」がIntelやAppleを蹴散らし業界の“実質的なスタンダード”になった背景を中島聡が徹底解説 - まぐまぐニュース!

                                                    空前のAIブームの中にあって、その開発の現場で「一人勝ち」とも言うべき圧倒的なシェアを誇っているNvidia(エヌビディア)のGPU向け開発環境「CUDA」。IntelやAppleといったライバルたちを尻目に、いかにしてCUDAはトップに登り詰めたのでしょうか。今回のメルマガ『週刊 Life is beautiful』では世界的エンジニアとして知られる中島聡さんが、CUDA誕生の経緯から業界の「事実上の標準」となるまでを詳しく解説。さらにMicrosoftが5月20日に発表した「Copilot+PC」に関して、中島さんが注目したポイントを記しています。 ※本記事のタイトル・見出しはMAG2NEWS編集部によるものです/原題:NvidiaのCUDAが今の地位を築いた経緯 プロフィール:中島聡(なかじま・さとし) ブロガー/起業家/ソフトウェア・エンジニア、工学修士(早稲田大学)/MBA(ワシ

                                                      AI時代に一人勝ち。NVIDIAの「CUDA」がIntelやAppleを蹴散らし業界の“実質的なスタンダード”になった背景を中島聡が徹底解説 - まぐまぐニュース!
                                                    • AI時代に一人勝ち。NVIDIAの「CUDA」がIntelやAppleを蹴散らし業界の“実質的なスタンダード”になった背景を中島聡が徹底解説 - ページ 3 / 3 - まぐまぐニュース!

                                                      人工知能の研究者たちに瞬く間に広まった4つの情報 なぜ彼が、OpenCLではなくCUDAを採用したかについては、本人と会う機会があったら是非とも聞いてみたいところですが、この事件は、人工知能の研究者たちに大きなインパクトを与えました。具体的に言えば、 長く続いていた「人工知能の冬」がようやく終わった ニューラルネットは、そのサイズがものを言う ニューラルネットの計算は、GPUを使うと桁違いの高速化が出来る GPUを使いこなすには、CUDAを使えば良い という情報が、瞬く間に広まったのです。4番目は、OpenCLでも良かったはずなのですが、たまたまAlexNetがCUDAを採用していたため、「ニューラルネットの高速化にはCUDAを使うべし」という情報が研究者の間に瞬く間に広まってしまったのです。 この事件をきっかけに、CUDAが人工知能の研究者たちの間に瞬く間に広まったとは言え、CUDAはN

                                                        AI時代に一人勝ち。NVIDIAの「CUDA」がIntelやAppleを蹴散らし業界の“実質的なスタンダード”になった背景を中島聡が徹底解説 - ページ 3 / 3 - まぐまぐニュース!
                                                      • C# と ONNX Runtime Generative AI (DirectML) を使って Phi-3 をローカルで動かす - しばやん雑記

                                                        Build 2024 では Windows などローカルのリソースを使って Generative AI を動かすという話が非常に多かったように、Keynote でも度々取り上げられた Phi-3 についても AWQ で 4-bit 量子化された DirectML で利用可能な ONNX モデルが公開されています。 セッションでも話がありましたが、Microsoft としては DirectML を使っておけば GPU / NPU の両方に対応できるようにするようなので、今後はローカルでの AI 利用は DirectML が主導権を握る可能性がありそうです。 現状 Hugging Face で公開されている DirectML に対応した Phi-3 の ONNX モデルは以下の 4 種類です。Phi-3 mini と Phi-3 medium の両方が利用可能になっていますが、残念ながら現時点

                                                          C# と ONNX Runtime Generative AI (DirectML) を使って Phi-3 をローカルで動かす - しばやん雑記
                                                        • Hugging Face ZeroGPU のチュートリアル|ぬこぬこ

                                                          tl;drHugging Face に月に 9 ドルお布施すると ZeroGPU が使えるよ! ZeroGPU は Hugging Face Spaces にて最大 120 秒間 A100 が使えるという代物だよ! 通常はホスティングに時間単価で課金が発生するから安心だね! ちょっとしたモデルの推論サーバとして重宝するよ! ZeroGPU とはなにか Hugging Face Spaces で追加のコストなく GPU を使える代物。 この記事の読者の多くは、大規模言語モデルや画像生成モデルなどのデモアプリが Hugging Face Spaces 上で動いているのを目にしたことがあるでしょう。 こういう感じの一度くらい見たことがありますよねきっとこれらを自前で Hugging Face Spaces にホスティングする際にはなかなかにめんどうくさい。 このモデルってどのくらいの推論メモリを

                                                            Hugging Face ZeroGPU のチュートリアル|ぬこぬこ
                                                          • 中国製GPUで学習した純中国製LLM「MT-infini-3B」が「Llama3-8B」を超える性能を示し中国単独で高性能AIを開発できることが明らかに

                                                            中国に拠点を置くGPUメーカーの「摩爾線程(Moore Threads)」が、自社製GPUを用いて大規模言語モデル「MT-infini-3B」を開発したことを発表しました。MT-infini-3BはNVIDIA製GPUを用いて学習した大規模言語モデルと同等以上の性能を備えているそうです。 摩尔线程携手无问芯穹:基于夸娥千卡智算集群的“MT-infini-3B”大模型实训已完成 | 摩尔线程 https://www.mthreads.com/news/171 アメリカ政府は中国によるAI研究を軍事上の脅威と捉えており、中国に対して高性能半導体の禁輸措置を実施しています。このため中国ではNVIDIAやAMD、Intelなどが開発しているAI研究用チップの開発が困難となっています。 そんな中、Moore Threadsは2023年12月に独自開発のAI研究用GPU「MTT S4000」を発表しま

                                                              中国製GPUで学習した純中国製LLM「MT-infini-3B」が「Llama3-8B」を超える性能を示し中国単独で高性能AIを開発できることが明らかに
                                                            • OpenAIの共同設立者が「GPT-2」をわずか90分の時間と3100円の費用で再現するレポートを公開

                                                              2019年に公開されるやいなや「危険すぎる」と話題になったOpenAIの「GPT-2」を、ゼロから作成したレポートが公開されました。作成にかかった時間は、1時間14ドル(約2200円)のクラウドコンピューティングサービスで1時間半だったため、総コストは約20ドル(約3100円)に収まっています。 Reproducing GPT-2 (124M) in llm.c in 90 minutes for $20 · karpathy/llm.c · Discussion #481 · GitHub https://github.com/karpathy/llm.c/discussions/481 # Reproduce GPT-2 (124M) in llm.c in 90 minutes for $20 ✨ The GPT-2 (124M) is the smallest model in t

                                                                OpenAIの共同設立者が「GPT-2」をわずか90分の時間と3100円の費用で再現するレポートを公開
                                                              • ローカルLLMの長文推論、メモリ使用量を節約する方法:KVキャッシュの量子化|AIサトシ

                                                                大規模言語モデル(LLM)において、メモリ使用量の効率化は非常に重要です。特に長文処理を行う場合です。モデルに入力するコンテクストが長くなるほど、メモリ消費量も増加します。 プロンプトに入力する文字数(Token数)と必要メモリについて計算したメモ📝 精度との兼ね合いですが、長文扱うときは、mistral-v0.1圧倒的にコスパ良い pic.twitter.com/Nqn5SXDZ9u — AI𝕏サトシ⏩ (@AiXsatoshi) May 27, 2024 Mistral-7Bは、v0.1では、約4K tokensのSliding window attention(SWA)にて、コンテクスト長に消費されるメモリを低減しました。しかし、性能への影響からと考えますが、v0.2以降のアップデートで、SWAは排除されています。入力トークンを絞ることでメモリ容量を低減すれば、当然複雑性や表現力

                                                                  ローカルLLMの長文推論、メモリ使用量を節約する方法:KVキャッシュの量子化|AIサトシ
                                                                • 予期せぬバグの原因は「満月」だった

                                                                  技術者のバルトウォミェイ・クピアウ氏が、ローグライクゲーム「NetHack」の遊び方を学習するニューラルネットワークのトレーニングをする中で出会った、過去に見た中で最も不思議なバグについての話を披露しています。 So here's a story of, by far, the weirdest bug I've encountered in my CS career. Along with @maciejwolczyk we've been training a neural network that learns how to play NetHack, an old roguelike game, that looks like in the screenshot. Recenlty, something unexpected happened. pic.twitter.com/AF

                                                                    予期せぬバグの原因は「満月」だった
                                                                  • お絵描き補助AIアプリ『AI-AssistantV2』公開!|とりにく

                                                                    AI-Assistantを大きめのアップデートをしたので、新機能の紹介です。 【更新履歴】 2024/05/24 fanbox支援者様のみに先行公開 2024/05/27 全体公開 【DL先】https://drive.google.com/file/d/1H9FwWMOZLa-hcX3_lXadmdy-VcNrNmCj/view?usp=sharing 予備URL: https://www.dropbox.com/scl/fi/xkpemko76kyhaot133g3p/AI_Assistant.zip?rlkey=g0recmef48a5sx5hh66mflge5&st=ft1ja0yl&dl=0 【はじめに】サイゼ〇ヤのアロ〇ティチーニを照れながらアーンしてくれるオークの彼氏のイラストが欲しいって時、結構ありますよね。私はあります。 そんな時AI-AssistantV2があれば、サ〇

                                                                      お絵描き補助AIアプリ『AI-AssistantV2』公開!|とりにく
                                                                    • NVIDIA GeForce RTX 5090は16枚のGDDR7を搭載。容量は32GBに拡大

                                                                      NVIDIA GeForce RTX 5090は16枚のGDDR7を高密度に搭載。容量は32GBに向上へ NVIDIAは2024年秋ごろにBlackwellアーキテクチャーを採用するGeForce RTX 5000シリーズを投入する予定ですが、今回この中で最上位モデルとなるGeForce RTX 5090のメモリーレイアウトと基板レイアウトに関するリーク情報が半導体関係の情報を扱う中国の掲示板『Chiphell』から明らかになりました。 Chiphellで過去に実績があるリーカーによると、GeForce RTX 5090のメモリーレイアウトは非常に高密度でダイに対して左右に5、上面に4、下面に2枚のメモリーモジュールを備えるとのことです。 現行のGeForce RTX 4090では384-bitのバス幅を実現するためにGDDR6Xメモリーモジュールを左右に4枚、上面に3枚、下面に1枚で合計

                                                                        NVIDIA GeForce RTX 5090は16枚のGDDR7を搭載。容量は32GBに拡大
                                                                      • Faster WhisperとAWS SageMakerを活用してGPUでの高速文字起こしエンドポイントを構築する

                                                                        概要 最近の音声認識技術の進歩はすごいですね! 特にOpenAIの最新モデルであるWhisper large-v3は、日本語の音声データでもかなりの高精度で文字起こしを行うことができ、APIも公開されています。 ただし簡単に使用でき汎用性も高い一方で、大量に使用する場合の高コストやプライバシーの懸念もあるため、ローカル環境で効率よく高精度な文字起こしを実現するモデルが多数開発されています。 今回は、その中でもGPUを使用した高速推論が可能な「Faster Whisper」を用いて、AWS SageMakerでカスタム文字起こしエンドポイントを構築してみたので、手順を解説していきたいと思います。 実装コードは以下のリポジトリにあります。 順番通りJupyterNotebookを実行すると問題なく動作するはずです。 Faster Whisperとは Faster WhisperはOpenAIの

                                                                          Faster WhisperとAWS SageMakerを活用してGPUでの高速文字起こしエンドポイントを構築する
                                                                        • microsoft/Phi-3-vision-128k-instruct · Hugging Face

                                                                          Intended Uses Primary use cases The model is intended for broad commercial and research use in English. The model provides uses for general purpose AI systems and applications with visual and text input capabilities which require memory/compute constrained environments; latency bound scenarios; general image understanding; OCR; chart and table understanding. Our model is designed to accelerate res

                                                                            microsoft/Phi-3-vision-128k-instruct · Hugging Face
                                                                          • 驚くほどキレイな三次元シーン復元、「3D Gaussian Splatting」を徹底的に解説する - Qiita

                                                                            はじめに 最近、3D業界で大きな衝撃を与えた「3D Gaussian Splatting」1について、ご存知でしょうか?数少ない写真から、目を奪われるほど美しい三次元シーンを再構成できるデモを見て私も大感動しました。なぜこんなに美しいのか、どんな技術で実現したのか、興味が湧いています! "普通の3D物体ではなく、カメラの移動に合わせて、水面に映る景色も正確に表現しています。これはなかなか凄い..." 私も時間をかけて論文や公開されたコード2を勉強しました。本家の実装はCUDA化されており、難解な部分が多く、論文に書かれていないこともあります。そのため、「3D Gaussian Splatting」を勉強したい人にむけ、わかりやすい解説記事を書こうと思いました。単に概念や考え方だけでなく、ゼロから再実装できるように、すべてのロジックを数式として整理し、徹底的に解説しようと思います。 「3D

                                                                              驚くほどキレイな三次元シーン復元、「3D Gaussian Splatting」を徹底的に解説する - Qiita
                                                                            • Copilot+ PC の紹介 - News Center Japan

                                                                              ユスフ メディ (Yusuf Mehdi) エグゼクティブ バイス プレジデント 兼 コンシューマー チーフ マーケティング オフィサー ※本ブログは、米国時間 5 月 20 日に公開された “Introducing Copilot+ PCs” の抄訳を基に掲載しています。 マイクロソフトのイベントの基調講演のオンデマンド録画が、米国時間 5 月 20 日午後 2 時に公開される予定です。公開時点で、本ブログ記事のリンクの更新が行われます。 本日、マイクロソフトの新しいキャンパスで開催された特別なイベントにおいて、AI のために設計された新しいカテゴリーの Windows PC である Copilot+ PC (コパイロットプラス ピーシー) を世界に向けて紹介しました。 Copilot+ PC は、これまでで最も高速でインテリジェントな Windows PC です。驚異的な 40 TOP

                                                                                Copilot+ PC の紹介 - News Center Japan
                                                                              • Introducing Copilot+ PCs - The Official Microsoft Blog

                                                                                An on-demand recording of our May 20 event is available. Today, at a special event on our new Microsoft campus, we introduced the world to a new category of Windows PCs designed for AI, Copilot+ PCs. Copilot+ PCs are the fastest, most intelligent Windows PCs ever built. With powerful new silicon capable of an incredible 40+ TOPS (trillion operations per second), all–day battery life and access to

                                                                                  Introducing Copilot+ PCs - The Official Microsoft Blog
                                                                                • 最近ローカルLLMがアツいらしい

                                                                                  最近、ローカルLLMがアツくなっているという話をtwitterでチラホラ見かける。 ローカルLLMって何じゃ?というと、オープンに公開されているモデルのウエイトをDLしてきて手元のPC上で推論させる事である。 オープンなAIモデルとは逆の存在として、モデルがDLできないクローズなAIモデルもある。 OpenAIやAnthropicのような最先端AI企業のクローズなAIモデルに比べて、オープンに公開されているオープンなAIモデルの性能は今でもかなり後れを取っている。 だから去年の間はあくまでAIの本命はChatGPTのようなクローズモデルであって、オープンなAIモデルなんて眼中にありませんみたいな風潮が無くはなかった。だが最近は風向きが少々変わってきている。 GPTのAPI高い問題 & OpenAIがAIベンチャー皆殺しにしてしまう問題 まず「結局GPTのAPIを叩いてサービス運営して成功し