サクサク読めて、アプリ限定の機能も多数！アプリで開くはてなブックマーク閉じる ●はてなブックマークって？●アプリ・拡張の紹介●ユーザー登録●

はてなブックマーク

総合 ●人気 ●新着 ● IT ● 最新ガジェット ● 自然科学 ● 経済・金融 ● おもしろ ● マンガ ● ゲーム ● はてなブログ︵総合︶一般 ●人気 ●新着 ● 社会ニュース ● 地域 ● 国際 ● 天気 ● グルメ ● 映画・音楽 ● スポーツ ● はてな匿名ダイアリー ●人気 ●新着 ● 新型コロナウイルス ● 働き方 ● 生き方 ● 地域 ● 医療・ヘルス ● 教育 ● はてな匿名ダイアリー政治と経済 ●人気 ●新着 ● 政治 ● 経済・金融 ● 企業 ● 仕事・就職 ● マーケット ● 国際 ● はてなブログ︵政治と経済︶暮らし ●人気 ●新着 ● カルチャー・ライフスタイル ● ファッション ● 運動・エクササイズ ● 結婚・子育て ● 住まい ● グルメ ● お金 ● はてなブログ︵暮らし︶ ● 掃除・整理整頓 ● 雑貨 ● 買ってよかったもの ● 旅行 ● アウトドア ● 趣味学び ●人気 ●新着 ● 人文科学 ● 社会科学 ● 自然科学 ● 語学 ● ビジネス・経営学 ● デザイン ● 法律 ● 本・書評 ● 将棋・囲碁 ● はてなブログ︵学び︶テクノロジー ●人気 ●新着 ● IT ● セキュリティ技術 ● はてなブログ︵テクノロジー︶ ● AI・機械学習 ● プログラミング ● エンジニアおもしろ ●人気 ●新着 ● まとめ ● ネタ ● おもしろ ● これはすごい ● かわいい ● 雑学 ● 癒やしエンタメ ●人気 ●新着 ● スポーツ ● 映画 ● 音楽 ● アイドル ● 芸能 ● お笑い ● サッカー ● 話題の動画アニメとゲーム ●人気 ●新着 ● マンガ ● Webマンガ ● ゲーム ● 任天堂 ● PlayStation ● アニメ ● バーチャルYouTuber ● オタクカルチャー ● デスク環境を整える

﹃qiita.com﹄

● 人気 ● 新着 ● すべて

Chat Vectorを使って日本語LLMをチャットモデルに改造する - Qiita

28users

qiita.com/jovyan はじめに Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New Languages という論文では、LLMの学習済み重みパラメータの足し引きによって、事前学習済みモデルに対話能力を与えることができるという結果が示されています。具体的には、英語で事前学習されたモデル︵以下ではベースモデルと呼びます︶と、ベースモデルを指示チューニング (instruction tuning)してチャット形式の対話ができるようにしたモデル︵英語チャットモデル︶、ベースモデルを英語以外の言語で継続事前学習したモデルの3つのモデルを用います。英語チャットモデルの重みからベースモデルの重みを引いたものは、チャット形式で対話ができる能力を表したベクトルであり、そのベクトルを ● テクノロジー ●2024/03/21 06:51 ●LLM ●チューニング ●自然言語処理 ●機械学習 ●論文 ●qiita ●あとで読む

日本語LLMをPPOでファインチューニングする - Qiita

25users

qiita.com/jovyan TL;DR 3.6Bパラメータの日本語LLMに対し全パラメータをSupervised Fine Tuning (SFT)をしたさらにLoRAを使用してProximal Policy Optimization (PPO)を行った精度を定量評価できるようなタスクでSFT, PPOを行い、PPOにより確かに精度が向上することを確かめた学習はすべてGoogle ColabのA100 GPU1枚を用いて行ったはじめに GPT-3.5などのLLMの学習は以下の3段階で行われています。 Pre-traininig: 大規模なコーパスを用いた言語モデルの事前学習 Supervised Fine Tuning (SFT): 対話形式や指示・応答形式のデータセットを用いたファインチューニング Policy Optimization: 人間にとって好ましい応答をさせるためのファインチューニング︵ポリシー ● テクノロジー ●2023/12/29 13:11 ●LLM ●NLP ●あとで読む ●qiita

Flash Attentionを使ってLLMの推論を高速・軽量化できるか？ - Qiita

4users

qiita.com/jovyan 概要 Optimizing your LLM in production こちらのHugging Faceのブログ記事では大規模言語モデル(LLM)に関する色々な技術が紹介されているのですが、その中でHugging Face形式のモデルのattentionをFlash Attentionに置き換える簡単な方法も紹介されていたので、日本語LLMで試してみました。推論速度およびGPUメモリ消費量が改善するかを検証しています。 Flash Attention 近年の深層学習モデルでは、LLMはもちろん画像・音声などの他の分野でもTransformerアーキテクチャがデファクトスタンダードとなっています。 Transformerアーキテクチャの中でコアとなるのが、Scaled Dot-Product Attention (SDPA)です。SDPAの解説は世にあふれているので詳細は他に譲りますが、S ● テクノロジー ●2023/09/19 18:31

GANで偽のテーブルデータを生成する - Qiita

4users

qiita.com/jovyan 概要テーブルデータ用のGANの一つであるCTGANをCensus Incomeデータセットに対して試して偽のテーブルデータを生成します。生成したデータを使ってXGBoostを訓練し、元データと比べてどの程度の精度が出るかを検証します。 CTGAN GANといえばリアルな偽画像を生成できる技術として有名ですが、非画像データに対するGANの研究も進んでいます。テーブルデータに対応したGANでコードが公開されているものとしては以下のようなものがあります。 MedGAN [arXiv:1703.06490][GitHub] TableGAN [arXiv:1806.03384][GitHub] TGAN [arXiv:1811.11264][GitHub] CTGAN [arXiv:1907.00503][GitHub] MedGANは名前の通り医療用データへの応用を念頭に開発されたモデルでカテ ● テクノロジー ●2020/08/23 01:01 ●機械学習

Universal Sentence Encoderを使って文章の異常検知をする - Qiita

3users

qiita.com/jovyan 概要講談社MLPの﹁異常検知と変化検知﹂を読んで、何か具体的な問題で試してみたいと思ったので、﹁方向データの異常検知﹂を文章の埋め込みベクトルに適用して、文章群に混じった異質な文章を検知できるか試してみました。具体的には、夏目漱石の小説から取った文章群の中に企業の有価証券報告書から取った文章を少数だけ混ぜて、異質なデータである有価証券報告書の文章を検知する機械学習モデルを作成しました。埋め込みベクトル︵分散表現︶の計算にはMultilingual Universal Sentence Encoderを用いています。方向データの異常検知﹁異常検知と変化検知﹂︵著‥井出剛、杉山将︶のChapter 7﹁方向データの異常検知﹂から必要な事項をまとめます。正解ラベルの付いていないデータ $\mathcal{D}$ を用いて異常検知モデルを作成するときの基本的な考え方は、データに含まれる異常 ● テクノロジー ●2020/04/28 01:02 ●機械学習

このページはまだ
ブックマークされていません

このページを最初にブックマークしてみませんか？

﹃qiita.com﹄の新着エントリーを見る

キーボードショートカット一覧

j次のブックマーク k前のブックマーク lあとで読む eコメント一覧を開く oページを開く ●総合 ●一般 ● ●政治と経済 ●暮らし ●学び ●テクノロジー ●エンタメ ●アニメとゲーム ●おもしろ ●アプリ・拡張機能 ●開発ブログ ●ヘルプ ●お問い合わせ ●ガイドライン ●利用規約 ●プライバシーポリシー ●利用者情報の外部送信について ●ガイドライン ●利用規約 ●プライバシーポリシー ●利用者情報の外部送信について ●公式アカウント ●ホットエントリー ●はてなブログ ●はてなブログPro ●人力検索はてな ●はてなブログタグ ●はてなニュース ●ソレドコ

はてなブックマーク

﹃qiita.com﹄