サクサク読めて、アプリ限定の機能も多数！アプリで開くはてなブックマーク閉じる ●はてなブックマークって？●アプリ・拡張の紹介●ユーザー登録●

はてなブックマーク

総合 ●人気 ●新着 ● IT ● 最新ガジェット ● 自然科学 ● 経済・金融 ● おもしろ ● マンガ ● ゲーム ● はてなブログ︵総合︶一般 ●人気 ●新着 ● 社会ニュース ● 地域 ● 国際 ● 天気 ● グルメ ● 映画・音楽 ● スポーツ ● はてな匿名ダイアリー ●人気 ●新着 ● 新型コロナウイルス ● 働き方 ● 生き方 ● 地域 ● 医療・ヘルス ● 教育 ● はてな匿名ダイアリー政治と経済 ●人気 ●新着 ● 政治 ● 経済・金融 ● 企業 ● 仕事・就職 ● マーケット ● 国際 ● はてなブログ︵政治と経済︶暮らし ●人気 ●新着 ● カルチャー・ライフスタイル ● ファッション ● 運動・エクササイズ ● 結婚・子育て ● 住まい ● グルメ ● お金 ● はてなブログ︵暮らし︶ ● 掃除・整理整頓 ● 雑貨 ● 買ってよかったもの ● 旅行 ● アウトドア ● 趣味学び ●人気 ●新着 ● 人文科学 ● 社会科学 ● 自然科学 ● 語学 ● ビジネス・経営学 ● デザイン ● 法律 ● 本・書評 ● 将棋・囲碁 ● はてなブログ︵学び︶テクノロジー ●人気 ●新着 ● IT ● セキュリティ技術 ● はてなブログ︵テクノロジー︶ ● AI・機械学習 ● プログラミング ● エンジニアおもしろ ●人気 ●新着 ● まとめ ● ネタ ● おもしろ ● これはすごい ● かわいい ● 雑学 ● 癒やしエンタメ ●人気 ●新着 ● スポーツ ● 映画 ● 音楽 ● アイドル ● 芸能 ● お笑い ● サッカー ● 話題の動画アニメとゲーム ●人気 ●新着 ● マンガ ● Webマンガ ● ゲーム ● 任天堂 ● PlayStation ● アニメ ● バーチャルYouTuber ● オタクカルチャー ● やる気の出し方

﹃zenn.dev﹄

● 人気 ● 新着 ● すべて

LLM開発のための環境構築

37users

zenn.dev/elith はじめに株式会社Elithの大森一祥です。AIテックカンパニーの一員として、お客様の課題をAIを駆使して解決しています。大規模言語モデル(LLM)が人間と匹敵する性能を発揮することもあり、弊社には多岐にわたるプロジェクトの依頼が寄せられています。最近は、情報漏洩のリスクを回避するため、独自のLLMの開発を希望されることが多いです。このような案件では、一般に公開されたモデル(ローカルLLM)を利用します。ローカルLLMを活用して課題を解決する方法として、以下の4つが挙げられます。プロンプトエンジニアリング‥LLMに特定の出力を生成させるための入力文の工夫する手法 RAG‥外部の文章データベースから、質問に類似した文章を取り出しLLMの入力として用いる手法インストラクションチューニング‥ユーザの指示に沿った出力を生成することを目的としたチューニング手法継続事前学習‥LLMモデルに対 ● テクノロジー ●2024/03/22 18:04 ●docker ●LLM ●学習 ●development ●開発

OpenAI Sora に使われる技術

30users

zenn.dev/elith TL; DR OpenAI が非常に高品質な動画生成モデル Sora を公開画像生成モデル Diffusion-Transformer を利用動画を3次元画像として扱うことで画像モデルを拡張キャプションは DALL•E3 同様、キャプション生成モデルで作成 OpenAI Sora Sora は OpenAI が今年の2月に発表した、動画生成モデルです。まずはこのモデルの出力例を見てみましょう。図1. Sora の生成例: https://cdn.openai.com/sora/videos/big-sur.mp4 各フレームの画像が非常に美しく生成されています。また、従来の動画生成では時間が経った際に写っているオブジェクトを保つことが難しく、消えたり現れたり、急に歪んだりするものが多かったのに対し、Sora では一度隠れてから再度現れる場合であっても、矛盾なく生成できています。こ ● テクノロジー ●2024/03/27 11:17 ●AI ●OpenAI ●あとで読む ●機械学習 ●画像 ●動画

日本語LLMの学習に向けたデータ前処理

21users

zenn.dev/elith はじめに大規模言語モデルの学習にあたり、大規模なデータセットで学習することが重要ですが、高品質なデータを用いることも重要です。 Webなどから大規模に収集したデータを用いることが一般的ですが、そのままだとかなりノイズが多く、モデルの学習が困難です。本記事では、言語検出、テキスト正規化、テキストのチャンキング、品質フィルタリングのデータ前処理によりノイズを取り除く方法について解説します。言語検出 Webから大規模に収集したデータには、様々な言語が含まれます。日本語をターゲットとした言語モデルの学習のためには、日本語のデータのみを抽出する必要があります。言語検出のPythonライブラリとして、pycld3やlangdetectが有名ですが、2022/1/11にlinguaがリリースされています。開発者のベンチマークによると、性能は他のライブラリと比べて高いです。特にpycld3はp ● テクノロジー ●2024/01/22 20:44 ●LLM ●自然言語処理 ●language ●日本語 ●データ ●学習

HuggingFaceとDeepSpeedで実践継続事前学習

6users

マルチモーダルLLMの活用方法と技術解説

3users

zenn.dev/elith TL; DR GPT-4VやGeminiなど、大規模言語モデル(LLM)を画像や音声など複数のモダリティに対応させたマルチモーダルLLMが登場し始めている LLMをマルチモーダル化することで様々な恩恵を受けられる学習済みモデル同士を組み合わせた構造にし事前知識を活用することで、学習の効率化を実現するはじめに Elithで機械学習エンジニアをしている成木です。 ChatGPTをはじめとする様々なプロダクトが登場しLLMが急速に普及していく中で、最近それらに画像や音声といったモダリティが入力できるようになるなどLLMのマルチモーダル化が進んでいます。その例として、画像入力に対応のGPT-4Vや、画像や音声、動画を用いた対話が可能であるGeminiなどがあります。このように画像や音声などのテキスト以外のモダリティを処理を可能にすることで、LLMの活用方法や適用範囲がより大きく広がっています ● テクノロジー ●2024/04/09 21:04

このページはまだ
ブックマークされていません

このページを最初にブックマークしてみませんか？

﹃zenn.dev﹄の新着エントリーを見る

キーボードショートカット一覧

j次のブックマーク k前のブックマーク lあとで読む eコメント一覧を開く oページを開く ●総合 ●一般 ● ●政治と経済 ●暮らし ●学び ●テクノロジー ●エンタメ ●アニメとゲーム ●おもしろ ●アプリ・拡張機能 ●開発ブログ ●ヘルプ ●お問い合わせ ●ガイドライン ●利用規約 ●プライバシーポリシー ●利用者情報の外部送信について ●ガイドライン ●利用規約 ●プライバシーポリシー ●利用者情報の外部送信について ●公式アカウント ●ホットエントリー ●はてなブログ ●はてなブログPro ●人力検索はてな ●はてなブログタグ ●はてなニュース ●ソレドコ