xwkns157のブックマーク - はてなブックマーク

Common Crawlから作る大規模日本語コーパスとその前処理（Mixtral 8x7Bを語彙拡張継続事前学習 Part2） - ABEJA Tech Blog

ABEJAでデータサイエンティストをしている服部です。 ABEJAは国立研究開発法人新エネルギー・産業技術総合開発機構（以下「NEDO」）が公募した「ポスト5G情報通信システム基盤強化研究開発事業／ポスト5G情報通信システムの開発」に当社提案の「LLMの社会実装に向けた特化型モデルの元となる汎化的LLM」に採択されたことを受け、LLMの事前学習を実施しました。その中でモデルの学習だけでなく、学習に欠かせない大規模日本語言語コーパスを作りました。データセットのサイズとしては、語彙拡張前のMixtral Tokenizerで約400Bほどのものです。特にその中で大部分を占めるCommon Crawlをベースとしてデータセットを作った過程について解説します。データセットの概要 Common Crawlについて warcとwet データセット作成方針前処理の流れ 1. 日本語の簡易判定、w

xwkns157 2024/05/07

リンク

Megatron-LMとGKEで作るMixtral 8x7Bを語彙拡張継続事前学習 Part1 ~学習コードとモデルの先行公開~ - ABEJA Tech Blog

こんにちは！ABEJAでデータサイエンティストをしている大谷です。 ABEJAは国立研究開発法人新エネルギー・産業技術総合開発機構︵以下﹁NEDO﹂︶が公募した﹁ポスト5G情報通信システム基盤強化研究開発事業／ポスト5G情報通信システムの開発﹂に当社提案の﹁LLMの社会実装に向けた特化型モデルの元となる汎化的LLM﹂が採択されたことを受け、LLMの事前学習を実施しました。以降、本LLMプロジェクトをGENIAC︵Generative AIAccelerator Challenge︶と表記します。開発内容は表題の通り、Mistral社のMIxtral 8x7Bをベースにした日本語の語彙拡張版継続事前学習です。弊社が調べた限り、Megatron-LMでMixtralモデルを継続事前学習するソースコードは2024年4月12日時点︵執筆時︶では存在していません。 GENIACの計算資源提供の

xwkns157 2024/04/20

リンク

Findy Tools

使いたい開発ツールがきっと見つかるFindy Toolsは、実際に利用している企業のレビューから開発ツールの導入、検討に関わる意思決定をサポートします。

xwkns157 2024/01/23

リンク

現役エンジニア兼採用担当から見たエンジニア採用アンチパターン / Engineer Recruitment Anti-Patterns

LAPRAS忘年会 2023でのLT発表資料です。

xwkns157 2023/12/29

リンク

AWS Config が高いと感じたら。AWS Config のコストを15分の1に下げた話 - ABEJA Tech Blog

切っ掛けと問題の認識 AWS Config のカウント数の監視対象外にしたいリソースが見つかったら AWS Config 側で除外する実際のコスト削減効果なぜもともとコストが高かったのかまとめこんにちは、ABEJAの村主です。ABEJAアドベントカレンダー2023の18日目の記事です。今回は、意外にも高額になりがちなAWS Configのコスト削減について、どのように対応したかをご紹介します。特に、AWS Configのコストを大幅に減らすためのアプローチについてお話しします。また、CloudWatch で AWS Config のカウント量を可視化する方法はあまり見かけなかったのでブログにしておきました。切っ掛けと問題の認識最初に気づいたのは、AWS Cost Explorer を確認していたときです。そこで見たAWS Configのコストは、1日あたり約$15、月間では約

xwkns157 2023/12/22

リンク

LangChainを使わない - ABEJA Tech Blog

TL; DR LangChainのメリデメを整理する過程で、今となってはopenai-pythonのうちChatGPTのAPIをを簡単に取り回せる程度のシンプルなライブラリがあるだけでも十分便利なんじゃないかと思ったので、ライブラリを個人で作ってみました。︵バージョン0.0.1なのでちょっとお粗末な所もありますが︶ github.com はじめにこんにちは、データサイエンティストの坂元です。ABEJAアドベントカレンダーの13日目の記事です。世は大LLM時代ということで、ありがたいことにABEJAでも複数のLLMプロジェクトを推進させて頂いています。私自身もいくつかのLLMプロジェクトに参画しています。LLMといえばLangChainが便利ですね。OpenAI APIの利用だけでなく、各種ドキュメントのパースが出来たり、HuggingFaceやインデックスDBを扱う他のライブラリとインテ

xwkns157 2023/12/13

LangChainは枯れてないから導入1年後くらいに痛い目見そう

リンク

外部データをRetrievalしてLLM活用する上での課題と対策案 - ABEJA Tech Blog

はじめに ABEJAでデータサイエンティストをしている服部です。今回はLLMで外部データを使うケースについてのお話をしたいと思います。はじめに LLMと外部データの利用 RetrievalとLLM 0. (事前準備)参照したいテキストデータをDBに格納 1. ユーザの入力文とのテキスト類似度を計算して、関連テキストを抽出する(Retrieval) 2. 関連テキストをLLMのプロンプトに入れ込み、ユーザの入力文に回答する。 Retrieval時の課題 LangChainでの用意 Case1: それぞれの文章がRetrievalしにくい形で保存されている対策案: ページ構造を意識した形で各文章を格納する他の対策案聞き方を明確にする類似度を測るクエリ文章を置き換える不要そうな文章をデータから削除するデータ自体をLLMで整形し直す Case2: 未知の単語を含む仮説: ニャオハ

xwkns157 2023/07/03

リンク

CTOの視点から見たAzure OpenAI ServiceとOpenAIのChatGPT APIの深堀り比較 - Qiita

※ この記事の内容は先日のQiita Nightでお話ししたことと一部重複します。Qiita NightではLTの制限時間(10分)に収めるため、結構端折りました。はじめに ChatGPTが登場してから数ヶ月が経ちました。 ChatGPTをはじめとしたGenerative AIは完全に現在のIT業界のトレンドとなっています。今や多くの企業でChatGPT APIをサービスに組み込んで顧客提供を開始したり、自社の社内システムに組み込んだりと積極的に利用するようになりました。私もGenerative AIが無くなると業務に支障が出るレベルで利用しています。そして、2023年5月時点ではChatGPTのAPIを利用する方法として、本家OpenAI社が提供しているAPIを利用する方法とMicrosoft社が提供しているAzure OpenAI ServiceのAPIを利用する方法の2つが

xwkns157 2023/05/16

リンク

慣れてきたらチャレンジしてみよう！BigQueryのパフォーマンス最適化 - ABEJA Tech Blog

自己紹介 I/Oや通信的観点分割されたクエリを取り除く過剰なワイルドカードテーブルを避けるテーブルを日付別にシャーディングすることを避ける & テーブルの過度な分割を回避する JOIN を使用する前にデータを削減するコンピューティング的観点結合パターンを最適化する結合で INT64 データ型を使用して費用を削減し、比較パフォーマンスを向上させる同じ共通テーブル式（CTE）を複数回評価するのを避けるクエリのアンチパターン自己結合データスキュー公式にはない項目ですが個人的に気になったので単一行を更新または挿入する DML ステートメント非正規化の検討ネストされて繰り返されているフィールドを使用する採用情報自己紹介こんにちは、真壁（@Takayoshi_ma）です。先日読んだGoogle Cloudの公式ドキュメントが個人的に勉強になったので内容についてまとめ

xwkns157 2023/05/15

リンク

GitHub - Stability-AI/StableLM: StableLM: Stability AI Language Models

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

xwkns157 2023/04/20

リンク

Terraform だけだとハードモードなので Terragrunt を使おう - Qiita

Terraform はそのままだと管理が大変みなさん IaC (Infrastructure as Code) してますか？パブリッククラウドをIaCするなら、 Terraform が便利ですね！しかし、本格的に使い始めると、こういう問題がすぐに出てきます。複数環境の楽な分け方を知りたいワークスペースはなんか嫌だとはいえ、環境間で共通するボイラープレートをどうにかしたい環境内で適用するモジュールを細分化・分岐したいけど面倒環境ごとに使うモジュールを切り替えたいテスト環境はAuroraではなく安いRDSにしたいモジュール(tfstate)を分割して小さい範囲で適用したい大きなモジュールは影響範囲がわからないし、差分計算にそれなりに時間がかかってしまう分けたモジュールを一括適用するのが面倒モジュール間の依存関係がわからないモジュール(tfstate)間での値参照が面倒

xwkns157 2023/01/29

リンク

Stable Diffusion の仕組みを理解する - ABEJA Tech Blog

この記事は、ABEJAアドベントカレンダー2022 の19日目の記事です。こんにちは！株式会社 ABEJA で ABEJA Platform 開発を行っている坂井です。世間では Diffusion Model 使った AIによる画像生成が流行っているみたいですね。自分は元々 Computer Vision 系の機械学習エンジニアだったんですが、この1年くらいは AIモデル開発ではなくもっぱらバックエンド開発メインでやっていて完全に乗り遅れた感あるので、この機会に有名な Diffusion Model の1つである Stable Diffusion v1 について調べてみました！*1 では早速本題に入りたいと思います！ Stable Diffusion v1 とは？ Denoising Diffusion Probabilistic Model︵DDPM︶学習時の動作 for

xwkns157 2022/12/19

リンク

AWS Cost Categories でコスト集計作業を効率化 - Safie Engineers' Blog!

こちらはセーフィー株式会社 Advent Calendar 2022 の14日目の記事になります。はじめまして。セーフィーでインフラエンジニアをしている近江です。セーフィーでは AWS の各サービスごとのコストを詳細に把握するため、"AWS Cost Categories" という AWS のサービスを使用しています。本記事では AWS Cost Categories とは何か、どのようなシーンで活用できるのか、実際の設定方法、気をつけるポイントについて書いていきたいと思います。 AWS Cost Categories とはコストカテゴリとは利用料金 AWS Cost Categories を活用できるシーンコストカテゴリの作成とルール設定ルールに継承された値 (INHERITED VALUE) を使用する気をつけるポイントコストカテゴリで使用できるディメンションOR

xwkns157 2022/12/15

リンク

非エンジニアがNotion+Wraptasをつかって、一ヵ月で採用サイトをつくった話 - ABEJA Tech Blog

はじめまして！コーポレートデザイン統括部人事グループの本坊といいます。 ABEJAアドベントカレンダー2022の15日目の記事を担当させていただきます。 ABEJAでは、エンジニアやデータサイエンティストだけでなく、ビジネス職含め、様々なポジションで仲間を募集しています！少しでも興味がある方は、情報交換からでも構いません！ぜひカジュアル面談しましょう！ご応募・ご連絡お待ちしております！ careers.abejainc.com ・・・。以上が、人事として本日お伝えしたいことの9割ではあるのですが、せっかく機会をいただきましたので、今回は非エンジニアである私がNotionで採用サイトをつくってみた話をお伝えしようと思います。なぜNotionで採用サイトを作ったか Notionで採用サイトつくってみた ①採用サイトに載せるコンテンツの洗い出し ②非公開Notionでラフイメージをつ

xwkns157 2022/12/15

リンク

trufflehog x pre-commit & GitHub Actions で GitHubのセキュリティを強化したってばよ - ABEJA Tech Blog

こちらは ABEJA アドベントカレンダー12日目の記事です。こんにちは。CTO室の村主です。セキュリティ強化も自組織の役割であるため、ABEJAのセキュリティ対策に関する内容を共有したいと思います。はじめに trufflehog︵トリュフホッグ︶クレデンシャルの埋め込みに対する取り組み 1. まず現在のリポジトリがクリーンな状態を担保するために、全リポジトリをスキャンしました︵1,000以上…︶ 2. 次に新しいコミットに対してクレデンシャルが埋め込まれないように全エンジニアに pre-commit に trufflehog を設定してもらいました 3. そこで、GitHub Actions を利用して、1日1回、更新のあったリポジトリだけリスト化して、trufflehogでスキャンする仕組みを構築しました trufflehog の使い方全リポジトリのスキャン pre-comm

xwkns157 2022/12/12

リンク

野球の投球の｢危険度」を予測してみた　～「あ、この球、打たれるわ」をAIで判断～ - ABEJA Tech Blog

目次目次はじめにアイデア検証方法データ準備分析アプローチデータ取得前処理・特徴量エンジニアリング学習結果考察まとめ ABEJAについてはじめにはじめまして！今年2月にABEJAにデータサイエンティストとして入社しました真鍋と申します。こちらは、ABEJAアドベントカレンダー2022の2日目の記事になります。2日目にしていきなり限界野球オタク丸出しの記事ですが野球は2番最強打者論もあるくらいなので縁起の良い数字ですね、はい。アイデアある程度野球を見ている方なら想像ができるのではないかと思いますが、野球の試合では、﹁あ、そりゃ打たれるわ﹂という球があったりしますよね。ど真ん中に棒球が行ったりとか、同じ球が何球も続いたりとか… ただ、それが﹁打たれるべくして打たれた﹂球なのか、﹁打者が上手くて打たれた﹂球なのかは、結構感覚によるものだと思います。そういう

xwkns157 2022/12/02

リンク

掃除ロボットをかゆいところまで手の届く仕様に改造する - ABEJA Tech Blog

はじめに本記事はABEJA Advent Calendar 20221本目の記事です。こんにちは、メカやロボットが大好きな栗林です。本日ご紹介するのは清掃ロボットの制御システムをRaspberry Piから操作する方法についてです！ URYYYYYYYY!! 過去の記事など tech-blog.abeja.asia tech-blog.abeja.asia ※ 例によって、本記事でおこなっている清掃ロボットの分解・改造はくれぐれも自己責任でお願いします。本記事内容を参考に生じた不具合・損害について、当方は責任を負いかねます。 ※ 間違っても私のように買ったばっかり＆愛用している機体で試さない方がよさそうです。清掃ロボットとはそもそも清掃ロボットとは、人間の代わりに清掃作業をおこなってくれるロボットです。近年さまざまなロボットが登場しており、一般消費者向けだけでなく、オフィスやホテ

xwkns157 2022/12/01

リンク

Kaggle Days World Championshipで優勝した話 - ABEJA Tech Blog

ABEJAでデータサイエンティストをしている服部です。 2022年10月28, 29日にバルセロナにてKaggle Days World Championship Finalというデータサイエンスに関するイベント兼コンペティションが開催され、そこに参加しました。そして幸いなことに私の所属するチームが優勝することができました！！本記事では今回のイベントそのものと、優勝に至るまでのコンペ上での過程や工夫点などについてご紹介しようと思います。 Kaggle Days World Championship Finalとは 1日目（ワークショップやプレゼンテーション等） Opening remarks by LogicAI and Kaggle HP introduction - Key note Kaggle Team - Ask Me Anything Winners team present

xwkns157 2022/11/18

リンク

小型かつ安価なセンサーを使って人の行動推定を行ってみる - ABEJA Tech Blog

はじめにこんにちは！ABEJAでプロダクトマネージャーをしている栗林です！ ABEJAでは小売店舗での顧客行動を分析するInsight for Retailというプロダクトや、オフィスDX事業をはじめとして、物理世界の現象を機械学習などが適用可能なデジタルに変換する部分にも強みがあります！本日のTech Blogでは、安価かつ小型な加速度・角速度センサーを用いて製造業や物流業における作業者の行動や状態を推定する手法についてまとめました。背景みなさんは製造業や物流などにおける、正味作業時間という言葉をご存知でしょうか？正味作業時間とは実際の作業に充てられた時間を差します。例えば、組み立て作業の際に必要となる道具や在庫が近くに無く、作業者がものを探したり歩行して取りに行ったとします。このときの準備や段取りにかかる時間は準備時間や付帯作業時間と言われ、作業工程において生産をおこなえて

xwkns157 2022/09/02

リンク

ABEJA GPTモデルにおけるアーキテクチャの工夫 - ABEJA Tech Blog

1. はじめに 2. 先行研究からの学び 3. 前提 4. アーキテクチャ変更候補活性化関数の変更 (SwishGLU) Transf ormer layerの並列化 biasパラメータ除去 Input-Output Embeddingの共有 (Weight tying) 5. 小規模モデルでの実験実験設定 Transf ormer layerの並列化 SwishGLUの適用 Bias parameterの除去 bias削除の実験最初もしくは最後のbiasだけを残す Input-Output Embeddingの共有 (Weight tying) 6. 中規模モデルでの実験実験設定モデルサイズでの比較 Shared Input output embeddings (weight tying) Transf ormer layerの並列化 SwishGLUの適用 7. 13Bパラメーター

xwkns157 2022/08/10

リンク

はてなブックマーク

タグ

xwkns157のブックマーク (445)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス