言葉の解説
ネットで話題
関連ブログ
Pearl 1, 2, 304 ... Perl 1, 5, 10, 12, 15 ... Python 5, 10, 32 ...
解説の続きを読む
背景 IR reading 2024春で発表予定だった論文の紹介。 sigir.jp 都合により発表できなくなったのでここで供養する。 数式等細かいところまでまとめる時間なかったので読んでたときのメモ+αくらいの内容。 どっちかにしようかなと思っていたけど、OneSparseのほうは発表があるっぽい。 Improved Learned Sparse Retrieval with Corpus-Specific Vocabularies(ECIR2024) Puxuan Yu, Antonio Mallia arxiv.org Sparseな学習済検索システムのefficiency と effe…
これは、なにをしたくて書いたもの? 前にApache Luceneでベクトル検索(kNN検索)を試してみました。 Apache Luceneでベクトル検索(kNN検索)を試す - CLOVER🍀 この後でANNに関係するHNSWのパッケージやクラスがあるのを見つけたので、今回はこちらを扱ってみたいなと思いまして。 kNN検索、ANNとHNSW 前回使ったのはkNN検索でした。これはQdrantの時にも扱いました。 Qdrantのチュートリアルから、「検索品質を測定する(Measure retrieval quality)」を試す - CLOVER🍀 あらためて内容を書いておきます。 k近傍法(…
はじめに 以前、弊社より以下の記事を紹介させていただいておりました。 1. Azure OpenAI Serviceで社内版ChatGPTのChatPCAを構築した話 2. Azureで社内文書から回答可能な生成AIチャットサービスを作った話 今回は、以前紹介させていただいたChatPCA*1の社内文書検索機能において、Azure AI SearchのRAGの精度向上の取り組みについてお話しさせていただきます。 そちらにあたって、パーソルキャリアにおける生成AIチャットサービスの概要について気になる方は、まず上記の記事を一読いただけたらと思います。 Azure AI Searchは、Elast…
RAG(Retrieval-Augmented Generation; 取得拡張生成)を利用したチャットシステム等を構築するにあたり、検索サービスであるAzure AI Searchへの需要が高まっています。 ドキュメント検索方法には、テキスト検索、ベクター検索、ハイブリッド検索などの様々なパターンがありますが、今回はテキスト検索の精度向上に寄与する「シノニム」機能に焦点を当てます。 この記事では、Azure AI Searchのシノニムの基本的な機能や検索処理の流れについて解説します。 Azure AI Searchのシノニム 用語やコンポーネントの整理 ルールの種類 同義性規則(Equiv…
こんにちは。XI 本部AIトランスフォーメーションセンター所属の山田です。 先日、部内の勉強会でAzure AI Searchについて紹介したので、テックブログでもその内容を紹介したいと思います。 Azure AI Searchとは? Azure AI Searchに保存されるデータに関する用語と概念 Azure AI Searchのスケーラビリティに関する用語と概念 Azure AI Searchでサポートされる検索の仕組み 全文検索について Azure AI Searchのアナライザー ベクトル検索について ベクトルの近傍検索アルゴリズム ハイブリッド検索 検索インデックスのスキーマ設計 …
LuceneはJavaインターフェイスなのに対して、SolrはJSON over HTTP ドキュメントの重みづけはLucene/Solr V6からOkapi BM25 スキーマは、フィールドとフィールドタイプ(数値、文字列、日付)を指定する。フィールドは非テキスト系とテキスト系に分かれる。非テキスト系には、製品名、ジャンルなど単語分割が必要ない文字列が含まれる。テキスト系はAnalyzerの指定が必要。 Analyserは、文字フィルタ、トークナイザ、トークンフィルタを指定する。 文字フィルター:例えば、文字フィルタで半角カタカナを全角カタカナに変換してからトークナイザに渡す。Mapping…
Elastic Search は全文検索ソフトとして2010年に登場した。索引検索を行う。 用語 転置インデックスは、単語と単語が出現する文書の組み合わせで作成されるインデックスのこと。 検索ライブラリー:インデクサとサーチャの機能を提供する。Apache Lucene(JAVA) 検索サーバレイヤ:Apache Solr、Elasticsearch。REST APIのインターフェイスを持つ。いずれも検索ライブラリLuceneを呼び出す。 検索システムレイヤ:クローラーやWebユーザーインターフェイスを持つ。エンタープライズサーチ製品。オープンソースではnamazu、Fessがある。 Elas…
はじめに 本項では、放送大学教育振興会出版の黒橋禎夫『自然言語処理』の改訂版(2019年)と三訂版(2023年)を比較する。 自然言語処理の主流であった古典的手法が、ニューラルネットワーク的手法に圧倒されていくさまを見ることができる。 前著では比較的小さな扱いであったニューラルネットワーク的手法が後著では主役を占めることになるとは。 確かに歴史的場面を我々は見ている。 自然言語処理〔三訂版〕 (放送大学教材)作者:黒橋 禎夫放送大学教育振興会Amazon 自然言語処理〔改訂版〕 (放送大学教材)作者:禎夫, 黒橋放送大学教育振興会Amazon 目次の変化 改訂版から三訂版への改訂にあたって読者…
Manningから出版予定の『AI-Powered Search』(AIを活用した情報検索の意)を冬休み中に読んでいたら、その中で意味的知識グラフ(Semantic Knowledge Graph)と呼ばれるデータ構造について説明していて、関連語の計算やクエリ拡張などに使えるということで興味深かったので紹介しようと思います。最初に意味的知識グラフについて説明したあと、日本語のデータセットに対して試してみます。 AI-Powered Search(https://www.manning.com/books/ai-powered-search) 本記事の構成は以下のとおりです。 意味的知識グラフと…
今年も仕事納めをしたので一年間を振り返りたいと思います。 2023年の仕事を振り返って 今年も全社モニタリング基盤の時系列データベースの開発・運用に携わってきました。 その中でも今年は「出来るか出来ないか分からないけど頑張って乗り越えて結果を出さないといけない仕事」がとても多い年でした。 内製のIn-Memoryデータベースのメモリフラグメンテーション問題を解決したり、 Why I encountered Go memory fragmentation? How did I resolve it? 既存の構成にObject Storageを活用した独自のmetrics保存・クエリ処理レイヤを実…
検索エンジンをVespaへ移行しています こんにちは、スタンバイで検索周りの開発を担当している鷹取です。 今回はスタンバイで利用している検索エンジンをVespaへ移行している話を紹介します。 検索エンジン移行の背景 Stanby Tech Blogのスタンバイ2+1年の軌跡の記事で説明されている通り、 スタンバイでは、主に求人検索機能を提供していますが、その中でもオーガニック(無料掲載)と広告(有料掲載)という2種類の検索が存在します。 この2種類の検索ではそれぞれで異なる検索エンジンを使用しています。 オーガニック検索: Yahoo! ABYSSという検索プラットフォーム 広告検索: Ela…
データベースライブラリTkrzwは追記型データベースをサポートしているが、それを応用したら転置インデックスの作成が効率的に行えるのか、考えてみた。