情報検索

大量のデータあるいは分析結果を必要に応じて取り出すこと

: information retrieval[1]


情報検索と情報検索システムの全体像

編集

情報検索が基盤としている技術は多数の分野にのぼる。情報検索はデータの管理および入出力のためのデータベース、文書データ処理のための自然言語処理計算言語学、画像や音声を扱うための信号処理認知心理学を背景とするパターン認識技術、メタデータに関する考察の基盤となった図書館情報学、検索アルゴリズム設計や情報検索システムの評価尺度考案のヒントとして寄与した諸数学理論などのさまざまな要素技術の組み合わせによって成り立っている。情報検索システムは情報検索を実現するためのソフトウェアハードウェアによって構成されるシステムである。ここでは主にソフトウェアに関して、現在よく用いられているシステムの構成について述べる。

歴史と現在の課題

編集

1970[2][3]1990GooglegooWorld Wide Web2000

情報検索システムの構成要素

編集
 
情報検索システムの全体像













()


情報検索システム構築の手続き

編集

情報検索システムの構築は以下のフェーズを経て行われる。順序は必ずしも一定ではなく、構築するシステムの内容や外的環境によって異なる。

検索対象データ収集

編集

検索の対象とするデータの収集方針を決定する。World Wide Web上のハイパーテキストを収集して対象とする場合にはクローラ(ロボット、スパイダー)を用いて自動的な収集を行うのが一般的であるが、天文学的数量の膨大なデータが存在し、かつ急激に変化するWorld Wide Webのデータを全て網羅して収集することは事実上不可能である。そのため、いかにして網羅的に多くの対象のデータを収集するかが重要な課題となっており、World Wide Web検索エンジンのサービスでは何ページのデータか検索が可能であるかが性能の指標の一つとなっている。

検索対象のデータからのメタデータ作成

編集

検索対象のデータからのメタデータを作成する。メタデータの形式および作成方法は検索アルゴリズムやデータ収集の方針と密接に関連する。たとえばデータ収集が継続的かつ大規模に行われるような場合、人手を使ってメタデータを作成することはコストの大幅な増大を意味することになる。

検索アルゴリズムの設計

編集

作成されたメタデータを用いてどのような計算を用いてデータを出力するか決定する。検索アルゴリズムの詳細についてはメタデータ生成法情報検索アルゴリズムを参照。

検索性能の評価

編集
 
再現率と適合率

(precision;)(recall)

 

R:N:

 

R:C:

F(F-measure)F調

 

RNCF[4]

情報検索技術の分類

編集

情報検索の技術は以下のような観点で分類できる。

検索対象データの抽象度

編集






NamazuApache Solr




検索入力の種類

編集









SQLIEEE Xplore



Google



Goo 



Query by Example

検索アルゴリズム

編集















[]
(LSI)


関連項目

編集

参考文献

編集
  • 徳永健伸著 辻井潤一編 『情報検索と言語処理 言語と計算』 東京大学出版会、1999年。
  • 北研二、津田和彦、獅々堀正幹著 『情報検索アルゴリズム』 共立出版、2002年。
  • Ricardo Baeza-Yates, Berthier Ribeiro-Neto. Modern Information Retrieval, Addison Wesley, 1999.

脚注

編集


(一)^ 

(二)^ Charles T. Meadow (1967). The analysis of information Systems-a programmer's introduction to information retrieval. (). John Wiley & Sons, Inc.. 20081119

(三)^ Charles T. Meadow(IBM); ,  (1970). -. . pp. 357p. 20081119

(四)^ F

外部リンク

編集

オープンソースの情報検索システムソフトウェア

編集

主な学術団体

編集

その他

編集