コンテンツにスキップ

全文検索

出典: フリー百科事典『ウィキペディア(Wikipedia)』
デスクトップ検索から転送)

: Full text search使

[]

grep[]


grepUNIXgrepgrepgrep使

[]


grep11: indexing |  |  | 

[]

[]


N-Gram[]

NN N-1 N1: uni-gram2: bi-gram3: tri-gram22
形態素解析とN-gramの比較
  形態素解析 N-gram
インデクシング速度 遅い 速い
インデックスサイズ 小さい 大きい
検索ノイズ 少ない 多い
検索漏れ 多い 少ない
検索速度 速い 遅い
言語依存 辞書が必要 辞書が不要
その他[編集]

2

[]


HTML


Xpdf
Xpdf

NamazuPDF

IFilter
IFilterShop

IFilter.Org

Microsoft Office 2010 Filter Packs

Index ServiceWindows

xdoc2txt
http://ebstudio.info/home/xdoc2txt.html

GrepKWIC FinderHyper Estraier 

[]


ID: inverted file使ID
転置ファイルの例
単語 文書ID
サーチ 1, 3, 4
デスクトップ 2, 4, 7
解析 3, 5, 6, 7
形態素 2, 6, 7
検索 1, 6
全文 1, 6, 7

ID

[]


: recall: precision#

[]






HTML

<title><H1>

tf-idf

TFIDF



Google

[]


WWW

2013GoogleBing



WordExcel



WordExcelPDF

[]

/[]

[]


Tokyo Dystopia: a full-text search system
使Tokyo Cabinet: a modern implementation of DBMTokyo Tyrant: network interface of Tokyo CabinetTokyo Promenade: a content management systemKyoto Cabinet: a straightforward implementation of DBMKyoto Tycoon: a handy cache/storage server

Hyper Estraier
N-gram (N.M-gram)

WebCGI

N.M-gramNM



msearch
|||Grep

root

UTF-8UnicodeUnicodemsearch

Namazu


2: false drop=

使



Apache Lucene/Solr
AnalyzerN-gram

Java

LuceneLuceneSolr

IBM WebSphere Commerce, Salesforce, Microsoft Azure, SAP Hybris, 

Zookeeper使

Rast
N-gram



Senna
N-gram



MySQLMySQL

PostgreSQLSennaLudia

PerlPerlPHPRubyPython



Groonga
Senna

[]


jetrun®
300700

ASPWeb

ConceptBase Enterprise Search
 ConceptBase 

NL-Vgram1

ConceptBase Search Lite ConceptBase Search 1000


ConceptBase V

Sedue
使



FAST ESP


N-gram

FileBlog
SolrActiveDirectoryWindowsGUI



Oracle Secure Enterprise Search
N-gram (V-gram)



Piranha
CGI

SAVVY
調

SMART/InSight
N-gram

ActiveDirectoryACL

Apache Solr使

Neuron
Apache Solr

N-Gram

Vivisimo Velocity


ActiveDirectoryACL

WiSE

FlexSearch

InfoBee/iS
NTT

使

IBM OmniFind Enterprise Edition
N-gram



FAST Search Server for SharePoint


Autonomy IDOL (Intelligent Data Operating Layer)
Meaning-Based Computing (MBC) 

QuickSolution


Microsoft SharePoint Server
SharePoint 2013

 Microsoft Office 365 Microsoft SharePoint

[1][]

[]


Windows Search


Windows Vista



MSN   with Windows  

SpotlightApple
Mac OS X TigerSherlock

GrepWin
GrepWindows

GUI

Google (Google)


Google web

[1]

2008

DesktopHE
N-gram (N.M-gram)

Hyper EstraierGUI

Google 

2010


Windows 2000 / XP



CPU



VistaWindows 

FindFast
MS Office95~2000

Office

Office XP

Beagle
LinuxUnixOS

MetaTracker
LinuxUnixOS

butterfly_search
N-gram


[]


 (Search++)
Lucene

PDFOffice













DocuWorks6.0ExpandFinder

  Pokuda Search Pro
Apache TikaApache Lucene

PDFOfficeOpenOfficeMP3, MP4

[]


(鹿)()

ll使

[]

関連項目[編集]

外部リンク[編集]