全文検索エンジン:HyperExtraier


[HyperExtraier:ハイパーエストレイア]
http://labs.unoh.net/2008/10/tips_for_hyperestraier.html

特徴

  1. 高速なインデックス作成
  2. n-gram方式
  3. P2Pでの分散処理が可能である。
  4. 作った人:http://alpha.mixi.co.jp/blog/?author=3


すっごいよー、ってことらしい。
http://neta.ywcafe.net/000926.html

全文検索エンジンの出番のある案件ないのよねー

N-gram方式

http://www.blwisdom.com/word/key/000876.html

入力された文章を「N文字の文字列として区切る」という方式のこと。
文章に含まれる単語を無視して文字列単位で分解し、それを単語として認識する方法。
N-gram の長所として、検索漏れがない、文法解析をしていないので多言語展開が容易などがあり、漏れがないという利点を利用して特許情報の全文検索に用いられたりすることがある。
短所としては、単語に基づく方式に比べ、索引のサイズが大きくなることがあげられる。

要するに、分かち書きを行って単語を抽出したりする必要がないってことかな?