N-gram方式
- 【カテゴリー】 プログラミング
- 【よみ】えぬぐらむ・ほうしき
入力された文章を「N文字の文字列として区切る」という方式のこと。文章に含まれる単語を無視して文字列単位で分解し、それを単語として認識する方法。N-gram の長所として、検索漏れがない、文法解析をしていないので多言語展開が容易などがあり、漏れがないという利点を利用して特許情報の全文検索に用いられたりすることがある。短所としては、単語に基づく方式に比べ、索引のサイズが大きくなることがあげられる。
2005年12月1日掲載










