2006年02月03日
ライブドア、ブログ検索をN-gram方式へ--対象は2000万ブログ超
【記事概要】
ライブドアは2月2日、「livedoor 検索」のブログ検索において新たにN-gram方式による検索エンジンへ移行し、検索ワードの一部しか知らなくても目的のサイトを見つけられる「部分一致検索」が可能になったと発表した。
【N-gram方式】
例えば「ライブドアの検索」という文章ならば、形態素解析では「ライブドア」「の」「検索」と分割する。英語では、単語と単語の間にスペースが入るので認識しやすいが、日本語の場合は、単語の辞書ファイルを用意しなくてはならない。これがN-gramの場合、Nを2文字単位と指定すれば、「ライ」「イブ」「ブド」「ドア」「アの」「の検」「検索」と分割し、それぞれを単語として扱う。強制的に分割するので、別途辞書ファイルを用意する必要がない。
そのため、一般的に認識する単語のデータ量は、形態素解析よりもN-gramのほうが多くなるので、検索を高速に処理するのは不得手(Nを何文字にするかによっても大きく変わる)とされている。しかし、別途辞書ファイルが必要ないため多言語でも通用するほか、網羅性が高く検索の漏れがなくなりやすいとされている。
トラックバックライブドアは2月2日、「livedoor 検索」のブログ検索において新たにN-gram方式による検索エンジンへ移行し、検索ワードの一部しか知らなくても目的のサイトを見つけられる「部分一致検索」が可能になったと発表した。
【N-gram方式】
例えば「ライブドアの検索」という文章ならば、形態素解析では「ライブドア」「の」「検索」と分割する。英語では、単語と単語の間にスペースが入るので認識しやすいが、日本語の場合は、単語の辞書ファイルを用意しなくてはならない。これがN-gramの場合、Nを2文字単位と指定すれば、「ライ」「イブ」「ブド」「ドア」「アの」「の検」「検索」と分割し、それぞれを単語として扱う。強制的に分割するので、別途辞書ファイルを用意する必要がない。
そのため、一般的に認識する単語のデータ量は、形態素解析よりもN-gramのほうが多くなるので、検索を高速に処理するのは不得手(Nを何文字にするかによっても大きく変わる)とされている。しかし、別途辞書ファイルが必要ないため多言語でも通用するほか、網羅性が高く検索の漏れがなくなりやすいとされている。
このエントリーのトラックバックURL: