フレーズインデックス、よく結び付いて使われる言葉や複数の単語がまとまって意味を成す句。
» N-gramモデルを利用したテキスト分析 ―インデックスページ―
ある文字列の中で、N個の文字列または単語の組み合わせが、どの程度出現するか
» グーグルが大規模な日本語の解析データを公開、「20%ルール」の成果 – ニュース:ITpro
N-1個の語のつながりから、N個目に来る語を予測する手法。例えば「グーグル」と「で」という2つの語に続く、3語目の言葉を予想するのは、3-gramに相当する。この手法は、ひらがなから正しい漢字を推定するかな漢字変換や、音声データから文字を推定する音声認識などの処理において、有効に活用されている。今回グーグルは、この手法で使われるデータを作成、公開した。