単語数: 255,198,240,937 (2550億)
総文数: 20,036,793,177 (200億)
異なり 1-gram 数: 2,565,424
異なり 2-gram 数: 80,513,289
異なり 3-gram 数: 394,482,216
異なり 4-gram 数: 707,787,333
異なり 5-gram 数: 776,378,943
異なり 6-gram 数: 688,782,933

異なり 7-gram 数: 570,204,252


以下が 7-gram データの例です。7つの単語の並びのあとに、その並びの出現頻度が記録されています。

グーグル で 検索 し て い た 39

グーグル で 検索 し て い たら 143

グーグル で 検索 し て い て 45

グーグル で 検索 し て いる と 33

グーグル で 検索 し て おく べき 27

グーグル で 検索 し て ください 。 92

グーグル で 検索 し て こちら の 37

グーグル で 検索 し て しまい まし 24

グーグル で 検索 し て たら さぁ 50

グーグル で 検索 し て たら 見つけ 37

グーグル で 検索 し て で て 26

グーグル で 検索 し て み た 639

グーグル で 検索 し て み たら 450

 

20%使Google 20%20%使

 Googlen-gramn-gramGoogleMapReduce使

 
(一) : Unicode NFKC  
(二): MeCab使Web使 
 
使

 


n-gram 
[2007/11/03 01:09]