■ 誤報是正「無罪判決でWinny利用者増加」は誤り
青の線︵下の線︶は、クローラが1回巡回する間に受信したキーから抽出したノードの数で、これを過去24時間で累積したのが、黄色の線︵中央の線︶である。
ランダムIPアドレスの偽キーが散布されると、青の線も若干増加するが、その数は1000個程度︵2%程度︶なので、ほとんど目立たない。これが、24時間分蓄積されると、6万個ほどになるため、黄色の線では極端なピークとして現れている。
キー散布は、なぜか断続的に行われているため、散布が行われなかった期間、つまり黄色の線の底辺部分を見ることで、実際のノード数の推移を推察できる。しかしながら、10月に入ってから、キー散布が連続して行われているため、これでは増減を判別できない。
そこで、これまでのキーの観測記録を元に、偽キー由来と思われるノードを除外して再集計︵30分を超えて2回以上現れることのなかったキーを除外して集計︶してみた。これには長い計算時間を要すので、ひとまず9月20日以降の分だけを集計した。この間のキーの数は約46億個で、集計に48時間かかった。
その結果を以下の図3に示す。緑の線(上から3番目)がそれで、黄色の線から偽キーを除外したものである。
このように、実際のノード数は増加していない。︵休日に多くなるのはいつも通り。︶
緑の線と黄色の線の差が偽キーによる増分であり、緑の線と黄色の線が平行している部分︵灰色でない区間︶でもいくらか差があるのは、現れて30分以内に消えた実在ノードも一緒に除外されてしまったためと思われる。
灰色の区間が偽キー散布による影響を受けている期間であるが、そのうち、濃い灰色の区間は、偽キー散布が行われていた期間で、淡い灰色の部分は、偽キー散布が止まって以後、ノード数集計に影響が残る期間︵散布中止から24時間後まで︶を表している。
このグラフを、ネットエージェント社発表のグラフ︵図4に引用︶と比べてみる。
グラフの読み方として、私のグラフとネットエージェントのグラフでは、横軸の目盛りが1日ずれて見える点に注意が必要である。私のグラフで﹁10/08﹂の目盛りの値は、10月8日0時0分の時点での過去24時間のノード数であり、これは、ネットエージェント社のグラフでは、﹁10/7﹂の目盛りの値に対応していると思われる。
そうして見ると、ネットエージェントのグラフの値は、図3のグラフの赤の線︵上の線︶の、各日付の0時0分の目盛りの値に概ね一致している。このことから、ネットエージェントのノード数データは、ランダムIPアドレス散布の影響を除外できていないと考えられる。
そもそも、図4のネットエージェントのグラフだけ見て、﹁判決後にノード数が増加!﹂と書いてしまうメディアもどうかしている。﹁10/8﹂と﹁10/9﹂が平日なのに休日並みに多くなっているということなのだろうが、﹁10/5﹂や﹁10/1﹂も平日なのに同程度に多いわけで、おかしいと思わないのだろうか。︵そして、それらは、図3の﹁10/09﹂﹁10/10﹂﹁10/06﹂﹁10/02﹂の部分であり、ちょうど偽キー散布によって水増しされていた日である。︶
ところで、8月にこの事態について書いた際、偽キー散布について、﹁Winny利用者が増えているということにしたい何者かが、ネットエージェント社のノード数発表の頃合いを見計らって、ノード数の水増しを謀っているのではないか﹂といった声が出ていたが、はたしてそれはどうだろうか。
私がそれを疑わずに、大学等での実験ではないかと考えたのは、もし、ノード数の水増しを謀るなら、もっとうまくやるはずだと思うからだ。図1のように断続的に散布したり中止したりを繰り返す意味がわからない。もっとうまく散布されていたら、私も水増しに気づかなかったかもしれない。
今回、10月8日︵高裁判決の日︶以降連続して偽キー散布が行われており、意図的なものかという感じもしなくもないが、判決によって増加したことを演出したいなら、判決前の10月1日から散布されていたのは何なんだということになる。もしかして、有罪と見越して﹁高裁でも有罪判決でWinny利用者激減﹂という演出を予定していたというのだろうか?︵それにしては、判決前の8日午前0時から偽キー散布が開始されているわけで、どういう説明がつくのか。︶
いずれにせよ、もし今後、この偽キー散布が自然な方法に進化していったなら、実験ではなく意図的な水増しだという可能性を疑う必要が出てくるかもしれない。
ちなみに、Winnyネットワークのノード数調査は、中央大学のJVNRSSでも実施されており、2007年10月以降のデータが掲載されている。
●JVNRSS: gBLOG: P2P Observation
●Winny/Share/Gnutella ユニークノード数の推移(/時) (最新6ヶ月分)
●Winny/Share/Gnutella ユニークファイル数の推移(/時) (最新6ヶ月分)
こちらでは、1時間当たりの数として集計されているので、偽キー散布の影響はほとんど現れていない。︵1時間当たりのランダムIPアドレスの数は、2000〜3000個程度であるため。︶
追記
10月23日の日記に続編を書いた。