seraphyの日記

日記というよりは過去を振り返るときのための単なる備忘録

ともだちのともだちの傾向

 一昨日からmixiの友達連鎖を巡回して、プロフィールを収集する、やっつけJAVAアプリを試しているのだが…。
 とりあえず、SpringのBeanFactoryでお手軽な構造にして。

 しかし、連続してアクセスすると、アクセス頻度に応じて、連続アクセスしちゃダメよ、と叱られてしまう仕組みであるらしい。
 面白いことに、一気に複数ページをロードすると、しばらく待て、といわれる待機時間が長くなり、少しロードしては休みを繰り返すと、待てといわれる時間が短くなる。
 つまり、一定時間内でアクセスしてよいページ数のチケット制みたいなのだな…。

 念のため書き添えておくと、他のユーザに影響あるような時間帯にやってるわけではない。深夜3時ぐらい。
(もとより、私は5秒以上待たされるサイトは行かないことにしているので、mixiも午後9時から午前0時ぐらいまでは、ほとんどアクセスしない。)
結局、人がアクセスするのと同じぐらいのペースで巡回するのが間違いない、ということかな。

 やってることも、ログインしてプロフィールみて友達リストを見て、その友達リストのプロフィールを見て…x3レベルぐらい。
 だが、まだ収集は完了していない。

 これができたら、コミュニティごとの年齢と職業のデータを集めようかな、とか思いつつ。
 今回の実験で帯域制限かかっていることがわかったので、メンバ数が数千件クラスだと全部取得するのは無駄すぎる。母集団に対する、どのくらいの数の無作為抽出が妥当か悩む。
 こうゆう統計情報はコミュニティに参加するかどうかの良い判断材料になると思うのだけどなぁ。(あと、「活発さ」も。)

 だれかの日記に書いてあったが、mixiのコミュニティは沢山参加すると、自分の関心度の高低に関わらず、自分のトップページが発言の多いコミュニティで埋め尽くされてしまうので、関心はあっても、それほど重要ではないコミュニティは「活発なものほど参加しないほうが良い」という。
 プライオリティをつけられれば良いのだけど。
(マイミクさんも同じだと思うけど。)

# あと発見ごとだが、mixiのページのHTMLを単純保存してブラウザで表示させると、プロフィール画像とか、ちゃんと読んでくれるのだ。画像などには認証はかかっていない模様。だからどうした、という感もあるかもしれないが、*.plのところだけチェックしているみたい。JAVA系(J2EE/ASP.NETも?)だと、特定のフォルダ以下全部、というようなかけ方が一般的なので、かなり意外でした。