Scale

グーグル八分とは何か』(吉本敏洋)読んだ。著者は悪徳商法?マニアックスの中の人。
 グーグル八分をグーグルの対応も含めて実例で解説している。資料としては一級品。

 検閲止めたいんなら自分専用検索エンジンっていう結論しかない気が。

 まあでも日本語圏のテキスト検索エンジンだけなら、今でも個人で作れるはず。普通の PC + Linux or *BSD or Windows + Hyper Estraier (か他のテキスト検索エンジンか、いっそのこと Google Desktop) で HDD 多めにすれば 2007 年の個人で作れなくはないと思う。Google でよく使う日本語の助詞であるところの“は”を検索すると、1040000000 件になってる。仮に1ページあたり平均 20KB とすると 1040000000 * 20 = 20800000000 KB ~= 19.37TB で、インデックス作ったら元は捨てるという選択肢もあるし、テキストなので高い率で圧縮かかるはずで、クラスタ組んだり SAN 入れなくてもまだいけるレベル。
 もちろん商用として動かすのは別の話だし、crawler と回線の太さの方が問題になる様な気はするけど、P2P とかで志を同じくする者とシェアできればある程度は改善できるはずだから、俺様専用 Google を持つのは決して不可能ではない。

 まあ、1ページあたりのバイト数どう読むかで結構要求されるサイズが変わるとか、そもそもページ数が適切かとか(blog の個別 URL で重複してるのとかもあるはずだし)あるけど、500GB の 3.5'' HDD が 13000 円ちょいだから、まあ中古車か安めの新車を買う気分で作れますね。空調代がばかにならんだろうけど…。