LastModified:2007/08/31-16:11:08
うざいSPAMがどんなドマイナーな掲示板にも書かれるようになって、web上の掲示板がほとんど機能しなくなってどれくらい経つんだろう?
こういうspamは要するに、自分のサイトへのリンクを掲示板に書き込むことで、自サイトを
google検索の上位に持って行こうってのが目的なわけで、
ちょっと管理されない掲示板って即SPAMだらけになっちゃう
個人掲示板からSNSへのコミュニティの移行って、SPAMもその要因に一躍買っていると思う
多分2000年くらいの頃はまだそれほど掲示板SPAMって多くなかった気がする(あるにはあったけど、有名どころだけだったような)、多分ここ3、4年くらいのことじゃないだろうか?
特に、ここ数年で自動投稿するSPAMが増えたのが大きい
bonetとか・・・
んで、自分のHPの掲示板やら、日記コメントもSPAMの標的になってるらしく、執拗にSPAMが投稿されているわけですが、せっかくなので単に削除するだけじゃなくてキーワードと投稿IPを取得してそれをデータベース化してみたのが下記です
[SPAM投稿ip/SPAMキーワード](データベースを可視化するcgiです)
日本語SPAMは大体のところ、"人妻"とか"逆援"とか、
意外と少量の語彙を禁止キーワードに入れておけば
大丈夫のようです
(上記のフィルタでここ数ヶ月は日本語SPAMは全部弾けてる)
英語の場合は、大体URLを書き込むタイプが多いので
httpとかを弾けばいいんですが、あえてURLのドメイン
を取得して、データベースの肥やしにしております(笑)
ベイジアンフィルタ(要するにAI判定)を使う手も考えて、少し使ってみたけど、意外と掲示板の書き込みに対しては、誤判定が多いんですよね〜
あと、日本語を入れないと弾くタイプのフィルタもありますが、最近の英語圏のSPAMは1文字ほど日本語っぽいものを入れる奴があって、これもダメw