新生鳩丸掲示板♯

bakera.jp > 新生鳩丸掲示板♯ > スレッド内全記事表示 (記事 932 からのスレッド)

スレッド内全記事表示 (記事 932 からのスレッド)

[932] Re: えび日記 : 「副業 日記掲示板」

yuu (2003年9月25日 14時8分)

掲示板の書き込みに対してベイズ推定を利用したフィルタのようなものを適用してはどうですか。その判定によって、書き込まれた瞬間にそれが問題ない投稿か、あるいは所謂spamな投稿であるかといった振り分けをするのです。そしてspamだと判明した場合は、自動的にその雛形をもとにしたメールをプロバイダに送信するという感じで。もちろん誤検出もありえるので本当に自動的にしないで、送信寸前状態のものを作っておくという感じになりますが。

言うは易しなので言ってみました【謎】。

[933] Re: えび日記 : 「副業 日記掲示板」

ばけら (2003年9月25日 14時44分)

>言うは易しなので言ってみました【謎】。

 御意というかなんというか、いや、ホントに欲しいです。そういう機能。

 今の私の 30倍くらいのスキルが必要そうですけれど。

[936] Re: えび日記 : 「副業 日記掲示板」

いわい (2003年9月25日 18時17分)

>掲示板の書き込みに対してベイズ推定を利用したフィルタのようなものを適用してはどうですか。

(snip)

Perl だったら Mail::SpamAssassin とかでなんとかなるのかな?とか思いました。思っただけですが【謎無】。

[939] Re: えび日記 : 「副業 日記掲示板」

yuu (2003年9月25日 19時37分)

>>掲示板の書き込みに対してベイズ推定を利用したフィルタのようなものを適用してはどうですか。

>(snip)

>

>Perl だったら Mail::SpamAssassin とかでなんとかなるのかな?とか思いました。思っただけですが【謎無】。

言うは易し思うも易し【謎】。

[941] Re: えび日記 : 「副業 日記掲示板」

ばけら (2003年9月25日 20時8分)

>Perl だったら Mail::SpamAssassin とかでなんとかなるのかな?とか思いました。思っただけですが【謎無】。

 アルゴリズムとしては、NGワードにスコアをつけて一定値を越えたら spam 判定な感じでしょうか?

・文中にメールアドレスが入っていたら +1

・文中にURLが入っていたら +1

・文中、タイトルに★■●などが入っていたら +1

・「在宅」「出会い」「サイドビジネス」……云々は +1

 とかいう具合にルール化して積み上げていけば良いのかしら。

 こんな感じなら実装できるかもですが、ワードの選択とスコアのつけ方が鍵になりそうですね。

[943] Re: えび日記 : 「副業 日記掲示板」

いわい (2003年9月25日 22時2分)

> こんな感じなら実装できるかもですが、ワードの選択とスコアのつけ方が鍵になりそうですね。

というか難しく考えずに「在宅」「出会い」「サイドビジネス」あたりがあったら管理者(誰)がモデレートするようにしたらいいだけなのかと思いました。数が多くなってきたら管理者(誰)が大変そうですが。

[947] Re: えび日記 : 「副業 日記掲示板」

えむけい (2003年9月26日 0時34分)

・文中に「【」「】」が入っていたら +1

というのを思いつきました【謎】。

それはさておき【謎】長文を書くとそれだけで不利になるというのもアレ【どれ】なので文章の長さで割るとかの工夫をするとよさげかも。確かAHLがそんな工夫をしてました。

[958] Re: えび日記 : 「副業 日記掲示板」

ばけら (2003年9月26日 12時33分)

>それはさておき【謎】長文を書くとそれだけで不利になるというのもアレ【どれ】なので文章の長さで割るとかの工夫をするとよさげかも。確かAHLがそんな工夫をしてました。

 試してみたのですが、そうすると「人生を変えたくて!」を spam 判定するのが難しくなります。だらだらととりとめのない感じの長文を書いて最後に「このサイト見てね」で締めくくる形になっているので……。

[960] Re: えび日記 : 「副業 日記掲示板」

ばけら (2003年9月26日 14時22分)

>・文中に「【」「】」が入っていたら +1

>というのを思いつきました【謎】。

 実際にそういう spam があるので、それはホントに実装しています。

 それだけで spam 判定されるわけではないので、問題はないと思いますが。

 現在のアルゴリズムで score=100 を閾値とすれば OK かしら……。

 が spam と誤判定されるのですが、これは仕方ない気が。

 引用部を判定してスコアを落とすという手もありますが、どうかなぁ。

[961] Re: えび日記 : 「副業 日記掲示板」

えむけい (2003年9月26日 15時20分)

>http://altba.com/bakera/hatomaru.aspx/htmlbbs/article/610

>

> が spam と誤判定されるのですが、これは仕方ない気が。

> 引用部を判定してスコアを落とすという手もありますが、どうかなぁ。

URLが入っていない投稿はスコアにかかわらずSPAM判定しなければいいのでは。

[962] Re: えび日記 : 「副業 日記掲示板」

ばけら (2003年9月26日 15時38分)

>URLが入っていない投稿はスコアにかかわらずSPAM判定しなければいいのでは。

 それが恐ろしいことに、住所と電話番号が書いてあるというパターンも存在するので……。

 いちおう URL には高いスコアを与えて spam 判定の助けにはしています。

[964] Re: えび日記 : 「副業 日記掲示板」

yuu (2003年9月26日 15時53分)

> それが恐ろしいことに、住所と電話番号が書いてあるというパターンも存在するので……。

> いちおう URL には高いスコアを与えて spam 判定の助けにはしています。

それでもひとまずは新規投稿分だけを見ておけば良いのではないでしょうか。

[967] Re: えび日記 : 「副業 日記掲示板」

えむけい (2003年9月26日 16時36分)

> それが恐ろしいことに、住所と電話番号が書いてあるというパターンも存在するので……。

住所や電話番号らしきものが含まれている投稿もSPAM判定対象に加えればいいだけでは。電話番号は「-()」で区切られるかもしれない数字11桁だし住所は都道府県とか23区を網羅しておけばよさげ。

[969] Re: えび日記 : 「副業 日記掲示板」

ばけら (2003年9月26日 17時50分)

>> それが恐ろしいことに、住所と電話番号が書いてあるというパターンも存在するので……。

>住所や電話番号らしきものが含まれている投稿もSPAM判定対象に加えればいいだけでは。

 それは既にしていますが、いずれにしても「URL がなければホワイト」対応では駄目だと言うことで。

[1654] Re: えび日記 : 「副業 日記掲示板」

ばけら (2004年3月4日 12時59分)

「副業 日記掲示板」で検索してこの日記がヒットして、そこからまよわず掲示板に行って MLM の宣伝を投稿してる人がいますね。勇者というかなんというか。

[5816] 未承認メッセージ (投稿元:58.248.74.93)

bagff (2010年5月5日 3時25分)

(この記事は承認されていないため、管理者が許可するまで公開されません。)

[5842] 未承認メッセージ (投稿元:58.61.238.98)

美子 (2010年6月5日 13時7分)

(この記事は承認されていないため、管理者が許可するまで公開されません。)

[5843] 未承認メッセージ (投稿元:113.64.168.241)

123 (2010年6月8日 9時2分)

(この記事は承認されていないため、管理者が許可するまで公開されません。)

[5856] 未承認メッセージ (投稿元:113.64.175.231)

秀子 (2010年6月15日 3時19分)

(この記事は承認されていないため、管理者が許可するまで公開されません。)

[5862] 未承認メッセージ (投稿元:58.61.239.5)

秀子 (2010年6月18日 22時21分)

(この記事は承認されていないため、管理者が許可するまで公開されません。)

最近の日記

関わった本など