Lernmodus Spamassassin

Postfix, QMail, Sendmail, Dovecot, Cyrus, Courier, Anti-Spam
borstie
Posts: 6
Joined: 2003-11-24 22:22

Lernmodus Spamassassin

Post by borstie » 2003-12-27 16:53

Hallo,

ich habe auf meinem System (Suse 8.1 - Rootserver bei Strato) den Spammassassin 2.5 eingerichtet. Aufgerufen wird er per qmail und procmail bei ankommender Mail des jeweiligen users. Einzelne Userprefs habe ich nicht gesetzt, nur die Einträge in der local.cf von SA.
Ich habe die Configeinträge für das Lernen (Bayes) gesetzt.
Leider lernt SA bei ankommender Mail nicht. Ich habe auch eine mailadresse als blacklist angelegt, wo ich mails hinschicke, die druchgeschlüpft sind, da wird "sa-laern" bei jeder ankommenden mail drübergejagt. Das funktioniert soweit, der debug-mode gibt er mir da die Anzahl der gelernten mails aus.
Reicht der Eintrag in der local.cf aus, um das lernern zu aktivieren oder habe ich etwas vergessen?
Hier nochmal die procmail-regeln meines users und die local.cf:
local.cf:
whitelist_from *@81.169.154.141
# How many hits before a message is considered spam.
required_hits 5.0

# Whether to change the subject of suspected spam
rewrite_subject 0

# Text to prepend to subject if rewrite_subject is used
#subject_tag ***SPAM entdeckt***

# Encapsulate spam in an attachment
report_safe 1

# Use terse version of the spam report
use_terse_report 1

# Enable the Bayes system
use_bayes 1

# Enable Bayes auto-learning
auto_learn 1
#bayes_auto_learn 1
auto_learn_threshold_nonspam 0.1
auto_learn_threshold_spam 6.0

# Enable or disable network checks
skip_rbl_checks 0
use_razor2 1
use_dcc 1
use_pyzor 1

# Mail using languages used in these country codes will not be marked
# as being possibly spam in a foreign language.
# - german
ok_languages de

# Mail using locales used in these country codes will not be marked
# as being possibly spam in a foreign language.
ok_locales de
check_mx_delay 5
check_mx_attempts 2

#defang_mime 0
#report_header 1


und die procmailrc
### Verbose on = ausführliches Log
VERBOSE=on
LOGFILE=/var/log/procmail.log
LANGUAGE=de
LANG=de_DE

:0fw
| /usr/local/bin/clamassassin

#:0f
#| /usr/local/vscan/scanmail.pl

:0:
* ^X-Virus-Status: Yes
./christian_boerstler/Maildir/.virus



### Spam Assassin
:0fw
| /usr/bin/spamc
#
:0e
{
EXITCODE=$?
}

### Toss Spam into a Folder
:0:
# * ^Subject:.*****SPAM****
* ^X-Spam-Status: Yes
./christian_boerstler/Maildir/.spam/
#
# ### Deliver the rest into Maildir normally
:0
*
./christian_boerstler/Maildir/
#:0fw
#| /usr/bin/spamc


Und so sieht der Head einer spammail aus:
---- Start SpamAssassin results
11.10 points, 5 required;
* 0.9 -- BODY: Message is 30% to 40% HTML
* 4.0 -- BODY: Written in an undesired language
* 0.1 -- BODY: HTML included in message
* 1.1 -- BODY: HTML table has thick border
* 1.5 -- URI: URL contains username and (optional) password
* 0.7 -- URI: Uses a username in a URL
* 1.3 -- Date: is 6 to 12 hours after Received: date
* 0.9 -- RBL: Received via a relay in dnsbl.njabl.org
[RBL check: found 28.200.12.24.dnsbl.njabl.org.,]
[type: 127.0.0.9]
* 0.5 -- RBL: Received via a relay in unconfirmed.dsbl.org
[RBL check: found 28.200.12.24.unconfirmed.dsbl.org.]
* 0.1 -- Message only has text/html MIME parts

---- End of SpamAssassin results


Da ist nichts von Lern-Modus zu sehen.
Kann mir jemand helfen?

Danke
Christian

suntzu
RSAC
Posts: 698
Joined: 2002-12-20 19:47
Location: Mönchengladbach

Re: Lernmodus Spamassassin

Post by suntzu » 2003-12-27 17:10

Hi,

es muss heißen bayes_auto_learn 1 (so wie in der auskommentierten Zeile). Außerdem hat SA die Sicherheitsfunktion, dass in einem Bereich von required_hits +/- 4 nicht gelernt wird, also werden alle Mails mit Hits zwischen 1 und 9 nicht automatisch gelernt.
Der Bayes-Filter wird von SA auch erst zur Erkennung eingesetzt, sobald die Bayes-Datenbank eine bestimmte Größe hat. Ã?ber die genaue Anzahl an ham/spam-Mails habe ich in der Doku allerdings noch nichts gefunden.
Insgesamt funktioniert dein Mailsystem aber so, wie es sollte.

Gruß,
Dominik

adjustman
Posts: 1132
Joined: 2003-03-26 23:29
Location: SA

Re: Lernmodus Spamassassin

Post by adjustman » 2003-12-27 20:38

alles über 200 (default) ist relevant. Drunter nix.

dodolin
RSAC
Posts: 4009
Joined: 2003-01-21 01:59
Location: Sinsheim/Karlsruhe

Re: Lernmodus Spamassassin

Post by dodolin » 2003-12-29 11:25

http://eu3.spamassassin.org/doc/sa-learn.html
Build a significant sample of both ham and spam.
I suggest several thousand of each, placed in SPAM and HAM directories or mailboxes. Yes, you MUST hand-sort this - otherwise the results won't be much better than SpamAssassin on its own. Verify the spamminess/haminess of EVERY message. You're urged to avoid using a publicly available corpus (sample) - this must be taken from YOUR mail server, if it's to be statistically useful. Otherwise, the results may be pretty skewed.

m18
Posts: 103
Joined: 2003-01-03 03:05

Re: Lernmodus Spamassassin

Post by m18 » 2003-12-29 11:31

Verify the spamminess/haminess of EVERY message
dodolin: Was bedeutet das genau? Das ich ihm viele HAM und SPAM Mails zum scannen geben muss weiß ich.

Und zu der Anzahl 200: Bedeutet die 200 SPAM und 200 HAM Mails oder ingesamt 200?

Bei meinem gestrigen Postfach scan hab ich ihm nämlich ca 1400 HAM lernen lassen, hatte aber nur ca 120 SPAM Mails weil ich früher immer alle gelöscht hab, hatte also nur die die Outlook als SPAM klassifiziert hatte.

dodolin
RSAC
Posts: 4009
Joined: 2003-01-21 01:59
Location: Sinsheim/Karlsruhe

Re: Lernmodus Spamassassin

Post by dodolin » 2003-12-29 11:53

Was bedeutet das genau?
Die Betonung liegt auf dem Wort "verify", d.h. autolearn ist so ziemlich für den Arsch, man sollte die Korpi Spam/Ham handsortieren, sonst kann man es auch gleich sein lassen.

Per Default will er je 200 Ham und Spam Mails haben, bevor er BAYES_XX aktiviert. Man kann das aber leicht im Source ändern (ist allerdings nicht so sinnig).

m18
Posts: 103
Joined: 2003-01-03 03:05

Re: Lernmodus Spamassassin

Post by m18 » 2003-12-29 12:13

Alles klar, vielen Dank für die Infos.

Was ist dann eigentlich aus deiner Sicht die beste Lösung, wenn man mehrere Domains hat bzw mehrere User und man deren HAM/SPAM automatisch scannen möchte? Gibts da einen guten lösungsansatz?

dodolin
RSAC
Posts: 4009
Joined: 2003-01-21 01:59
Location: Sinsheim/Karlsruhe

Re: Lernmodus Spamassassin

Post by dodolin » 2003-12-29 14:44

Was ist dann eigentlich aus deiner Sicht die beste Lösung, wenn man mehrere Domains hat bzw mehrere User und man deren HAM/SPAM automatisch scannen möchte? Gibts da einen guten lösungsansatz?
Siehe dieser Thread: http://www.rootforum.org/forum/viewtop ... 911#145911

m18
Posts: 103
Joined: 2003-01-03 03:05

Re: Lernmodus Spamassassin

Post by m18 » 2003-12-29 15:02

Jab danke. war ein bissel doof von mir das in beiden Threads anzusprechen, waren nur ursprünglich mal zwei themen, die dann auf letztendlich eins rausliefen ;)