Spamassassin erkennt nicht richtig

Weltraumratte
Posts: 55
Joined: 2004-07-27 14:49
Location: Wild South Germany

Spamassassin erkennt nicht richtig

Post by Weltraumratte »

Hallo!
Auf meiner früheren Rootie-Install (Debian, syscp, postfix, maildrop, spamassassin) klappte die Erkennung von Spam mittels Spamassassin sehr gut. Nun ist der Server neu aufgesetzt worden und die generelle Arbeit der Komponenten (Lenny, Froxlor, postfix, mailscanner, spamassassin) klappt schon - aber es werden viele Spam Mails nicht als Solche erkannt. Ich habe bisher nicht rausfinden können, woran genau das Problem liegt - daher hier mal ein Posting, vielleicht könnt Ihr mir 'nen Tip geben. Also, Beispiel:

HTML Spam eMail: "Einzigartige Designermodelle oder stilvolle Klassik - Brand gleiche Armbanduhren fuer Sie"......

Spam-Erkennungs-Header:

Code: Select all

   X-Mailscanner-Spamcheck:    not spam, SpamAssassin (not cached, score=-2.499, required 6, BAYES_00 -2.60, HTML_MESSAGE 0.00, RDNS_DYNAMIC 0.10, SPF_HELO_PASS -0.00)


Hin und wieder wird schon was als Spam erkannt! Hier ein eMail mit dem üblicheninvestment portfolio werden sie Reich etc.:

Code: Select all

   X-Mailscanner-Spamcheck:    spam, SpamAssassin (not cached, score=7.653, required 6, BAYES_60 1.00, FORGED_MUA_OUTLOOK 3.12, FORGED_OUTLOOK_HTML 0.00, FORGED_OUTLOOK_TAGS 0.00, HTML_MESSAGE 0.00, MIME_HTML_ONLY 1.46, SUBJ_ALL_CAPS 2.08)


Die spamassassin local.cf dürfte irrelevant sein, da Spamassassin über die MailScanner Config's seine Werte bekommt - oder?! ->

MailScanner: spam.assassin.prefs.conf -> http://nopaste.info/5f2123ca3f.html
MailScanner: MailScanner.conf -> http://nopaste.info/a56c6498f3.html

Wo kann ich hier ansetzen damit's besser läuft?!
Top

EdRoxter
Posts: 483
Joined: 2006-01-06 03:23
Location: Neben Bonn

Re: Spamassassin erkennt nicht richtig

Post by EdRoxter »

BAYES_00 gibt -2.6 Punkte auf die Score - du musst also den sa-learn mal ordentlich mit Spam- und Hammails (je ~1000) füttern und das am besten auch kontinuierlich mit False Negatives weiterhin tun, obwohl ab dann die autolearn-Funktion auch recht zuverlässig ist. Außerdem würde ich dir die iXhash-Blacklists empfehlen - einfach mal nach googlen, die Trefferquote ist phänomenal.
Top

Roger Wilco
Administrator
Administrator
Posts: 6001
Joined: 2004-05-23 12:53

Re: Spamassassin erkennt nicht richtig

Post by Roger Wilco »

Du musst, wenn du den Bayes-Filter benutzen willst, natürlich erst einen entsprechenden Textkorpus anlernen, wie von EdRoxter beschrieben. Wenn du das nicht willst, deaktiviere den Bayes-Filter.

Darüber hinaus solltest du die statischen Regeln von SpamAssassin regelmäßig aktualisieren. Dafür bringt SpamAssassin das Programm `sa-update` mit.
Top

Weltraumratte
Posts: 55
Joined: 2004-07-27 14:49
Location: Wild South Germany

Re: Spamassassin erkennt nicht richtig

Post by Weltraumratte »

Vielen Dank Euch!!
OK, das mit dem anlernen mache ich gerade ein wenig. Tip für andere Suchende: Musste dabei aber noch beachten, das ich mit sa-learn & --dbpath arbeiten muss ;)

iXhash habe ich laut Anleitung für spamassassin installiert (sind ja nur die 2 Files) - aber ich weiss noch nicht ob das auch automatisch beim Aufruf vom Mailsystem getriggert wird. Muss ich mich noch etwas reinarbeiten.....
Top

Weltraumratte
Posts: 55
Joined: 2004-07-27 14:49
Location: Wild South Germany

Re: Spamassassin erkennt nicht richtig

Post by Weltraumratte »

Sehr unbeständig irgendwie. Eine erkannte eMail hat als Header:

Code: Select all

spam, SpamAssassin (not cached, score=6.492, required 6, BAYES_99 3.50, GENERIC_IXHASH 0.10, HTML_MESSAGE 0.00, HTML_TAG_BALANCE_HEAD 1.33, MIME_HTML_ONLY 1.46, NIXSPAM_IXHASH 0.10)


eine andere nicht als Spam erkannte:

Code: Select all

not spam, SpamAssassin (not cached, score=-0.112, required 6, BAYES_00 -2.60, FUZZY_ERECT 0.80, RAZOR2_CHECK 0.50, RDNS_DYNAMIC 0.10, URIBL_RHS_DOB 1.08)


Hier wieder der negative Bayes-Wert... strange.

dump magic ->

Code: Select all

sa-learn --dump magic --dbpath /var/lib/MailScanner
0.000          0          3          0  non-token data: bayes db version
0.000          0       2492          0  non-token data: nspam
0.000          0       8047          0  non-token data: nham
0.000          0     290048          0  non-token data: ntokens
0.000          0 1069365600          0  non-token data: oldest atime
0.000          0 1307094107          0  non-token data: newest atime
0.000          0          0          0  non-token data: last journal sync atime
0.000          0 1307091893          0  non-token data: last expiry atime
0.000          0    1382400          0  non-token data: last expire atime delta
0.000          0      29975          0  non-token data: last expire reduction count
Top

EdRoxter
Posts: 483
Joined: 2006-01-06 03:23
Location: Neben Bonn

Re: Spamassassin erkennt nicht richtig

Post by EdRoxter »

Das liegt daran, dass der Filter BAYES_00 per Default-Konfiguration als sehr ausschlaggebend für "Kein Spam" scored, weil der halt besagt, dass Bayes für die Mail eine Spamwahrscheinlichkeit von 0 Prozent angibt. Das kann z.B. daran liegen, wenn man sehr viele deutschsprachige Mails als Ham angelernt hat und dann eine deutschsprachige Spammail, deren Schema bisher nicht als Spam angelernt wurde, eintrudelt. NiXspam scheint zu greifen, dem würde ich in der local.cf aber global einen viel höheren Score geben - ich fahre auf 3 System mit 1.5-2.5 ziemlich gut.

Da hilft nur, jede einzelne False Negative als Spam anzulernen. Das ist eine Aufgabe für ein Wochenende oder noch mehr, da muss man prinzipiell immer so ein wenig hinterher sein. Ich könnte dir aber auch mal einen Dump einer relativ gut gepflegten Bayes-DB zukommen lassen, die du so als Grundlage bei dir importieren könntest. Interesse?
Top

EdRoxter
Posts: 483
Joined: 2006-01-06 03:23
Location: Neben Bonn

Re: Spamassassin erkennt nicht richtig

Post by EdRoxter »

Kein Thema, mach ich übers Wochenende mal. :)
Top

EdRoxter
Posts: 483
Joined: 2006-01-06 03:23
Location: Neben Bonn

Re: Spamassassin erkennt nicht richtig

Post by EdRoxter »

P.S.: Hier noch meine NiXspam-Config, mit der ich ziemlich gut fahre:

Code: Select all

loadplugin Mail::SpamAssassin::Plugin::iXhash  /usr/local/etc/mail/spamassassin/iXhash.pm

# Timeout in seconds - default is 10 seconds
ixhash_timeout          10

# Should be add hashes generated to the messages' metadata for later re-use
use_ixhash_cache        1

# wether to only use perl (ixhash_pureperl = 1) or the system's 'tr' and 'md5sum'
ixhash_pureperl         1

# If you should have 'tr' and/or 'md5sum' in some weird place
# or you specify which version to use ypu can specifiy the exact paths here
# Default is to have SpamAssassin find the executables
#ixhash_tr_path          "/usr/bin/tr"
#ixhash_md5sum_path      "/usr/bin/md5sum"

body            GENERIC_IXHASH eval:ixhashtest('generic.ixhash.net')
describe        GENERIC_IXHASH iXhash found @ generic.ixhash.net
tflags          GENERIC_IXHASH net
# adjust as you seem fit
score           GENERIC_IXHASH 1.5

body            NIXSPAM_IXHASH eval:ixhashtest('ix.dnsbl.manitu.net')
describe        NIXSPAM_IXHASH iXhash found @ ix.dnsbl.manitu.net
tflags          NIXSPAM_IXHASH net
# adjust as you seem fit
score           NIXSPAM_IXHASH 2.0

body            CTYME_IXHASH eval:ixhashtest('ctyme.ixhash.net')
describe        CTYME_IXHASH BiXhash found @ ctyme.ixhash.ne
tflags          CTYME_IXHASH net
# adjust as you seem fit
score           CTYME_IXHASH 1.5

body            HOSTEUROPE_IXHASH eval:ixhashtest('hosteurope.ixhash.net')
describe        HOSTEUROPE_IXHASH iXhash found @ hosteurope.ixhash.ne
tflags          HOSTEUROPE_IXHASH net
# adjust as you seem fit
score           HOSTEUROPE_IXHASH 1.5
Top

Weltraumratte
Posts: 55
Joined: 2004-07-27 14:49
Location: Wild South Germany

Re: Spamassassin erkennt nicht richtig

Post by Weltraumratte »

matzewe01 wrote:@EdRoxter, spricht ggf. etwas dagegen dies generell zu veröffentlichen?
Z.B. über das Rootforum bzw. root-utils repository?


Gute Bayes-DB klingt auch gut! Würde ich gerne annehmen :)
Ich habe vorhin auch noch mal versucht, die alte Bayes-DB zu finden welche ich vor dem Server-Neu-Aufsetzen hatte, aber die konnte ich leider nicht mehr finden. Damals lief es auch gut mit den Spams... OK, die DB existierte über Jahre...

Die Scores für iXhash habe ich mal Deinen Werten angepasst - mal sehen ob's Besserung bringt.
Last edited by Weltraumratte on 2011-06-03 14:58, edited 1 time in total.
Top

Weltraumratte
Posts: 55
Joined: 2004-07-27 14:49
Location: Wild South Germany

Re: Spamassassin erkennt nicht richtig

Post by Weltraumratte »

Hier habe ich noch ein paar Bayes-DBs gefunden. Ob die was taugen weiss ich nicht:
http://www.fsl.com/support/
http://www.thebatworld.de/modules/downl ... ink&cid=10
Top

Roger Wilco
Administrator
Administrator
Posts: 6001
Joined: 2004-05-23 12:53

Re: Spamassassin erkennt nicht richtig

Post by Roger Wilco »

Der Textkorpus muss a) sehr aktuell sein (nicht wie die von dir geposteten Quellen über 6-8 Jahre alt) und b) auf den jeweiligen Benutzer zugeschnitten sein. Insbesondere der Ham (also die „guten” Mails) sollten sehr individuell trainiert werden.
Top

User avatar
Joe User
Project Manager
Project Manager
Posts: 11518
Joined: 2003-02-27 01:00
Location: Hamburg

Re: Spamassassin erkennt nicht richtig

Post by Joe User »

Für internationalen Spam kann ich http://untroubled.org/spam/ sehr empfehlen.
Die Sinnhaftigkeit solcher Archive ist aber sehr fragwürdig, sie taugen IMHO maximal als individuell auszubauende Basis.

Ich selbst setze mitlerweile nur noch zen.spamhaus ein, alle anderen Dinge sind im Laufe der Zeit weggefallen.
PayPal.Me/JoeUserFreeBSD Remote Installation
Wings for LifeWings for Life World Run

„If there’s more than one possible outcome of a job or task, and one
of those outcomes will result in disaster or an undesirable consequence,
then somebody will do it that way.“ -- Edward Aloysius Murphy Jr.
Top

Weltraumratte
Posts: 55
Joined: 2004-07-27 14:49
Location: Wild South Germany

Re: Spamassassin erkennt nicht richtig

Post by Weltraumratte »

Hi!
Diese Quelle habe ich mal ein wenig angezapft für die letzten Monate. Desweiteren bin ich noch mal verschiedenste Settings durchgegangen, da das Mailscanner-Spamassassin Konstrukt ja durch die div. configs etwas verteilter von den Settings ist als wie ich's früher mit maildrop gemacht habe. Nun ist die Erkennung schon besser geworden. Hier der Header von 'nem "Kings Palace Club" Spam:

Code: Select all

spam, SpamAssassin (not cached, score=24.098, required 6, autolearn=spam, BAYES_50 0.00, DIGEST_MULTIPLE 0.00, FH_HELO_EQ_D_D_D_D 0.00, GENERIC_IXHASH 1.50, HELO_DYNAMIC_IPADDR2 4.39, NIXSPAM_IXHASH 2.00, PYZOR_CHECK 3.70, RATWARE_MS_HASH 1.40, RATWARE_OUTLOOK_NONAME 2.17, RAZOR2_CF_RANGE_51_100 0.50, RAZOR2_CF_RANGE_E8_51_100 1.50, RAZOR2_CHECK 0.50, TVD_RCVD_IP 1.93, URIBL_JP_SURBL 1.50, URIBL_SBL 1.50, URIBL_WS_SURBL 1.50)


Da ist alles drinnen was man sich wünscht: Autolearn, iX, Razor, Pyzor, Bayes...

'ne andere heutige eMail bezüglich Armbanduhren-Werbung dagegen noch nicht:

Code: Select all

not spam, SpamAssassin (not cached, score=1.1, required 6, BAYES_00 -2.60, HTML_MESSAGE 0.00, PYZOR_CHECK 3.70, SPF_HELO_PASS -0.00, SPF_PASS


Naja, muss noch etwas angelernt werden!
Top

EdRoxter
Posts: 483
Joined: 2006-01-06 03:23
Location: Neben Bonn

Re: Spamassassin erkennt nicht richtig

Post by EdRoxter »

Ja, die Armbanduhren sind bei mir auch die einzigen, die derzeit ab und an durchkommen. Englischen und russischen Spam erkennt Bayes (natürlich) ziemlich zuverlässig.
Top