Regelset von SpamAssassin ( Lernmodus, etc. )

Post by **adjustman** » 2003-06-29 17:52

Hi, ich möchte hier mal ein Thema "anschubsen".

Wie sind denn Eure Erfahrung mit dem Regelset, dem Bayes-Lernmodus, den White- und Blacklists und und .. von SA. Wie habt Ihr Eure local.cf oder/und Eure user_prefs "gestaltet" ?? Bitte um rege Beteiligung. :)

cu AM

Post by **dodolin** » 2003-06-29 18:44

Servus, also meine user_prefs habe ich jetzt mal online gestellt... -> http://users.dodolin.de/~dominik/conf/s ... user_prefs

Die local.cf habe ich bisher noch nicht angepasst.

Ich rufe das übrigens über maildrop auf, meine .mailfilter dafür sieht folgendermaßen aus:

Code: Select all

exception {
        xfilter "/usr/bin/spamc"
}

if (/^X-Spam-Flag: YES/)
        to "$HOME/Maildir/.spam/"

# [... hier diverse Sortiermethoden gesnippt, da IMHO nicht relevant]

to "$HOME/Maildir/"

Bisherige Erfahrungen, nach ca. 1 Woche Nutzung:
0 False Positives (= als Spam erkannte "gute" Mail)
Doch einige False Negatives (= Nicht als Spam erkannter Spam)

Daher passe ich bei solchen False Negatives nach Bedarf meine user_prefs an, um den doch recht niedrigen Score für manche Regeln etwas höher zu setzen. Dabei sollte man natürlich immer im Hinterkopf haben, ob und wie sich das auf Ham (= gute Mails) auswirken könnte...

Den Bayesfilter habe ich bisher noch nicht richtig trainiert, da hierzu sinnigerweise einge größere Menge an Spam und Ham nötig ist, als ich binnen 1 Wocher erhalte. Deshalb kann ich hierzu noch nichts sagen.

Explizite Black- und Whitelists versuche ich soweit wie möglich zu vermeiden und das eher über Ã?nderungen der Scores in der user_prefs zu regeln. Bisher hatte ich noch keinen Bedarf, das will ich wirklich nur in Ausnahmefällen benutzen, weil mir das Pflegen solcher Listen einfach zu viel Arbeit ist (ich bin halt faul... :) ), die ich ja gerade mit dem Einsatz von Spamassassin vermeiden oder zumindest reduzieren wollte.

Ich habe mir bereits ein kurzes sa-learn Skript geschrieben, welches ich etwa einmal täglich (nachts) per cron laufen lassen werde, sobald ich genügend Mails zusammenhabe (mind. je mehrere 100 Spam und Ham Mails). -> http://users.dodolin.de/~dominik/conf/sa-learn

Weitere Erfahrung bisher:
Gerade bei deutschem Spam ist das momentane Regelset schlecht bzw. ungenügend. Bei englischem ist es schon top. Hier schafft hoffentlich bald http://dragon.roe.ch/SA_de/ Abhilfe, deren Arbeit dann in den "offiziellen" Spamassassin einfließen wird. Ich erwarte es sehnsüchtig, und werde mir so schnell als möglich das Update holen, wenn das drin ist.

Post by **adjustman** » 2003-06-29 19:17

Nach meiner Beobachtung stuft das Programm nach
längerer Lernphase (hab auch so ein sa-learn-Script ca. 2 Wochen laufen lassen) Mails ( Spam! ) nicht mehr "ordentlich" ein.
Sollte man dann, nach längerem Lernen, den Schwellwert
zurück nehmen?

required_hits = ? ( steht bei mir z.Zt. bei 5 )

@dodolin weisst Du wann es ein Update geben soll?

Post by **[tom]** » 2003-06-29 19:53

Aufgrund von einer Diskussion, die ich gestern hatte und dem anderen Thread hab ich endlich mal auf 2.55 upgedatet. Das war schon mehr als überfällig und ich hatte das schon viel zu lange vor mir hergeschoben.

Ich hab auch noch Honeypots aufgestellt, also sinnlose Mailaccounts eingerichtet. Da die nirgends veröffentlicht sind, sind Mails an diese Accounts 100%-ig Spam. Damit kann man dann den Bayes füttern und/oder zusätzlich die From Adressen rausfiltern und an die Blacklist hängen.

[TOM]

Post by **dodolin** » 2003-06-29 20:09

Nach meiner Beobachtung stuft das Programm nach
längerer Lernphase (hab auch so ein sa-learn-Script ca. 2 Wochen laufen lassen) Mails ( Spam! ) nicht mehr "ordentlich" ein.

Dann würde ich sagen, verfolge das, woran es liegt:
Welche Regeln wurden getriggert? Welche Scores haben sie ergeben?
Wieviele Mails (Spam/Ham) hast du dem sa-learn gefüttert?
Waren es jeweils gleich viele Spam-/Ham-Mails (das ist wichtig, sonst ist der Bayes ziemlich "verwirrt")?

Sollte man dann, nach längerem Lernen, den Schwellwert
zurück nehmen?

required_hits = ? ( steht bei mir z.Zt. bei 5 )

Ich habe es auch auf 5 (=Default) belassen. Wenn du obiges analysiert hast, könntest du ja z.B. den Score für bestimmte Regeln anpassen. Ich für mich halte es so, dass ich am required_hits nix drehe, sondern an den einzelnen Scores.

@dodolin weisst Du wann es ein Update geben soll?

Nein. Ich vermute allerdings, dass das mit den deutschen Regeln noch etwas dauern wird, wenn ich mir deren Homepage so durchlese...

Ich hab auch noch Honeypots aufgestellt, also sinnlose Mailaccounts eingerichtet. Da die nirgends veröffentlicht sind, sind Mails an diese Accounts 100%-ig Spam. Damit kann man dann den Bayes füttern

ACK. Mache ich bisher nicht, da ich schon mehr als genug Spam (hauptsächlich usenet-bedingt) auch ohne Spamtraps bekomme.

und/oder zusätzlich die From Adressen rausfiltern und an die Blacklist hängen.

Hier sollte man extrem vorsichtig sein. Ich würde sogar komplett davon abraten. From: Adressen sind häufig gefälscht und somit landen unschuldige in der Blacklist. Siehe hierzu z.B. diesen aktuellen Thread in danam: http://groups.google.de/groups?q=group: ... ct:Bounces

Echt übel! Das ist DoS.

Post by **adjustman** » 2003-06-29 20:42

Hier mal meine local.cf. Die bayes-Regeln hab ich von Ralf Hildebrandt.

Code: Select all

report_safe 1
required_hits 5.0
rewrite_subject 1
spam_level_stars 1
subject_tag ++SPAM markiert++
report_header 1
skip_rbl_checks 1
check_mx_attempts 2
check_mx_delay 5
bayes_auto_learn 1
use_bayes 1
use_razor2 1
razor_config /root/.razor/razor-agent.conf
auto_whitelist_factor   0.5
bayes_path /root/.spamassassin/bayes
auto_whitelist_path /root/.spamassassin/auto-whitelist
bayes_file_mode 777
auto_whitelist_file_mode 777
auto_learn 1
blacklist_from *@yahoo.co.jp
bayes_auto_learn_threshold_nonspam -3
bayes_auto_learn_threshold_spam 5
bayes_ignore_header ReSent-Date
bayes_ignore_header ReSent-From
bayes_ignore_header ReSent-Message-ID
bayes_ignore_header ReSent-Subject
bayes_ignore_header ReSent-To
bayes_ignore_header Resent-Date
bayes_ignore_header Resent-From
bayes_ignore_header Resent-Message-ID
bayes_ignore_header Resent-Subject
bayes_ignore_header Resent-To

Post by **naucki** » 2003-06-29 21:30

Weiss jemand wie man user_prefs und bayes bei einem "Postfix Virtual Mail User System" mit amavisd-new nutzen kann ?

Ich würde auch gern mal den auto_learn Modus nutzen können.

Ansonsten habe ich auch:
required_hits 5.0
und whistlist von Amavisd-new deaktiviert, da unter andere auch die yahoo groups für spam misbraucht werden.

Post by **dodolin** » 2003-06-29 22:41

bayes_path /root/.spamassassin/bayes
auto_whitelist_path /root/.spamassassin/auto-whitelist
bayes_file_mode 777
auto_whitelist_file_mode 777

Also dabei wäre mir jetzt äusserst unwohl!

Und zu den bayes_ignore_header würde mich jetzt interessieren, was die Idee oder der Sinn dahinter ist? Was der Befehl macht, ist mir bereits klar, aber warum sollte man ausgerechnet die Resent-* Header da reinnehmen? Nicht, dass ich den Sinn anzweifle, ich würde ihn nur gerne auch verstehen... :)

Weiss jemand wie man user_prefs und bayes bei einem "Postfix Virtual Mail User System" mit amavisd-new nutzen kann ?

Mit größter Wahrscheinlichkeit: Gar nicht.

Wenn man Spamassassin in den MTA integriert, wird jede Mail nur ein einziges Mal gescannt. Es könnte aber z.B. sein, dass in einer Mail mehrere RCPT auf deinen lokalen System liegen. Da die Mail nur ein einziges Mal gescannt wird, ist es unmöglich, dass jeder RCPT seine eigenen Regeln hat, da gibt es nur globale Regeln. Außerdem kommt noch hinzu, dass spamassassin AFAIK nur dann die ~/.spamassassin/user_prefs auswertet, wenn es auch unter dem jeweiligen User läuft. Wenn es in den MTA integriert ist, läuft es ja meist als mail-user oder sowas in der Art.

~/.spamassassin/user_prefs lässt sich wohl nur nutzen, wenn man spamassassin erst im Delivery, z.B. mit maildrop oder auch procmail aufruft.

Post by **naucki** » 2003-06-29 23:15

Najo schade :)
vielleicht wirds ja in den nächsten Versionen integriert.

Post by **dodolin** » 2003-06-30 00:15

vielleicht wirds ja in den nächsten Versionen integriert.

Die Chancen sehe ich gleich Null. Ich fürchte, du hast meine Erklärungen warum das so ist und nicht geht nicht verstanden. Denn ansonsten sollte dir das IMHO jetzt klar sein, warum das nicht gehen kann und warum das wohl auch in naher und ferner Zukunft nicht gehen wird.

BTW: Ich hatte auch zuerst sa-exim ( http://marc.merlins.org/linux/exim/sa.html ) laufen und musste dann feststellen, dass man damit nunmal keine userspezifischen Dinge laufen lassen kann. Seither nutze ich halt maildrop und habe sa-exim wieder abgeschaltet.

Post by **adjustman** » 2003-06-30 15:54

dodolin wrote:
bayes_path /root/.spamassassin/bayes
auto_whitelist_path /root/.spamassassin/auto-whitelist
bayes_file_mode 777
auto_whitelist_file_mode 777
Also dabei wäre mir jetzt äusserst unwohl!

Wegen des 777 ?

Post by **dodolin** » 2003-06-30 16:12

Wegen des 777 ?

Ja, und weil es in /root ist. /root ist bei mir root:root 700. Fertig. Man kann ja nie wissen, was man darin mal später so alles aufbewahren will... Und dass dort normale Nutzer Schreibrechte haben... Zumal /root bei mir auf der / Partition liegt, die keine Quotas aktiviert hat, weil dort kein Nutzer was schreiben kann. Ich würde dazu z.B. lieber was in /var/mail nehmen und das unter einem Mailnutzer (mail, exim, postfix, ...) aufführen lassen. Oder muss da jeder Nutzer auch händisch was reinschreiben können? Dann würde ich mir mal "shared maildirs" anschauen...

Post by **adjustman** » 2003-06-30 16:26

... Und dass dort normale Nutzer Schreibrechte haben...

Nein, "normale" Nutzer haben da keine Schreibrechte. Ist nur für root

Oder muss da jeder Nutzer auch händisch was reinschreiben können?

Nein, ist systemweit und nicht editierbar. Obwohl - und das will ich noch rauskriegen - das gut wär. So ala GMX.

Post by **dodolin** » 2003-06-30 16:39

Nein, "normale" Nutzer haben da keine Schreibrechte. Ist nur für root

Ã?hem... wenn es doch aber 777 ist?! Oder wie sehen die Rechte der Verzeichnisse obendrüber aus?

Nein, ist systemweit und nicht editierbar. Obwohl - und das will ich noch rauskriegen - das gut wär. So ala GMX.

Also ich persönlich finde es ja wesentlich netter, wenn jeder User in user_prefs und ~/.spamassassin/bayes_* seine eigenen Filter und Bayesregeln anlegen kann. Zumal dann Bayes auch um einiges besser funktionieren dürfte, wie systemweit.

Post by **adjustman** » 2003-06-30 16:51

Also ich persönlich finde es ja wesentlich netter, wenn jeder User in user_prefs und ~/.spamassassin/bayes_* seine eigenen Filter und Bayesregeln anlegen kann. Zumal dann Bayes auch um einiges besser funktionieren dürfte, wie systemweit.

Ja, ich auch. ;) Aber wie? Ich kann nicht das gesamte System, auch nicht mal`n paar Std, lahmlegen, um zu "experimentieren". Da sind etliche User, die ihren Geschäftsverkehr ausschliesslich über Email abwickeln. :)

Post by **dodolin** » 2003-06-30 18:41

Aber wie?

Kommt auf den MTA drauf an. Mit Exim müsste man halt an den Transports rumschrauben. Aber am besten wäre es, wenn das jeder User selbst in seiner .procmailrc oder .mailfilter vornimmt. Eine große Downtime sollte sich dadurch nicht ergeben, bzw. du kannst den bisherigen Systemweiten Filter ja erstmal eine Zeit lang weiterlaufen lassen, bis alle Accounts umgestellt sind, dann wird zur Not halt eine Mail doppelt gescannt (hier dann aber Vorsicht mit Bayes, etc.).

Post by **adjustman** » 2003-06-30 18:53

MTA ist Postfix und die (virtuellen) Mailadressen wurden von Confixx (web1 usw.) vergeben. Da is man schlecht mit ner eigenen procmailrc, oder?

Post by **dodolin** » 2003-06-30 18:56

Keine Ahnung, ich habe weder von Postfix noch von Confixx auch nur irgendeine Peilung.

Post by **adjustman** » 2003-06-30 21:04

hier nun mal eine meldung (false) von SA bei einer eindeutigen Spam-Mail:

Code: Select all

X-Spam-Status: No, hits=-0.4 required=5.0
tests=BAYES_10,DE_GRATIS,FROM_ENDS_IN_NUMS,INVALID_DATE,
RAZOR2_CF_RANGE_91_100,RAZOR2_CHECK

Das meinte ich mit "falsch". Jemand ne Idee?

Ach ja, war ne deutsche Spammail

Post by **dodolin** » 2003-07-01 00:37

hier nun mal eine meldung (false) von SA bei einer eindeutigen Spam-Mail:

Jetzt wäre es noch interessant zu wissen, wieviele Punkte das jetzt jeweils gab. Weil eigentlich hören sich die Matches eher nach Positiv-Scores an und mich würde mal interessieren, wie dein SA da jetzt auf einen Negativscore kommt.

Hat dein BAYES_10 zuviele Negativpunkte (sehr wahrscheinlich)? Dann vermute ich, du hast ihn einfach noch nicht genug trainiert oder warum schätzt er das nur zu 10% als Spam ein? (Das heißt doch dieser Match, oder?)

Post by **adjustman** » 2003-07-01 00:49

Hat dein BAYES_10 zuviele Negativpunkte (sehr wahrscheinlich)? Dann vermute ich, du hast ihn einfach noch nicht genug trainiert oder warum schätzt er das nur zu 10% als Spam ein? (Das heißt doch dieser Match, oder?)

Ja, das heisst es. Trainiert ist aber täglich 2x worden (läuft noch - per Cron). Kann man da was falsch machen beim Training?

Post by **dodolin** » 2003-07-01 01:13

Kann man da was falsch machen beim Training?

Ja. Sogar sehr viel. Hast du http://www.spamassassin.org/doc/sa-learn.html schon alles gelesen?
Es gibt dort z.B. "Introduction to Bayesian Filters", "Effective Training" u.v.m.

Post by **adjustman** » 2003-07-05 22:26

weiss jemand, wie man SA das "gelernte" wieder austreibt? Meins hat offensichtlich was falsches "gelernt".

Post by **dodolin** » 2003-07-06 09:50

weiss jemand, wie man SA das "gelernte" wieder austreibt? Meins hat offensichtlich was falsches "gelernt".

Steht alles auf http://www.spamassassin.org/doc/sa-learn.html :)

Entweder die falschen Mails einfach aus dem Mailordner entfernen und ihn den Ordner mit sa-learn ganz normal nochmal lernen lassen oder wenn man gezielt einzelne Mails nehmen will mit sa-learn --forget.

Post by **adjustman** » 2003-07-08 20:53

ich habe jetzt ne Weile probiert. SA gibt aber fast immer:

Code: Select all

BAYES_01           (-5.4 points) BODY: Bayesian classifier says spam probability is 1 to 10%
                   [score: 0.0342]

Dadurch hab ich meinen Schwellwert schon auf 3.5 runterschrauben müssen.

RootForum Community

Regelset von SpamAssassin ( Lernmodus, etc. )

Regelset von SpamAssassin ( Lernmodus, etc. )

Re: Regelset von SpamAssassin ( Lernmodus, etc. )

Re: Regelset von SpamAssassin ( Lernmodus, etc. )

Re: Regelset von SpamAssassin ( Lernmodus, etc. )

Re: Regelset von SpamAssassin ( Lernmodus, etc. )

Re: Regelset von SpamAssassin ( Lernmodus, etc. )

Re: Regelset von SpamAssassin ( Lernmodus, etc. )

Re: Regelset von SpamAssassin ( Lernmodus, etc. )

Re: Regelset von SpamAssassin ( Lernmodus, etc. )

Re: Regelset von SpamAssassin ( Lernmodus, etc. )

Re: Regelset von SpamAssassin ( Lernmodus, etc. )

Re: Regelset von SpamAssassin ( Lernmodus, etc. )

Re: Regelset von SpamAssassin ( Lernmodus, etc. )

Re: Regelset von SpamAssassin ( Lernmodus, etc. )

Re: Regelset von SpamAssassin ( Lernmodus, etc. )

Re: Regelset von SpamAssassin ( Lernmodus, etc. )

Re: Regelset von SpamAssassin ( Lernmodus, etc. )

Re: Regelset von SpamAssassin ( Lernmodus, etc. )

Re: Regelset von SpamAssassin ( Lernmodus, etc. )

Re: Regelset von SpamAssassin ( Lernmodus, etc. )

Re: Regelset von SpamAssassin ( Lernmodus, etc. )

Re: Regelset von SpamAssassin ( Lernmodus, etc. )

Re: Regelset von SpamAssassin ( Lernmodus, etc. )

Re: Regelset von SpamAssassin ( Lernmodus, etc. )

Re: Regelset von SpamAssassin ( Lernmodus, etc. )