RegExp Filter Erweiterung

mumpitzstuff

Hi,

ich hab jetzt mal eine erste testversion zur verfügung gestellt, die bisher allerdings nur einträge im logfile macht und sich nicht auf die eigentliche klassifizierung der mails auswirkt. bitte prüft mal nach ob die funktion einigermaßen arbeitet...
ihr müßt dazu von folgendem link die filters.dat runterladen und in ein beliebiges verzeichnis kopieren:

Filters

danach kopiert das neue plugin über die alte existierende version (kein update!) und aktiviert das regexp filtern und konfiguriert den pfad. danach werden für alle neu empfangenen mails einträge in der logdatei vorgenommen die in etwa so aussehen:

RegExp Filter: 885.
59.4 DATE INVALID_DATE Invalid Date: header (not RFC 2822)
114. APPARENTLY-TO MISSING_HEADERS Missing To: header
50.1 HEADER MISSING_MIMEOLE Message has X-MSMail-Priority, but no X-MimeOLE
46.1 HEADER PRIORITY_NO_NAME Message has priority setting, but no X-Mailer
147. HEADER DATE_MISSING Missing Date: header
147. HEADER DATE_MISSING Missing Date: header
134. TO TO_MALFORMED To: has a malformed address
187. FROM FROM_NO_LOWER 'From' has no lower-case characters

Download

Achim

mumpitzstuff

hmmm... ich hatte eigentlich erwartet, dass das auch jemanden interessieren würde...

scorpion08

@mumpitzstuff

klar besteht interesse, habe es eben installiert, aber "leider" noch keinen Spam bekommen.

scorpion08

yaqwa

Sorry aber kannst du mal den link direkt einrichten
Ich hab keine Ahnung was ich da runterladen soll
Ne filters.dat finde ich da nicht

Und sorry du arbeitest mit dem zeug ich bin nur anwender

Ok zurück
habe es gefunden
Ist ne einzelne Filter.dat gell?

ok
will test

beta

Muessen denn nicht die Scores auf TB!/BayesFilter angepasst werden?
Ich verwende einen Scorewert von THRESHOLD_SPAM 499.9.

Wo stelle ich den «SpamPal-Regex-Plugin-Scorewert» im BF ein?

mumpitzstuff

hi,

den score kann man doch im bayes plugin direkt im setup angeben. der standard ist glaube ich 499. außerdem werden für alle mails einträge im logfile gemacht und es kann daher auch eine prüfung ohne spam passieren. irgendwie habe ich den eindruck, dass einige sachen doppelt erkannt werden und vor allem zu viel erkannt wird und deshalb auch bei ham der wert ziemlich hoch ist.

achim

beta

Werden auch die Regelverknuepfungen des RegEx-Plugins beruecksichtigt?

mumpitzstuff

sollten sie eigentlich, ja.

achim

mumpitzstuff

hallo tester,

habe soeben eine neue version unter dem gleichen link auf den server gepackt in der einige regexp bugs behoben sind. gebt mir mal ein feedback über die erreichten punkte bei spam bzw. nicht spam mails. besonders schön wäre ein auszug des logfiles mit den regexp bewertungen und die dazu gehörenden spam mails für weitere analysen.

achim

mumpitzstuff

hi,

ich habe mit bedauern festgestelt, dass noch ein fehler drin gewesen ist. dieser hat bewirkt, dass die gefundenen regexp ausdrücke alter mails zu denen neuer mails dazukamen und die ausgabe dadurch von mail zu mail größer wurde. das sollte jetzt behoben sein und jeder kann sich die neue version unter oben angegebenen link runterladen und mir bericht erstatten. leider habe ich bisher noch gar kein feedback erhalten... ich vermute mal es ist grad irgendeine mir unbekannte urlaubszeit angebrochen...

achim

yaqwa

Ne schnellantwort
95% Spam
5% Ham

Nur umgekehrt

will heissten bei mir rutscht 95 % der Ham nachrichten als spam durch

Doenerbude

Zitat

leider habe ich bisher noch gar kein feedback erhalten... ich vermute mal es ist grad irgendeine mir unbekannte urlaubszeit angebrochen...

Tut mir leid das ich Dich da nicht so wirklich unterstützen kann/mag.

Ich bin mit der 1.5.4 vollauf zufrieden und filtere damit mittlerweile gut 99,99% aus. Ich sehe derzeit keinen Grund warum ich mir die Mühe machen sollte am Filtersystem grossartig was zu ändern.

Zudem ist mir nicht so 100%ig klar welchen Vorteil ich im aktuellen Stadium von den Regenechsen haben soll.

Ich kann mir vorstellen das es den anderen hier ähnlich geht.

PS: Diese Woche waren in einigen Bundesländern Herbstferien. Evtl. hast Du also nächste Woche wieder mehr Feedback.

mumpitzstuff

Zitat

will heissten bei mir rutscht 95 % der Ham nachrichten als spam durch

da machst du was grundsätzlich falsch. das liegt nicht am filter. die regexp regeln wirken sich außerdem nicht auf die filterung aus, sondern bewirken bisher nur einträge im logfile.

achim

beta

Fuer mich bleibt die Frage, wie ich die Filterergebnisse bewerte?

Bildet das Plugin einen Mittelwert aus beiden Verfahren (Bayes und RegEx?) später.

Welcher Filtermethode gebe ich den Vorzug? Welcher Score fließt im Endeffekt ein? Soll heissen: "Bayes" bewertet die E-Mail als Ham und "RegEx" als Spam oder umgekehrt. Wer hat nun Recht?

mumpitzstuff

hi,

tja in dieser hinsicht bin ich für vorschläge offen. bisher hatte ich mir folgendes ausgedacht. da die regexp filterung nur optional dazugeschaltet werden kann, wollte ich bei einer aktivierung der option nur mails durch diesen filter jagen, die vorher nicht bereits durch black-/whitelisting oder den bayes filter als spam erkannt wurden. dadurch müsste der filter nicht allzu oft zuschlagen (wie der dns blacklist filter auch) und das spart rechenzeit. mit anderen worten, das ganze soll wie eine endkontrolle für potentiellen ham funktionieren... wäre das ok?

achim

beta

Die Frage ist eher wie das im SpamAssassin (SA) geloest ist.
Meiner Meinung geht Deine Pluginentwicklung jetzt in Richtung SA-Funktionalitaet.

Wir haben:
- Bayes-Filterung
- DNSBL-Filterung
- Regelset basierend auf regulären Ausrücken

Mir wuerde eher eine Art "endgültige Punktvergabe" vorschweben. Aber darüber muss ich noch mal nachdenken.

mumpitzstuff

hi,

im grunde hast du recht. primär wird die bayes filterung verwendet die die eigentliche klassifizierung macht. was da als ham durchgeht wird durch die dns filterung und den sa filter gejagt... ich denke das das eigentlich ganz sinnvoll ist.

achim

beta

Na klar ist das ganz sinnvoll.

Nur man muesste sich auf ein Verfahren einigen, wie der endgueltige Score zu berechnen ist - in Abhaengigkeit der einzelnen Filterergebnisse.

piktor

Guten Morgen Allerseits,

@Achim
habe Dir per eMail ein paar Spammails mit dazugehöriger Log-Datei des neuen BayesFilter geschickt.

@Alle
Scoring mal als Übersicht:

bisher haben wir:
- Bayes Methode: 0-100
- DNSBL: Ergebnis 0 oder 1 in Abhängigkeit "Anzahl Server zur Klassifizierung"
(einstellbares KO-Kriterium)
- und über Alles in TB: "Spam-Nachricht in Ordner verschieden, wenn Score größer als"

dazu kommt:
- RegEx: Grenzwert per Punkten, per Standard 499
(einstellbares KO-Kriterium)

Die White- und Blacklisten lasse ich mal weg und betrachte sie wie bisher, als optionale KO-Kriterien.

Ich habe mir mal Gedanken nach individuller Einstellung gemacht:
eine Tabelle mit allen 3 Scorelieferanten:
- Bayes
- DNSBL
- RegEx
jeweils Einstellbar in:
- Hierachie (in welcher Reihenfolge: 1,2,3)
- KO-Kriterium (wenn diese Methode sagt SPAM, dann ist es SPAM. Nach der bei jeder Methode gestellten Grenzwert, siehe "was wir bisher haben))
- Optionales Filtern (diese Methode nur nutzen, wenn die in der Reihenfolge vorherige Methode HAM liefert)
- kummulative Wertung (Aus allen ausgewählten einzelnen Scores wird ein Durchschnittswert gebildet) Hier kann der prozentule Wert eingestellt werden, den die Methode dazu beiträgt) Damit TB, den Wert weiterverarbeiten kann, muss das Ergebbnis im Bereich 0-100 liegen

:blink:
mit dieser Möglichkeit hätten wir Achim dann für die nächsten Jahre mit Programmieren beschäftigt und wir haben Auftragskiller von Achim's Freundin am Hals
:pfeif:

Naja zumindest mal eine konkrete Diskussionsgrundlage

-piktor-

mumpitzstuff

Zitat

Nur man muesste sich auf ein Verfahren einigen, wie der endgueltige Score zu berechnen ist - in Abhaengigkeit der einzelnen Filterergebnisse.

ich bin ganz ohr...