RegExp Filter Erweiterung

  • Hi,

    ich hab jetzt mal eine erste testversion zur verfügung gestellt, die bisher allerdings nur einträge im logfile macht und sich nicht auf die eigentliche klassifizierung der mails auswirkt. bitte prüft mal nach ob die funktion einigermaßen arbeitet...
    ihr müßt dazu von folgendem link die filters.dat runterladen und in ein beliebiges verzeichnis kopieren:

    Filters

    danach kopiert das neue plugin über die alte existierende version (kein update!) und aktiviert das regexp filtern und konfiguriert den pfad. danach werden für alle neu empfangenen mails einträge in der logdatei vorgenommen die in etwa so aussehen:

    RegExp Filter: 885.
    59.4 DATE INVALID_DATE Invalid Date: header (not RFC 2822)
    114. APPARENTLY-TO MISSING_HEADERS Missing To: header
    50.1 HEADER MISSING_MIMEOLE Message has X-MSMail-Priority, but no X-MimeOLE
    46.1 HEADER PRIORITY_NO_NAME Message has priority setting, but no X-Mailer
    147. HEADER DATE_MISSING Missing Date: header
    147. HEADER DATE_MISSING Missing Date: header
    134. TO TO_MALFORMED To: has a malformed address
    187. FROM FROM_NO_LOWER 'From' has no lower-case characters

    Download

    Achim

    Einmal editiert, zuletzt von mumpitzstuff (2. November 2004 um 17:41)

  • Sorry aber kannst du mal den link direkt einrichten
    Ich hab keine Ahnung was ich da runterladen soll
    Ne filters.dat finde ich da nicht

    Und sorry du arbeitest mit dem zeug ich bin nur anwender :)

    Ok zurück
    habe es gefunden
    Ist ne einzelne Filter.dat gell?

    ok
    will test

    Viele Grüsse Yaqwa
    The Bat! Home 11.x (32bit) NAU | Win 11 Pro x64 | ...seit Version 1.47 dabei...... (Gott bin ich alt) :bat:

    Einmal editiert, zuletzt von yaqwa (3. November 2004 um 20:42)

  • Muessen denn nicht die Scores auf TB!/BayesFilter angepasst werden?
    Ich verwende einen Scorewert von THRESHOLD_SPAM 499.9.

    Wo stelle ich den «SpamPal-Regex-Plugin-Scorewert» im BF ein?

    Man möchte manchmal Kannibale sein, nicht um den oder jenen aufzufressen, sondern um ihn auszukotzen. Johann Nestroy.

    Einmal editiert, zuletzt von Thomas Woelk (3. November 2004 um 21:20)

  • hi,

    den score kann man doch im bayes plugin direkt im setup angeben. der standard ist glaube ich 499. außerdem werden für alle mails einträge im logfile gemacht und es kann daher auch eine prüfung ohne spam passieren. irgendwie habe ich den eindruck, dass einige sachen doppelt erkannt werden und vor allem zu viel erkannt wird und deshalb auch bei ham der wert ziemlich hoch ist.

    achim

  • Werden auch die Regelverknuepfungen des RegEx-Plugins beruecksichtigt?

    Man möchte manchmal Kannibale sein, nicht um den oder jenen aufzufressen, sondern um ihn auszukotzen. Johann Nestroy.

  • hallo tester,

    habe soeben eine neue version unter dem gleichen link auf den server gepackt in der einige regexp bugs behoben sind. gebt mir mal ein feedback über die erreichten punkte bei spam bzw. nicht spam mails. besonders schön wäre ein auszug des logfiles mit den regexp bewertungen und die dazu gehörenden spam mails für weitere analysen.

    achim

  • hi,

    ich habe mit bedauern festgestelt, dass noch ein fehler drin gewesen ist. dieser hat bewirkt, dass die gefundenen regexp ausdrücke alter mails zu denen neuer mails dazukamen und die ausgabe dadurch von mail zu mail größer wurde. das sollte jetzt behoben sein und jeder kann sich die neue version unter oben angegebenen link runterladen und mir bericht erstatten. leider habe ich bisher noch gar kein feedback erhalten... :( ich vermute mal es ist grad irgendeine mir unbekannte urlaubszeit angebrochen...

    achim

  • Ne schnellantwort
    95% Spam
    5% Ham

    Nur umgekehrt

    will heissten bei mir rutscht 95 % der Ham nachrichten als spam durch

    Viele Grüsse Yaqwa
    The Bat! Home 11.x (32bit) NAU | Win 11 Pro x64 | ...seit Version 1.47 dabei...... (Gott bin ich alt) :bat:

  • Zitat

    leider habe ich bisher noch gar kein feedback erhalten... :( ich vermute mal es ist grad irgendeine mir unbekannte urlaubszeit angebrochen...


    Tut mir leid das ich Dich da nicht so wirklich unterstützen kann/mag.

    Ich bin mit der 1.5.4 vollauf zufrieden und filtere damit mittlerweile gut 99,99% aus. Ich sehe derzeit keinen Grund warum ich mir die Mühe machen sollte am Filtersystem grossartig was zu ändern.

    Zudem ist mir nicht so 100%ig klar welchen Vorteil ich im aktuellen Stadium von den Regenechsen haben soll.

    Ich kann mir vorstellen das es den anderen hier ähnlich geht.

    PS: Diese Woche waren in einigen Bundesländern Herbstferien. Evtl. hast Du also nächste Woche wieder mehr Feedback.

    Ein Auto hat einen Platten. Woran erkennt man, dass der Fahrer Informatiker ist?
    Ganz einfach: Er überprüft, ob der Fehler auch an einem anderen Reifen auftritt.

  • Zitat

    will heissten bei mir rutscht 95 % der Ham nachrichten als spam durch


    da machst du was grundsätzlich falsch. das liegt nicht am filter. die regexp regeln wirken sich außerdem nicht auf die filterung aus, sondern bewirken bisher nur einträge im logfile.

    achim

  • Fuer mich bleibt die Frage, wie ich die Filterergebnisse bewerte?

    Bildet das Plugin einen Mittelwert aus beiden Verfahren (Bayes und RegEx?) später.

    Welcher Filtermethode gebe ich den Vorzug? Welcher Score fließt im Endeffekt ein? Soll heissen: "Bayes" bewertet die E-Mail als Ham und "RegEx" als Spam oder umgekehrt. Wer hat nun Recht?

    Man möchte manchmal Kannibale sein, nicht um den oder jenen aufzufressen, sondern um ihn auszukotzen. Johann Nestroy.

    Einmal editiert, zuletzt von Thomas Woelk (6. November 2004 um 15:07)

  • hi,

    tja in dieser hinsicht bin ich für vorschläge offen. bisher hatte ich mir folgendes ausgedacht. da die regexp filterung nur optional dazugeschaltet werden kann, wollte ich bei einer aktivierung der option nur mails durch diesen filter jagen, die vorher nicht bereits durch black-/whitelisting oder den bayes filter als spam erkannt wurden. dadurch müsste der filter nicht allzu oft zuschlagen (wie der dns blacklist filter auch) und das spart rechenzeit. mit anderen worten, das ganze soll wie eine endkontrolle für potentiellen ham funktionieren... wäre das ok?

    achim

  • Die Frage ist eher wie das im SpamAssassin (SA) geloest ist.
    Meiner Meinung geht Deine Pluginentwicklung jetzt in Richtung SA-Funktionalitaet.

    Wir haben:
    - Bayes-Filterung
    - DNSBL-Filterung
    - Regelset basierend auf regulären Ausrücken

    Mir wuerde eher eine Art "endgültige Punktvergabe" vorschweben. Aber darüber muss ich noch mal nachdenken.

    Man möchte manchmal Kannibale sein, nicht um den oder jenen aufzufressen, sondern um ihn auszukotzen. Johann Nestroy.

    Einmal editiert, zuletzt von Thomas Woelk (6. November 2004 um 17:31)

  • hi,

    im grunde hast du recht. primär wird die bayes filterung verwendet die die eigentliche klassifizierung macht. was da als ham durchgeht wird durch die dns filterung und den sa filter gejagt... ich denke das das eigentlich ganz sinnvoll ist.

    achim

  • Na klar ist das ganz sinnvoll.

    Nur man muesste sich auf ein Verfahren einigen, wie der endgueltige Score zu berechnen ist - in Abhaengigkeit der einzelnen Filterergebnisse.

    Man möchte manchmal Kannibale sein, nicht um den oder jenen aufzufressen, sondern um ihn auszukotzen. Johann Nestroy.

  • Guten Morgen Allerseits,

    @Achim
    habe Dir per eMail ein paar Spammails mit dazugehöriger Log-Datei des neuen BayesFilter geschickt.


    @Alle
    Scoring mal als Übersicht:

    bisher haben wir:
    - Bayes Methode: 0-100
    - DNSBL: Ergebnis 0 oder 1 in Abhängigkeit "Anzahl Server zur Klassifizierung"
    (einstellbares KO-Kriterium)
    - und über Alles in TB: "Spam-Nachricht in Ordner verschieden, wenn Score größer als"

    dazu kommt:
    - RegEx: Grenzwert per Punkten, per Standard 499
    (einstellbares KO-Kriterium)

    Die White- und Blacklisten lasse ich mal weg und betrachte sie wie bisher, als optionale KO-Kriterien.

    Ich habe mir mal Gedanken nach individuller Einstellung gemacht:
    eine Tabelle mit allen 3 Scorelieferanten:
    - Bayes
    - DNSBL
    - RegEx
    jeweils Einstellbar in:
    - Hierachie (in welcher Reihenfolge: 1,2,3)
    - KO-Kriterium (wenn diese Methode sagt SPAM, dann ist es SPAM. Nach der bei jeder Methode gestellten Grenzwert, siehe "was wir bisher haben))
    - Optionales Filtern (diese Methode nur nutzen, wenn die in der Reihenfolge vorherige Methode HAM liefert)
    - kummulative Wertung (Aus allen ausgewählten einzelnen Scores wird ein Durchschnittswert gebildet) Hier kann der prozentule Wert eingestellt werden, den die Methode dazu beiträgt) Damit TB, den Wert weiterverarbeiten kann, muss das Ergebbnis im Bereich 0-100 liegen

    :blink:
    mit dieser Möglichkeit hätten wir Achim dann für die nächsten Jahre mit Programmieren beschäftigt und wir haben Auftragskiller von Achim's Freundin am Hals
    :pfeif:

    Naja zumindest mal eine konkrete Diskussionsgrundlage :rolleyes:

    -piktor-

  • Zitat

    Nur man muesste sich auf ein Verfahren einigen, wie der endgueltige Score zu berechnen ist - in Abhaengigkeit der einzelnen Filterergebnisse.


    ich bin ganz ohr...