Regula Plugin 1.6.1

  • Soeben habe ich ein Update für das Regula Plugin veröffentlicht: Direktdownload

    Speziell für Benutzer mit mehreren Konten und einem starken E-Mailaufkommen wird ein Update dringend empfohlen.

    Dank der Hilfe von Tomasz Buj?ow war es möglich, diese Version mit 60 POP3-Konten und über 8.000 Mails, die gleichzeitig abgefragt wurden, zu testet.

    Änderungen:

    Zitat

    Version 1.6.1
    [+] In den Regeldateien können nun ganze Regelblöcke oder mehrere Textzeilen auskommentiert werden, damit nicht vor jede Zeile ein Rautezeichen gesetzt werden muss.
    [-] Beim Abrufen von mehreren Konten mit vielen Nachrichten kam es nach kurzer Zeit zu Programmabstürzen.
    [-] In Nachrichten wurde ein Content-Type nicht richtig erkannt.

  • Sorry, wenn das schon mal gefragt wurde.

    Gibt es eine Möglichkeit einen Account von der Junkbehandlung auszuschliessen? Ich bekomme häufig E-Mails auf meinem Firmenaccount, die zu 90% als Junk markiert werden.

    Man möchte manchmal Kannibale sein, nicht um den oder jenen aufzufressen, sondern um ihn auszukotzen. Johann Nestroy.

  • Theoretisch sollte ein Filter wie dieser hier:

    Code
    OToAddr 0 SW "<email@adresse.tld>" [WHITELISTED_ADDR]


    genau das erreichen, da alle Mails whitelisted werden, die an obige Adresse gehen.

  • Ich habe vorhin noch mal so nachgeguckt was Bayes alles so lernt und dabei sind mir noch ein paar Formatierungen aufgefallen, die bisher in der Liste "ExceptedWords" fehlen.

    Code
    white-space
    border-right
    border-left
    border-bottom
    border-width
    rowspan
    margin-left
    margin-right
    padding-left
    padding-right

    Außerdem sind mir zwei Formatierungen aufgefallen, die ich bisher nur in Spammails gefunden habe oder in Benachrichtigungsmails von Web.de o. Ä.

    Code
    vAlign
    rowSpan


    Kann das jemand bestätigen, daß diese Formatierungen kaum oder nur in Spammails Anwendung finden? Dann könnte man schön das Regelset erweitern.

    Zum anderen habe ich noch einen Vorschlag für eine interne Regel und zwar eine kleine HTML-Quelltextanalyse:
    Da Spammer unglaublich oft ihren Text zerstückeln um gängige Filter, die auf Regexp oder auch Bayes aufbauen, zu behindern oder auszutricksen, kann man sich aber genau diese Verhaltensweise auch zu Nutze machen.

    In HTML wird alles angezeigt, was zwischen "><" steht. Wenn man nun alle Vorkommen zählen würde, wo der Abstand von ">" und "<" größer 1 und kleiner ca. 10 wäre und für jedes Vorkommen Punkte vergeben würde, so könnte man auch sehr zielsicher Spam erkennen, wo die Regexp mehr oder weniger versagen, weil ganze Wörter eben gestückelt vorliegen.

  • Hier ist eine kleine Anmerkung (Vorschlag):

    "Excepted Words" = Auszunehmende Worte
    "Accepted Words" = Akzeptierbare Worte

    Hat am Anfang einige Schwierigkeiten bereitet, da von mir faelschlich angewandt and eingesetzt. Meinung dieser Worte ist gegensaetzlich.

    Zocko:

    Zitat

    In HTML wird alles angezeigt, was zwischen "><" steht. Wenn man nun alle Vorkommen zählen würde, wo der Abstand von ">" und "<" größer 1 und kleiner ca. 10 wäre und für jedes Vorkommen Punkte vergeben würde, so könnte man auch sehr zielsicher Spam erkennen, wo die Regexp mehr oder weniger versagen, weil ganze Wörter eben gestückelt vorliegen.

    Dies ist u.U. fraglich, da einige Character and Freiraum "umschrieben" werden wie z.B. :
    >&nbsp;Wort&nbsp;<
    Dies ist normal und nicht ungewoehnlich wuerde aber Falschmeldungen verursachen, falls ich Dich richtig verstanden habe.

    Klaus

    Einmal editiert, zuletzt von Klaus (10. Oktober 2005 um 19:25)

  • Zitat

    Dies ist u.U. fraglich, da einige Character and Freiraum "umschrieben" werden wie z.B. :
    >&nbsp;Wort&nbsp;<
    Dies ist normal und nicht ungewoehnlich wuerde aber Falschmeldungen verursachen, falls ich Dich richtig verstanden habe.


    Also eigentlich dürfte es dort keine Falschmeldung geben, weil es ja mehr als 10 Zeichen sind und selbst wenn mal fälschlicherweise was gefunden würde, würde dadurch die Mail ja nicht sofort als Spam erkannt werden :)
    Für jedes dieser Vorkommen, wo der Filter matchen würde, würde es minimal Punkte geben, sagen wir mal 3-5 Punkte und das würde sich nur bei "kaputten" E-Mails stark summieren.

    Hier mal ein Beispiel, wo dieser Filter wahre Wunder wirken würde :D

    Code
    <P><BR><DIV ID=3D"pinaster">Xa<BR>Am<BR>Ci<BR>Le<BR>Vi<BR>Va</DIV>
    <DIV ID=3D"pinaster">na<BR>bi<BR>al<BR>vi<BR>ag<BR>li</DIV>
    <DIV ID=3D"pinaster">x<BR>en<BR>is  $<BR>tra<BR>ra $<BR>um  $</DIV>
    <DIV ID=3D"pinaster"> <BR> <BR>170 30 pi<BR> <BR>135 30 pi<BR>161 90 pi</DIV>
    <DIV ID=3D"pinaster"> <BR> <BR>lls<BR> <BR>lls<BR>lls</DIV></P>

    Einmal editiert, zuletzt von Zocko (10. Oktober 2005 um 21:39)

  • Zitat

    Ich habe vorhin noch mal so nachgeguckt was Bayes alles so lernt und dabei sind mir noch ein paar Formatierungen aufgefallen, die bisher in der Liste "ExceptedWords" fehlen.


    Werde ich hinzufügen...

    Zitat

    Außerdem sind mir zwei Formatierungen aufgefallen, die ich bisher nur in Spammails gefunden habe oder in Benachrichtigungsmails von Web.de o. Ä.

    vAlign
    rowSpan

    Kann das jemand bestätigen, daß diese Formatierungen kaum oder nur in Spammails Anwendung finden? Dann könnte man schön das Regelset erweitern.


    Interessant, Treffer: 18,2% der Spam-Mails, 0% der Ham-Mails. :thumbup:

    Zitat

    In HTML wird alles angezeigt, was zwischen "><" steht. Wenn man nun alle Vorkommen zählen würde, wo der Abstand von ">" und "<" größer 1 und kleiner ca. 10 wäre und für jedes Vorkommen Punkte vergeben würde, so könnte man auch sehr zielsicher Spam erkennen, wo die Regexp mehr oder weniger versagen, weil ganze Wörter eben gestückelt vorliegen.


    Ich werde mir das mal genauer ansehen und etwas herumprobieren.

  • Zitat

    Hier ist eine kleine Anmerkung (Vorschlag):

    "Excepted Words" = Auszunehmende Worte
    "Accepted Words" = Akzeptierbare Worte

    Hat am Anfang einige Schwierigkeiten bereitet, da von mir faelschlich angewandt and eingesetzt. Meinung dieser Worte ist gegensaetzlich.


    Verstehe ich jetzt nicht. Die Datei heißt "ExceptedWords.txt" (auszunehmende Wörter). Darin sind jene Wörter aufgelistet, die von der Bayes-Filterung auszunehmen sind.

  • Zitat

    Interessant, Treffer: 18,2% der Spam-Mails, 0% der Ham-Mails. :thumbup:


    Cool, dann sind diese Formatierungen unter den Spammern ja beliebter, als ich dachte :D
    Ich habe die Liste noch etwas ausgearbeitet und das ist dabei herausgekommen, vielleicht kann ist es mit dieser Liste möglich die an sich schon guten 18.2% noch zu toppen :)


    Ich werde diese Liste als Regeln mal in entsprechenden Sticky posten. vAlign und rowSpan habe ich dabei etwas weniger Punkte gegeben, weil diese auch bei Grußkartenbenachrichtigungen zu finden sind, der Rest aber schweinbar wirklich nur von Spammern benutzt wird.

    Zitat

    Ich werde mir das mal genauer ansehen und etwas herumprobieren.


    Klasse :thumbup: Würde mich freuen, wenn man damit einen Filter entwickeln könnte, der gezielte Umgehungsversuche von Bayes zuverlässig erkennen würde und Bayes sicherlich sinnvoll ergänzt.

  • Zitat

    Klasse :thumbup: Würde mich freuen, wenn man damit einen Filter entwickeln könnte, der gezielte Umgehungsversuche von Bayes zuverlässig erkennen würde und Bayes sicherlich sinnvoll ergänzt.


    Eine Betaversion habe ich fertig, allerdings bis jetzt nur mit "Archiv"-Spams getestet. Die aktualisierte Anleitung ist im Download unter http://www.gaijin.at/tecbetatest.php enthalten. (Bitte nur nach Datum und Uhrzeit richten, falls noch weitere Testversionen kommen...)

  • Hab's mal eben runtergeladen und einen kleinen Test gemacht. Bin grenzenlos begeistert, die neue Technik schlägt bei meinen Spammails ein wie eine Bombe :punk:
    Falschfilterungen habe ich bis jetzt nicht beobachten können, werde aber morgen weiter testen.
    Ich habe den Filter wie folgt konfiguriert:

    Code
    BetwBrackCnt 50 I "1|7|10" [BETA_TEST]

    Könnte man aber vielleicht noch wie bei Bayes eine intelligente Punktevergabe einbauen? So das es – falls es statt 10 nur 9 Vorkommen gibt – noch 45 Punkte gibt, dadurch könnte man sich mehrere Einzelregeln sparen, falls man bis zu 100 Punkte vergeben möchte und die Fundstellen entsprechend hoch ansetzen würde.

  • Zitat

    Ich habe den Filter wie folgt konfiguriert:

    Code
    BetwBrackCnt 50 I "1|7|10" [BETA_TEST]


    Der Maximalwert 7 könnte etwas hoch sein. Ich verwende gerne <td>&nbsp;</td> (bei HTML-Seiten) für leere Tabellenzellen. Aber der optimale Wert wird sich mit der Zeit zeigen.

    Zitat

    Könnte man aber vielleicht noch wie bei Bayes eine intelligente Punktevergabe einbauen? So das es – falls es statt 10 nur 9 Vorkommen gibt – noch 45 Punkte gibt, dadurch könnte man sich mehrere Einzelregeln sparen, falls man bis zu 100 Punkte vergeben möchte und die Fundstellen entsprechend hoch ansetzen würde.


    Daran habe ich auch schon gedacht, nur hat mir keine meiner Ideen für die Score-Vergabe gefallen. Vorerst lasse ich es aber mal so.

  • Gaijin:

    Zitat


    Verstehe ich jetzt nicht. Die Datei heißt "ExceptedWords.txt" (auszunehmende Wörter). Darin sind jene Wörter aufgelistet, die von der Bayes-Filterung auszunehmen sind.

    Wenn man die Deutsche Uebersetzung liest, erhaelt es einen etwas anderen Sinn. Habe vergessen, dass es eigentlich ein Deutsches Produkt ist und die Englische Anwendung oder Interpretierung sollte daher zweitranging sein. Moechte hiermit klar zum Ausdruck bringen, dass Regula mit ABSTAND das beste AntiSpam Program ist, das der Markt anzubieten hat.

    Ich verwende: <td>&nbsp;</td> ebenfalls oft und es waere vielleicht angebracht es als akzeptierbares Wort (Ausdruck) anzusehen und von der Filterung auszuschliessen.

    Klaus

  • Zitat

    Moechte hiermit klar zum Ausdruck bringen, dass Regula mit ABSTAND das beste AntiSpam Program ist, das der Markt anzubieten hat.


    Vielen Dank! :)

    Zitat

    Ich verwende: <td>&nbsp;</td> ebenfalls oft und es waere vielleicht angebracht es als akzeptierbares Wort (Ausdruck) anzusehen und von der Filterung auszuschliessen.


    "nbsp" ist bereits in der Liste enthalten (die Sonderzeichen "&" bzw. ";" werden ignoriert).

  • Zitat

    Der Maximalwert 7 könnte etwas hoch sein. Ich verwende gerne <td>&nbsp;</td> (bei HTML-Seiten) für leere Tabellenzellen. Aber der optimale Wert wird sich mit der Zeit zeigen.


    Okay, ich hab's jetzt auf 5 reduziert. Mal gucken was sich mit dieser Änderung ergeben wird.

    Zitat

    Daran habe ich auch schon gedacht, nur hat mir keine meiner Ideen für die Score-Vergabe gefallen. Vorerst lasse ich es aber mal so.


    Ich bin mir im Moment noch nicht ganz sicher, wieviel Punkte man maximal vergeben soll. Wenn man den Filter als richtige Bayes-Ergänzung ansieht, dann wären 100 Punkte zu vergeben, müßte aber noch getestet werden ob's dadurch nicht eventuell dann doch Fehlfilterungen gibt.

    Man könnte die Punktevergabe so angehen, daß man den Filter mit maximale Punkte, maximale Fundstellen und vielleicht auch noch mit minimale Fundstellen füttert.
    Minimale Fundstellen wäre eben ein Schwellenwert, damit sichergestellt wird, daß die Mail wirklich kaputt sein muß, damit vom Filter überhaupt Punkte vergeben wird.
    Wenn der Schwellenwert für maximale Fundstellen überschritten wird, wird die Verarbeitung abgebrochen und die volle Punktzahl vergeben.

    Demnach würde sich die Punktevergabe dann so berechnen, sofern es genügend Fundstellen gibt, bzw. der Maximalwert nicht überschritten wurde:
    (Maximale Punkte/maximale Fundstellen)*gefundene Fundstellen

    So würde ich es machen oder gibt's noch weitere Vorschläge?

    Einmal editiert, zuletzt von Zocko (12. Oktober 2005 um 12:56)