Wertet Regula-Bayes keine Kopfzeilen aus?

  • Danke für die Bestätigung! Wahrscheinlich wäre es aber sehr sinnvoll, auch die Kopfzeilen auszuwerten. Achims Filter macht das, und bezieht sich sehr oft (immer?) erfolgreich darauf. GIF-SPAM kann man nur so fangen, da er ja keinen Text hat...

    Ich bin nämlich gerade am rumprobieren, ob es möglich ist, im wesentlichen den Bayesteil zu nutzen. Er scheint mit irgendwie zu zögerlich, richtig hohe Scores auszugeben.

    Ich habe jetzt mal das als Bayesregel angegeben:

    Code
    SetSpamScore 300
    BayesScore 0 ID "" [BAYES]
    SetSpamScore 100
    From 90 S "@" [Alle um was erhöhen]

    Verstehe ich es richtig, daß somit der Bayesparameter D-doppelt nochmal dreifach überhöht ist?

    Ich bekomme leicht BayesScores von -160 ausgegeben für HAM, aber für SPAM kommt gerne nur 56 oder höchstens auch 160. Dafür die pauschalen +90 Punkte

    Ziel soll sein, daß ich ohne die riesige Anzahl hammerharter Regeln auskomme, die dann eventuell unbekannte, aber gute eMails erschlagen.

    Achims Filter kommt eigentlich sehr gut mit Nur-Bayes aus, gewisse Regex-Regeln möchte ich aber haben, die dort nicht so fehlerfrei und bequem zu machen sind.

  • Zitat

    Achims Filter macht das, und bezieht sich sehr oft (immer?) erfolgreich darauf. GIF-SPAM kann man nur so fangen, da er ja keinen Text hat...


    Wenn Interesse besteht, kann ich den Header (evtl. auch optional) einbinden.

    Zitat

    Ich bin nämlich gerade am rumprobieren, ob es möglich ist, im wesentlichen den Bayesteil zu nutzen. Er scheint mit irgendwie zu zögerlich, richtig hohe Scores auszugeben.


    Der maximale Wert ist 100, die Bayes-Regel kann je nach Einstellung einen Score von bis zu 200 zurückgeben...

    Zitat

    Verstehe ich es richtig, daß somit der Bayesparameter D-doppelt nochmal dreifach überhöht ist?


    Nein, "SetSpamScore" ist nur dafür gedacht, um die Umstellung von anderen Programmen wie z.B. RegExFilter zu vereinfachen. "SetSpamScore" wirkt sich nur auf die in den Regeln angegebenen Scorewerte aus. BayesScore ermittelt den Scorewert selbst.

    Zitat

    Ziel soll sein, daß ich ohne die riesige Anzahl hammerharter Regeln auskomme, die dann eventuell unbekannte, aber gute eMails erschlagen.


    Damit nichts erschlagen wird, solltest du die Regeln auch anpassen, wie es in der Hilfedatei steht. Jeder bekommt andere Spams bzw. Hams. Meine privaten Filter sorgen z.B. dafür, dass kaum noch Ham-Mails durch die Standard-Regeln geprüft werden.

    Zitat

    Achims Filter kommt eigentlich sehr gut mit Nur-Bayes aus, gewisse Regex-Regeln möchte ich aber haben, die dort nicht so fehlerfrei und bequem zu machen sind.


    Das Plugin von Achim ist auch hauptsächlich ein Bayes-Filter, mein Plugin ist vorwiegend ein Regel-Filter. Die Bayes-Regel ist nur eine von vielen, da ich nicht gerade viel von Bayes-Filterung halte. Denn außer deutsche und englische Nachrichten wird auf Grund der Häufigkeit nichts unterschieden.

  • Zitat

    Achims Filter macht das, und bezieht sich sehr oft (immer?) erfolgreich darauf. GIF-SPAM kann man nur so fangen, da er ja keinen Text hat...

    Zitat


    Wenn Interesse besteht, kann ich den Header (evtl. auch optional) einbinden.


    Das wäre genial... und wenn Du eine extra BayesRegel machst wie "BayesScoreHeader"? Dann könnte man die nach Gusto verwenden. Frage bleibt, wie es mit dem Lernen und den Datenbanken sein soll. Derjenige, der nur Body auswertet, braucht ja nicht den Header zu lernen...

    Wenn Du vielleicht den Parameter D durch 2 ersetzen würdest? dann könnte man auch 3 reinschreiben...

    Zitat

    Achims Filter kommt eigentlich sehr gut mit Nur-Bayes aus, gewisse Regex-Regeln möchte ich aber haben, die dort nicht so fehlerfrei und bequem zu machen sind.

    Zitat


    Das Plugin von Achim ist auch hauptsächlich ein Bayes-Filter, mein Plugin ist vorwiegend ein Regel-Filter. Die Bayes-Regel ist nur eine von vielen, da ich nicht gerade viel von Bayes-Filterung halte. Denn außer deutsche und englische Nachrichten wird auf Grund der Häufigkeit nichts unterschieden.

    Ich halte viel von Bayesfilterung. Achim hat damit eine beinahe "Set and forget"-Lösung geschaffen. und unterscheidet wirklich sehr ordentlich, dank der Kopfzeilen unabhängig von Deutsch oder Englisch ;)

    Mit der Einstellung wie oben gepostet kommen mit "Regula" sehr deutliche Ergebnisse. Um es im Log gut zu sehen, habe ich die Bayesregel als erste gesetzt, dann erst kommt Adressbuch und Autowhitelist. Die Bayesgegel gibt Scores zwischen 0 und -180 für HAM aus. Spam bekommt zwischen 20 und >160. Somit sieht das bereits ganz gut aus :)

  • Zitat

    Das wäre genial... und wenn Du eine extra BayesRegel machst wie "BayesScoreHeader"? Dann könnte man die nach Gusto verwenden. Frage bleibt, wie es mit dem Lernen und den Datenbanken sein soll. Derjenige, der nur Body auswertet, braucht ja nicht den Header zu lernen...


    Mit einer eigenen Regel kann es nicht funktionieren, da sowohl das Lernen (über das Plugin oder über den Regula-Manager) und die Prüfung gleich sein sollten - also entweder mit oder ohne Header. Es wird, falls es sich bewährt, eine Option im Einstellungsdialog geben.

    Ich habe das Plugin und den Regula-Manager entsprechend erweitert und meine Datenbank neu angelernt und hoffe, dass sich in der nächsten Zeit zeigen wird, ob es sinnvoller ist oder nicht.

  • Zitat

    Wenn Du möchtest, kann ich die Testversion auch probieren ob sie mir als vorwiegend "Bayesianer" gut und nützlich vorkommt...


    Unter http://www.gaijin.at/tecbetatest.php habe ich eine Testversion hochgeladen.

    Es gibt in den Bayes-Einstellungen die Auswahlmöglichkeiten "Betreff und Text" (so wie bisher), "Nur Kopfzeilen" und "Kopfzeilen und Text". Wenn du "Nur Kopfzeilen" verwendest, solltest du die Datenbank neu anlernen (Backup der Bayes-DB anlegen und Originaldateien löschen).

    Der Header und der Text macht vermutlich wenig Sinn, außer du stellst den Wert für die maximal zu prüfenden Wörter höher. Nur die Kopfzeilen für die Prüfung zu verwenden dürfte besser und vor allem viel schneller sein. Allerdings muss die Datei "ExceptedWords.txt" um diverse Kopfzeilen bzw. Servernamen etc. erweitert werden, damit diese nicht mit einbezogen werden. Einige Wörter habe ich bereits eingetragen.

  • Ich habe also die 1.6.4.17 installiert und neu angelernt.

    Wenn ich die Log's richtig deute, dann werden aber nicht die Inhalte der Kopfzeilen ausgewertet, sondern die Namen:

    Bei Achim sieht eine ähnliche mail vom selben Absender so aus (die eMail-addi hab' ich "geixt"):

    Deutlich ersichtlich scheint mir, daß Achim es hinbekommt, nur die am aussagekräftigsten Begriffe zu nutzen, bei Regula scheint es mir ziemlich zufällig zusammengewürfelt zu sein, welche Begriffe in die Auswertung einbezogen werden.