Wertet Regula-Bayes keine Kopfzeilen aus?

Hendrik

Hallo, ich habe den Eindruck, daß der Bayesteil in Regula die Kopfzeilen nicht beachtet, sondern nur den Text der eMAils. Ist das so?

Gaijin

Zitat

Hallo, ich habe den Eindruck, daß der Bayesteil in Regula die Kopfzeilen nicht beachtet, sondern nur den Text der eMAils. Ist das so?

Das ist richtig, aus den Kopfzeilen wird nur der Betreff in die Filterung bzw. in die Datenbank einbezogen.

Hendrik

Danke für die Bestätigung! Wahrscheinlich wäre es aber sehr sinnvoll, auch die Kopfzeilen auszuwerten. Achims Filter macht das, und bezieht sich sehr oft (immer?) erfolgreich darauf. GIF-SPAM kann man nur so fangen, da er ja keinen Text hat...

Ich bin nämlich gerade am rumprobieren, ob es möglich ist, im wesentlichen den Bayesteil zu nutzen. Er scheint mit irgendwie zu zögerlich, richtig hohe Scores auszugeben.

Ich habe jetzt mal das als Bayesregel angegeben:

Code

SetSpamScore 300
BayesScore 0 ID "" [BAYES]
SetSpamScore 100
From 90 S "@" [Alle um was erhöhen]

Verstehe ich es richtig, daß somit der Bayesparameter D-doppelt nochmal dreifach überhöht ist?

Ich bekomme leicht BayesScores von -160 ausgegeben für HAM, aber für SPAM kommt gerne nur 56 oder höchstens auch 160. Dafür die pauschalen +90 Punkte

Ziel soll sein, daß ich ohne die riesige Anzahl hammerharter Regeln auskomme, die dann eventuell unbekannte, aber gute eMails erschlagen.

Achims Filter kommt eigentlich sehr gut mit Nur-Bayes aus, gewisse Regex-Regeln möchte ich aber haben, die dort nicht so fehlerfrei und bequem zu machen sind.

Gaijin

Zitat

Achims Filter macht das, und bezieht sich sehr oft (immer?) erfolgreich darauf. GIF-SPAM kann man nur so fangen, da er ja keinen Text hat...

Wenn Interesse besteht, kann ich den Header (evtl. auch optional) einbinden.

Zitat

Ich bin nämlich gerade am rumprobieren, ob es möglich ist, im wesentlichen den Bayesteil zu nutzen. Er scheint mit irgendwie zu zögerlich, richtig hohe Scores auszugeben.

Der maximale Wert ist 100, die Bayes-Regel kann je nach Einstellung einen Score von bis zu 200 zurückgeben...

Zitat

Verstehe ich es richtig, daß somit der Bayesparameter D-doppelt nochmal dreifach überhöht ist?

Nein, "SetSpamScore" ist nur dafür gedacht, um die Umstellung von anderen Programmen wie z.B. RegExFilter zu vereinfachen. "SetSpamScore" wirkt sich nur auf die in den Regeln angegebenen Scorewerte aus. BayesScore ermittelt den Scorewert selbst.

Zitat

Ziel soll sein, daß ich ohne die riesige Anzahl hammerharter Regeln auskomme, die dann eventuell unbekannte, aber gute eMails erschlagen.

Damit nichts erschlagen wird, solltest du die Regeln auch anpassen, wie es in der Hilfedatei steht. Jeder bekommt andere Spams bzw. Hams. Meine privaten Filter sorgen z.B. dafür, dass kaum noch Ham-Mails durch die Standard-Regeln geprüft werden.

Zitat

Achims Filter kommt eigentlich sehr gut mit Nur-Bayes aus, gewisse Regex-Regeln möchte ich aber haben, die dort nicht so fehlerfrei und bequem zu machen sind.

Das Plugin von Achim ist auch hauptsächlich ein Bayes-Filter, mein Plugin ist vorwiegend ein Regel-Filter. Die Bayes-Regel ist nur eine von vielen, da ich nicht gerade viel von Bayes-Filterung halte. Denn außer deutsche und englische Nachrichten wird auf Grund der Häufigkeit nichts unterschieden.

Hendrik

Zitat

Achims Filter macht das, und bezieht sich sehr oft (immer?) erfolgreich darauf. GIF-SPAM kann man nur so fangen, da er ja keinen Text hat...

Zitat

Wenn Interesse besteht, kann ich den Header (evtl. auch optional) einbinden.

Das wäre genial... und wenn Du eine extra BayesRegel machst wie "BayesScoreHeader"? Dann könnte man die nach Gusto verwenden. Frage bleibt, wie es mit dem Lernen und den Datenbanken sein soll. Derjenige, der nur Body auswertet, braucht ja nicht den Header zu lernen...

Wenn Du vielleicht den Parameter D durch 2 ersetzen würdest? dann könnte man auch 3 reinschreiben...

Zitat

Achims Filter kommt eigentlich sehr gut mit Nur-Bayes aus, gewisse Regex-Regeln möchte ich aber haben, die dort nicht so fehlerfrei und bequem zu machen sind.

Zitat

Das Plugin von Achim ist auch hauptsächlich ein Bayes-Filter, mein Plugin ist vorwiegend ein Regel-Filter. Die Bayes-Regel ist nur eine von vielen, da ich nicht gerade viel von Bayes-Filterung halte. Denn außer deutsche und englische Nachrichten wird auf Grund der Häufigkeit nichts unterschieden.

Ich halte viel von Bayesfilterung. Achim hat damit eine beinahe "Set and forget"-Lösung geschaffen. und unterscheidet wirklich sehr ordentlich, dank der Kopfzeilen unabhängig von Deutsch oder Englisch

Mit der Einstellung wie oben gepostet kommen mit "Regula" sehr deutliche Ergebnisse. Um es im Log gut zu sehen, habe ich die Bayesregel als erste gesetzt, dann erst kommt Adressbuch und Autowhitelist. Die Bayesgegel gibt Scores zwischen 0 und -180 für HAM aus. Spam bekommt zwischen 20 und >160. Somit sieht das bereits ganz gut aus

Gaijin

Zitat

Das wäre genial... und wenn Du eine extra BayesRegel machst wie "BayesScoreHeader"? Dann könnte man die nach Gusto verwenden. Frage bleibt, wie es mit dem Lernen und den Datenbanken sein soll. Derjenige, der nur Body auswertet, braucht ja nicht den Header zu lernen...

Mit einer eigenen Regel kann es nicht funktionieren, da sowohl das Lernen (über das Plugin oder über den Regula-Manager) und die Prüfung gleich sein sollten - also entweder mit oder ohne Header. Es wird, falls es sich bewährt, eine Option im Einstellungsdialog geben.

Ich habe das Plugin und den Regula-Manager entsprechend erweitert und meine Datenbank neu angelernt und hoffe, dass sich in der nächsten Zeit zeigen wird, ob es sinnvoller ist oder nicht.

Hendrik

Das geht ja schnell bei Dir!! :ja:

Wenn Du möchtest, kann ich die Testversion auch probieren ob sie mir als vorwiegend "Bayesianer" gut und nützlich vorkommt...

Gaijin

Zitat

Wenn Du möchtest, kann ich die Testversion auch probieren ob sie mir als vorwiegend "Bayesianer" gut und nützlich vorkommt...

Unter http://www.gaijin.at/tecbetatest.php habe ich eine Testversion hochgeladen.

Es gibt in den Bayes-Einstellungen die Auswahlmöglichkeiten "Betreff und Text" (so wie bisher), "Nur Kopfzeilen" und "Kopfzeilen und Text". Wenn du "Nur Kopfzeilen" verwendest, solltest du die Datenbank neu anlernen (Backup der Bayes-DB anlegen und Originaldateien löschen).

Der Header und der Text macht vermutlich wenig Sinn, außer du stellst den Wert für die maximal zu prüfenden Wörter höher. Nur die Kopfzeilen für die Prüfung zu verwenden dürfte besser und vor allem viel schneller sein. Allerdings muss die Datei "ExceptedWords.txt" um diverse Kopfzeilen bzw. Servernamen etc. erweitert werden, damit diese nicht mit einbezogen werden. Einige Wörter habe ich bereits eingetragen.

Hendrik

Ich habe also die 1.6.4.17 installiert und neu angelernt.

Wenn ich die Log's richtig deute, dann werden aber nicht die Inhalte der Kopfzeilen ausgewertet, sondern die Namen:

Code

=== MESSAGE ===
Process message: ID <1341332412.20051226084015@imap4all.com>
        Subject: Re: Retrieving lost registration information
           From: xxx xxx <xxx@imap4all.com>
           Date: Mon, 26 Dec 2005 08:40:15 +0100
  Started:  26/12/2005 19:07:40.
    Bayes word results:
      mime-version (S=1978 / H=1706, C=1): 0,50.
      content-type (S=2557 / H=2115, C=1): 0,51.
      normal (S=1441 / H=986, C=1): 0,55.
      sender (S=166 / H=1046, C=1): 0,12.
      plain (S=298 / H=785, C=1): 0,24.
      quoted-printable (S=19 / H=236, C=1): 0,06.
      service (S=131 / H=479, C=1): 0,19.
      running (S=6 / H=145, C=1): 0,03.
      exim (S=65 / H=826, C=2): 0,06.
      using (S=78 / H=231, C=1): 0,22.
      build (S=48 / H=188, C=1): 0,18.
      in-reply-to (S=11 / H=199, C=1): 0,04.
      windows (S=209 / H=366, C=1): 0,33.
      version (S=389 / H=516, C=1): 0,39.
      vous (S=13 / H=741, C=1): 0,01.
      information (S=149 / H=304, C=3): 0,29.
      references (S=9 / H=174, C=1): 0,04.
      help (S=163 / H=185, C=1): 0,43.
      would (S=229 / H=93, C=1): 0,68.
      have (S=878 / H=484, C=1): 0,61.
      like (S=314 / H=84, C=1): 0,76.
      could (S=102 / H=54, C=1): 0,62.
      find (S=206 / H=72, C=1): 0,71.
      organization (S=63 / H=54, C=1): 0,50.
      precedence (S=1 / H=231, C=1): 0,00.
      yahoo (S=4267 / H=4532, C=2): 0,44.
      none (S=215 / H=1724, C=1): 0,10.
      hendrikxxxx2002@yahoo (S=580 / H=1481, C=1): 0,25.
      link (S=646 / H=976, C=1): 0,36.
      skype (S=0 / H=909, C=1): 0,00.
      tester (S=0 / H=68, C=1): 0,00.
      list (S=216 / H=271, C=2): 0,40.
      iso-8859-15 (S=0 / H=100, C=1): 0,00.
      postfix (S=33 / H=389, C=1): 0,07.
      décembre (S=0 / H=95, C=1): 0,00.
      first (S=179 / H=96, C=1): 0,61.
      x-originating-ip (S=2059 / H=914, C=1): 0,66.
      samedi (S=0 / H=46, C=1): 0,00.
      unsubscribe (S=946 / H=367, C=1): 0,69.
      user (S=48 / H=117, C=1): 0,26.
      important (S=24 / H=104, C=1): 0,16.
      ident (S=0 / H=80, C=1): 0,00.
      order (S=83 / H=120, C=1): 0,37.
      unfortunately (S=43 / H=3, C=1): 0,92.
      install (S=4 / H=19, C=1): 0,15.
      tiscali (S=2 / H=24, C=1): 0,07.
      professional (S=166 / H=168, C=1): 0,46.
      beta (S=3 / H=329, C=2): 0,01.
      pack (S=21 / H=45, C=1): 0,28.
      renaud (S=0 / H=48, C=4): 0,00.
    Bayes result: 28.15% spam probability.
    Match: Internal rule BayesScore, BAYES, Score: -88.
    Match: SimpleStr rule Alle um was erhöhen, Score: 80.
    Match: Internal rule SenderInAB, SENDER_IN_ADDRBOOK: Absender im Adressbuch!, Score: 0.
    Message marked as HAM by last rule (score was -8).
    Bayes learned this mail as HAM.
  Finished: 26/12/2005 19:08:32.
  Processed in 52414 mSec, total score: 0, rules matched: 3.

Alles anzeigen

Bei Achim sieht eine ähnliche mail vom selben Absender so aus (die eMail-addi hab' ich "geixt"):

Code

mer., déc. 21 2005, 22:16:38, HAM empfangen, Nachrichten-ID: 182341359.20051220164213@imap4all.com, Absender: xxx xxx <xxxx@imap4all.com>, Betreff: Is the TB user's documentation project page down ?, Score: 0, Filtertime: 108.02ms
BETA                   |         1 |         250 |           0 | 0.00001000 | 0.00427972
Renaud                 |         1 |         162 |           0 | 0.00001000 | 0.00277326
F*Renaud               |         1 |         146 |           0 | 0.00001000 | 0.00249936
H*smtp.imap4all.com    |         1 |         139 |           0 | 0.00001000 | 0.00237953
H*213.201.213.161      |         1 |         139 |           0 | 0.00001000 | 0.00237953
F*xxxx                 |         1 |         139 |           0 | 0.00001000 | 0.00237953
F*imap4all.com         |         1 |         139 |           0 | 0.00001000 | 0.00237953
H*Voyager              |         1 |          80 |           0 | 0.00001000 | 0.00136951
H*BETA                 |         1 |          80 |           0 | 0.00001000 | 0.00136951
H*v3.63.15             |         1 |          68 |           0 | 0.00001000 | 0.00116408
claude                 |         1 |          66 |           0 | 0.00001000 | 0.00112985
www.pcwize.com         |         1 |          32 |           0 | 0.00001000 | 0.00054780
H*212.82.225.189       |         2 |          27 |           0 | 0.00001000 | 0.00046221
H*gundel.de.clara.net  |         1 |          27 |           0 | 0.00001000 | 0.00046221
H*62.80.28.28          |         1 |          27 |           0 | 0.00001000 | 0.00046221
0870                   |         1 |          12 |           0 | 0.00001000 | 0.00020543
thebat                 |         2 |       22557 |           1 | 0.00008751 | 0.38615082
Bat                    |         1 |       13241 |           4 | 0.00059602 | 0.22667123
F*Claude               |         1 |         146 |           1 | 0.01334116 | 0.00249936
Voyager                |         1 |         166 |           2 | 0.02323232 | 0.00284174


mer., déc. 21 2005, 22:16:38, HAM gelernt, Nachrichten-ID: 182341359.20051220164213@imap4all.com, Absender: xxxe xxx <xxxx@imap4all.com>, Betreff: Is the TB user's documentation project page down ?
mer., déc. 21 2005, 22:16:38, HAM hinzugefügt, Nachrichten-ID: 182341359.20051220164213@imap4all.com, Absender: xxx xxx <xxxx@imap4all.com>, Betreff: Is the TB user's documentation project page down ?, Learningtime: 5.53ms

Alles anzeigen

Deutlich ersichtlich scheint mir, daß Achim es hinbekommt, nur die am aussagekräftigsten Begriffe zu nutzen, bei Regula scheint es mir ziemlich zufällig zusammengewürfelt zu sein, welche Begriffe in die Auswertung einbezogen werden.

Gaijin

Zitat

Wenn ich die Log's richtig deute, dann werden aber nicht die Inhalte der Kopfzeilen ausgewertet, sondern die Namen:

Es wird der komplette Header verwendet, deutlich an "hendrikxxxx2002@yahoo" oder "quoted-printable" zu sehen.

**GwenDragon**

Zitat

Unter http://www.gaijin.at/tecbetatest.php habe ich eine Testversion hochgeladen.

Ist das richtig dass in den Einstellungen für Update kein Server drin steht?

Gaijin

Zitat

Ist das richtig dass in den Einstellungen für Update kein Server drin steht?

Ja, in diesem Fall wird die Vorgabe (http://www.gaijin.at/...) verdendet.