Hallo, ich habe den Eindruck, daß der Bayesteil in Regula die Kopfzeilen nicht beachtet, sondern nur den Text der eMAils. Ist das so?
Wertet Regula-Bayes keine Kopfzeilen aus?
-
Hendrik -
24. Dezember 2005 um 14:57 -
Erledigt
-
-
Zitat
Hallo, ich habe den Eindruck, daß der Bayesteil in Regula die Kopfzeilen nicht beachtet, sondern nur den Text der eMAils. Ist das so?
Das ist richtig, aus den Kopfzeilen wird nur der Betreff in die Filterung bzw. in die Datenbank einbezogen. -
Danke für die Bestätigung! Wahrscheinlich wäre es aber sehr sinnvoll, auch die Kopfzeilen auszuwerten. Achims Filter macht das, und bezieht sich sehr oft (immer?) erfolgreich darauf. GIF-SPAM kann man nur so fangen, da er ja keinen Text hat...
Ich bin nämlich gerade am rumprobieren, ob es möglich ist, im wesentlichen den Bayesteil zu nutzen. Er scheint mit irgendwie zu zögerlich, richtig hohe Scores auszugeben.
Ich habe jetzt mal das als Bayesregel angegeben:
CodeSetSpamScore 300 BayesScore 0 ID "" [BAYES] SetSpamScore 100 From 90 S "@" [Alle um was erhöhen]
Verstehe ich es richtig, daß somit der Bayesparameter D-doppelt nochmal dreifach überhöht ist?
Ich bekomme leicht BayesScores von -160 ausgegeben für HAM, aber für SPAM kommt gerne nur 56 oder höchstens auch 160. Dafür die pauschalen +90 Punkte
Ziel soll sein, daß ich ohne die riesige Anzahl hammerharter Regeln auskomme, die dann eventuell unbekannte, aber gute eMails erschlagen.
Achims Filter kommt eigentlich sehr gut mit Nur-Bayes aus, gewisse Regex-Regeln möchte ich aber haben, die dort nicht so fehlerfrei und bequem zu machen sind.
-
Zitat
Achims Filter macht das, und bezieht sich sehr oft (immer?) erfolgreich darauf. GIF-SPAM kann man nur so fangen, da er ja keinen Text hat...
Wenn Interesse besteht, kann ich den Header (evtl. auch optional) einbinden.ZitatIch bin nämlich gerade am rumprobieren, ob es möglich ist, im wesentlichen den Bayesteil zu nutzen. Er scheint mit irgendwie zu zögerlich, richtig hohe Scores auszugeben.
Der maximale Wert ist 100, die Bayes-Regel kann je nach Einstellung einen Score von bis zu 200 zurückgeben...ZitatVerstehe ich es richtig, daß somit der Bayesparameter D-doppelt nochmal dreifach überhöht ist?
Nein, "SetSpamScore" ist nur dafür gedacht, um die Umstellung von anderen Programmen wie z.B. RegExFilter zu vereinfachen. "SetSpamScore" wirkt sich nur auf die in den Regeln angegebenen Scorewerte aus. BayesScore ermittelt den Scorewert selbst.ZitatZiel soll sein, daß ich ohne die riesige Anzahl hammerharter Regeln auskomme, die dann eventuell unbekannte, aber gute eMails erschlagen.
Damit nichts erschlagen wird, solltest du die Regeln auch anpassen, wie es in der Hilfedatei steht. Jeder bekommt andere Spams bzw. Hams. Meine privaten Filter sorgen z.B. dafür, dass kaum noch Ham-Mails durch die Standard-Regeln geprüft werden.ZitatAchims Filter kommt eigentlich sehr gut mit Nur-Bayes aus, gewisse Regex-Regeln möchte ich aber haben, die dort nicht so fehlerfrei und bequem zu machen sind.
Das Plugin von Achim ist auch hauptsächlich ein Bayes-Filter, mein Plugin ist vorwiegend ein Regel-Filter. Die Bayes-Regel ist nur eine von vielen, da ich nicht gerade viel von Bayes-Filterung halte. Denn außer deutsche und englische Nachrichten wird auf Grund der Häufigkeit nichts unterschieden. -
Zitat
Achims Filter macht das, und bezieht sich sehr oft (immer?) erfolgreich darauf. GIF-SPAM kann man nur so fangen, da er ja keinen Text hat...
Zitat
Wenn Interesse besteht, kann ich den Header (evtl. auch optional) einbinden.
Das wäre genial... und wenn Du eine extra BayesRegel machst wie "BayesScoreHeader"? Dann könnte man die nach Gusto verwenden. Frage bleibt, wie es mit dem Lernen und den Datenbanken sein soll. Derjenige, der nur Body auswertet, braucht ja nicht den Header zu lernen...Wenn Du vielleicht den Parameter D durch 2 ersetzen würdest? dann könnte man auch 3 reinschreiben...
ZitatAchims Filter kommt eigentlich sehr gut mit Nur-Bayes aus, gewisse Regex-Regeln möchte ich aber haben, die dort nicht so fehlerfrei und bequem zu machen sind.
Zitat
Das Plugin von Achim ist auch hauptsächlich ein Bayes-Filter, mein Plugin ist vorwiegend ein Regel-Filter. Die Bayes-Regel ist nur eine von vielen, da ich nicht gerade viel von Bayes-Filterung halte. Denn außer deutsche und englische Nachrichten wird auf Grund der Häufigkeit nichts unterschieden.Ich halte viel von Bayesfilterung. Achim hat damit eine beinahe "Set and forget"-Lösung geschaffen. und unterscheidet wirklich sehr ordentlich, dank der Kopfzeilen unabhängig von Deutsch oder Englisch
Mit der Einstellung wie oben gepostet kommen mit "Regula" sehr deutliche Ergebnisse. Um es im Log gut zu sehen, habe ich die Bayesregel als erste gesetzt, dann erst kommt Adressbuch und Autowhitelist. Die Bayesgegel gibt Scores zwischen 0 und -180 für HAM aus. Spam bekommt zwischen 20 und >160. Somit sieht das bereits ganz gut aus
-
Zitat
Das wäre genial... und wenn Du eine extra BayesRegel machst wie "BayesScoreHeader"? Dann könnte man die nach Gusto verwenden. Frage bleibt, wie es mit dem Lernen und den Datenbanken sein soll. Derjenige, der nur Body auswertet, braucht ja nicht den Header zu lernen...
Mit einer eigenen Regel kann es nicht funktionieren, da sowohl das Lernen (über das Plugin oder über den Regula-Manager) und die Prüfung gleich sein sollten - also entweder mit oder ohne Header. Es wird, falls es sich bewährt, eine Option im Einstellungsdialog geben.Ich habe das Plugin und den Regula-Manager entsprechend erweitert und meine Datenbank neu angelernt und hoffe, dass sich in der nächsten Zeit zeigen wird, ob es sinnvoller ist oder nicht.
-
Das geht ja schnell bei Dir!! :ja:
Wenn Du möchtest, kann ich die Testversion auch probieren ob sie mir als vorwiegend "Bayesianer" gut und nützlich vorkommt...
-
Zitat
Wenn Du möchtest, kann ich die Testversion auch probieren ob sie mir als vorwiegend "Bayesianer" gut und nützlich vorkommt...
Unter http://www.gaijin.at/tecbetatest.php habe ich eine Testversion hochgeladen.Es gibt in den Bayes-Einstellungen die Auswahlmöglichkeiten "Betreff und Text" (so wie bisher), "Nur Kopfzeilen" und "Kopfzeilen und Text". Wenn du "Nur Kopfzeilen" verwendest, solltest du die Datenbank neu anlernen (Backup der Bayes-DB anlegen und Originaldateien löschen).
Der Header und der Text macht vermutlich wenig Sinn, außer du stellst den Wert für die maximal zu prüfenden Wörter höher. Nur die Kopfzeilen für die Prüfung zu verwenden dürfte besser und vor allem viel schneller sein. Allerdings muss die Datei "ExceptedWords.txt" um diverse Kopfzeilen bzw. Servernamen etc. erweitert werden, damit diese nicht mit einbezogen werden. Einige Wörter habe ich bereits eingetragen.
-
Ich habe also die 1.6.4.17 installiert und neu angelernt.
Wenn ich die Log's richtig deute, dann werden aber nicht die Inhalte der Kopfzeilen ausgewertet, sondern die Namen:
Code
Alles anzeigen=== MESSAGE === Process message: ID <1341332412.20051226084015@imap4all.com> Subject: Re: Retrieving lost registration information From: xxx xxx <xxx@imap4all.com> Date: Mon, 26 Dec 2005 08:40:15 +0100 Started: 26/12/2005 19:07:40. Bayes word results: mime-version (S=1978 / H=1706, C=1): 0,50. content-type (S=2557 / H=2115, C=1): 0,51. normal (S=1441 / H=986, C=1): 0,55. sender (S=166 / H=1046, C=1): 0,12. plain (S=298 / H=785, C=1): 0,24. quoted-printable (S=19 / H=236, C=1): 0,06. service (S=131 / H=479, C=1): 0,19. running (S=6 / H=145, C=1): 0,03. exim (S=65 / H=826, C=2): 0,06. using (S=78 / H=231, C=1): 0,22. build (S=48 / H=188, C=1): 0,18. in-reply-to (S=11 / H=199, C=1): 0,04. windows (S=209 / H=366, C=1): 0,33. version (S=389 / H=516, C=1): 0,39. vous (S=13 / H=741, C=1): 0,01. information (S=149 / H=304, C=3): 0,29. references (S=9 / H=174, C=1): 0,04. help (S=163 / H=185, C=1): 0,43. would (S=229 / H=93, C=1): 0,68. have (S=878 / H=484, C=1): 0,61. like (S=314 / H=84, C=1): 0,76. could (S=102 / H=54, C=1): 0,62. find (S=206 / H=72, C=1): 0,71. organization (S=63 / H=54, C=1): 0,50. precedence (S=1 / H=231, C=1): 0,00. yahoo (S=4267 / H=4532, C=2): 0,44. none (S=215 / H=1724, C=1): 0,10. hendrikxxxx2002@yahoo (S=580 / H=1481, C=1): 0,25. link (S=646 / H=976, C=1): 0,36. skype (S=0 / H=909, C=1): 0,00. tester (S=0 / H=68, C=1): 0,00. list (S=216 / H=271, C=2): 0,40. iso-8859-15 (S=0 / H=100, C=1): 0,00. postfix (S=33 / H=389, C=1): 0,07. décembre (S=0 / H=95, C=1): 0,00. first (S=179 / H=96, C=1): 0,61. x-originating-ip (S=2059 / H=914, C=1): 0,66. samedi (S=0 / H=46, C=1): 0,00. unsubscribe (S=946 / H=367, C=1): 0,69. user (S=48 / H=117, C=1): 0,26. important (S=24 / H=104, C=1): 0,16. ident (S=0 / H=80, C=1): 0,00. order (S=83 / H=120, C=1): 0,37. unfortunately (S=43 / H=3, C=1): 0,92. install (S=4 / H=19, C=1): 0,15. tiscali (S=2 / H=24, C=1): 0,07. professional (S=166 / H=168, C=1): 0,46. beta (S=3 / H=329, C=2): 0,01. pack (S=21 / H=45, C=1): 0,28. renaud (S=0 / H=48, C=4): 0,00. Bayes result: 28.15% spam probability. Match: Internal rule BayesScore, BAYES, Score: -88. Match: SimpleStr rule Alle um was erhöhen, Score: 80. Match: Internal rule SenderInAB, SENDER_IN_ADDRBOOK: Absender im Adressbuch!, Score: 0. Message marked as HAM by last rule (score was -8). Bayes learned this mail as HAM. Finished: 26/12/2005 19:08:32. Processed in 52414 mSec, total score: 0, rules matched: 3.
Bei Achim sieht eine ähnliche mail vom selben Absender so aus (die eMail-addi hab' ich "geixt"):
Code
Alles anzeigenmer., déc. 21 2005, 22:16:38, HAM empfangen, Nachrichten-ID: 182341359.20051220164213@imap4all.com, Absender: xxx xxx <xxxx@imap4all.com>, Betreff: Is the TB user's documentation project page down ?, Score: 0, Filtertime: 108.02ms BETA | 1 | 250 | 0 | 0.00001000 | 0.00427972 Renaud | 1 | 162 | 0 | 0.00001000 | 0.00277326 F*Renaud | 1 | 146 | 0 | 0.00001000 | 0.00249936 H*smtp.imap4all.com | 1 | 139 | 0 | 0.00001000 | 0.00237953 H*213.201.213.161 | 1 | 139 | 0 | 0.00001000 | 0.00237953 F*xxxx | 1 | 139 | 0 | 0.00001000 | 0.00237953 F*imap4all.com | 1 | 139 | 0 | 0.00001000 | 0.00237953 H*Voyager | 1 | 80 | 0 | 0.00001000 | 0.00136951 H*BETA | 1 | 80 | 0 | 0.00001000 | 0.00136951 H*v3.63.15 | 1 | 68 | 0 | 0.00001000 | 0.00116408 claude | 1 | 66 | 0 | 0.00001000 | 0.00112985 www.pcwize.com | 1 | 32 | 0 | 0.00001000 | 0.00054780 H*212.82.225.189 | 2 | 27 | 0 | 0.00001000 | 0.00046221 H*gundel.de.clara.net | 1 | 27 | 0 | 0.00001000 | 0.00046221 H*62.80.28.28 | 1 | 27 | 0 | 0.00001000 | 0.00046221 0870 | 1 | 12 | 0 | 0.00001000 | 0.00020543 thebat | 2 | 22557 | 1 | 0.00008751 | 0.38615082 Bat | 1 | 13241 | 4 | 0.00059602 | 0.22667123 F*Claude | 1 | 146 | 1 | 0.01334116 | 0.00249936 Voyager | 1 | 166 | 2 | 0.02323232 | 0.00284174 mer., déc. 21 2005, 22:16:38, HAM gelernt, Nachrichten-ID: 182341359.20051220164213@imap4all.com, Absender: xxxe xxx <xxxx@imap4all.com>, Betreff: Is the TB user's documentation project page down ? mer., déc. 21 2005, 22:16:38, HAM hinzugefügt, Nachrichten-ID: 182341359.20051220164213@imap4all.com, Absender: xxx xxx <xxxx@imap4all.com>, Betreff: Is the TB user's documentation project page down ?, Learningtime: 5.53ms
Deutlich ersichtlich scheint mir, daß Achim es hinbekommt, nur die am aussagekräftigsten Begriffe zu nutzen, bei Regula scheint es mir ziemlich zufällig zusammengewürfelt zu sein, welche Begriffe in die Auswertung einbezogen werden.
-
Zitat
Wenn ich die Log's richtig deute, dann werden aber nicht die Inhalte der Kopfzeilen ausgewertet, sondern die Namen:
Es wird der komplette Header verwendet, deutlich an "hendrikxxxx2002@yahoo" oder "quoted-printable" zu sehen. -
Zitat
Unter http://www.gaijin.at/tecbetatest.php habe ich eine Testversion hochgeladen.
Ist das richtig dass in den Einstellungen für Update kein Server drin steht? -
Zitat
Ist das richtig dass in den Einstellungen für Update kein Server drin steht?
Ja, in diesem Fall wird die Vorgabe (http://www.gaijin.at/...) verdendet.