Bayes Filter Plugin v1.5.1b

  • Hallo,

    ich hab mal wieder eine neue Version mit den angekündigten Features fertig. Bitte löscht alle Registry Einträge des Plugins, sowie die Datenbanken. Danach installiert das Plugin, richtet es wieder richtig ein und erstellt die Datenbanken neu. Bitte lasst unbedingt das DNS-Blacklisting angeschaltet, denn das sollte nun erheblich schneller sein!!! Bei den Black-/Whitelists ist zu beachten, dass normale Textstrings mit TEXT: xxxxxxx beginnen müssen, und Regex Ausdrücke mit REGEXP: xxxxxxx. Ansonsten ist fast alles wie gehabt, nur intern hat sich mächtig was getan. In den Optionen sind zwei Optionen verschwunden und durch zwei neue ersetzt worden.

    1.) Reduce Noise = unwichtige Wörter wie z.B. Wortlisten werden aus den Mails entfernt
    2.) Train on Error = die Trainingsroutine wird solange durchgeführt bis eine Mail auch zukünftig als das erkannt wurde als das sie markiert wurde. das ist besonders wichtig bei mails die falsch klassifiziert wurden und danach richtig markiert werden. wenn eine solche mail noch einmal empfangen wird, so wird sie 100%ig richtig erkannt.

    Das sollte erst mal reichen... Bei Problemen bitte so genau wie möglich sein und mir Logfiles, EML Dateien oder sehr detailierte Informationen geben!!!
    Der Download ist übrigens ein richtiges Setup! Der Clou daran ist, es gibt ein Update Programm, mit dem man nach der neuesten Version schaun kann und nur noch rund 200kb runterladen muß, wenn es eine neue gibt!

    Im übrigen könnte ich jemanden gebrauchen der mit ein Icon oder sowas für das Setup pinselt. Meldet euch einfach wenn ihr jemanden kennt...

    Achim

    Download

    Einmal editiert, zuletzt von mumpitzstuff (24. August 2004 um 22:10)

  • Ok, installiert. Gut was fällt auf. DNS Blacklist ist leer, willst Du da nicht mal per Default die von den Vorgängerversionen einbauen ? So Standart halt, ala Spamcop etc. ?

    Black und Whitelist select. Hier ist die falsche Endung zur Auswahl. Die Files sind .dat die suchbaren File ext beim Browsen sind .txt und können nicht verändert werden.

    Ansonsten, hatte es noch nichts zu tun. Ich schau dann mal heute etwas später, wie gut es filtert (vorher mit 1.4.2b 99%).

    //Nachtrag : Es ist wirklich viel schneller :thumbup:

    Einmal editiert, zuletzt von blackcat (24. August 2004 um 08:56)

  • Ja wirklich rasend schnell

    Was ich noch nicht so ganz verstehe...............

    1. Train on Error

    Was heisst das genau?
    Wenn ich eine Mail vom Spam ordner als Ham klassifiziere dass es dann in eine extra datei geschrieben wird oder was pasiert?

    2.
    REGEXP: xxxxxxx

    was heisst das genau bzw. wan setze ich das davor?

    Viele Grüsse Yaqwa
    The Bat! Home 11.x (32bit) NAU | Win 11 Pro x64 | ...seit Version 1.47 dabei...... (Gott bin ich alt) :bat:

  • Zitat

    Bitte löscht alle Registry Einträge des Plugins, sowie die Datenbanken.


    Wo finde ich denn alle Registry Einträge von BayesFilter?

    Zitat

    1. Train on Error

    Was heisst das genau?
    Wenn ich eine Mail vom Spam ordner als Ham klassifiziere dass es dann in eine extra datei geschrieben wird oder was pasiert?

    Es konnnte früher vorkommen das du eine Spam E-Mail mehrfach bekommen hast und sie nie als Spam erkannt wurde. Jetzt wird solange nach die Datenbank traniert das die Spam Mail danach auch als Spam erkannt wird

    Zitat

    REGEXP: xxxxxxx

    was heisst das genau bzw. wan setze ich das davor?

    Wenn du reguläre expressions benutzt. Also Ausdücke die auf mehr als ein E-Mail-Adresse passen sollen

  • hmm eigentlich sieht das alles sehr schön aus - allerdings hätte ich noch ein paar ideen bzw. verbesserungsvorschläge.

    1. wenn die nachrichten markiert werden und diese befinden sich in der thread ansicht (newsgroups) werden nur die "obersten" mails gescannt. nicht alle also. habe 300 mails aber nur insgesamt 30 betreffs werden nur die 30 mails "oben gescannt... . um dies zu ändern müsste ich alle threads aufklappen. nicht so der hammer.

    2. gerade beim setup wäre es hilfreich eine übersicht zu machen und zu bestimmen anhand der jeweiligen ordnerstruktur des nutzers wo sich der spam befindet.
    meint: wie beim anderen bayes filter eine übersicht wo die gesamte ordnerstruktur angezeigt wird - diese kann man dann mit ham und spam bezeichnen und zack - in einem rutsch ist alles fertig. wichtig wenn man updated und eben die alten daten nicht mehr verwenden soll.

    so das wars mit meinem paar ;)

    edit:

    hab grad 4500 mails importiert und damit meinen spamfilter trainiert... naja schnell ist was anderes...;) ne aber im ernst, ich würde ab 200 mails vielleicht die funktion einbauen das tb! inkl. bayes filter fenster im hintergrund läuft. zumindest unter xp spielt dann der vorgang eine untergordnete rolle (sofern man das so eingestellt hat) hat, und man kann weiter am rechner arbeiten.

    --

    Ich kenn noch die Zeiten wo Smilies aus Zeichenkombinationen bestanden. Ja ich bin alt ;).

    Einmal editiert, zuletzt von Kosch (24. August 2004 um 14:15)

  • hi,

    ist ja super, sind ja schon fast alle fragen beantwortet... ;)

    an Kosch:

    aehm schlechte nachrichten, denn absolut keine deiner ideen ist machbar. das liegt entweder am plugin interface oder anderen dingen... :(
    übrigens ich vermute mal, dass sich das schnell auf das empfangen der mails bezog und nicht aufs trainieren. das dauert immer etwas länger...

    achim

  • Zitat

    Bei den Black-/Whitelists ist zu beachten, dass normale Textstrings mit TEXT: xxxxxxx beginnen müssen, und Regex Ausdrücke mit REGEXP: xxxxxxx.

    Ich nehme mal an xxxxxx ist ein Platzhalter, das muss da nicht hin ;)

    Zitat

    Der Download ist übrigens ein richtiges Setup! Der Clou daran ist, es gibt ein Update Programm, mit dem man nach der neuesten Version schaun kann und nur noch rund 200kb runterladen muß, wenn es eine neue gibt!

    Das verstehe ich jetzt nicht so ganz. Wie funktioniert das? Wenn ich da draufklicke, geht es dann online zu Deiner Site und prueft ob es was neues gibt? Oder wie muss ich mir das praktisch vorstellen?

  • hi,

    ja xxxxx ist der platzhalter für deinen suchstring.

    das update programm downloaded zuerst eine bayesfilter.ver und pfüft die version die dort drinsteht. unterscheidet sich diese von der installierten version, dann downloaded das ding eine datei namens bayesfilter.z und entpackt diese zu bayesfilter.tbp. später werde ich eventuell auch noch die hilfedateien so updaten...

    im uebrigen habe ich die version 1.5.1b auf den server gepackt und noch eine geschwindigkeitsbremse gelöst. beim trainieren schaffe ich jetzt rund 20 mails mehr pro sekunde. wer lust hat kann ja mal die update funktion ausprobieren oder aber das setup runterladen (siehe erstes posting in diesem thread). vielen dank an CASCHY, der mir ein schönes logo gemalt hat!!!

    achim

    so jetzt noch was für BLACKCAT:

    wenn die registry gelöscht wurde, dann sin auch default server für das dns blacklisting vorhanden. falls gewünscht kann ich auch noch welche posten. die black-/whitelists haben jetzt immer die endung txt und das funktioniert auch. rename einfach deine alten dateien in blacklist.txt und whitelist.txt. dann geht alles wunderbar...

    Einmal editiert, zuletzt von mumpitzstuff (24. August 2004 um 22:18)

  • Zitat

    im uebrigen habe ich die version 1.5.1b auf den server gepackt und noch eine geschwindigkeitsbremse gelöst. beim trainieren schaffe ich jetzt rund 20 mails mehr pro sekunde. wer lust hat kann ja mal die update funktion ausprobieren

    Ja, klappt. Das einzige was nicht aktualisiert wird ist der Eintrag im Start Menu. Da steht immer noch 1.5.0 ;) Aber damit kann ich leben.

    Ansonsten scheint alles so zu funktionieren wie es soll.

  • Zitat

    2.) Train on Error = die Trainingsroutine wird solange durchgeführt bis eine Mail auch zukünftig als das erkannt wurde als das sie markiert wurde. das ist besonders wichtig bei mails die falsch klassifiziert wurden und danach richtig markiert werden. wenn eine solche mail noch einmal empfangen wird, so wird sie 100%ig richtig erkannt.


    IMHO Unsinn. Wie hoch ist wohl die Wahrscheinlichkeit, dass Ham E-Mail(s) mit gleichem Inhalt reinkommen? Und wie verfolge ich das nachtraeglich?
    Eigentlich muesste ich jede false+ E-Mail durch einen lokalen Proxy laufen lassen um zu sehen ob die Erkennungsrate stimmt.

    Zitat

    Der Download ist übrigens ein richtiges Setup! Der Clou daran ist, es gibt ein Update Programm, mit dem man nach der neuesten Version schaun kann und nur noch rund 200kb runterladen muß, wenn es eine neue gibt!


    Hier solltest Du nochmal dran feilen. Den gemeinen User koennen folgende Dialoge maechtig verunsichern:

    http://thebatworld.de/pictures/screenshoot_00255.gif
    http://thebatworld.de/pictures/screenshoot_00256.gif
    http://thebatworld.de/pictures/screenshoot_00257.gif

    Zitat

    vielen dank an CASCHY, der mir ein schönes logo gemalt hat!!!


    Wenn das mal keinen Aerger mit der Firma Hormel gibt!

    Man möchte manchmal Kannibale sein, nicht um den oder jenen aufzufressen, sondern um ihn auszukotzen. Johann Nestroy.

    Einmal editiert, zuletzt von Thomas Woelk (24. August 2004 um 23:50)

  • Jetzt hat er die Version 1.50b gegen die 1.51b ersetzt (update). Schön und gut. Aber wieso meldet er sich jetzt wieder, dass die Database leer ist, obwohl ich bei der 1.50 mal eben jeweils 500 Mails angelernt hatte?

    Die Dateien liegen im Verzeichnis des Plugins - wurde da erstellt, und im Plugin selber steht als Datei "database.dat" (also Standard) - ohne weitere Pfadangaben. Sie ist zirka 480 kb groß.
    Bevor ich die 1.50 installiert hatte, hatte ich die Reg gelöscht und die alten Dateien gelöscht?

    Ansonsten stimme ich Thomas zu - das Fehlen von Updates ist zu derb gelöst.

    Zu guter letzt muss ich aber sagen, das sich die alte Version parallel zu K9 nie größere Patzer geleistet hat. :thumbup:

  • Zitat

    so jetzt noch was für BLACKCAT:

    wenn die registry gelöscht wurde, dann sin auch default server für das dns blacklisting vorhanden. falls gewünscht kann ich auch noch welche posten. die black-/whitelists haben jetzt immer die endung txt und das funktioniert auch. rename einfach deine alten dateien in blacklist.txt und whitelist.txt. dann geht alles wunderbar...


    :denk: Sonst noch wo Registry Einträge als bei
    HKEY_CURRENT_USER\Software\Bayes Filter Plugin

    ???

    Kaum oder ? Hab ich gelöscht aber nicht neugestartet :rolleyes: , wird aber doch kaum gecached im System (TB geschlossen). Anyway, wenn's denn sonst funzt. Posten brauchst Du sie nicht, ich habe den Schlüssel vor dem löschen exportiert so dass ich die Daten dort holen konnte. Hmm die heissen bei mir noch .dat aber das macht ja nix, änder ich das flux in .txt, ganz wie Du meinst :)

  • hallo,

    also das mit dem update versuche ich noch zu verbessern. das war auch erst einmal ein schnellschuß, um die machbarkeit zu demonstrieren.

    nach dem update meldet er das die datenbank leer ist? das ist eigenartig. aber danke für den hinweiss ich werde das untersuchen.

    die registry daten stehen nur in diesem key: HKEY_CURRENT_USER\Software\Bayes Filter Plugin
    normalerweise sollte es eigentlich ausreichen die zu löschen und dann müsste das plugin die default server haben. hat das bei noch jemandem probleme bereitet?

    was zum teufel hat die firma hormel damit zu tun?

    das mit dem train on error ist nicht ganz so schlecht wie es dargestellt wird. der inhalt einer mail die falsch klassifiziert wurde wird solange in die datenbank eingetragen bis sie richtig klassifiziert wird. das bedeutet, das auch ähnliche mails mit ähnlichem inhalt in zukunft richtig klassifiziert werden!

    achim

    ps: es ist super***beep*** das man nicht mehr mehrer postings hintereinander machen kann!!!!!!!!!!!!!!!!!!!!

  • Zitat

    was zum teufel hat die firma hormel damit zu tun?


    Das ist die Herstellerfirma von SPAM - dem Frühstücksfleisch, dessen Dose ich als Symbol genommen habe.

    Zitat

    ps: es ist super***beep*** das man nicht mehr mehrer postings hintereinander machen kann!!!!!!!!!!!!!!!!!!!!


    Deine Mail an mich hat also nicht gereicht?

  • @Achim

    Zitat


    die black-/whitelists haben jetzt immer die endung txt und das funktioniert auch. rename einfach deine alten dateien in blacklist.txt und whitelist.txt. dann geht alles wunderbar...

    schlag mich nicht aber ich habe es genau so gemacht

    danach hat gar nix mehr gestimmt

    ich hatte zig ham mails die als Spam erkannt wurden

    dann habe ich wieder die .txt in .dat umbenannt und auf einmal leif es tadellos

    Viele Grüsse Yaqwa
    The Bat! Home 11.x (32bit) NAU | Win 11 Pro x64 | ...seit Version 1.47 dabei...... (Gott bin ich alt) :bat:

  • Hi allerseits,

    Zitat

    hallo,
    das mit dem train on error ist nicht ganz so schlecht wie es dargestellt wird. der inhalt einer mail die falsch klassifiziert wurde wird solange in die datenbank eingetragen bis sie richtig klassifiziert wird. das bedeutet, das auch ähnliche mails mit ähnlichem inhalt in zukunft richtig klassifiziert werden!


    Full ACK.

    Hatte nämlich genau das Problem, dass Mails mit ähnlichem Inhalt trotz Trainierens nicht erkannt wurden. Das scheint jetzt deutlich besser zu gehen!

    Auch sonst ist die Erkennungsrate deutlich besser als bei der alten Version! :)


    Gruß, Fips

  • Bin mir nicht sicher, ob wir das schonmal irgendwo hatten, aber warum gibt es nur die beiden Score-Werte 0 und 100? Denn ausser diesem beiden, taucht nichts in der Log-Datei auf...

  • Zitat

    schlag mich nicht aber ich habe es genau so gemacht

    danach hat gar nix mehr gestimmt


    hi,

    wohin darf ich schlagen? :)

    keine ahnung weshalb das so ist. wenn du näheres rausbekommst wäre ich dankbar...

    das mit dem 0 und 100 hatten wir schon mal. :) das liegt am algorithmus mit dem berechnet wird, der spuckt in der regel nur die werte 0 und 100 aus. in sehr seltenen faellen, insbesondere wenn nur wenige wörter aus einer mail extrahiert werden konnten, kann es vorkommen, dass es einen anderen wert ergibt... möglicherweise bekommt man andere werte wenn man den anderen algorithmus verwendet (Algorithm in der Registry auf 2 setzen anstatt auf 1). allerdings hat der algorithmus in meinen tests schlechtere filterergebnisse gebracht. bisher habe ich den aber nicht hinreichend testen können. wer also lust hat... ;)

    Caschy:
    aehm was für eine mail meinst du denn?
    hast du vielleicht ein bild von einem insekt (käfer) auf das man SPAM draufschreiben kann? Die dose sieht ohnehin etwas komisch aus... :pfeif:

    achim

    Einmal editiert, zuletzt von mumpitzstuff (25. August 2004 um 12:11)

  • Ähm, hat schon jemand einen SPAM der mit der Blacklist der DNS erkannt wurde ? Also ich will ja nicht mekern, denn die Erkennungsrate liegt bei satten 99%, nur ist mir aufgefallen das keiner mehr durch DNS Blacklisting wegfällt. :denk:

    Ich wart mal ab und schau weiter zu.

    @achim Default DNS Blacklist Server :denk: Also bei der Version 1.4.2b vorher wahr die DNS Blacklist per default leer. Ebenfalls jetzt bei 1.5.0b. Hmm, wart mal noch 2 Tage, dann krieg ich mein Notebook, dort versuch ich es dann mal auf einem ganz frischen System :)

    //EDIT 27.08.2004 Ok Notebook zu Ende installiert und natürlich auch TheBat mit Bayes Filter drauf. Stimmt die DNS Blacklist hat per default Einträge. :pfeif: :thumbup:

    Einmal editiert, zuletzt von blackcat (27. August 2004 um 02:52)