Bayes Filter v1.4.2b

  • Hallo,

    ich habe mal wieder eine neue Beta auf Lager; für die Mutigen unter euch. Außerdem bräuchte ich jemanden, der drei neue Features testet und jemanden, der mir das Plugin ins Deutsche übersetzt.

    Die Änderungen sind Folgende:

    - die Prozentzahlen der Statistik waren falsch (gefixt)
    - wenn eine existierende Datenbank ausgewählt wird, so kam bisher die Abfrage ob diese überschrieben werden soll (gefixt)
    - mehrsprachen Support, drin sind bisher englisch, polnisch und slowenisch (war ja schon teilweise in der alten beta drin)
    - neuer Algorithmus für die Berechnung der Spam Wahrscheinlichkeit (nur über die Registry "Algorithm = 1 oder 2" erreichbar)
    - Wörter in der Datenbank können in Kleinschreibung aufgenommen werden (nur über die Registry "LowerCase = 0 oder 1" erreichbar)
    - Spezielle Markierungen von Wörtern können unterdrückt werden (nur über die Registry "SpecialMarkers = 0 oder 1" erreichbar)

    So und jetzt für die Tester. Mich würde folgendes interessieren:

    1.) Was bringt es, wenn man die Datenbank ohne Markierungen und in Kleinschreibung anlegt (man muss eine neue Datenbank erzeugen) und den Algorithmus nicht ändert in Hinblick auf die Erkennungsrate?

    2.) Was bringt es, wenn man den Algorithmus ändert sonst aber nichts?

    Achim

    Download

    Ich hab die Version noch mal neu draufgepackt, da war noch ein winziger Bug drin.

    Einmal editiert, zuletzt von mumpitzstuff (22. Juli 2004 um 23:13)

  • So, nachdem mit dem neuen BayesIT 0.56 immer TB abstürzt, setze ich doch mal auf Dein Pferd. :D Dazu gleich ein kleiner Schönheitsfehler den ich gesehen habe.

    Die White bzw Blacklist sind .dat , wenn ich aber diese an einem anderen Ort haben will und den Browse Button klicke, dann filtert er nach *.txt, so das ich die Files nie sehen werde. Ansonsten weis ich leider noch nicht so viel zu berichten, wird sich aber sicher noch ändern. :rolleyes:

  • Noch was kleines, kannst Du bitte beim Makro SPAMFILTERSTATISTIC noch einen Line Break machen :

    HamMails: 304
    SpamMails: 7495
    detected Ham: 3 (66.6%)
    detected Spam: 40 (100.%)
    FALSE Ham detected: 0FALSE Spam detected: 1

    So das der FALSE SPAM und FALSE HAM ist. Ansonsten bin ich schon sehr zufrieden mit dem Plugin :thumbup:

  • Hi!

    Welches ist eigentlich die letzte stable Version? Ich hab hier irgendwie den Überblick verloren :rolleyes:

    Ein Auto hat einen Platten. Woran erkennt man, dass der Fahrer Informatiker ist?
    Ganz einfach: Er überprüft, ob der Fehler auch an einem anderen Reifen auftritt.

  • Zitat

    Hi!

    Welches ist eigentlich die letzte stable Version? Ich hab hier irgendwie den Überblick verloren :rolleyes:


    Version 1.3.2 soweit ich weiss, jedoch funktioniert die oben genannte Beta ausgezeichnet :thumbup:

  • habe die 1.4.2b jetzt auch mal installiert
    - die .dat gelöscht
    - Statistik zurückgesetzt
    - 572 Spams lernen lassen
    - dann 589 HAM lernen lassen.... Dabei ist mir folgendes passiert: Das kleine Fenster mit dem "already scanned" geht auf und zählt... doch nach 21 Mails kommt der "Finish"-Dialog... ich drücke den weg und plötzlich zählt er wieder... diesmal bis 9 und ist fertig... wieder OK... er läuft wieder weiter... bis 201... usw. usf.... bis er irgendwann WIRKLICH fertig war

    Was kann das gewesen sein?

    nSonic

  • - um die Hilfe im \Help\Verzeichnis aufrufen zu können muss man auch \Source\Help\*.* haben!! Ist das beabsichtigt?


    nSonic

  • Zitat


    Version 1.3.2 soweit ich weiss, jedoch funktioniert die oben genannte Beta ausgezeichnet :thumbup:


    Ok, dann bin ich ja auf dem aktuellen Stand :)

    Ein Auto hat einen Platten. Woran erkennt man, dass der Fahrer Informatiker ist?
    Ganz einfach: Er überprüft, ob der Fehler auch an einem anderen Reifen auftritt.

  • hi,

    das mit dem fertig sein ist ein problem bei sehr sehr langsamen rechnern! wenn einige sekunden lang keine neue mail mehr kommt, denkt das plugin das es fertig ist und bringt den ende dialog. was für eine kiste hast du denn?
    das plugin ist case sensitiv, es sei denn du hast es per registry key ausgeschaltet. dann allerdings sollte man die datenbank neu machen, da man ansonsten kaum mehr gute resultat erzielt. ich würde aber das case sensitiv anlassen...

    achim

  • Der Rechner ist schnell - aber ich habe alles auf einem MicroDrive... und das war vorhin auch noch über USB 1.1 angeschlossen...

    Die Erklärung reicht mir schon - ist also alles korrekt so, beruhigend :)

    Warum sollte man es Case Sensitiv lassen? Weil SPAM u.U. häufiger Großschreibung verwendet? Mir fehlt da die Erfahrung...

    nSonic

  • Frage:
    - ich schrieb ja mal, dass immer wieder eindeutige Spams durchflutschten, Du erinnerst Dich?!
    - Ich habe jetzt ja mal von vorne angefangen und werde das beobachten

    aber was mir aufgefallen war an meiner Konfiguration:
    - in TB hatte ich als Spam-Grenzwert eine "60" stehen
    - Im BayesFilter stand aber eine "90" (default)

    Kann das zu dem Ergebnis führen, dass viele Spams eben NICHT wegsortiert werden?
    Ich hätte das Verhalten erwartet, wenn es umgekehrt gewesen wäre (also 90 in TB und 60 in BF) oder mache ich da einen Gedankenfehler?

    Ich habe jetzt auf beiden Seiten eine 90 eingetragen (lt. Hilfe sollen die Werte ja identisch sein)

    nSonic

  • Zitat

    [...] und jemanden, der mir das Plugin ins Deutsche übersetzt.


    Fertig!

    Man möchte manchmal Kannibale sein, nicht um den oder jenen aufzufressen, sondern um ihn auszukotzen. Johann Nestroy.

  • Zitat

    Warum sollte man es Case Sensitiv lassen? Weil SPAM u.U. häufiger Großschreibung verwendet?


    die default einstellungen sind das gross und kleinschreibung unterschieden wird. neuerdings kann man daruf aber auch verzichten (nur per registry). eventuell bei kleinen trainingsdatenbanken könnte das vorteile bringen. erste tests von mir haben zumindest einen gleichstand bei der erkennungsrate erreicht. der nachteil allerdings ist, dass man sich das nur einmal beim anlegen der datenbank aussuchen kann. will man später was ändern, so muss die datenbank neu erstellt werden.
    den zweiten algorithmus habe ich inzwischen auch mal getestet und bei der spam erkennung durchweg schlechtere ergebnisse erhalten. es kann aber sein, dass der algorithmus die falsch erkannten hams reduziert, dass weiss ich noch nicht. wahrscheinlich sollte man aber die signifikanten wörter wieder auf eine kleinere zahl wie z.b. 15 oder 20 setzen, das hat bei mir zumindest beim 2. algorithmus eine verbesserung gebracht.

    achim

  • Zitat

    - in TB hatte ich als Spam-Grenzwert eine "60" stehen
    - Im BayesFilter stand aber eine "90" (default)


    hi,

    da die werte vom plugin meist bei 0 oder 100 liegen sollte es so ziemlich egal sein was da eingetragen ist. normalerweise sollte das plugin aber den richtigen wert aus der ini datei von the bat auslesen. hast du the bat oder secure bat?

    achim