Neues Version 2.03

  • Hallo Allerseits,

    Achim hat "klammheimlich" *g* eine neue Version onlinegestellt: 2.03

      [li]Improved: loading speed of the regexp rule file[/li][li]Bugfix: it is now possible to add the plugin to the bat without loosing it after restart[/li][li]Bugfix: heavy bug in the delete routine of the hashmap implementation (this should fix a lot of errors like loosing entries in database after compression or reclassification of mails and loosing entries of the black-/whitelist)[/li][li]Bugfix: fixed support of B_INCLUDE_LIST support for the regexp ruleset[/li][li]Bugfix: the REGEXP feature of the black-/whitelist works better because the expression ".*" do not include new lines anymore[/li]


    Das Update funktioniert problemlos mit dem Updateprogramm vom BayesFilter.


    Danke Achim !! :thumbup:


    -piktor-

    Einmal editiert, zuletzt von piktor (5. Juni 2005 um 15:29)

  • Hat Achim hier keine Lust mehr?

    Man möchte manchmal Kannibale sein, nicht um den oder jenen aufzufressen, sondern um ihn auszukotzen. Johann Nestroy.

  • hi,

    naja ehrlich gesagt hatte ich lange zeit wirklich keine lust mehr und habe daher weder mails beantwortet noch an dem filter oder sonstwas gearbeitet. wahrscheinlich werde ich auch in zukunft nicht mehr jeden tag 20 mails beantworten, um einfach ein wenig mehr freizeit zu haben. ;)

    achim

  • Das freut mich auch zu hören ....
    Auch wenn meine Installation des BF 2.03 derzeit bei nur ~88% Hitrate herumhängt ...
    Aber ich will Achim nicht gliech wieder verschrecken, sorry :rolleyes: .

    Danke für "only 12 percent left"!
    Stefan

  • hi,

    das sollte jetz hoffentlich besser werden. wie gesagt, das war ein bug in der hasmap implementierung den ich lange lange gesucht habe und der wie immer bei solchen sachen total blöd war. fakt ist jedoch, dass bei jeder datenbankkomprimierung bzw. umklassifizieren daten verloren gehen konnten. das müsste die qualität der datenbank stellenweise erheblich beeinträchtigt haben.

    achim

    Einmal editiert, zuletzt von mumpitzstuff (6. Juni 2005 um 22:33)

  • Zitat

    Daß mit dem 88%-Erkennen ist sicher eine Frage des Trainings.


    Ich habe sogar extra komplett deinstalliert und 2.03 neu installiert, inklusive Löschen der DB und (gewisssenhaftem) neu trainieren.

    Zitat

    das sollte jetz hoffentlich besser werden. wie gesagt, das war ein bug in der hasmap implementierung den ich lange lange gesucht habe und der wie immer bei solchen sachen total blöd war.


    Verstehe ich das richtig? Der Bug ist mit 2.03 behoben? D.h. die Hitrate sollte eher raufgehen? Momentan geht der Trend bei mir eher runter : 82,14 % ...

  • also schlechter sollte der filter eigentlich nicht werden. die ergebnisse können sich allerdings unterscheiden, wenn inzwischen mails gelöscht wurden bzw. beim trainieren nicht verwendet wurden. in der alten datenbank waren diese wahrscheinlich noch enthalten und haben somit ein besseres ergebnis erzielt. wieviel mails wwurden denn zum trainieren verwendet?

    achim

    ps: übrigens eine neuinstallation bzw. das löschen der datenbank ist definitv nicht nötig!

  • Ich habe etliche hundert Mails durchgejagt, also imho mehr als genug, um ein adäquates Trainingsergebnis zu haben. Und diese Mails habe ich aus Ordnern genommen, die Mails enthalten, die ich nach wie vor oft kriege, also z.B. abonnierte Mailinglisten, die letzten eingegangenen Mails (Inboxes der Konten) ... anyway, so wie es aussieht, werde ich jetzt Spamassassin 3.0.3 vor meine Domains spannen ... natürlich nicht, weil Dein Plugin schlecht wäre, sondern aus diversen anderen Gründen.
    Danke, Stefan.

  • also eine genaue auskunft darüber woran es liegt, erhälst du wenn du verbose logging anschaltest und einfach mal nachsiehst welche wörter wie bewertet wurden...

    achim

  • Hi Achim!

    Mal ein Lob :)

    Ich habe gestern über den Updater von 1.5.4 auf 2.03 geupdated und bisher keine Probleme gehabt. Das Update ist problemlos durchgeflutscht und alle Einstellungen wurden übernommen.
    Die Erkennungsleistung ist mindestens gleich geblieben, wenn nicht sogar etwas besser geworden.
    Dinge wie RegEx, DNS habe ich aber nach wie vor nicht aktiviert. Solange die Erkennungsleistung auch so gut ist sehe ich da relativ wenig Anlass für.

    Danke! :)

    Ein Auto hat einen Platten. Woran erkennt man, dass der Fahrer Informatiker ist?
    Ganz einfach: Er überprüft, ob der Fehler auch an einem anderen Reifen auftritt.

  • Achim schrieb:

    Zitat

    die ergebnisse können sich allerdings unterscheiden, wenn inzwischen mails gelöscht wurden bzw. beim trainieren nicht verwendet wurden. in der alten datenbank waren diese wahrscheinlich noch enthalten und haben somit ein besseres ergebnis erzielt.

    Wie soll ich das verstehen? Worauf bezieht sich "inzwischen"? Heißt das, ich darf trainierte Mails nicht löschen? Weiters habe ich keine alte DB mehr, sondern nur noch die neue. Seither ist auch die Erkennungsrate wieder deutlich nach oben geschnellt, und ich füttere den Filter weiter mit Mails beider Sorten :)

    Bitte um Klarstellung, auf welche Parameter der Filter "reagiert", und wie das mit dem "inzwischen" gemeint ist, damit ich meinen Umgang mit dem Filter dementsprechend anpassen kann.

    Danke, Stefan.

  • hi,

    also das inzwischen ist so gemaint:

    die alte datenbank hat auf alten mails beruht, da sie ja von dir in grauer vorzeit trainiert wurde und dann auch immer mit aktuellen daten nachgefüttert wurde. diese datenbank hast du ja gelöscht und mit deinen aktuellen mails gefüttert (trainiert). du hast wahrscheinlich nicht deine gesamten mails die du in der zeit vom erstellen der ersten datenbank bis zum erstellen der neuen datenbank bekommen hast behalten. deshalb unterscheidet sich zwangsläufig der inhalt der alten datenbank von der neuen datenbank, was letztendlich zu anderen resultaten führen kann. wenn jetzt aber die ergebnisse eher positiv werden, denn waren entweder die ursprungsdaten nicht besonders gut bzw. entsprechen von ihrem inhalt nicht mehr den aktuellen spam mails (zu alt, denn auch spam ändert sich...). wenn es allerdings weiterhin probleme gibt, dann schalte mal das verbose logging ein und und poste mir das resultat einer nicht als spam erkannten spam. anhand dieser daten kann ich mher zu der qualität deiner datenbank machen.

    achim

  • Danke, Achim, jetzt ist es auch klar, was ich vorher nur interpretiert hatte.
    Kann man daraus ableiten, daß man bei abnehmender Erkennungsleistung am Besten neu antrainiert, mit aktuellem Ham/Spam?
    Momentan ist die Trefferquote wieder super, so wie ich es von Anfang an an Deinem Plugin schätze ;) Ein nochmaliger Dank an dieser Stelle, ich wollte nicht den Eindruck erwecken, das Plugin schlecht reden zu wollen.
    Grüsse, Stefan.

  • hi,

    also ich habe verschiedene artikel über das zeitverhalten von bayes filter datenbanken gelesen und es wird im allgemeinen gesagt, dass die erkennungsleistung tendenziell abnehmend ist, wenn die datenbank über sehr lange zeit hinweg mit immer neuen daten gefüttert wird. ich selbst kann das bisher nicht bestätigen, denn bei mir pendelt sich das level relativ schnell bei etwa 98-99% ein und hat sich eigentlich auch nicht merklich verändert. wenn du meinst, dass die leistung nachlässt solltest du aber mal ein neues training in erwägung ziehen und schaun was passiert. ansonsten immer alles so belassen und vielleicht an den einstellungen etwas drehen...

    achim

  • Hiermit verkünde ich hochoffiziell, dass ich im Zuge meines freitaglichen ausserplanmäßigen Neueinrichten von The Bat! zum BayesFilter gewechselt bin. Das Einrichten war ein Kinderspiel und verlief schnell und unproblematisch. Dank meiner doch recht großen Sammlung an Ham und Junk, hat das Filter bis jetzt alles richtig sortiert. Klasse Arbeit, mumpitzstuff.

    Damit hat für mich die Kombination aus K9 und Stunnel bis auf weiteres ausgedient. :) Positiver Nebeneffekt... weniger Icons im Tray, und einige Prozesse weniger.