BayesFilter filtert plötzlich schlecht

  • Hallo ihr, hallo Achim,

    seit zwei, drei Tagen filter der BayesFilter einfach nur noch schlecht. :cry:
    Ungefähr die Hälfte der Mails rutschen durch, obwohl davor eine fast unerreichbare Quote bestand. <_<

    Ich kann keine Abstürze und auch keine Neuinstallationen oder ähnliches verbuchen.

    database.dat hat 374kb, die undo.dat hat 51kb.

    Kannst Du mir eventuell ein paar Tipps geben, wo das Teil was falsch gemacht haben könnte? :denk:

    Beginn der database.dat:

    Code
    1160044
    706
    1005
    REPUBLIC

    VerboseLogging habe ich gerade eingeschalten. Ich berichte mehr, sobald geloggt wurde... ;)

    Vielen Dank schon mal... :thx:


    EDIT:
    Hmm,... jetzt habe ich meine Datenbanken gelöscht und nochmal lernen lassen.
    Die Anzahl ist nahezu gleich geblieben - nur hat die database.dat jetzt 662kb. Doppelt so viel wie vorhin.

    Code
    1160044
    708
    1072
    REPUBLIC


    Ich berichte weiter...

    Thunderbird Add-on Clean Subject: Aneinanderreihungen von Präfixen ("Re: AW: Re: AW:") oder Kürzel wie "[SPAM]" oder "****SPAM****" automatisch entfernen.

    Einmal editiert, zuletzt von Thomas Woelk (8. Mai 2004 um 21:14)

  • seit zwei, drei Tagen filter der BayesFilter einfach nur noch schlecht. :cry:
    Ungefähr die Hälfte der Mails rutschen durch, obwohl davor eine fast unerreichbare Quote bestand.

    also ich würde mal drauf tippen das irgendwas in der blacklist drinstand was zu allgemein war und daher viele mails betraf. das solltest du zuerst mal prüfen!!! das die datenbank doppelt so gross ist macht nix, denn sie wird wieder kleiner sobald du the bat 50 mal gestartet hast und die komprimierung erfolgt ist.

    achim

    Einmal editiert, zuletzt von mumpitzstuff (6. Mai 2004 um 17:03)

  • Danke für die Antwort Achim,
    Blacklist ist leer und wurde nie angerührt.

    Hmm,.... sind es "neue" Spam-Mails oder habe ich dem Filter zu viele gute Wort geliefert, nachdem ich alle Mails der engl. Beta-Liste als Ham klassifiziert habe?! :denk:

    Kann und darf ja eigentlich nicht sein...

    EDIT1:
    Kommt gerade eben rein und wird nicht erkannt. (Ab 90 ist's Spam bei mir)

    EDIT2:
    Komisch,... trotz DNS-Listen, die seit heute morgen aktiviert sind, wird's auch nicht besser.

    Thunderbird Add-on Clean Subject: Aneinanderreihungen von Präfixen ("Re: AW: Re: AW:") oder Kürzel wie "[SPAM]" oder "****SPAM****" automatisch entfernen.

    Einmal editiert, zuletzt von Manu (6. Mai 2004 um 17:12)

  • also um genau was dazu zu sagen musst du verbose logging anmachen und mir den auszug aus dem logfile zeigen. allerdings sind mir beim ersten durchsehen wörter wie z.b. Million US Dollars, quick response, allowed to withdraw, invested meaningfully, risk free and safe operation usw. aufgefallen die für eine ziemlich hohe spamwahrscheinlichkeit sorgen dürften. solche oder ähnliche spam mails gibt es zuhauf! daher ist es meiner meinung nach nicht verwunderlich, dass er diese aussortiert hat.

    achim

  • Zitat

    Diese hat er gerade nicht aussortiert...

    VerboseLogging tut nicht ganz oder gehe ich falsch vor?


    dann ist vermutlich dein spammail datensatz zu schlecht. verbose logging erzeugt im logfile bei eingehenden mails wortlisten mit der spammigkeit der einzelnen worte. das sollte funktionieren.

    achim

  • Nunja,... so richtig schlecht kann er nicht sein.
    Denn 712 "echte" und "eigene" Spam-Mails können ja nicht schlecht sein.

    Habe nun gerade K9 am laufen und das mit den gleichen Mails (Spam + Ham) gefüttert - kein einziger Fehler... :denk:

    Nun gut, eventuell auch nur eine kleine Ungereimtheit in der jetzigen Version.
    Ich warte auf die nächste....... :pfeif:

  • Zitat

    Nunja,... so richtig schlecht kann er nicht sein.
    Denn 712 "echte" und "eigene" Spam-Mails können ja nicht schlecht sein.

    Habe nun gerade K9 am laufen und das mit den gleichen Mails (Spam + Ham) gefüttert - kein einziger Fehler... :denk:

    Nun gut, eventuell auch nur eine kleine Ungereimtheit in der jetzigen Version.
    Ich warte auf die nächste....... :pfeif:


    wärst du vielleicht bereit mir deine datenbank zu schicken, damit ich versuche damit machen kann?

    achim

  • also bei mir filtert die datenbank auch sehr schlecht. das scheint aber daran zu liegen, dass du den filter fast ausschließlich mit deutschen mails trainiert hast. dadurch kann er mit englischen spams nicht viel anfangen!

    achim

  • Hmm,.... gut dann muss ich das wohl so hinnehmen und K9 loben.

    Ganz verstehen tue ich es trotzdem nicht, denn schließlich sind von den knappen 1000 HAM-Mails 300 englische Mails aus der englischen Beta-Liste dabei.
    Und 300 sind schließlich fast 1/3. :lol:

    Zudem hat er bis vor einer Woche noch alles - ca. 97% - ausgefiltert... :denk:

    Nun gut, ich danke Dir trotzdem recht herzlich für den tollen Support, den Du hier leistest! :punk: