BayesFilter v1.5.2c Fehler

  • Problem 1:

    Ich habe 1.5.2c laufen und heute mehrfach den Filter trainieren müssen, weil er Spam als Ham erkannt hat und umgekehrt.

    Trotzdem zeigt meine Statistik artig jeweils 1 (in Worten: eine) falsch erkannte Ham-/Spam-Mail an. Das ist schlichtweg falsch.

    Problem 2:
    Ich beobachte nun seit Version 1.4.x, daß leere Mails (kein Subject, kein Body) nicht als Spam erkannt werden, obwohl ich sie jedes Mal als Junk markiere. So eine Mail ist bestimmt kein Ham.


    Die Mail ist original so, lediglich meine Serverdaten habe ich rausge-x-t und die Mailadresse durch my@mail.address ersetzt.

    Achim, was empfiehlst Du mir? :)

  • hi,

    version 1.5.2c gibt es gar nicht. bisher ist 1.5.2 aktuell... ;)

    beim neu trainieren wird die statistik nicht gelöscht, das muss man im menü machen. die frage die ich jetzt habe ist: hast du autotraining an? wenn ja wofür? nur für spam oder nur für ham oder beides?
    hast du die statistik gepfüft nachdem du falsche mails empfangen hast und diese wieder umklassiert hast? wenn ja was zeigt dein logfile in einem solchen fall an?

    das problem 2 ist etwas blöd und mit solchen mails wirst du immer schwierigkeiten haben. es gibt nämlich so gut wie nichts was sich an verwertbaren infos aus der mail rausholen läßt. einzig und allen die dns blacklists könnten da helfen. springen die bei dir nicht an? wenn nicht, dann trag einfach noch andere server ein wie z.b.

    ipwhois.rfc-ignorant.org
    bl.spamcop.net

    und setzt den counter für blacklists auf 2 oder 1 (eher nicht zu empfehlen).

    achim

  • Zitat

    version 1.5.2c gibt es gar nicht. bisher ist 1.5.2 aktuell... ;)


    Hmmm, dann habe ich das mit dem © für Copyright daneben verwechselt. :lol:

    Zitat

    beim neu trainieren wird die statistik nicht gelöscht, das muss man im menü machen. die frage die ich jetzt habe ist:


    Ich hatte nach meinem anfänglichen Training die Statistik zurückgesetzt. Und genau seit dem Zeitpunkt bleiben die Werte für falsch erkannte Mails konstant. Auf die anderen Werte hatte ich keine Acht, was ich jetzt aber in der nächsten Zeit prüfen werde.

    Zitat

    hast du autotraining an? wenn ja wofür? nur für spam oder nur für ham oder beides?


    Ich habe noch immer Deine Voreinstellungen laufen. Autotraining ja, un dzwar für beides.

    Zitat

    hast du die statistik gepfüft nachdem du falsche mails empfangen hast und diese wieder umklassiert hast?


    Ja.

    Zitat

    wenn ja was zeigt dein logfile in einem solchen fall an?


    Einiges, mit dem ich nichts anfangen kann. Sag mir, nach welchen Einträgen ich schauen soll. Welcher Eintrag wird vorgenommen, wenn ich eine Mail manuell mit "Mark as (NOT) Junk" markiere?

    Zitat

    das problem 2 ist etwas blöd und mit solchen mails wirst du immer schwierigkeiten haben. es gibt nämlich so gut wie nichts was sich an verwertbaren infos aus der mail rausholen läßt. einzig und allen die dns blacklists könnten da helfen. springen die bei dir nicht an? wenn nicht, dann trag einfach noch andere server ein wie z.b.


    Hmm, schade. Aber sind *keine* Informationen nicht auch Informationen? :thumbup: Jede vernünftige Mail wird zumindest einen Inhalt (sprich: Message Body) besitzen, der nicht leer ist.

    Zitat

    und setzt den counter für blacklists auf 2 oder 1 (eher nicht zu empfehlen).


    "Mark as Spam if DNS Count above" steht bereits auf 2

  • hi,

    wenn man eine mail umklassiert muesste normalerweise etwas von undo dort stehen und das die mail dann als das klassiert wird als das man sie markiert hat.
    das mit der leeren mail ist nicht so einfach. die prämisse lautet, wenn du nichts weisst geh auf nummer sicher und sortiere die mail nicht aus. das verhindert viel viel aerger, da sind die paar mails die durchrutschen das kleinste problem. aber ich werde an den black/whitelists noch arbeiten und dann kann man das auch filtern. aber nicht alles auf einmal. das mit der statistik werde ich beobachten! die statistik mit den falsch einsortiereten mails wird uebriens nur verändert, wenn du neue mails bekommst die falsch einsortiert werden und die du dann manuell umsortierst. das aendert sich nicht, wenn du einfach mit mark as spam oder mark as not spam immer wieder die selbe mail umgruppierst. nur beim ersten umgruppieren wird ein eintrag gemacht!

    achim

  • Zitat

    wenn man eine mail umklassiert muesste normalerweise etwas von undo dort stehen und das die mail dann als das klassiert wird als das man sie markiert hat.


    Im Logfile steht nur "Undo Database saved..."

    Code
    c:\Programme\Internet\The.Bat!>grep -i undo bayesfilter.log
    Undo Database saved...
    Undo Database saved...
    [...]
    Zitat

    das mit der leeren mail ist nicht so einfach. die prämisse lautet, wenn du nichts weisst geh auf nummer sicher und sortiere die mail nicht aus. das verhindert viel viel aerger, da sind die paar mails die durchrutschen das kleinste problem. aber ich werde an den black/whitelists noch arbeiten und dann kann man das auch filtern.


    Das wäre fein. Ich bekomme täglich ein paar von diesen scheinbar leeren Mails und es nervt, daß diese nicht auch erkannt werden. popfile mit seinem Bayes-Filter hatte sie ja schließlich auch erkannt.
    Falsch klassifizierter Ham ist zwar wirklich ärgerlich, aber bei leeren Mails kann ich mir nicht vorstellen, daß die überhaupt jemand als Ham haben will. Aber das ist nur meine persönliche Meinung.

    Zitat

    die statistik mit den falsch einsortiereten mails wird uebriens nur verändert, wenn du neue mails bekommst die falsch einsortiert werden und die du dann manuell umsortierst. das aendert sich nicht, wenn du einfach mit mark as spam oder mark as not spam immer wieder die selbe mail umgruppierst. nur beim ersten umgruppieren wird ein eintrag gemacht!


    Ich markiere jede falsch erkannte Mail nur ein Mal. Das waren bereits einige falsch erkannte Mails. Ich vermute, daß da mittlerweile jeweils 10-15 stehen müßte.