Bug in BayesFilter bei bestimmten Mails?!

  • Hallo Achim,
    ich meine nun das Problem, welches ich hier beschrieben habe, eingrenzen zu können.
    Hast Du meine Email damals erhalten?

    K9 erkennt die Mails, da es auch offensichtlich Spam ist. Weder die Blacklist, noch die Datenbank des BayesFilters greift aber.

    Dies geschieht immer bei Mails, in denen meine Emai-Adresse sich nicht im To-Feld befindet.

    Ein Header-Beispiel:


    Ich bin nicht mrmorris@latinmail.com, wohingegen ich meine eigene Adresse durch meine@email.de ersetzt habe. :lol:

    Ich hoffe nicht zu weit vorgegriffen zu haben, aber alle Emails, die nicht erkannt wurden, hatten eine andere Adresse im To-Feld.

    Vielleicht hilft Dir das.... <_<

    Thunderbird Add-on Clean Subject: Aneinanderreihungen von Präfixen ("Re: AW: Re: AW:") oder Kürzel wie "[SPAM]" oder "****SPAM****" automatisch entfernen.

    Einmal editiert, zuletzt von Manu (23. Juni 2004 um 13:04)

  • hallo,

    sorry ich hab noch keine zeit gehabt bzw. keine lust mich dem problem zu widmen... ;) ich werde es aber noch machen! die problembeschreibung ist auf jeden fall sehr genau und es hilft mir auch weiter. heb mal deine blacklist bzw. whitelist gut auf, die brauche ich eventuell zur analyse...

    achim

  • Hi,

    kann die Beobachtung von Manu bestätigen.
    Allerdings ist es nicht so, dass alle Mails, bei denen meine Adresse nicht im "To:" steht, nicht erkannt werden.
    Jedoch scheint es so zu sein, dass bei allen nicht-erkannten Mails die Tatsache zutrifft.
    Es ist also sozusagen notwendige Bedingung für das Nicht-erkannt-werden, aber nicht hinreichende. :)

    Habe mal einen Ausschnitt aus dem verbose Logfile angehängt mit einem Fall, wo eine Mail erkannt wurde, und ein Fall, wo sie nicht erkannt wurde.
    Auffallend ist, dass bei der nicht-erkannten der Score 0 ist! Wenn ich so die Auswertung der Worte angucke kann das fast nicht sein. :blink:

    Vielleicht hilft das ja auch weiter...

    Viele Grüße,
    Fips

    [gelöscht durch Administrator]

  • Hmm,... nun kam gerade ein Mail an, die mich im To-Feld hatte.
    Alles korrekt.

    War eine typische Spam-Mail, K9 hat sie mit 81,4% erkannt.

    Leider erkennt das Plugin die Mail nicht als Spam an, trotz Blacklist-Eintrag.

    Hier ein Teil des Logfiles.

    Code
    Do, Jun 24 2004, 16:40:54, WHITELISTED, Message-ID: 0, From: Andrea Davis <karalee@seznam.cz>, Subject: Search engine traffic, Score: 0
    Do, Jun 24 2004, 16:40:54, AUTOLEARNING HAM, Message-ID: 0, From: Andrea Davis <karalee@seznam.cz>, Subject: Search engine traffic
    Do, Jun 24 2004, 16:40:54, ADD HAM, Message-ID: 0, From: Andrea Davis <karalee@seznam.cz>, Subject: Search engine traffic
    Do, Jun 24 2004, 16:43:05, UNDO HAM, Message-ID: 0, From: Andrea Davis <karalee@seznam.cz>, Subject: Search engine traffic
    Do, Jun 24 2004, 16:43:05, ADD SPAM, Message-ID: 0, From: Andrea Davis <karalee@seznam.cz>, Subject: Search engine traffic

    Das Logfile schreibt komplett falsche Sachen, wenn ich es richtig interpretiere.

    - Meine Whitelist ist leer, also kann nichts "whitelisted" sein.
    - Score = 0. Hä?
    - Message-ID = 0. Hä?

    ------------

    Tatsache, in TB! hat diese Nachricht keine Message-ID. Das gibt's doch nicht,
    Was geht hier vor?

    :cry: :o :denk: :(

  • Zitat

    - Meine Whitelist ist leer, also kann nichts "whitelisted" sein.

    hmm die whitelist ist leer?!? sehr eigenartig. wie gesagt ich hab bisher keine zeit gefunden und mache es spätestens am wochenende.

    achim

    Einmal editiert, zuletzt von mumpitzstuff (24. Juni 2004 um 22:00)

  • So... genau die gleiche Email erhalten und was macht das Plugin...?! Folgendes:

    Code
    Do, Jun 24 2004, 21:07:53, WHITELISTED, Message-ID: 0, From: Andrea Davis <audie@t-online.de>, Subject: Search engine traffic, Score: 0
    Do, Jun 24 2004, 21:07:53, AUTOLEARNING HAM, Message-ID: 0, From: Andrea Davis <audie@t-online.de>, Subject: Search engine traffic
    Do, Jun 24 2004, 22:01:20, UNDO HAM, Message-ID: 0, From: Andrea Davis <audie@t-online.de>, Subject: Search engine traffic
    Do, Jun 24 2004, 22:01:20, ADD SPAM, Message-ID: 0, From: Andrea Davis <audie@t-online.de>, Subject: Search engine traffic

    Danke schon mal Achim. Lass Dir ruhig Zeit, ich drängel nicht.
    Nur hier im Forum sind meine "Erkenntnisse" glaube ich besser aufgehoben als in irgendwelchen Text-Dateien auf meinem Rechner... :lol:

    Nachtrag:
    Ich habe als ich diese Email erhalten habe eine Whitelist gehabt. Nämlich mein Adressbuch.

    Beispiel: (auf Wunsch sende ich sie Dir auch zu...)

    Code
    name1@domain1.de
    name2@domain2.com
    name3@die-domain.net

    Thunderbird Add-on Clean Subject: Aneinanderreihungen von Präfixen ("Re: AW: Re: AW:") oder Kürzel wie "[SPAM]" oder "****SPAM****" automatisch entfernen.

    Einmal editiert, zuletzt von Manu (24. Juni 2004 um 22:08)

  • Hmm,... also irgendwas stimmt mit der Whitelist-Erkennung nicht.

    Code
    Fr, Jun 25 2004, 15:22:08, WHITELISTED, Message-ID: E1BdqcP-0001C0-BR@fozzy.webpack.hosteurope.de, From: Deep Mission Rec. <info@deepmission.de>, Subject: DJ ARNE L II + DJ MIRKO MILANO, Score: 0
    Fr, Jun 25 2004, 15:22:08, AUTOLEARNING HAM, Message-ID: E1BdqcP-0001C0-BR@fozzy.webpack.hosteurope.de, From: Deep Mission Rec. <info@deepmission.de>, Subject: DJ ARNE L II + DJ MIRKO MILANO
    Fr, Jun 25 2004, 15:22:08, ADD HAM, Message-ID: E1BdqcP-0001C0-BR@fozzy.webpack.hosteurope.de, From: Deep Mission Rec. <info@deepmission.de>, Subject: DJ ARNE L II + DJ MIRKO MILANO
    Fr, Jun 25 2004, 15:22:40, UNDO HAM, Message-ID: E1BdqcP-0001C0-BR@fozzy.webpack.hosteurope.de, From: Deep Mission Rec. <info@deepmission.de>, Subject: DJ ARNE L II + DJ MIRKO MILANO
    Fr, Jun 25 2004, 15:22:40, ADD SPAM, Message-ID: E1BdqcP-0001C0-BR@fozzy.webpack.hosteurope.de, From: Deep Mission Rec. <info@deepmission.de>, Subject: DJ ARNE L II + DJ MIRKO MILANO
  • aehm naja vielleicht ist das des raetsels lösung, denn ich sehe da z.b. ein zeichen wie - in einer der mailadressen. du solltest nicht vergessen. dass die strings als regex ausgewertet werden und das - zeichen normalerweise eine besondere bedeutung hat. - zeichen sollten also mit \- geschrieben werden. da faellt mir ein, dass punkte ja eigentlich auch ne besondere bedeutung haben und auch nicht mit backspace geschrieben sind. interessant. ich muss mir das näher ansehen. im moment ist die platte von meinem server abgeranzt und ich muss mich darum kümmern bevor ich irgend was anderes mache.

    achim

  • Hi allerseits,

    Zitat

    super Sache, dass Du hier mithilfst.


    Kein Thema, freu mich, wenn ich was zu dem echt hilfreichen Filter beitragen kann! :)

    Zitat

    Das LogFile ist sehr interessant.
    Lernst Du auch mit K9 oder "nur" BayesFilter?


    Lerne nur mit BayesFilter - das reicht mir eigentlich. :thumbup:

    Zitat

    aehm naja vielleicht ist das des raetsels lösung, denn ich sehe da z.b. ein zeichen wie - in einer der mailadressen.


    Das mit den "-"-Zeichen könnte sein - werde mal drauf achten!
    Habe übrigens keine Black-/Whitelist definiert, so dass das bei mir nicht die Ursache sein kann.

    Zitat

    im moment ist die platte von meinem server abgeranzt und ich muss mich darum kümmern bevor ich irgend was anderes mache.


    Uuups - da muss man gewisse Prioritäten setzen, ja. :blink:
    Wünsche viel Erfolg und bis denne!

    Fips

  • Hi,

    noch was ergänzendes:
    Manche Mails erscheinen gar nicht im Log-File! Eine Mail zum Beispiel habe ich dann als "Junk" markiert, und sie erzeugt dann folgenden Eintrag:

    Code
    Fr, Jul 02 2004, 22:07:55, ADD SPAM, Message-ID: 959601c46066$2596d870$d60aa0e5@party-glufdwfhgts, From: "PARTY TIME" <party-glufdwfhgts@tiscali.co.uk>, Subject: Sommer, Sonne, Strand und Party Stimmung!


    Aber es ist im Log-File kein Eintrag zu finden, wo sie bewertet wurde! Und wieder das verdächtige "-" vor dem "@" in der Mailadresse...

    Gruß, Fips

  • hallo,

    ich würde alle bitten die probleme haben das neue plugin zu installieren. hier wird bei black-/whitelisteten mails ein reason im logfile angegeben, was für mich sehr interessant wäre... dwonload usw. werden in einem eigenenen thema beschrieben.

    achim

  • Hi,

    Zitat


    kannst du mal die betreffende mail exportieren und an achim@lkcc.org schicken?


    Die betreffende Mail find ich nicht mehr so schnell, habe aber eine neue, wo es auch auftrat (mit der v1.4b vom 04.07.).
    Habe ein ZIP-Archiv hochgeladen, wo du diese Mail findest:

      [li]mail_not_logged.msg[/li]

    Habe zwei weitere Mails in das ZIP gepackt, die einen Score von 0 erzeugen. Ist meiner Meinung nach (bei Betrachten des Verbose Logs, ebenso im ZIP) aber seltsam - vielleicht schätze ich auch das Berechnungsverfahren falsch ein:

      [li]mail_scored_0_a.msg[/li][li]mail_scored_0_a.log[/li][li]mail_scored_0_b.msg[/li][li]mail_scored_0_b.log[/li]

    Vielleicht kannst du das mal checken.

    Black-/Whitelist verwende ich bisher nicht.

    Gruß, fips

    [gelöscht durch Administrator]

  • hallo,

    ich habs mir mal angesehen und kann nur sagen das deine datenbank ziemlich schlecht aussieht. mein vorschlag wäre es das ding zu löschen und ne neue version zu installieren. ich verwende meine datenbank schon seit monaten und schau dir mal das logfile von mir für deine drei mails an. das sieht absolut sauber aus und wurde auch 100%ig erkannt. schau dir besonders die zweite (häufigkeit in ham mails) und dritte spalte (häufigkeit in spam mails) an!!!

    achim

    PS: die sprache ist etwas komisch sollte aber erkennbar sin.

    [gelöscht durch Administrator]

  • Hi Achim,

    vielen Dank für deine Antwort!

    Zitat

    ich habs mir mal angesehen und kann nur sagen das deine datenbank ziemlich schlecht aussieht. mein vorschlag wäre es das ding zu löschen und ne neue version zu installieren.


    Hmmm, hattte die Datenbank erst vor kurzem neu generiert, nachdem ich auf die Version 1.3.2b des BayesFilter umgestellt hatte.
    Woran kann es dann liegen? Trainiere mit meinem gesamten Junk-Mail-Folder - sollte ich vielleicht besser nur die Mails der letzten 6 Monate nehmen?
    Bei den HAM-Mails mache ich es gleich, da nehme ich auch ziemlich viele und auch alte (max. 2 Jahre).
    Bringt es was, wenn ich dir meine Datenbank schicke?

    Zitat

    ich verwende meine datenbank schon seit monaten und schau dir mal das logfile von mir für deine drei mails an. das sieht absolut sauber aus und wurde auch 100%ig erkannt. schau dir besonders die zweite (häufigkeit in ham mails) und dritte spalte (häufigkeit in spam mails) an!!!


    Stimmt, das sieht deutlich besser aus. Irgend eine Idee, warum die eine Mail gar nicht geloggt wurde??

    Zitat

    PS: die sprache ist etwas komisch sollte aber erkennbar sin.


    :) Stimmt, aber passt schon...

    Viele Grüße,
    Fips

  • hi,

    ich vermute mal das in deinen ham mails irgendwelche spams drin sind, oder du dich verklickt hast und einige spams als ham deklariert hast. deshalb komen in deiner datenbank so viele spam spezifische worte in der ham liste vor.
    weshalb die mail nicht gelogt wurde ist mir nicht ganz klar. bisher habe ich so ein verhalten nicht feststellen koennen. bei mir wurde sie mitgelogt und es gab keine probleme. vielleicht hast du sie ja nur uebersehen...

    achim

  • Hi,

    Zitat

    ich vermute mal das in deinen ham mails irgendwelche spams drin sind, oder du dich verklickt hast und einige spams als ham deklariert hast. deshalb komen in deiner datenbank so viele spam spezifische worte in der ham liste vor.


    Hmmm, das kann schon sein. Würde mir gerne mal die Datenbank genauer angucken, dazu müsste ich sie aber verstehen. :denk:
    Was bedeuten die zwei Zahlen jeweils nach den Worten? Was bedeuten die 3 Zahlen im Header?
    Und wie ist das mit der Undo-Datei - welche Rolle spielt die?

    Zitat

    weshalb die mail nicht gelogt wurde ist mir nicht ganz klar. bisher habe ich so ein verhalten nicht feststellen koennen. bei mir wurde sie mitgelogt und es gab keine probleme. vielleicht hast du sie ja nur uebersehen...


    Übersehen kann kaum sein, weil ich nach Absenderadresse und Message-ID mit dem Texteditor gesucht habe. Hatte heute wieder so einen Fall. Habe sie dann als Spam markiert und dann kamen die Einträge im Logfile:

    Code
    Di, Jul 20 2004, 12:03:39, ADD SPAM, Message-ID: 195109257800.16594811300518311709@nec-svcs.biz, From: "Frederic" <Frederic@nec-svcs.biz>, Subject: *****SPAM***** Amazing new w.eight loss product - 100% m.oney back g.uarantee.   conservatism
    Di, Jul 20 2004, 12:04:18, ADD SPAM, Message-ID: 86d301c46e08$c789163d$bc36761d@medianet.it, From: adam_haynes_mw@topo.upv.es, Subject: *****SPAM***** $17168


    Da auch kein Undo-Eintrag kam hat er die Mails wohl echt nicht verarbeitet...

    Vielen Dank auf jeden Fall für deine Unterstützung! :thumbup:

    Fips

  • der aufbau der datenbank ist wie folgt:

    1.) hashindex groesse
    2.) anzahl aller spam mails
    3.) anzahl aller ham mails
    4.) wort
    5.) wie oft kam das wort in spam mails vor
    6.) wie oft kam das wort in ham mails vor
    usw.

    aehm mit der reihenfolge ham und spam, das kann auch umgekehrt sein, das hab ich vergessen...

    wenn du die mail noch hast, so schick sie mir mal zu, dann kann ich daran arbeiten. das problem ist immer, dass ich es nachvollziehen koennen muss!

    achim