BayesFilter: es geht wieder los....

  • :cry:
    Ich hatte die Datenbanken komplett gelöscht und habe dann mit meinen alten Spam-Mails neu trainieren lassen. Dann habe ich etwa gleichviel Ham trainieren lassen.

    Erkennungsrate war dann sehr gut.
    Da der Spam eigentlich immer englisch ist und meine Mail überwiegend deutsch vermute ich.
    Jedoch wurde dann auch englischer Ham weggeworfen. Habe ich dann mit "mark as NOT spam" korrigiert und klappt auch (waren nur wenige Mails die ich trainieren musste)

    Ein paar Tage/Wochen lief das gut.

    Jetzt, seit etwa Gestern oder Vorgestern geht es wieder los: Laufend kommt Spam durch. Obwohl Wörter wie "Viagra" "earn money" etc. eindeutig auf Spam hinweisen und ich _100%ig_ sicher bin, dass ich sowas NIE als Ham trainiert habe (schon gar nicht in den letzten Tagen!)

    Ich bin jetzt wieder da, wo ich schon mal war bevor ich die Datenbanken neu erstellen lies.
    Irgendwas ist da noch faul - was kann ich tun um bei der Ursachenforschung zu helfen?

    sonst muss ich doch mal gucken, ob und wie ich K9 auf den Stick bekomme, so dass es überall läuft... allerdings hat K9 manchmal (sehr selten) Probleme wenn Mails mit großem Anhang (Ham) kommen - dann hängt er (obwohl eingestellt ist, dass er so große Mails gar nicht prüfen soll - aber das weiterleiten alleine sorgt wohl schon für das Problem)

    nSonic

  • Hey nSonic,
    lösen kann ich Dein Problem nicht, kann nur beistehen und versichern, dass bei mir das gleiche auftrat.
    https://www.batboard.net/index.php?topic=1470

    Seit ich jedoch den Hamster verwende, hat Achim's Plugin kaum noch Spam zur Hand. Die zwei-drei Mails, die der Hamster täglich durchlässt, meistert BayesFilter aber gut. ;)

    Eventuell, das fällt mir gerade ein, solltest Du mal Deine Whitelist durchsehen.
    In diesem Thread wurde vermutet, dass bei Email-Adressen der Bindestrich durch \ escaped werden sollte: du@sie\-er.de

    Wenn Du darüberhinaus noch automatisch zur Whitelist hinzufügen lässt, kann es sein, dass Deine eigene Adresse in der Whitelist gelandet ist.
    Newsletter verschicken sich gerne mit der eigenen Adresse als Absender.

    Somit wird Spam, der ebenso Deine Adresse als Absender trägt, immer gewhitelistet.

    Also nSonic, viel Erfolg! :thumbup:

  • als ich noch auf den BayesFilter gesetzt habe, hatte ich auch nur Probleme

    manchmal erkannte das Programm gar kein Spam
    manchmal alles als Spam
    dann mal so
    zu dem kam noch, dass ich TheBat ziemlich oft abschiessen musste

    seit dem 21.02.04 hat BayesIT 2991 Spam-eMails erkannt :banane:

    seit dem ich BayesIT verwende, sind alle diese Probleme verflogen :)

    so wie auf'n Screenshot, sieht es eigentlich immer aus :punk:

    [gelöscht durch Administrator]

    Einmal editiert, zuletzt von Twilo (11. August 2004 um 12:14)

  • Manu: ich habe keine White- und keine Blacklist und auch keine Automatik für diese aktiviert. Beide Listen sind leer.

    Hamster scheidet aus. Ich arbeite _komplett_ auf Flash-Karte, es muss überall ohne große Klimmzüge funktionieren. Wäre so schön mit dem integrierten Filter :(


    @Twilo: Das, was Du beschreibst, hatte ich mit BayesIt :pfeif: ... deshalb bin ich ja zum BayesFilter gewechselt ;)

    Echt merkwürdig... ich verstehe das alles nicht - habe aber echt keine Lust selber einen Bayesfilter zu schreiben :blink: :denk:

    nSonic

  • Hallo zusammen,

    mal schauen ob mir hier geholfen werden kann.
    Ich habe mit Bayes Filter auch ein Problem:
    Ich bekomme täglich den Heise Newsletter, an eine meiner E-Mail Adressen geschickt. Diesen finde ich in aller Regel in meinem Spam Ordner, obwohl ich jetzt schon mehrfach diesen Newsletter als NichtSpam gekennzeichnet habe.
    Auf eine andere EMail Adresse bekomme ich dauernd Spam. Dabei ist die Adresse von der dieser Müll herkommt immer identisch.service <wwoov@lycos.de> Dieses wird dann nicht als Spam differenziert, obwohl ebenfalls von mir als Spam gekennzeichnet.

    Hilfe!!!
    Ich blick nicht mehr durch!


    Michael

  • Zitat

    @Twilo: Das, was Du beschreibst, hatte ich mit BayesIt :pfeif: ... deshalb bin ich ja zum BayesFilter gewechselt ;)


    iczh verwende zur Zeit die Version 0.5.6 udn die ist super... damals die SE Verson (keine Ahnung welche das war) hatte auch ein paar kleine Probleme...
    Aber diese ist jetzt TOP :punk: :punk:

  • Zitat

    :cry:
    Ein paar Tage/Wochen lief das gut.

    Jetzt, seit etwa Gestern oder Vorgestern geht es wieder los: Laufend kommt Spam durch. Obwohl Wörter wie "Viagra" "earn money" etc. eindeutig auf Spam hinweisen und ich _100%ig_ sicher bin, dass ich sowas NIE als Ham trainiert habe (schon gar nicht in den letzten Tagen!)

    Ich bin jetzt wieder da, wo ich schon mal war bevor ich die Datenbanken neu erstellen lies.
    Irgendwas ist da noch faul - was kann ich tun um bei der Ursachenforschung zu helfen?


    Ich vermute das liegt daran dass die Spammer wieder ihre Taktik geaendert haben und mal wieder eine neue Verschleierungstaktik bzw -version verwenden. Neue "unverfaengliche" Woerter reingemixt, ein paar andere Sachen geaendert usw.

    Die muss Dein Filter erst mal wieder lernen (nur dadurch dass da Viagra vorkommt wird die Mail ja nicht automatisch als Spam erkannt, da muss schon mehr in der Mail drinstecken was sie als Spam qualifiziert).

    Das Problem wirst Du vermutlich mit _jedem_ BayesFilter ueber kurz oder lang bekommen. Nach ein paar Tagen gibt sich das i.d.R wieder, zumindest bei mir war es bis jetzt so.

  • Zitat


    Ich verwende die v0.5.10 und die ist noch superer, weil man jetzt die B/W-Listen bearbeiten kann! BayesIt ruleez! :banane:


    ich hab mich noch nicht so wirklich getraut auf die neue Version upzudaten :pfeif:

  • arbeitet BayesIt jetzt mit Registry-Einträgen oder mit einer INI-Datei? Stehen da irgendwo Pfade drin zu irgendwelchen Dateien, die man anpassen müsste wenn man auf Flash-Speicher arbeitet (ich nutze ja DynBat ;) )

    nSonic

  • hallo,

    wenn der filter gut arbeitet so könnt ihr vielleicht das autolearning abschalten und verhindert so, dass der filter eventuell schlechter wird. außerdem solltet ihr autolearning nur für spam und nicht für ham aktivieren. wenn etwas nicht erkannt wurde, so schickt mir bitte ein teil des logging files (verbose loggin anschalten), damit ich damit was anfangen kann.
    ausserdem stellt sich mir die frage, was du gemacht hast, als eine spam mail als ham erkannt wurde? einfach verschoben oder mit mark als spam richtig markiert?
    ich werde demnächst ein feature einbauenl, dass sich learn on error nennt. wenn man dann eine falsch sortierte mail als spam oder ham markiert, so wird diese mail solange trainiert bis sie durch die datenbank auch als das erkannt wird was man ausgewählt hat. bekommt man jetzt die selbe mail noch einmal wird diese richtig einsortiert.
    noch einen hinweis. wenn ihr einen immer wiederkehrenden newsletter habt der als spam oder ham markiert werden soll, so verwendet bitte die black-/whitelist dafür!!!

    achim

  • ich habe IMMER mit "Mark as Spam" und "Mark as NOT Spam" gearbeitet. Einfach nur verschieben habe ich NIE gemacht. Es kommt auch immer diese kleine Meldung, dass 1 mail gelernt wurde.

    Was genau passiert denn beim "autolearning"? Eigentlich kann der Computer doch nicht alleine lernen - er sollte doch darauf angewiesen sein, dass ich ihm sage was Spam ist und was nicht?
    Warum kann der Filter schlechter werden durch das autolearning?

  • z.B. diese Mail von eben gerade - sieht im Log so aus (ich habe sie mit Mark as Spam dann wieder korrekt deklariert)

  • Bei einer anderen von Heute fällt mir auf, dass der Text der Mail überhaupt nicht im Log erscheint! Die Mail ist HTML-Formatiert (siehe ScreenShot).

    Das Log sieht sieht so aus:


    [gelöscht durch Administrator]

  • Der HTML-Code der Mail sieht so aus

    offenbar lässt sicht BayesFilter von den eingestreuten Tags irritieren

  • Zitat

    offenbar lässt sicht BayesFilter von den eingestreuten Tags irritieren


    Das ist ja auch Sinn der Sache. Ich glaube kaum ein Filter kann aus "Pe<a href></a>nis" erkennen um welches Wort es sich da handeln soll. Dazu muesste er meines Erachtens fast schon kuenstliche Intelligenz haben um zu entscheiden ob ein Tag irgendwo hingehoert oder nicht. Oder ist muesste wissen dass es solche leeren Tags nicht geben sollte, aber die Regeln dafuer sind wahrscheinlich auch nicht gerade einfach zu programmieren.

    Du koenntest natuerlich "<a href></a>" und aehnliches auf Deine Blacklist packen, denn so ein Unsinn sollte in einer Ham-Mail nicht vorkommen.

  • unnötig zu sagen, dass sich K9 davon nicht irritieren lässt ;)

    ich denke, an der Worterkennung könnte man noch arbeiten. Aber es ist in diesem Fall ja nur EINE mögliche Ursache, warum die Erkennung nicht mehr klappt.

    Die andere Mail ist eigentlich auch recht eindeutig (finde ich) und wird trotzdem als HAM erlernt

    nSonic

  • Zitat

    arbeitet BayesIt jetzt mit Registry-Einträgen oder mit einer INI-Datei?


    Die Einstellungen werden so wie früher auch weiterhin in der Datei ADVANCED.INI gespeichert, die im gleichen Ordner liegt, in dem das Plug-in selbst ist.

    Zitat

    Stehen da irgendwo Pfade drin zu irgendwelchen Dateien, die man anpassen müsste wenn man auf Flash-Speicher arbeitet (ich nutze ja DynBat)


    Den einzigen Pfad, den ich in dieser Datei gefunden habe, war der hier:

    Zitat

    temporary dictionary="c:\\temp"