[Sammelthread] BayesFilter

  • Zitat


    Ich habe die Datenbank bei mir eingespielt und zusaetzlich meinen Spam noch zum trainieren verwendet. Lt. Dateigroesse und letztem Aenderungsdatum wird die Database aber nicht geaendert.

    BTW: Was heisst eigentlich "macro support"? Welche Macros stehen zur Verfuegung?


    der datenbankpfad vom plugin muss erstens stimmen und zweitens wird die datenbank erst beim beenden von the bat! gespeichert. solange the bat laeft behaelt das plugin alles im speicher.
    den macro support kriegt man raus, indem man mit der rechten maustaste auf das macro klickt (the bat! preferenzes dialog) und information auswaehlt. um es kurz zu machen die beiden macros:

    SPAMFILTERVERSION
    SPAMFILTERSTATISTIK

    werden unterstuetzt...

    achim

  • Zitat

    zum schluss noch einen tipp. ihr solltet den filter aktivieren, bei dem personen aus eurem adressbuch als gut befunden werden (standard the bat! filter).


    Du meinst sicherlich den Filter «Known» fuer eingehende Nachtichten? - Was soll das bringen bzw. was soll der Filter machen? Der Filter ist ja so vorgesehen, dass Nachrichten von Absendern, die in meinem Adressbuch stehen diese in *einen* Ordner verschoben werden.

    Zitat

    ausserdem könnt ihr spezielle erkennungsmerkmale von mails aus foren usw. in die whitelist aufnehmen um als spam erkannte ham mails zu vermeiden. zumindest diese sorte von fehlern sollte sehr sehr gering sein!!! das kann aber leider erst bei einer genügend grossen anzahl von ham und spam mails nahezu garantiert werden.


    Kann ich auch bestimmte Kopfzeilen im RegEx-Syntax verwenden?

    Zitat

    wenn ihr übrigens ideen habt was man noch tun könnte, um das system zu verbessern, dann nur immer her mit den ideen.

      [li] Logfile[/li][li] Sprachunterstuetzung fuer die Programmoberflaeche[/li][li] Hilfeunterstuetzung (Hilfeerstellung hab ich Dir offeriert)[/li][li] Konfigurationsdatei als INI-Datei speichern Koennte IMHO den Supportaufwand und|oder den Umzugsaufwand auf ein neues System verringern bzw. erleichtern. Hier koennte man auch gut die Dateitypen fuer die einzelnen Datenbankdateien unterbringen.[/li][li] Unterstuetzung der SpamPal-Whiteliste (# Kommentar; * Syntax)
      In diesem Zusammenhang koennte man vielleicht einen <include> Befehl einfuehren, damit man auf externe WLs (in diesem Fall auf die SpamPal-WL) zugreifen kann? Damit koennte man mit 2 guten Plugins auf einen Datenbestand zugreifen.
      [/li]

    Ich habe noch eine Fehlermeldung:
    Wenn ich die Option Automatic Learning deaktiviere ist diese beim naechsten Aufruf wieder aktiviert. Vermutlich wird die Optionsaenderung nicht abgespeichert?

    Man möchte manchmal Kannibale sein, nicht um den oder jenen aufzufressen, sondern um ihn auszukotzen. Johann Nestroy.

    Einmal editiert, zuletzt von Thomas Woelk (20. März 2004 um 16:36)

  • Zitat


    spam mails die als nicht spam klassifiziert wurden und die man dann als spam markiert werden von the bat automatsich in den spam ordner verschoben. anders herum ist das leider nicht so, aber daran kann ich nichts aendern...


    Wäre es nicht sinnvoll, wenn dies auch von TB! unterstützt würde?
    Wäre das eventuell nicht ein Eintrag im Bugtracker wert? :denk:

  • Zitat

    Wäre es nicht sinnvoll, wenn dies auch von TB! unterstützt würde?
    Wäre das eventuell nicht ein Eintrag im Bugtracker wert? :denk:


    Sehe ich auch so! Zumindest dass diese Nachricht in den Eingangsordner wieder verschoben wird.
    Schreibe Deinen Beitrag in die Bugtraq-Sektion! :thumbup:

    Man möchte manchmal Kannibale sein, nicht um den oder jenen aufzufressen, sondern um ihn auszukotzen. Johann Nestroy.

    Einmal editiert, zuletzt von Thomas Woelk (20. März 2004 um 13:12)

  • Zitat


    Du meinst sicherlich den Filter «Known» fuer eingehende Nachtichten? - Was soll das bringen bzw. was soll der Filter machen? Der Filter ist ja so vorgesehen, dass Nachrichten von Absendern, die in meinem Adressbuch stehen diese in *einen* Ordner verschoben werden.


    Kann ich auch bestimmte Kopfzeilen im RegEx-Syntax verwenden?

      [li] Logfile[/li][li] Sprachunterstuetzung fuer die Programmoberflaeche[/li][li] Hilfeunterstuetzung (Hilfeerstellung hab ich Dir offeriert)[/li][li] Konfigurationsdatei als INI-Datei speichern Koennte IMHO den Supportaufwand und|oder den Umzugsaufwand auf ein neues System verringern bzw. erleichtern. Hier koennte man auch gut die Dateitypen fuer die einzelnen Datenbankdateien unterbringen.[/li][li] Unterstuetzung der SpamPal-Whiteliste (# Kommentar; * Syntax)
      In diesem Zusammenhang koennte man vielleicht einen <include> Befehl einfuehren, damit man auf externe WLs (in diesem Fall auf die SpamPal-WL) zugreifen kann? Damit koennte man gut mit 2 guten Plugins auf einen Datenbestand zugreifen.
      [/li]

    Ich habe noch eine Fehlermeldung:
    Wenn ich die Option Automatic Learning deaktiviere ist diese beim naechsten Aufruf wieder aktiviert. Vermutlich wird die Optionsaenderung nicht abgespeichert?


    mit dem known filter kann man mails von bekannten empfängern in den eingangsordner verschieben (einfach als zielordner incoming verwenden). wenn man dann die filterverarbeitung abbricht, so muss mein plugin erstens für diese mail nicht berechnen und ausserdem kann man sicher sein, dass diese mails nicht falsch klassifiziert werden.
    im regex syntax kann man sich auf bestimmte kopfzeilen beschrängen, indem man z.b. nach "Subject:.*ich bin der groesste" filtert. ich finde diese möglichkeit sinnvoller. uebrigens die taste f9 zum anzeigen des mailheaders liefert dabei gute dienste...
    kann mir jemand vielleicht eine spampal white/blackliste und eine datenbases von diesem k9 programm zuschicken?

    achim

  • Zitat

    mit dem known filter kann man mails von bekannten empfängern in den eingangsordner verschieben (einfach als zielordner incoming verwenden). wenn man dann die filterverarbeitung abbricht, so muss mein plugin erstens für diese mail nicht berechnen und ausserdem kann man sicher sein, dass diese mails nicht falsch klassifiziert werden.


    Cool. Wobei ist den Satz nicht ganz verstehe: "[...] wenn man dann die filterverarbeitung abbricht, so muss mein plugin erstens für diese mail nicht berechnen und ausserdem kann man sicher sein [...]"

    Warum Filterverarbeitung abbricht?

    Zitat

    im regex syntax kann man sich auf bestimmte kopfzeilen beschrängen, indem man z.b. nach "Subject:.*ich bin der groesste" filtert. ich finde diese möglichkeit sinnvoller. uebrigens die taste f9 zum anzeigen des mailheaders liefert dabei gute dienste...


    Ich dachte da an Header von Maillinglisten. Beispielsweise den »List-ID Header«.

    Zitat

    kann mir jemand vielleicht eine spampal white/blackliste und eine datenbases von diesem k9 programm zuschicken?


    Meine SpamPal-WL ist unterwegs.

    BTW: Lernt das Plugin auch von E-Mails auf/von der Whiltelist? Wenn dies so waere, dann koennte man sich die ganze Arbeit mit der Implementierung der SpamPal-WL sparen und in der BayesFilter-WL ein einfaches X\-SpamPal:\sPASS\sWLIST angeben.

    Warum meldet das Plugin bei (?im)X\-SpamPal:\sPASS\sWLIST einen Fehler?

    Man möchte manchmal Kannibale sein, nicht um den oder jenen aufzufressen, sondern um ihn auszukotzen. Johann Nestroy.

    Einmal editiert, zuletzt von Thomas Woelk (20. März 2004 um 17:10)

  • Zitat


    Sehe ich auch so! Zumindest dass diese Nachricht in den Eingangsordner wieder verschoben wird.
    Schreibe Deinen Beitrag in die Bugtraq-Sektion! :thumbup:


    Japp, schon getan: :thumbup:
    https://www.batboard.net/index.php?topic=1011
    http://www.ritlabs.com/bt/bug_view_advance...?bug_id=0002691

  • naja ich habe deine 16tsd mails eingebunden dennoch sind die erkennungsraten noch nicht gerade berauschend. ich muss immer noch recht viel nachklassifizieren.
    was brauchst du damit du herausfindest woran es liegen könnte das es nicht klappt?

    edit:
    *@ebay.de funktioniert nicht.
    False Regular Expression (Whitelist)
    *@ebay.de
    <OK>

    --

    Ich kenn noch die Zeiten wo Smilies aus Zeichenkombinationen bestanden. Ja ich bin alt ;).

    Einmal editiert, zuletzt von Kosch (20. März 2004 um 16:10)

  • Zitat

    edit:
    *@ebay.de funktioniert nicht.
    False Regular Expression (Whitelist)
    *@ebay.de
    <OK>


    Versuche bitte folgenden Syntax:

    Code
    .*@ebay.de

    Man möchte manchmal Kannibale sein, nicht um den oder jenen aufzufressen, sondern um ihn auszukotzen. Johann Nestroy.

  • Gut. Achim muesste mal eine Aussage machen in welcher Form der RegEx Syntax unterstuetzt wird.

    Man möchte manchmal Kannibale sein, nicht um den oder jenen aufzufressen, sondern um ihn auszukotzen. Johann Nestroy.

  • Aktuell bin ich sehr zufrieden - in Verbindung mit SpamPal erreiche ich 99.9%

    Ich sehe hier ganz grosses Potential und werde versuchen Achim so gut wie moeglich zu unterstuetzen.
    Als Hauptvorteil sehe ich die nachtraegliche Klassifizierung in TB!|SB!.

    Man möchte manchmal Kannibale sein, nicht um den oder jenen aufzufressen, sondern um ihn auszukotzen. Johann Nestroy.

    Einmal editiert, zuletzt von Thomas Woelk (20. März 2004 um 17:55)

  • wie muss ich denn dieses plugin einrichten?

    ich lese hier, dass man in sagen soll, das ist spam und das ist kein spam, wo kann ich das im Filter einstellen

    bei BayesIt klcikt man auf ein knöpchen :punk: und dann lernt das prog
    mit bayes filter komme ich nicht klar, geschweige mit den ganzen einstellmöglichkeiten

    ich hatte das plugin 3 tage laufen, es wurde nicht eine spam email erkannt :denk:

    was mache ich falsch?
    eine anleitung wäre gut :)

  • Zitat

    ich lese hier, dass man in sagen soll, das ist spam und das ist kein spam, wo kann ich das im Filter einstellen


    Die (nachtraegliche) Klassifizierung laeuft ueber die Menuepunkte im Menue Extra "Als Spam markieren" und als "Als Nicht-Spam markieren".

    Man möchte manchmal Kannibale sein, nicht um den oder jenen aufzufressen, sondern um ihn auszukotzen. Johann Nestroy.

  • Zitat


    Die (nachtraegliche) Klassifizierung laeuft ueber die Menuepunkte im Menue Extra "Als Spam markieren" und als "Als Nicht-Spam markieren".


    das ist mir klar, ich meine

    nach der installation
    ansonsten muss ich ja jede spam email klassifizieren :thumbdown:

    ich meine es so, wie es bei bayesit ist

  • Sorry, das andere Plugin kenne ich nicht und will es auch nicht weiter kennen. :blink: Du koenntest die angeboteten Database nutzen und dann eine Reihe guter Mails aus Deinem Mailbestand aus TB! nehmen und als Ham markieren.

    Wenn Du mit BayesIt zufrieden bist, dann bleibe doch bei dem Plugin.

    Man möchte manchmal Kannibale sein, nicht um den oder jenen aufzufressen, sondern um ihn auszukotzen. Johann Nestroy.

  • Zitat

    Sorry, das andere Plugin kenne ich nicht und will es auch nicht weiter kennen. :blink: Du koenntest die angeboteten Database nutzen und dann eine Reihe guter Mails aus Deinem Mailbestand aus TB! nehmen und als Ham markieren.


    wie kann ich denn sagen, dass die emails aus'n ordner spam spam-emails sind?

    die erkennt das plugin nicht mal :denk:

    Zitat


    Wenn Du mit BayesIt zufrieden bist, dann bleibe doch bei dem Plugin.


    es wurde ja gesgat, dass das plugin gut sein soll, deshalb möchte ich das gerne testen :)

  • Zitat

    naja ich habe deine 16tsd mails eingebunden dennoch sind die erkennungsraten noch nicht gerade berauschend. ich muss immer noch recht viel nachklassifizieren.
    was brauchst du damit du herausfindest woran es liegen könnte das es nicht klappt?

    edit:
    *@ebay.de funktioniert nicht.
    False Regular Expression (Whitelist)
    *@ebay.de
    <OK>


    schick mir doch am besten einfach mal deine datenbank. dann kann ich die mir mal ansehen. ausserdem kannst du mir vielleicht die registry eintraege des filters kopieren, damit ich sehe ob was falsch eingestellt ist.

    achim

  • Zitat

    Gut. Achim muesste mal eine Aussage machen in welcher Form der RegEx Syntax unterstuetzt wird.


    für die regular expressions implementiere ich die boost library von http://www.boost.org. diese library unterstützt den selben syntax wie perl soweit ich weiss. im übrigen reicht es völlig "@ebay.de" anzugeben!!! platzhalter wie .* usw. muessen nur angegeben werden, wenn sie in der mitte des wortes auftauchen!

    achim