[Sammelthread] BayesFilter

  • es ist eigentlich keine deutsche version geplant, zumindest was die hilfe angeht. eventuell werde ich aber das system von ritlabs uebernehmen und damit alle dialogtexte in einer textdatei vorhalten. diese kann dann beliebig angepasst werden.

    achim

  • Wenn ich das gute Stück mal endlich zum laufen habe, dann werde ich schon ein deutsches HowTo schreiben :thumbup: .

    Kannst du deine Spam-DBs zur Verfügung stellen, damit das Spam-anlernen schneller vonstatten geht?


    MfG
    caschy

  • Zitat

    es ist eigentlich keine deutsche version geplant, zumindest was die hilfe angeht.


    Ich koennte eine ansprechende Hilfe auf Basis von RoboHelp X5 offerieren.
    Wenn Du die ID Nummern definiert und mir so ungefähr sagt wie Du Dir was vorstelltst, dann kann ich Dir eine Datei im Format HLP, CHM, PDF etc. erstellen!?

    Man möchte manchmal Kannibale sein, nicht um den oder jenen aufzufressen, sondern um ihn auszukotzen. Johann Nestroy.

    Einmal editiert, zuletzt von Thomas Woelk (18. März 2004 um 11:16)

  • also ich muss sagen das es inzwischen schon ganz gut geht.. ich bleib dran.

    --

    Ich kenn noch die Zeiten wo Smilies aus Zeichenkombinationen bestanden. Ja ich bin alt ;).

  • hallo,

    ich habe mal eine kleine datenbank mit 16000 spam mails ins netz gestellt die ihr euch runterladen koennt.

    http://www.lkcc.org/achim/download/database.zip

    bitte vergesst nicht ham mails (alles was NICHT spam ist) zu trainieren, da die datenbank nur spam mails enthaelt und somit gar nichts filtert. ihr muesst also mindestens noch 100-200 ham mails einspeisen damit was ordentliches rauskommt.

    achim

    ps: uebrigens habe ich versucht mit dem the bat! team kontakt aufzunehmen und bin an deren ignoranz gescheitert. ich habe inzwischen 3-4 mails geschrieben und nicht mal eine einzige antwort erhalten. ich bin ziemlich enttaescht was das angeht, zumal ich denen doch helfen will...

  • Zitat

    ich habe mal eine kleine datenbank mit 16000 spam mails ins netz gestellt die ihr euch runterladen koennt.

    Also ich hab mich ehrlich gesagt noch nicht mit dem PlugIn beschäftigt (werds aber wenn ich wieder mehr Zeit habe tun), aber gibt es nicht eine Spam - Wörterliste und eine Good - Wörterliste? Warum nicht gleich (statt den 16 000 Spammails) eine Spam - Wörterliste zum Download anbieten?

    Zitat

    ihr muesst also mindestens noch 100-200 ham mails einspeisen damit was ordentliches rauskommt.

    Habe ca. 16.000 Ham mails, das sollte reichen :D.


    Zitat

    uebrigens habe ich versucht mit dem the bat! team kontakt aufzunehmen und bin an deren ignoranz gescheitert. ich habe inzwischen 3-4 mails geschrieben und nicht mal eine einzige antwort erhalten. ich bin ziemlich enttaescht was das angeht, zumal ich denen doch helfen will...

    Ja, das ist wirklich schade. Wenn das PlugIn hält was es verspricht (vor allem [+] DNS-Blacklist Filter), fliegt K9 wieder runter (es erkennt zwar 99%, läuft aber ständig im Hintergrund,...)

  • hallo,

    bitte vorsichtig sein mit dem dns blacklist filter. der funktioniert zwar ist aber sehr langsam, da die dns abfragen nacheinander abgeschickt werden. in der nächsten version wird das parallel passieren und damit erheblich schneller sein. bisher ist dieses feature nur als experimental eingestuft. uebrigens in der beiliegenden registry datei findet ihr einige von mir rausgesuchte dns blacklistserver die ihr verwenden koennt.

    achim

  • sorry achim, habe deine mail bekommen bin aber mit meiner testphase aber noch nicht fertig - deswegen habe ich auch noch nicht zurückgeschrieben. Einfach deswegen weil ich noch nicht weiß was ich genau zurückschreiben soll.
    Grundsätzlich finde ich das Plugin reift und wird richtig gut.
    Ich bin ja von dem anderen Bayes Plugin umgestiegen auf deines und hatte deswegen schon einen (globalen) JunkMail Ordner - wird einer angelegt wenn man keinen hat?
    Das mit dem txt File zur Übersetzung ist einwandfrei. Diese Idee unterstütze ich! Hier mal meinen aktuellen Stats die !ohne! die Spamliste von dir entstanden ist.
    Ham Mails: 237
    Spam Mails: 343
    Detected Ham: 68
    Detected Spam: 58
    False Ham: 23
    False Spam: 14

    edit: Achso man bekommt eine AV wenn man Ham/Spam scannt und dann den Ordner wechselt. Kommt das vom Plugin oder von TB!?

    --

    Ich kenn noch die Zeiten wo Smilies aus Zeichenkombinationen bestanden. Ja ich bin alt ;).

    Einmal editiert, zuletzt von Kosch (19. März 2004 um 11:02)

  • Hallo Achim, Teal_One, Kosch, Thomas, caschy und alle anderen :) !

    Mein K9 funktioniert auch wunderbar - 99%. Doch würde mich auch mal ein Plugin bzw. dieses Plugin reizen, da mich die Tatsache, dass K9 ein externes Programm ist, etwas (naja, nur geringfügig) stört.

    Habe dann gestern abend auch den Bayes Filter 1.2b eingerichtet.
    Nun noch ein paar Fragen, die mir die ganze Sache etwas besser verständlich machen sollten.

    Ich habe 7 Konten und jedes hat einen Spam-Ordner - nicht %JUNK%, sondern eigens definert "Spam".
    In diesem Ordner habe ich dann den Klang ausgeschalten - das ist unnötig bei vermeintlichem Spam.

    Beim Plugin wird jedoch ein globaler Spam-Ordner (%JUNK%) empfohlen.
    Warum und was sind die Vorteile? Geordnet nach Konten fand ich es eigentlich ganz nett...

    Die Mails im Junk-Ordner sollte man ja nicht löschen, da diese zum lernen dienen.
    Geht das nach einer Weile nicht an die Performance? Ist da dann K9 nicht doch wieder schonender (Good.dat: 300kb, Spam.dat: 300kb nach 3Monaten)?!
    Wie sieht das bei diesem Ordner dann mit Klang, Markierung von den Nachrichten aus?

    Kann ich die Mails, die K9 schon alle gefiltert hat und nun im K9 Verzeichnis als .kpl (oder so) liegen irgendwie für das Plugin benutzen?

    Und last but not least:
    Warum braucht BayesIt! (welches ich für äußerst kompliziert und nervig bei der Installation halte) ein Alphabet und Bayes Filter nicht. Ist doch bei beiden die gleiche Filter- und Klassifizierungsmethode?!

    Danke Achim, Dein Plugin scheint wirklich klasse zu sein.
    Kann erst heute abend meine ganzen Mails abrufen - da bin ich dann mal gespant :punk:

    So - :thx: für's lesen. :pfeif:

  • Zitat

    Das mit dem txt File zur Übersetzung ist einwandfrei. Diese Idee unterstütze ich!


    Sehe ich auch so. Ich habe Achim vorgeschlagen, dass er das LNG Format von Ritlabs unterstützen sollte.

    Man möchte manchmal Kannibale sein, nicht um den oder jenen aufzufressen, sondern um ihn auszukotzen. Johann Nestroy.

  • ach mir ist noch was eigefallen.
    man sollte im whitelist filter auch wildcards haben zum Beispiel:
    *@ebay.de

    --

    Ich kenn noch die Zeiten wo Smilies aus Zeichenkombinationen bestanden. Ja ich bin alt ;).

  • Zitat

    ach mir ist noch was eigefallen.
    man sollte im whitelist filter auch wildcards haben zum Beispiel: *@ebay.de


    Das Plugin unterstuetzt doch Regex. Damit laesst sich doch hervorragend arbeiten.

    Man möchte manchmal Kannibale sein, nicht um den oder jenen aufzufressen, sondern um ihn auszukotzen. Johann Nestroy.

  • Zitat

    ich habe mal eine kleine datenbank mit 16000 spam mails ins netz gestellt die ihr euch runterladen koennt.

    [...]

    bitte vergesst nicht ham mails (alles was NICHT spam ist) zu trainieren, da die datenbank nur spam mails enthaelt und somit gar nichts filtert. ihr muesst also mindestens noch 100-200 ham mails einspeisen damit was ordentliches rauskommt.


    Ich habe die Datenbank bei mir eingespielt und zusaetzlich meinen Spam noch zum trainieren verwendet. Lt. Dateigroesse und letztem Aenderungsdatum wird die Database aber nicht geaendert.

    BTW: Was heisst eigentlich "macro support"? Welche Macros stehen zur Verfuegung?

    Man möchte manchmal Kannibale sein, nicht um den oder jenen aufzufressen, sondern um ihn auszukotzen. Johann Nestroy.

    Einmal editiert, zuletzt von Thomas Woelk (19. März 2004 um 15:54)

  • Tach` zusammen!
    Enrschuldigt bitte, aber: wenn ich den Pfad für whitelist.dat angeben will, dann bekomme ich nur die *.TXT Option. Was mache ich da falsch? Wie trainiere ich dann das plugin konkret (bei bayesit läuft kann man ja zusehen wie es gefüttert wird)?
    Mit freundlichem Gruß
    Jörg

  • Zitat

    Ich habe 7 Konten und jedes hat einen Spam-Ordner - nicht %JUNK%, sondern eigens definert "Spam".
    In diesem Ordner habe ich dann den Klang ausgeschalten - das ist unnötig bei vermeintlichem Spam.

    Beim Plugin wird jedoch ein globaler Spam-Ordner (%JUNK%) empfohlen.
    Warum und was sind die Vorteile? Geordnet nach Konten fand ich es eigentlich ganz nett...

    Prinzipiell eigentlich keinen nur ein Mülleimer für alles macht die sache übersichtlicher.

    Zitat

    Kann ich die Mails, die K9 schon alle gefiltert hat und nun im K9 Verzeichnis als .kpl (oder so) liegen irgendwie für das Plugin benutzen?

    Ne, nicht soweit ich weiß!

    Auf die anderen Sachen kann ich nich wirklich antworten!

    --

    Ich kenn noch die Zeiten wo Smilies aus Zeichenkombinationen bestanden. Ja ich bin alt ;).

  • Hey Kosch,
    vielen Dank für Deine Bemühungen... :thumbup: :thx:

    Okay, kann ich den SPAM-Ordner dann auch leeren oder lernt Bayes Filter aus den enthaltenen Mails im Ordner? :denk:

    Und: :pfeif:
    Wenn eine Mail falsch als Spam klassifiziert wurde und ich auf "Als Nicht-Spam markieren" klicke, bleibt die Mail leider im SPAM-Ordner.
    Sollte das nicht so sein, dass diese Mail dann automatisch in den "richtigen" Ordner geschoben wird? :denk:

  • hallo,

    jede menge fragen hier... also zuerst einmal eine grundsaetzliche antwort. das plugin selbst kann nichts machen ausser the bat! das rating einer mail zu übergeben. ich kann im plugin weder dafür sorgen das die mails irgendwohin geschoben werden, noch das sie in irgend einer art und weise verändert werden. dafür ist einzig und allein the bat! zuständig, worauf ich keinen einfluß habe.
    wenn man den filter trainiert darf man nicht den ordner wechseln, da the bat dann abranzt. weshalb das so ist weiss ich nicht, ich werde das aber noch analysieren... die black- bzw. whitelist kann jeden dateinamen haben. ich habe nur die endung vorgegeben, die jedoch auch anders lauten kann. das gleiche gilt uebrigens auch für die datenbanken. the black/whitelist muss uebrigens mit einem externen editor bearbeitet werden und kann wie bereits erwähnt regular expressions beinhalten. die datenbanken anderer programme kann man grundsaetzlich nicht mit diesem filter verwenden, da diese ein anderes format verwenden und ich keine importfilter für das ding schreiben werde. ihr koennt mir ja mal so ein k9 file zukommen lassen, dann kann ich das ein wenig besser einschätzen, grundsätzlich bin ich aber dagegen. zum schluss noch einen tipp. ihr solltet den filter aktivieren, bei dem personen aus eurem adressbuch als gut befunden werden (standard the bat! filter). ausserdem könnt ihr spezielle erkennungsmerkmale von mails aus foren usw. in die whitelist aufnehmen um als spam erkannte ham mails zu vermeiden. zumindest diese sorte von fehlern sollte sehr sehr gering sein!!! das kann aber leider erst bei einer genügend grossen anzahl von ham und spam mails nahezu garantiert werden. wenn ihr übrigens ideen habt was man noch tun könnte, um das system zu verbessern, dann nur immer her mit den ideen.
    aehm da war noch ne frage zur lokalisierung. durch diese werden buchstaben mit den buchstaben des alphabets ersetzt. das ist zum beispiel bei russisch sinnvoll, da die ein anderes alphabet verwenden. mein filter sollte aber eigentlich auch ohne diese lokalisierung auskommen und bis jetzt filtert er so ziemlich alle chinesischen und sonstige nicht lesbare mails sehr zuverlässig raus.
    ach so noch etwas. falls eine ham mail als spam erkannt wurde oder eine spam mail als ham. so benutzt immer die funktion mark as spam und mark as not spam, um den filter weiter zu trainieren und die zuvor falsch eingespeisste zuordnung zu entfernen. ansonsten koennte es sein, dass der filter immer schlechter wird und ihr am ende eine neue datenbank erzeugen muesst. ich speichere mir zur sicherheit alle spam mails in einen extra ordner und mache davon ab und zu ein backup, um die daten loeschen zu koennen. es ist immer gut einige trainingsmails zu haben...

    achim

    ps: bitte nicht so viele fragen auf einmal ;)

  • Zitat

    Hey Kosch,
    vielen Dank für Deine Bemühungen... :thumbup: :thx:

    Okay, kann ich den SPAM-Ordner dann auch leeren oder lernt Bayes Filter aus den enthaltenen Mails im Ordner? :denk:

    Und: :pfeif:
    Wenn eine Mail falsch als Spam klassifiziert wurde und ich auf "Als Nicht-Spam markieren" klicke, bleibt die Mail leider im SPAM-Ordner.
    Sollte das nicht so sein, dass diese Mail dann automatisch in den "richtigen" Ordner geschoben wird? :denk:


    der filter lernt nur am anfang, danach muss das autolearning aktiv sein, damit er automatisch lernt. man koennte die mails aus dem spam ordner dann loeschen, sollte aber eigentlich immer einige spam mails aufheben! spam mails die als nicht spam klassifiziert wurden und die man dann als spam markiert werden von the bat automatsich in den spam ordner verschoben. anders herum ist das leider nicht so, aber daran kann ich nichts aendern...

    achim

  • Zitat

    ach mir ist noch was eigefallen.
    man sollte im whitelist filter auch wildcards haben zum Beispiel:
    *@ebay.de


    hallo,

    verwende einfach "@ebay.de" ohne "". der filter sucht nach dem string! es ist also nicht nötig in solchen faellen regex zu verwenden.

    achim