BayesFilter: es geht wieder los....

  • Zitat


    Den einzigen Pfad, den ich in dieser Datei gefunden habe, war der hier:

    :thumbdown: ob die das nochmal lernen? ... Unter Windows gibt es Systemvariablen um an den Temp-Pfad zu kommen. "C:\Temp" gibt es schon lange nicht mehr :doh:

    nSonic

    Einmal editiert, zuletzt von nSonic (13. August 2004 um 09:54)

  • ja, behaupte ich und da stehe ich zu :)

    Dass Du das machst ist ja Deine Sache - aber alles andere als "standard". Im Sinne der Multi-User-Fähigkeit ist es schon gar nicht (auch wenn das viele nicht betrifft)

    Der Punkt ist aber der: Wenn ich einen Temp-Pfad haben möchte, dann sollte ich das System fragen - und nicht irgendwo "C:\Temp" stehen haben :(
    Aber vermutlich ist der Pfad über die Oberfläche editierbar?

    verdammt verdamm... was mache ich jetzt... soll ich es nochmal mit BayesIt probieren? Irgendwie geht mir langsam die Lust aus :rolleyes:
    ...auf alle Fälle werde ich DynBat anpassen müssen, so dass dieser Temp-Pfad z.B. immer auf den MemoryStick zeigt (der einzige Pfad von dem ich sicher sein kann, dass es ihn gibt und ich die nötigen Rechte habe)

    nSonic

  • Zitat

    Unter Windows gibt es Systemvariablen um an den Temp-Pfad zu kommen. "C:\Temp" gibt es schon lange nicht mehr


    Also, ihr Schlaumeier. Habt ihr BayesIt überhaupt je installiert? :D Das steht in ADVANCED.INI:

    Zitat

    ; It is "last chance" - if no TEMP environment variable defined and if no other temp paths exists, this path will be used.
    temporary dictionary = "c:\\temp";


    Alles klar? - Alles klar! :D

  • hallo,

    okay dann erst einmal zu der ersten mail. versuch mal die significant words auf 15 zu setzen! das problem bei dieser mail ist, dass zu viele unbekannte wörter mit 0.4 einfließen und die mail dadurch in richtung ham verschoben wird.
    von der zweiten mail haette ich gern ein eml file per mail, damit ich das mal genau analysieren kann!

    achim

  • 1. Zum Temp-Path: Danke für die Aufklärung :D

    2. Zum BayesFilter: Signific.Words hab ich jetzt mal auf 15 gesetzt (stand zuvor auf 150! Das ist schon ein krasser Unterschied :o)
    Im Anhang findest zwei von diesen "geschickten" html-Mails - ich hoffe, es hilft Dir weiter.


    Na Prima :angry: - "Doppelposting" bedeutet offenbar, dass in einem Thread keine zwei Postings desselben Users stehen dürfen - auch mit Tagen Differenz - was für ein "Unfug" :thumbdown:

    Daher jetzt als Edit hier ein NEUE Fall (hoffentlich sieht man die Änderung dieses Postings):

    Bekomme Heute viele Mails die nicht als Spam erkannt werden, obwohl mehrfacht als Spam markiert.
    Vielleicht nicht verwunderlich, denn im Text steht nur "LOL!;)))) " - mehr nicht.
    Der Absender ist aber IMMER: mtu2k8@lianet.ru
    Der Betreff ist IMMER: photos
    Und im Attachment sind IMMER zwei Dateien: Message.html und photos.arc.exe (die ich natürlich nicht ausführen werde :) )

    Wäre es möglich, dass BayesFilter neben der eigentlichen Message auch noch ein paar weitere Begriffe lernt? Wie eben z.B. Betreff oder Absender oder Filenamen der Attachements? Würde das die Erkennung vielleicht steigern?

    Auch die Tatsache, dass im Prinzip nur ein Wort vorhanden ist (und das besteht mehr aus Sonderzeichen) wäre doch ein recht eindeutiges Spam-Indiz, oder nicht?

    ...Das nur mal als Anregung für mögliche Weiterentwicklungen...

    nSonic

    [gelöscht durch Administrator]

    Einmal editiert, zuletzt von nSonic (18. August 2004 um 14:54)

  • hallo,

    also die mails von dir habe ich analysiert und eigentlich sollte es damit keine probleme geben. tags werden im übrigen entfernt!!!
    momentan arbeite ich an einer völlig umgeschriebenen version, die einige features mitbringen wird die bisher vermisst wurden. ich hoffe ich habe die version in den nächsten tagen für eine beta version fertig. folgende dinge sind z.b. drin:

    1.) learn on error: trainiert eine falsch sortierte mail solange bis sie richtig erkannt wird. dadurch wird es möglich, dass eine mail die falsch sortiert wurde und dann umsortiert wird, danach immer richtig erkannt wird.

    2.) reduce noise: entfernt unwichtige wörter aus einer mail, wodurch die erkennungsrate gesteigert werden sollte.

    3.) memoryverbrauch ist gesunken.

    4.) das dns-blacklisting wird nur noch bei vermeintlichen ham mails durchgeführt und nicht wie bisher auch für schon bereits als spam erkannte mails.

    5.) die dns abfragen werden 5 tage gecached.

    6.) in den black-/whitelists wird zwischen normalem text und regulären ausdrücken unterschieden! dadurch sollte es dahingehend nicht mehr zu problemen kommen.

    7.) diverse fehler wurden behoben und hoffentlich möglichst wenige hinzugefügt. :)

    8.) der mailparser wurde an vielen stellen erweitert und sollte jetzt mehr informationen aus den mails rausholen.

    achim

  • Das klingt doch sehr vielversprechend. Komisch, dass ich mit den genannten Mails trotzdem problem hatte(/habe?)

    Kannst Du mal kurz aufzählen, welche Infos alle mit in die SPAM-Prüfung einfließen? Interessiert mich einfach mal.

    nSonic

  • hallo,

    es fließen sehr viele informationen ein die hier alle zu erwähnen sehr viel zeit kosten würde. du kannst aber sicher sein, dass ich alle informationen verwende deren ich habhaft werden kann. ;)

    achim