Hallo,
wir kennen es alle: der Kampf gegen die Spammer ist ein Katz-und-Maus-Spiel. Sobald die Filter verbessert werden, reagieren auch wieder die Spammer darauf, um diese zu umgehen.
Nachdem mein bayessche Filter inzwischen ziemlich gut trainiert war, kommt es in letzter Zeit immer häufiger vor, dass Spam durchkommt. Warum? Die Spammer packen ihrer Texte in Grafiken, die nicht vom Filter gelesen werden können und fügen dann beliebigen Zufallstext ein, mit dem der Filter natürlich nichts anfangen kann.
Gibt es schon Plugins, die die Grafiken analysieren? Auf Basis von OCR z.B.?
Weiterhin noch eine Frage an diejenigen, die sich vielleicht ein wenig mit der Programmierung von bayesschen Filtern auskennen: Wenn ich die Filter mit diesen Zufallstexten trainiere, steigt dann die Wahrscheinlichkeit, dass Ham fälschlicherweise erkannt wird? Oder gehen die Zufallswörter als "statistisches Rauschen" unter, da sie ja mehr oder wenig zufällig sind?
Wie handhabt ihr diese neue Art von Spam??