Warum Nicht So...?

  • Seit Jahren versuche ich Spam zu bekaempfen habe aber vor laengerer Zeit aufgegeben. Es ist viel einfacher Spameingang zu kontrollieren. Im Durchschnitt benoetige ich mehr als 200 Regeln, um meine Mails als Spam zu klassifizieren. Die Spammer nicht die Duemmsten und neue Verfahren oder neue Tricks erfordern zusaetzliche, neue Regeln. Die alten Regeln koennen meistens nicht geloescht werden, da nicht alle Spammer zur gleichen Zeit das Verfahren aendern. Ich habe nicht genuegend Zeit, um eine Software wie z.B. ASP zu schreiben, habe aber Nachforschungen angestellt und moechte das Ergebnis hier in ein paar Worten darstellen und zur Diskussion anbieten. ASP waere meines Erachtens bestens geeignet.

    Ziemlich alle Spamprogramme pruefen Mails nach "Kennworten", die dann ausgewertet werden und die Summe der Auswertung ist dann entscheidend. Vor Jahren war es moeglich nach einem Wort wie z.B.: Viagra zu suchen. Heute muss man alle moeglichen Varianten und Screibweissen unter Betracht ziehen und Regex und aehnliches ist sehr hilfreich aber letzlich dennoch zeitraubend und nach einigen Monaten ueberaltert.

    Mein Vorschlag: Antispam sollte jede neue Mail als Spam ansehen und nicht als Ham. Der erste Prozess sollte alle Adressen in der Whitelist vergleichen und alle Mails von akzeptierbaren Sendern waere sofort gefunden und als Ham Mail eingestuft. Nun beginnt der grosse Unterschied. Momentan setzt eine Suche ein, die versucht Mails als Spam zu klassifizieren. Meiner Meinung nach waere es aber einfacher Mail als Ham einzustufen. Eine Web Seite koennte zum Beispiel sagen, dass das Wort: "Freund" in Betreff benutzt werden soll und dieser Hinweiss koennte zusammen mit mehreren E-mail Adressen aufgefuehrte werden. Kein Spammer wird sich die Muehe machen, um ein "Betreff Match" zu konstruieren. Ferner waere es moeglich weitere Kennwoerter hinzuzufuegen und diese Woerter koennten in normaler Schreibweise sein, da Ham Mail keine Tricks einbaut. Namen von Produkten (Vertrieb oder Herstellung), Bank, einige Geschaefte oder Versandhaeuser, Autoversicherung, Lebensversichering, Krankenversicherung, Sport usw. koennten dann zu jeder Zeit mehr al 98% mit absoluter Sicherheit klassifizieren und dies waere ermoeglicht mit Regeln, die praktisch nie korregiert werden muessen.

    In meinem persoenlichen Fall habe ich zu Testzwecken eine solche Liste mit meinen Kennwoertern angelegt und Vergleiche angestellt. Nach rund zwei Wochen war diese Liste fertig und ich hatte genau 47 Kennwoerter zusaetzlich zu der Whiteliste und das Versuchsergebnis war nie unter 99% fuer eine Dauer von drei Monaten.

    Dies ist m.E. ein Ueberlegung wert.

    Klaus

    Einmal editiert, zuletzt von Klaus (28. Januar 2005 um 18:53)

  • Warum die Arbeit machen? K9 und gut ist?!

    Oder halt BayesIt oder BayesFilter...

    Oder halt Spamihilator...

    Oder halt SpamPal...

    Zugegeben, dies sind gute Programme, die aber alle nach demselben, alten Prinzip arbeiten und eine Herausforderung fuer Spammer darstellen.

    Spam kann man nicht bekaempfen. Falls aber Programme im Markt sind, die Spam mit zuverlaessiger Sicherheit unterdruecken (loeschen) koennen, werden Spam Aktionen der Vergangenheit angehoeren. Meine Erfahrung ist: Nichts wird besser und nichts wird erledigt so lange man nichts unternimmt und mit dem Althergebrachten zufrieden ist.

    Klaus

  • Klaus, so sehr ich Deinen Einsatz hier schätze, aber Du scheinst - zumindest von allen, die ich kenne - ein Einzelfall zu sein.
    K9 bietet bei jedem eine Erkennung ~98%.
    Mal 95% bei Ausnahme Fällen und wenig Training, bei mir waren es 99,5%.

    Ich bin auf's ASP umgestiegen, da mich der Umgang mit den Regeln reizt.
    ...und in den letzten 4 Tagen hatte ich kein einziges Miss-Match.

  • Zitat

    Klaus, so sehr ich Deinen Einsatz hier schätze, aber Du scheinst - zumindest von allen, die ich kenne - ein Einzelfall zu sein.
    K9 bietet bei jedem eine Erkennung ~98%.
    Mal 95% bei Ausnahme Fällen und wenig Training, bei mir waren es 99,5%.

    Ich bin auf's ASP umgestiegen, da mich der Umgang mit den Regeln reizt.
    ...und in den letzten 4 Tagen hatte ich kein einziges Miss-Match.


    Ich weiss nicht, ob ich Deine Aussage als Anerkeennung oder als negative Kritik ansehen soll. Wie auch immer, ich habe mit Spamihilator fuer Monate gearbeitet und war immer zwischen 96 and 98. K9 war meistens ueber 98. Ich bin auf der Suche nach einem Program oder Moeglichkeit, das mir erlaubt meine Mails und nichts anderes zu lesen. K9 oder Spamihilator sind AUSGEZEICHNET aber ich muss jeden Tag zwischen 130 und 150 Mails durchpruefen und das geht mir auf den Docht.

    Die beste Loesung, und ich habe dies bereits einigen grossen Firmen angeboten, ist die Spam Mail Bearbeiting basierend auf der MessageID, die genaue Information bereiten kann. Dies wuerde aber eine Zusammenarbeit von den grossen Netzwerken erfordern. In der Zwischenzeit sollte aber das beste aus der momentanen Situation gemacht werden.

    Danke,

    Klaus

  • Zitat

    ...aber ich muss jeden Tag zwischen 130 und 150 Mails durchpruefen


    Warum?


    /EDIT

    Würd mich dennoch mal interessieren, wie das ganze zu konfigurieren wäre bei ASP. Versuchen kann man es doch.

    Einmal editiert, zuletzt von pjan (28. Januar 2005 um 20:24)

  • So, ich fange mal in umgekehrter Reihenfolge an:

    Manu:

    Zitat

    Ich bin auf's ASP umgestiegen, da mich der Umgang mit den Regeln reizt.
    ...und in den letzten 4 Tagen hatte ich kein einziges Miss-Match.

    Das freut mich zu hören :D
    Ich habe auch eine sehr gute Erkennungsrate, da sich das aber nach den Regeln richtet, hatte ich die auch unter SpamPal mit dem RegExFilter-Plugin. ASP bietet mit seinen vielen vordefinierten Headerbezeichnungen und internen Regeln nur eine Vereinfachung bei der Regelerstellung bzw. bei deren Wartung.

    @pjan, Bernd:
    Einfach bei K9, BayesIt oder BayesFilter bleiben und gut ist :rolleyes:
    Wenn man mit einem BayesFilter (Programm oder Plugin) eine Erkennungsrate von über 95% oder sogar weit darüber hat, gibt es auch keinen Grund etwas anderes einzusetzen.
    Manchen ist es aber nicht möglich, eine gute Erkennungsrate mit der Bayes-Methode zu erreichen, nicht weil zu wenige Mails trainiert wurden, sondern weil die Nachrichten zu sehr variieren und Ham wie Spam aussieht - bzw. umgekehrt. Da wäre auch Thomas Bayes höchst persönlich überfordert gewesen. :D

    @Klaus
    Grundsätzlich kann ASP alles was du möchtest, mit Ausnahme des Start-Score, der im Moment auf 0 gesetzt ist, wenn mit der Abarbeitung einer Nachricht begonnen wird. Da ASP auch negative Score-Werte kennt, müsste nur der Startwert festlegbar sein. Ich werde mir das in der nächsten Woche ansehen und ausprobieren. Es sollte eigentlich machbar sein...

    Abschließend möchte ich noch folgendes zu bedenken geben:
    Die meisten Leute bekommen Ham-Mails nur von Bekannten oder Freunden, so etwas kennt ein BayesFilter natürlich ohne Probleme. Ich bekomme z.B. auch gute Mails aus Brasilien, Polen oder Russland, oder sie wurden über Hotmail oder FreeMail etc. geschrieben. Diese haben meist eines gemeinsam: sie beziehen sich auf meine Homepage oder auf eines meiner Programme. So gesehen, würde der Vorschlag von Klaus eventuell funktionieren. Aber ich werde mir das in der nächsten Woche mal genauer ansehen...

  • Zitat

    Ich bin auf der Suche nach einem Program oder Moeglichkeit, das mir erlaubt meine Mails und nichts anderes zu lesen.


    Entschuldige wenn ich das so sage, aber dann brauchst du nen Menschen der sich hinsetzt und deine Mails manuell aussortiert...und selbst der kann Fehler machen.

    Zum aktuellen Stand der Technik ist es einfach nicht möglich Spam zu 100% auszufiltern. Entweder man geht ein Risiko ein und und es werden "gute" Mails aussortiert oder man ist auf der sicheren Seite und bekommt dann eben mehr Mails die man manuell löschen muss.

    Zitat

    Die beste Loesung, und ich habe dies bereits einigen grossen Firmen angeboten, ist die Spam Mail Bearbeiting basierend auf der MessageID, die genaue Information bereiten kann.


    Wie stellst du dir das vor? Eine MID kann ich doch genauso fälschen wie jeden andere Info in einer Mail :denk:

  • Zitat


    Warum?


    /EDIT

    Würd mich dennoch mal interessieren, wie das ganze zu konfigurieren wäre bei ASP. Versuchen kann man es doch.


    Die Antwort fuer Warum? ist einfach.
    E-mail klassifiziert als Spam bei K9 or Spamihilator oder Bayesfilter oder ASP etc. ist nicht immer Spam.

    Falls ein potentieller Kunde zum ersten Mal anfragt: "Bitte machen Sie mir ein kostenloses Preis Angebot fuer XYZ. Ist das Programm als freie Download Version erhaltbar?"

    Diese Mail wird GARANTIERT als Spam rausgeschmissen aber ich moechte diese auf keine Fall verlieren, da ein moeglicher Kauf davon abhaengt. ASP hat die Moeglichkeit eine Regelstruktur aufzubauen wie von mir beschrieben.

    Falls XYZ als Regel fuer gute Ham Mail stehen koennte, waere diese Mail als Ham und nicht Spam eingestuft. Nochmals, ASP wuerde es u.U. erlauben aber...

    Klaus

  • Zitat

    Falls XYZ als Regel fuer gute Ham Mail stehen koennte, waere diese Mail als Ham und nicht Spam eingestuft. Nochmals, ASP wuerde es u.U. erlauben aber...


    Whitelist-Regeln für Produktnamen, oder andere eindeutige Bezeichnungen sind auch jetzt kein Problem:

    Subj 0 RW "\bASP\b" [ASP_IM_BETREFF]
    oder
    UrlList -50 S "http://www.gaijin.at" [MEINE_URL_IM_TEXT]

  • Zitat


    Whitelist-Regeln für Produktnamen, oder andere eindeutige Bezeichnungen sind auch jetzt kein Problem:

    Subj 0 RW "\bASP\b" [ASP_IM_BETREFF]
    oder
    UrlList -50 S "http://www.gaijin.at" [MEINE_URL_IM_TEXT]


    Danke.

    Fuer die umgekehrte Bearbeitung ist es noetig, dass jede Mail eine Spam Mail ist = der Anfangswert muesste z.b. 100 sein und nicht 0. Falls ein Produkt (ASP) in Betreff oder im Text gefunden wird, kann der Wert auf 0 gesetzt werden. Falls keine "Ham Regel" oder Whitelist zutrifft, verbleibt die Mail mit 100. Momentan waere die Mail 0. Wie ist der Bearbeitungsprozess von ASP? Whitelist und dann Regeln oder Regeln und dann Whitelist? Ich haette gerne gewusst ob ich mit einer Regel den Anfangswert auf 100 setzen kann? Dies waere einfach, wenn die Regel nach einem Header sucht, der mit Sicherheit vorhanden ist und diese Regel als erstes geprueft wird aber Weiterbearbeitung muss garantiert sein.

    Klaus

    P.S.: ASP ist hier bei ungefaehr 96% - 97% und das ist sehr hoch fuer Antispam ohne Bayes. Die Regelstruktur und Flexibilitaet ist ausgezeichnet.

    Einmal editiert, zuletzt von Klaus (28. Januar 2005 um 21:12)

  • Um meine Idee etwas auszubauen und zu testen nachdem Gaijin mir ein paar kleine aber wichtige Anweisungen gegeben hat, habe ich folgendes gemacht. Zwei meiner Mitarbeiter und ich haben 800 Mails zusammengestellt, die bereits empfangen waren. Einige waren Ham, einige Spam und einige waren sogenannte falsche Positive und andere, die von K9 und Spamihilator falsch beurteilt waren. z.B.: "Ich habe von Ihrem Proukt A gehoert und haette gern ein kostenloses Angebot und..." oder "Ihre Web Seite beschreibt Produkt B und ich haette gerne gewusst ob ein freier Trial Download moeglich ist..." Mails wie diese sind legal werden aber sehr oft als Spam klassifiziert.

    Rules.dat hatte folgende Regeln am Anfang:
    IncludeRuleFile RulesPriv.txt
    HdrExist 100 I "Received" [HdrExist: Anfangswert]

    RulesPriv.txt enthaelt Whitelist Regeln fuer Domains wie z.B:
    FromAddr 0 SW "@firma.com>"

    Nachdem Whitelist und Private Rules bearbeitet wurden, erhaelt die Mail einen Anfangswert von 100. Abbrechen bei ... ist mit 105 angesetzt.

    Rules.dat Bearbeitung beduetet, dass die Nachricht mit Sicherheit nicht von einem Kunden/ Kundenfirma gesandt wurde. Das gleiche gilt fuer private Sender.

    Nun ist es nicht mehr noetig mit einer Vielzahl von Regeln nach moeglichen Varianten und Screibweisen von "Bad Words" zu suchen oder nach HTML Tags oder Spamhaus oder SpamCop oder usw., usw. Mail hat bereits einen Wert von 100.

    Wir haben 16 Regelen zur Rules.dat hinzugefuegt, die nach unseren Produktnamen in Betreff oder Text suchen. Falls vorhanden, wird Score auf 0 gesetzt = Ham Mail. Alles in allem, 260 Regeln weniger als zuvor = viel, viel schneller.

    Die 800 Mails wurden verschickt und ein paar Minuten spaeter abgerufen. In den vergangenen Tagen wurden Mails mit 160mSec, 800mSec, 80mSec, usw. bearbeitet. Die laengste Zeit dieses Mal war 30mSec.

    Nun das letzt Ergebnis, was die meisten interessieren duerfte: 100% ohne Bayes, ohne Plug-ins nur mit Whitelist und einigen Regeln, die nach guten Worten suchen.

    Wuerde much freuen, falls andere aehnliche Vesuche anstellen oder Erfahrungen mitteilen koennten.

    Klaus

    P.S.: Wichtig: Wir haben die E-mail Adressen und Domain Namen von Mails, die in der Vergangenheit falsch bewertet wurden, von Whitelist geloescht, um gleiche, faire Bedingungen zu schaffen.

    Einmal editiert, zuletzt von Klaus (29. Januar 2005 um 00:33)

  • Das Prinzip scheint optimal zu funktionieren, wenn man ganz klar sortieren kann. In deinem Fall nach Zusammenhaengen bzgl. deiner Firma.

    Bei einer Privatperson duerfte es sich etwas schwieriger Gestalten, da keine eindeutigen Inhaltsparameter vorliegen.

    Werde aber einmal drueber nachdenken, wie man es nach deinem Prinzip (antiklassisch) fuer privaten E-mai Verkehr umsetzen kann.