Fragen rund um Regeln für das ASP

  • Gaijin

    gibt es eine Möglichkeit Mails nach der Sparache zu filtern.Da ich eigentlich nur deutsche Mails bekomme macht es sinn die englischen als Spam zu selektieren.

    scorpion08

  • Bei mir rutscht immer wieder eine Spam als Ham durch.
    Filter.log
    === MESSAGE ===
    Process message: ID <3086360416.99180@customer@regions.com>
    Subject: Account Confirmation Required
    From: Regions Bank Customer Service Center <customer@regions.com>
    Date: Sat, 05 Feb 2005 08:34:28 -0100
    Started: 05.02.2005 08:45:22.
    ERROR while checking rule UrlList "acumenlabs.com" [SPAMMER_DOMAIN: acumenlabs.com]
    Finished: 05.02.2005 08:45:22.
    Processed in 15 mSec, total score: 0, rules matched: 0.

    und diese Zeile steht in der Spammer.dat

    FromAddr 100 SH "@regions.com>" [SPAM_SENDER: regions.com]

    wo liegt bei mir der Fehler

    scorpion08

  • Gaijin

    Ich habe eben ein E-Mail bekommen, wo meine Adresse nicht im Empfänger oder in einer Empfängerliste steht,
    ist es möglich so etwas zu filtern.
    weiterhin, kann es ev. sinnvoll sein einige Wörter wie Love, home, have, out, Date, trip, time, wife in eine seperate dat zu speichern, denn diese Worte kommen verm. recht häufig im Spam vor, wenn ja wie müßte ich es dann darstellen.

    scorpion08

  • Zitat

    Ich habe eben ein E-Mail bekommen, wo meine Adresse nicht im Empfänger oder in einer Empfängerliste steht,
    ist es möglich so etwas zu filtern.


    Alle Regel können auch negiert werden (Option "N").

    Zitat

    weiterhin, kann es ev. sinnvoll sein einige Wörter wie Love, home, have, out, Date, trip, time, wife in eine seperate dat zu speichern, denn diese Worte kommen verm. recht häufig im Spam vor, wenn ja wie müßte ich es dann darstellen.


    Das bleibt jedem selbst überlassen, ob er Unmengen an Wörtern oder Satzteilen in die Regeln aufnimmt, so wie bei SpamAssassin oder dem RegExFilter für SpamPal.

  • ich habe gerade die Anleitung gelesen.
    leider steige ich nicht ganz durch, wie müßte die Zeile aussehen damit die Email mit Adresse "negiert" wird.
    Wo kann ich die Option IsEnglish einschalten. Ich habe diesen Begriff nirgends finden können.
    Edit: Ist eine Regel möglich, die als Spam markiert, wenn im CC: Adressen stehen.

    scorpion08

    Einmal editiert, zuletzt von scorpion08 (6. Februar 2005 um 17:51)

  • Ich habe diverse Filter erstellt und trotzdem rutsche mir diese Mail durch.
    siehe log eintrag.
    Process message: ID <814336e9la63$5d7o3029$35t3ilgl@airfieldabsorbentangiemw25>
    Subject: Fw: G e n e r i c W h o l e $ a l e P h a r a m a c y
    From: "Fernanda" <lcdhw@dublin.com>
    Date: Mon, 07 Feb 2005 12:55:21 +0100
    Started: 07.02.2005 12:53:20.
    Match: RegExp rule REPLY_QUOTE: Antwort, Score: -90.
    Match: SimpleStr rule SUBJECT_DOLLAR: Dollar-Zeichen im Betreff, Score: 30.
    Match: SimpleStr rule TEXT_BAD_WORD: Visit, Score: 70.
    DNSBL-Check: by cbl.abuseat.org with IP 75.242.255.254 - not listed or timed out (250 mSec). Time: 249

    Gerade aufgrund des Subject müßte sie gleich als Spam markiert werden.

    scorpion08

  • wenn ich das jetzt richtig sehe, müte ich die Score für
    RegExp rule REPLY_QUOTE: Antwort, Score: -90. auf 60
    Match: SimpleStr rule SUBJECT_DOLLAR: Dollar-Zeichen im Betreff, Score: 30. auf 50
    erhöhen, aber wie kann ein Score von -90 entstehen.

    und

    kannst du mir noch einen Tipp geben wie ich
    eine Email Adresse "negiert" kann und wo kann ich die Option IsEnglish einschalten kann. Ich habe diesen Begriff nirgends finden können.
    Ist eine Regel möglich, die als Spam markiert, wenn im CC: Adressen stehen.

    scorpion08

  • Zitat

    wenn ich das jetzt richtig sehe, müte ich die Score für
    RegExp rule REPLY_QUOTE: Antwort, Score: -90. auf 60
    Match: SimpleStr rule SUBJECT_DOLLAR: Dollar-Zeichen im Betreff, Score: 30. auf 50
    erhöhen,


    Wieso? Das verstehe ich nicht.

    Zitat

    aber wie kann ein Score von -90 entstehen.


    Indem der Score auf -90 gesetzt wurde (wie im Fall deiner "REPLY_QUOTE"-Regel).

    Zitat

    kannst du mir noch einen Tipp geben wie ich
    eine Email Adresse "negiert" kann


    Mit der Option "N". Das steht auch in der Anleitung.

    Zitat

    und wo kann ich die Option IsEnglish einschalten kann. Ich habe diesen Begriff nirgends finden können.


    Lese dir mal die Anleitung durch. Darin ist alles beschrieben, auch die internen Regeln.

    Code
    IsEnglish 30 I "" [TEXT_IST_ENGLISCH]
    Zitat

    Ist eine Regel möglich, die als Spam markiert, wenn im CC: Adressen stehen.

    Code
    HdrExist 100 IH "CC"
  • ok, soweit alles kapiert, brauch nur noch dein ok ob ich die Regeln so stehen lassen
    kann:

    ToAddr 100 SNH "<xxxxx@xxx.de>" [PRIVATE_SPAM_RCPT: Meine Adresse nicht im Empfänger]
    ToAddr 100 SNH "<ccccccd@xxx.de>" [PRIVATE_SPAM_RCPT: Meine Adresse nicht im Empfänger]
    ToAddr 100 SNH "<abcde@ccc.de>" [PRIVATE_SPAM_RCPT: Meine Adresse nicht im Empfänger]


    #Prüft auf Englischen Text

    IsEnglish 30 I "" [TEXT_IST_ENGLISCH]


    #Prüft auf weitere E-Mail Adressen in der Headerzeile
    HdrExist 100 IH "CC"

    scorpion08

    Einmal editiert, zuletzt von scorpion08 (7. Februar 2005 um 14:12)

  • Ich weiss nicht wie Gaijin die Kondition fuer "IsEnglish" ermittelt. Kann mir vorstellen, dass dies nicht gerade einfach ist, da im "Technischen Computer Deutsch" sehr viele Englische Ausdruecke benutzt werden. Zusaetzlich habe ich festgestellt, dass es sehr viele Leute gibt, die das Gefuehl haben, dass man moeglichst viele Englische Ausdruecke verwenden muss, um "in" oder "cool" zu sein.

    Falls ich einen Vorschlag machen darf: Wie waere es, den Text nach typischen Deutschen Buchstaben durchzusuchen? Wenn man: ue, oe oder ae findet, dann kann man fast sicher sein, dass die Mail u.U. in Deutsch ist aber nicht mit einem Deutschen Keyboard geschrieben wurde = keine Deutsche Zusendung. Wenn man die Buchstaben: ö, ä, ü oder ß findet, dann ist die Nachricht mit Sicherheit Deutsch. Eine weitere Moeglickkeit ist nach "sch" Verbindungen zu suchen. Beispiel: "Schr" z.b. Schrift, schreiben, Schritt usw. "Schr" gibt es im englichen nicht.

    Alles was Deutsch ist kann nicht Englisch sein. Demnach ist es meiner Meinung nach einfacher nach "IsDeutsch" als nach "IsEnglish" zu suchen. Andere Sprachen erlauben nach Akzenten zu suchen, was es wiederum einfach macht.

    Gaijin: Die Verwendung des Buchstaben: "H" als Option in Regelausdruecken ist nicht gerade eine glueckliche Loesing. "H" klassifiziert eine Mail sofort als Spam und nicht als Ham. Ferner, "H" ist bereits in Einsatz. Zitat:
    H Gibt auch die Headerbeschriftung (der Teil vor dem ersten Doppelpunkt) aus, sonst nur den Wert.


    1.1.5 und ASP Manager - Wie immer: Ausgezeichnete Arbeit.

    Klaus

  • Zitat

    Ich weiss nicht wie Gaijin die Kondition fuer "IsEnglish" ermittelt. Kann mir vorstellen, dass dies nicht gerade einfach ist, da im "Technischen Computer Deutsch" sehr viele Englische Ausdruecke benutzt werden. Zusaetzlich habe ich festgestellt, dass es sehr viele Leute gibt, die das Gefuehl haben, dass man moeglichst viele Englische Ausdruecke verwenden muss, um "in" oder "cool" zu sein.


    Es wird nicht nach "technischen" Begriffen gesucht, somit besteht diesbezüglich keine Problem. :D

    Zitat

    Wie waere es, den Text nach typischen Deutschen Buchstaben durchzusuchen?


    Also das mit den Umlauten ergibt wenig Sinn, wie Bernd und Tommy das bereits geschrieben haben. Wortteile sind ebensowenig geeignet. Das würde zu viele Falschmeldungen ergeben. So wie es jetzt ist, funktioniert es eigentlich ganz gut. Eventuell kann ich die Erkennung noch verbessern, aber es wird sich im Laufe der Zeit zeigen, ob dies notwendig ist. Das Problem, dass bestimmte Wörter, wie z.B. "in", sowohl in Deutsch, als auch in Englisch vorkommen, habe ich berücksichtigt.

    Zitat

    Die Verwendung des Buchstaben: "H" als Option in Regelausdruecken ist nicht gerade eine glueckliche Loesing.

    Da das Alphabet nur 26 Buchstaben hat, und bereits einige Buchstaben, darunter auch das "S" bereits für andere Optionen in Verwendung sind, war die Auswahlmöglichkeit etwas beschränkt.

    Zitat

    Ferner, "H" ist bereits in Einsatz. Zitat:
    H Gibt auch die Headerbeschriftung (der Teil vor dem ersten Doppelpunkt) aus, sonst nur den Wert.

    Nicht in den Regel-Optionen, sondern als Option zur Formatierung bei den Headerbezeichnungen. Da diese getrennt analysiert werden, gibt es keine Probleme.

  • Bernd & Tommy:

    ...Tuerken, Spaniern und Suedamerikanern auch. Das gibt ne Revolution. Und das alles wegen einem Plugin.

    Dies war nur ein Vorschlag, um zwischen (Is)Deutsch und (Is)English zu unterscheiden. Ich bin davon ausgegangen, dass es praktisch so gut wie keine Spam Mails aus der Turkei, Spanien or Portugal kommen. Dachte mir, dass dies vielleicht fuer Scorpion08 nuetzlich sein koennte.


    ...Da haetten wir noch die Englaender und Amerikaner: SCHool

    Die drei oder vier Ausnahmen sind mir bekannt aber keine "Schr", "Schl", usw. Kombinationen. "Sch" plus Konsonant ist "sehr Deutsch".

    Gaijin:
    26 Buchstaben is das Maximum und ich habe dies sehr oft verflucht besonders fuer "Hot-Key" Zuweisungen (&KeyPress Buchstabe). War mir nicht sicher ob Dir die "H" Doppelzuweisung bekannt ist und ein keliner Hinweis kann nicht schaden.

    Klaus