Fragen rund um Regeln für das ASP

scorpion08

gibt es eine Möglichkeit Mails nach der Sparache zu filtern.Da ich eigentlich nur deutsche Mails bekomme macht es sinn die englischen als Spam zu selektieren.

scorpion08

Gaijin

Zitat

gibt es eine Möglichkeit Mails nach der Sparache zu filtern.Da ich eigentlich nur deutsche Mails bekomme macht es sinn die englischen als Spam zu selektieren.

Eine zuverlässige Möglichkeit gibt es nicht, bzw. würde es zu lange daueren, hunderte oder gar tausende Wörter zu überprüfen.

Ich werde sehen, was sich machen lässt...

scorpion08

super :thx:

scorpion08

Bei mir rutscht immer wieder eine Spam als Ham durch.
Filter.log
=== MESSAGE ===
Process message: ID <3086360416.99180@customer@regions.com>
Subject: Account Confirmation Required
From: Regions Bank Customer Service Center <customer@regions.com>
Date: Sat, 05 Feb 2005 08:34:28 -0100
Started: 05.02.2005 08:45:22.
ERROR while checking rule UrlList "acumenlabs.com" [SPAMMER_DOMAIN: acumenlabs.com]
Finished: 05.02.2005 08:45:22.
Processed in 15 mSec, total score: 0, rules matched: 0.

und diese Zeile steht in der Spammer.dat

FromAddr 100 SH "@regions.com>" [SPAM_SENDER: regions.com]

wo liegt bei mir der Fehler

scorpion08

Gaijin

@scorpion08:
Welche Version verwendest du?

scorpion08

Die aktuelle 1.1.4

scorpion08

Gaijin

Ich habe eben ein E-Mail bekommen, wo meine Adresse nicht im Empfänger oder in einer Empfängerliste steht,
ist es möglich so etwas zu filtern.
weiterhin, kann es ev. sinnvoll sein einige Wörter wie Love, home, have, out, Date, trip, time, wife in eine seperate dat zu speichern, denn diese Worte kommen verm. recht häufig im Spam vor, wenn ja wie müßte ich es dann darstellen.

scorpion08

Gaijin

Zitat

Ich habe eben ein E-Mail bekommen, wo meine Adresse nicht im Empfänger oder in einer Empfängerliste steht,
ist es möglich so etwas zu filtern.

Alle Regel können auch negiert werden (Option "N").

Zitat

weiterhin, kann es ev. sinnvoll sein einige Wörter wie Love, home, have, out, Date, trip, time, wife in eine seperate dat zu speichern, denn diese Worte kommen verm. recht häufig im Spam vor, wenn ja wie müßte ich es dann darstellen.

Das bleibt jedem selbst überlassen, ob er Unmengen an Wörtern oder Satzteilen in die Regeln aufnimmt, so wie bei SpamAssassin oder dem RegExFilter für SpamPal.

scorpion08

ich habe gerade die Anleitung gelesen.
leider steige ich nicht ganz durch, wie müßte die Zeile aussehen damit die Email mit Adresse "negiert" wird.
Wo kann ich die Option IsEnglish einschalten. Ich habe diesen Begriff nirgends finden können.
Edit: Ist eine Regel möglich, die als Spam markiert, wenn im CC: Adressen stehen.

scorpion08

scorpion08

Ich habe diverse Filter erstellt und trotzdem rutsche mir diese Mail durch.
siehe log eintrag.
Process message: ID <814336e9la63$5d7o3029$35t3ilgl@airfieldabsorbentangiemw25>
Subject: Fw: G e n e r i c W h o l e $ a l e P h a r a m a c y
From: "Fernanda" <lcdhw@dublin.com>
Date: Mon, 07 Feb 2005 12:55:21 +0100
Started: 07.02.2005 12:53:20.
Match: RegExp rule REPLY_QUOTE: Antwort, Score: -90.
Match: SimpleStr rule SUBJECT_DOLLAR: Dollar-Zeichen im Betreff, Score: 30.
Match: SimpleStr rule TEXT_BAD_WORD: Visit, Score: 70.
DNSBL-Check: by cbl.abuseat.org with IP 75.242.255.254 - not listed or timed out (250 mSec). Time: 249

Gerade aufgrund des Subject müßte sie gleich als Spam markiert werden.

scorpion08

Gaijin

Zitat

Ich habe diverse Filter erstellt und trotzdem rutsche mir diese Mail durch.

Und was willst du jetzt wissen?
Was soll daran nicht stimmen?

Zitat

Gerade aufgrund des Subject müßte sie gleich als Spam markiert werden.

Wieso? Score = "30".

Wenn ich richtig gerechnet habe, müsste der End-Score für diese Nachricht "10" sein.

scorpion08

wenn ich das jetzt richtig sehe, müte ich die Score für
RegExp rule REPLY_QUOTE: Antwort, Score: -90. auf 60
Match: SimpleStr rule SUBJECT_DOLLAR: Dollar-Zeichen im Betreff, Score: 30. auf 50
erhöhen, aber wie kann ein Score von -90 entstehen.

und

kannst du mir noch einen Tipp geben wie ich
eine Email Adresse "negiert" kann und wo kann ich die Option IsEnglish einschalten kann. Ich habe diesen Begriff nirgends finden können.
Ist eine Regel möglich, die als Spam markiert, wenn im CC: Adressen stehen.

scorpion08

Gaijin

Zitat

wenn ich das jetzt richtig sehe, müte ich die Score für
RegExp rule REPLY_QUOTE: Antwort, Score: -90. auf 60
Match: SimpleStr rule SUBJECT_DOLLAR: Dollar-Zeichen im Betreff, Score: 30. auf 50
erhöhen,

Wieso? Das verstehe ich nicht.

Zitat

aber wie kann ein Score von -90 entstehen.

Indem der Score auf -90 gesetzt wurde (wie im Fall deiner "REPLY_QUOTE"-Regel).

Zitat

kannst du mir noch einen Tipp geben wie ich
eine Email Adresse "negiert" kann

Mit der Option "N". Das steht auch in der Anleitung.

Zitat

und wo kann ich die Option IsEnglish einschalten kann. Ich habe diesen Begriff nirgends finden können.

Lese dir mal die Anleitung durch. Darin ist alles beschrieben, auch die internen Regeln.

Code

IsEnglish 30 I "" [TEXT_IST_ENGLISCH]

Zitat

Ist eine Regel möglich, die als Spam markiert, wenn im CC: Adressen stehen.

Code

HdrExist 100 IH "CC"

scorpion08

ok, soweit alles kapiert, brauch nur noch dein ok ob ich die Regeln so stehen lassen
kann:

ToAddr 100 SNH "<xxxxx@xxx.de>" [PRIVATE_SPAM_RCPT: Meine Adresse nicht im Empfänger]
ToAddr 100 SNH "<ccccccd@xxx.de>" [PRIVATE_SPAM_RCPT: Meine Adresse nicht im Empfänger]
ToAddr 100 SNH "<abcde@ccc.de>" [PRIVATE_SPAM_RCPT: Meine Adresse nicht im Empfänger]

#Prüft auf Englischen Text

IsEnglish 30 I "" [TEXT_IST_ENGLISCH]

#Prüft auf weitere E-Mail Adressen in der Headerzeile
HdrExist 100 IH "CC"

scorpion08

Gaijin

@scorpion08: Ja, alles OK.

Klaus

Ich weiss nicht wie Gaijin die Kondition fuer "IsEnglish" ermittelt. Kann mir vorstellen, dass dies nicht gerade einfach ist, da im "Technischen Computer Deutsch" sehr viele Englische Ausdruecke benutzt werden. Zusaetzlich habe ich festgestellt, dass es sehr viele Leute gibt, die das Gefuehl haben, dass man moeglichst viele Englische Ausdruecke verwenden muss, um "in" oder "cool" zu sein.

Falls ich einen Vorschlag machen darf: Wie waere es, den Text nach typischen Deutschen Buchstaben durchzusuchen? Wenn man: ue, oe oder ae findet, dann kann man fast sicher sein, dass die Mail u.U. in Deutsch ist aber nicht mit einem Deutschen Keyboard geschrieben wurde = keine Deutsche Zusendung. Wenn man die Buchstaben: ö, ä, ü oder ß findet, dann ist die Nachricht mit Sicherheit Deutsch. Eine weitere Moeglickkeit ist nach "sch" Verbindungen zu suchen. Beispiel: "Schr" z.b. Schrift, schreiben, Schritt usw. "Schr" gibt es im englichen nicht.

Alles was Deutsch ist kann nicht Englisch sein. Demnach ist es meiner Meinung nach einfacher nach "IsDeutsch" als nach "IsEnglish" zu suchen. Andere Sprachen erlauben nach Akzenten zu suchen, was es wiederum einfach macht.

Gaijin: Die Verwendung des Buchstaben: "H" als Option in Regelausdruecken ist nicht gerade eine glueckliche Loesing. "H" klassifiziert eine Mail sofort als Spam und nicht als Ham. Ferner, "H" ist bereits in Einsatz. Zitat:
H Gibt auch die Headerbeschriftung (der Teil vor dem ersten Doppelpunkt) aus, sonst nur den Wert.

1.1.5 und ASP Manager - Wie immer: Ausgezeichnete Arbeit.

Klaus

Bernd

Zitat

ö, ä, ü oder ß findet, dann ist die Nachricht mit Sicherheit Deutsch

Sag mal den Türken das sie kein ö und ü mehr benutzen dürfen, die werden sich bedanken

Tommy

und den Spaniern und Suedamerikanern auch. Das gibt ne Revolution. Und das alles wegen einem Plugin.

Da haetten wir noch die Englaender und Amerikaner: SCHool

Gaijin

Zitat

Ich weiss nicht wie Gaijin die Kondition fuer "IsEnglish" ermittelt. Kann mir vorstellen, dass dies nicht gerade einfach ist, da im "Technischen Computer Deutsch" sehr viele Englische Ausdruecke benutzt werden. Zusaetzlich habe ich festgestellt, dass es sehr viele Leute gibt, die das Gefuehl haben, dass man moeglichst viele Englische Ausdruecke verwenden muss, um "in" oder "cool" zu sein.

Es wird nicht nach "technischen" Begriffen gesucht, somit besteht diesbezüglich keine Problem.

Zitat

Wie waere es, den Text nach typischen Deutschen Buchstaben durchzusuchen?

Also das mit den Umlauten ergibt wenig Sinn, wie Bernd und Tommy das bereits geschrieben haben. Wortteile sind ebensowenig geeignet. Das würde zu viele Falschmeldungen ergeben. So wie es jetzt ist, funktioniert es eigentlich ganz gut. Eventuell kann ich die Erkennung noch verbessern, aber es wird sich im Laufe der Zeit zeigen, ob dies notwendig ist. Das Problem, dass bestimmte Wörter, wie z.B. "in", sowohl in Deutsch, als auch in Englisch vorkommen, habe ich berücksichtigt.

Zitat

Die Verwendung des Buchstaben: "H" als Option in Regelausdruecken ist nicht gerade eine glueckliche Loesing.

Da das Alphabet nur 26 Buchstaben hat, und bereits einige Buchstaben, darunter auch das "S" bereits für andere Optionen in Verwendung sind, war die Auswahlmöglichkeit etwas beschränkt.

Zitat

Ferner, "H" ist bereits in Einsatz. Zitat:
H Gibt auch die Headerbeschriftung (der Teil vor dem ersten Doppelpunkt) aus, sonst nur den Wert.

Nicht in den Regel-Optionen, sondern als Option zur Formatierung bei den Headerbezeichnungen. Da diese getrennt analysiert werden, gibt es keine Probleme.

Klaus

Bernd & Tommy:

...Tuerken, Spaniern und Suedamerikanern auch. Das gibt ne Revolution. Und das alles wegen einem Plugin.

Dies war nur ein Vorschlag, um zwischen (Is)Deutsch und (Is)English zu unterscheiden. Ich bin davon ausgegangen, dass es praktisch so gut wie keine Spam Mails aus der Turkei, Spanien or Portugal kommen. Dachte mir, dass dies vielleicht fuer Scorpion08 nuetzlich sein koennte.

...Da haetten wir noch die Englaender und Amerikaner: SCHool

Die drei oder vier Ausnahmen sind mir bekannt aber keine "Schr", "Schl", usw. Kombinationen. "Sch" plus Konsonant ist "sehr Deutsch".

Gaijin:
26 Buchstaben is das Maximum und ich habe dies sehr oft verflucht besonders fuer "Hot-Key" Zuweisungen (&KeyPress Buchstabe). War mir nicht sicher ob Dir die "H" Doppelzuweisung bekannt ist und ein keliner Hinweis kann nicht schaden.

Klaus