gibt es eine Möglichkeit Mails nach der Sparache zu filtern.Da ich eigentlich nur deutsche Mails bekomme macht es sinn die englischen als Spam zu selektieren.
scorpion08
gibt es eine Möglichkeit Mails nach der Sparache zu filtern.Da ich eigentlich nur deutsche Mails bekomme macht es sinn die englischen als Spam zu selektieren.
scorpion08
Zitatgibt es eine Möglichkeit Mails nach der Sparache zu filtern.Da ich eigentlich nur deutsche Mails bekomme macht es sinn die englischen als Spam zu selektieren.
Eine zuverlässige Möglichkeit gibt es nicht, bzw. würde es zu lange daueren, hunderte oder gar tausende Wörter zu überprüfen.
Ich werde sehen, was sich machen lässt...
super :thx:
Bei mir rutscht immer wieder eine Spam als Ham durch.
Filter.log
=== MESSAGE ===
Process message: ID <3086360416.99180@customer@regions.com>
Subject: Account Confirmation Required
From: Regions Bank Customer Service Center <customer@regions.com>
Date: Sat, 05 Feb 2005 08:34:28 -0100
Started: 05.02.2005 08:45:22.
ERROR while checking rule UrlList "acumenlabs.com" [SPAMMER_DOMAIN: acumenlabs.com]
Finished: 05.02.2005 08:45:22.
Processed in 15 mSec, total score: 0, rules matched: 0.
und diese Zeile steht in der Spammer.dat
FromAddr 100 SH "@regions.com>" [SPAM_SENDER: regions.com]
wo liegt bei mir der Fehler
scorpion08
@scorpion08:
Welche Version verwendest du?
Die aktuelle 1.1.4
Ich habe eben ein E-Mail bekommen, wo meine Adresse nicht im Empfänger oder in einer Empfängerliste steht,
ist es möglich so etwas zu filtern.
weiterhin, kann es ev. sinnvoll sein einige Wörter wie Love, home, have, out, Date, trip, time, wife in eine seperate dat zu speichern, denn diese Worte kommen verm. recht häufig im Spam vor, wenn ja wie müßte ich es dann darstellen.
scorpion08
ZitatIch habe eben ein E-Mail bekommen, wo meine Adresse nicht im Empfänger oder in einer Empfängerliste steht,
ist es möglich so etwas zu filtern.
Alle Regel können auch negiert werden (Option "N").
Zitatweiterhin, kann es ev. sinnvoll sein einige Wörter wie Love, home, have, out, Date, trip, time, wife in eine seperate dat zu speichern, denn diese Worte kommen verm. recht häufig im Spam vor, wenn ja wie müßte ich es dann darstellen.
Das bleibt jedem selbst überlassen, ob er Unmengen an Wörtern oder Satzteilen in die Regeln aufnimmt, so wie bei SpamAssassin oder dem RegExFilter für SpamPal.
ich habe gerade die Anleitung gelesen.
leider steige ich nicht ganz durch, wie müßte die Zeile aussehen damit die Email mit Adresse "negiert" wird.
Wo kann ich die Option IsEnglish einschalten. Ich habe diesen Begriff nirgends finden können.
Edit: Ist eine Regel möglich, die als Spam markiert, wenn im CC: Adressen stehen.
scorpion08
Ich habe diverse Filter erstellt und trotzdem rutsche mir diese Mail durch.
siehe log eintrag.
Process message: ID <814336e9la63$5d7o3029$35t3ilgl@airfieldabsorbentangiemw25>
Subject: Fw: G e n e r i c W h o l e $ a l e P h a r a m a c y
From: "Fernanda" <lcdhw@dublin.com>
Date: Mon, 07 Feb 2005 12:55:21 +0100
Started: 07.02.2005 12:53:20.
Match: RegExp rule REPLY_QUOTE: Antwort, Score: -90.
Match: SimpleStr rule SUBJECT_DOLLAR: Dollar-Zeichen im Betreff, Score: 30.
Match: SimpleStr rule TEXT_BAD_WORD: Visit, Score: 70.
DNSBL-Check: by cbl.abuseat.org with IP 75.242.255.254 - not listed or timed out (250 mSec). Time: 249
Gerade aufgrund des Subject müßte sie gleich als Spam markiert werden.
scorpion08
ZitatIch habe diverse Filter erstellt und trotzdem rutsche mir diese Mail durch.
Und was willst du jetzt wissen?
Was soll daran nicht stimmen?
ZitatGerade aufgrund des Subject müßte sie gleich als Spam markiert werden.
Wieso? Score = "30".
Wenn ich richtig gerechnet habe, müsste der End-Score für diese Nachricht "10" sein.
wenn ich das jetzt richtig sehe, müte ich die Score für
RegExp rule REPLY_QUOTE: Antwort, Score: -90. auf 60
Match: SimpleStr rule SUBJECT_DOLLAR: Dollar-Zeichen im Betreff, Score: 30. auf 50
erhöhen, aber wie kann ein Score von -90 entstehen.
und
kannst du mir noch einen Tipp geben wie ich
eine Email Adresse "negiert" kann und wo kann ich die Option IsEnglish einschalten kann. Ich habe diesen Begriff nirgends finden können.
Ist eine Regel möglich, die als Spam markiert, wenn im CC: Adressen stehen.
scorpion08
Zitatwenn ich das jetzt richtig sehe, müte ich die Score für
RegExp rule REPLY_QUOTE: Antwort, Score: -90. auf 60
Match: SimpleStr rule SUBJECT_DOLLAR: Dollar-Zeichen im Betreff, Score: 30. auf 50
erhöhen,
Wieso? Das verstehe ich nicht.
Zitataber wie kann ein Score von -90 entstehen.
Indem der Score auf -90 gesetzt wurde (wie im Fall deiner "REPLY_QUOTE"-Regel).
Zitatkannst du mir noch einen Tipp geben wie ich
eine Email Adresse "negiert" kann
Mit der Option "N". Das steht auch in der Anleitung.
Zitatund wo kann ich die Option IsEnglish einschalten kann. Ich habe diesen Begriff nirgends finden können.
Lese dir mal die Anleitung durch. Darin ist alles beschrieben, auch die internen Regeln.
ZitatIst eine Regel möglich, die als Spam markiert, wenn im CC: Adressen stehen.
ok, soweit alles kapiert, brauch nur noch dein ok ob ich die Regeln so stehen lassen
kann:
ToAddr 100 SNH "<xxxxx@xxx.de>" [PRIVATE_SPAM_RCPT: Meine Adresse nicht im Empfänger]
ToAddr 100 SNH "<ccccccd@xxx.de>" [PRIVATE_SPAM_RCPT: Meine Adresse nicht im Empfänger]
ToAddr 100 SNH "<abcde@ccc.de>" [PRIVATE_SPAM_RCPT: Meine Adresse nicht im Empfänger]
#Prüft auf Englischen Text
IsEnglish 30 I "" [TEXT_IST_ENGLISCH]
#Prüft auf weitere E-Mail Adressen in der Headerzeile
HdrExist 100 IH "CC"
scorpion08
@scorpion08: Ja, alles OK.
Ich weiss nicht wie Gaijin die Kondition fuer "IsEnglish" ermittelt. Kann mir vorstellen, dass dies nicht gerade einfach ist, da im "Technischen Computer Deutsch" sehr viele Englische Ausdruecke benutzt werden. Zusaetzlich habe ich festgestellt, dass es sehr viele Leute gibt, die das Gefuehl haben, dass man moeglichst viele Englische Ausdruecke verwenden muss, um "in" oder "cool" zu sein.
Falls ich einen Vorschlag machen darf: Wie waere es, den Text nach typischen Deutschen Buchstaben durchzusuchen? Wenn man: ue, oe oder ae findet, dann kann man fast sicher sein, dass die Mail u.U. in Deutsch ist aber nicht mit einem Deutschen Keyboard geschrieben wurde = keine Deutsche Zusendung. Wenn man die Buchstaben: ö, ä, ü oder ß findet, dann ist die Nachricht mit Sicherheit Deutsch. Eine weitere Moeglickkeit ist nach "sch" Verbindungen zu suchen. Beispiel: "Schr" z.b. Schrift, schreiben, Schritt usw. "Schr" gibt es im englichen nicht.
Alles was Deutsch ist kann nicht Englisch sein. Demnach ist es meiner Meinung nach einfacher nach "IsDeutsch" als nach "IsEnglish" zu suchen. Andere Sprachen erlauben nach Akzenten zu suchen, was es wiederum einfach macht.
Gaijin: Die Verwendung des Buchstaben: "H" als Option in Regelausdruecken ist nicht gerade eine glueckliche Loesing. "H" klassifiziert eine Mail sofort als Spam und nicht als Ham. Ferner, "H" ist bereits in Einsatz. Zitat:
H Gibt auch die Headerbeschriftung (der Teil vor dem ersten Doppelpunkt) aus, sonst nur den Wert.
1.1.5 und ASP Manager - Wie immer: Ausgezeichnete Arbeit.
Klaus
Zitatö, ä, ü oder ß findet, dann ist die Nachricht mit Sicherheit Deutsch
Sag mal den Türken das sie kein ö und ü mehr benutzen dürfen, die werden sich bedanken
und den Spaniern und Suedamerikanern auch. Das gibt ne Revolution. Und das alles wegen einem Plugin.
Da haetten wir noch die Englaender und Amerikaner: SCHool
ZitatIch weiss nicht wie Gaijin die Kondition fuer "IsEnglish" ermittelt. Kann mir vorstellen, dass dies nicht gerade einfach ist, da im "Technischen Computer Deutsch" sehr viele Englische Ausdruecke benutzt werden. Zusaetzlich habe ich festgestellt, dass es sehr viele Leute gibt, die das Gefuehl haben, dass man moeglichst viele Englische Ausdruecke verwenden muss, um "in" oder "cool" zu sein.
Es wird nicht nach "technischen" Begriffen gesucht, somit besteht diesbezüglich keine Problem.
ZitatWie waere es, den Text nach typischen Deutschen Buchstaben durchzusuchen?
Also das mit den Umlauten ergibt wenig Sinn, wie Bernd und Tommy das bereits geschrieben haben. Wortteile sind ebensowenig geeignet. Das würde zu viele Falschmeldungen ergeben. So wie es jetzt ist, funktioniert es eigentlich ganz gut. Eventuell kann ich die Erkennung noch verbessern, aber es wird sich im Laufe der Zeit zeigen, ob dies notwendig ist. Das Problem, dass bestimmte Wörter, wie z.B. "in", sowohl in Deutsch, als auch in Englisch vorkommen, habe ich berücksichtigt.
ZitatDie Verwendung des Buchstaben: "H" als Option in Regelausdruecken ist nicht gerade eine glueckliche Loesing.
Da das Alphabet nur 26 Buchstaben hat, und bereits einige Buchstaben, darunter auch das "S" bereits für andere Optionen in Verwendung sind, war die Auswahlmöglichkeit etwas beschränkt.
ZitatFerner, "H" ist bereits in Einsatz. Zitat:
H Gibt auch die Headerbeschriftung (der Teil vor dem ersten Doppelpunkt) aus, sonst nur den Wert.
Nicht in den Regel-Optionen, sondern als Option zur Formatierung bei den Headerbezeichnungen. Da diese getrennt analysiert werden, gibt es keine Probleme.
Bernd & Tommy:
...Tuerken, Spaniern und Suedamerikanern auch. Das gibt ne Revolution. Und das alles wegen einem Plugin.
Dies war nur ein Vorschlag, um zwischen (Is)Deutsch und (Is)English zu unterscheiden. Ich bin davon ausgegangen, dass es praktisch so gut wie keine Spam Mails aus der Turkei, Spanien or Portugal kommen. Dachte mir, dass dies vielleicht fuer Scorpion08 nuetzlich sein koennte.
...Da haetten wir noch die Englaender und Amerikaner: SCHool
Die drei oder vier Ausnahmen sind mir bekannt aber keine "Schr", "Schl", usw. Kombinationen. "Sch" plus Konsonant ist "sehr Deutsch".
Gaijin:
26 Buchstaben is das Maximum und ich habe dies sehr oft verflucht besonders fuer "Hot-Key" Zuweisungen (&KeyPress Buchstabe). War mir nicht sicher ob Dir die "H" Doppelzuweisung bekannt ist und ein keliner Hinweis kann nicht schaden.
Klaus