Bayes für Wortgruppen?

Hendrik

Hallo!

Die aktuell übliche Auswertung einzelner Wörter bei der Bayesprüfung ist ja bereits sehr wirksam, aber bei manchen Sorten JUNKs ist so nichts zu machen.

Selbst auf meinem Rechner mit 880-MHz-Prozessor geht die akuelle Bayesprüfung in Null Zeit. Die Bayes.wdb-Datei hat nur 3MB.

Wäre es nicht möglich, anstatt der einzelnen Wörter immer gleitend zwei, drei oder vier Wörter zusammenzufassen? Also nicht bei jedem Leerzeichen und Satzzeichen abzubrechen, sondern erst bei jedem zweiten, dritten oder vierten. Es könnte dann vielleicht auch noch sinnvol sein, wenn selbst Zeilenumbrüche im Quellcode oder eMailtext überbrükt würden.

Oder würde das die Grenzen der Computerleistung aus irgendeinem mathematischen Grund sprengen? :denk:

Gruß Hendrik

Gaijin

Zitat

Wäre es nicht möglich, anstatt der einzelnen Wörter immer gleitend zwei, drei oder vier Wörter zusammenzufassen? Also nicht bei jedem Leerzeichen und Satzzeichen abzubrechen, sondern erst bei jedem zweiten, dritten oder vierten. Es könnte dann vielleicht auch noch sinnvol sein, wenn selbst Zeilenumbrüche im Quellcode oder eMailtext überbrükt würden.
Oder würde das die Grenzen der Computerleistung aus irgendeinem mathematischen Grund sprengen? :denk:

Ich glaube, dass diese Art so ziehmlich alles beeinträchtigen würde, sowohl die Ladezeit als auch die Prüfgeschwindigkeit. Bei dir werden jetzt schon immerhin bis zu 262.000 Wörter pro E-Mail geprüft (mit 3 MB Datenbankgröße). Die Anzahl der Einträge bei nur zwei Wörtern wäre bereits um ein vielfaches höher, da sich die Wörter ja auch überlappen.

Hendrik

Ich bin gerade noch am Nachdenken... Ist es nicht so, daß es genau soviele Doppel-Wörter geben dürfte wie Einfach-Wörter? Und es sollte doch auch soviele Dreifach-Wörter geben, wie Einfach-Wörter. Jedes in einer Mail vorkommende Wort hätte doch einfach eine Verlängerung (nämlich die folgenden Wörter).
Insofern dürfte das doch so schrecklich Rechenleistung-sprengend nicht sein. Selbst wenn die Bayes-Prüfung bei mir fünfmal so lange brauchen würde, wäre das für mich kein Problem.

Gaijin

Zitat

Ich bin gerade noch am Nachdenken... Ist es nicht so, daß es genau soviele Doppel-Wörter geben dürfte wie Einfach-Wörter? Und es sollte doch auch soviele Dreifach-Wörter geben, wie Einfach-Wörter. Jedes in einer Mail vorkommende Wort hätte doch einfach eine Verlängerung (nämlich die folgenden Wörter).
Insofern dürfte das doch so schrecklich Rechenleistung-sprengend nicht sein. Selbst wenn die Bayes-Prüfung bei mir fünfmal so lange brauchen würde, wäre das für mich kein Problem.

Ich glaube da unterläuft dir ein Gedankenfehler. Die Wörter "Ich", "bin", "gerade" und "noch" benötigen (theoretisch) derzeit 4 Einträge in der Datenbank. Bei "Doppel-Wörtern" wären das bereits 16 Einträge. Bei 100 unterschiedlichen Wörtern wären dann nicht 100, sondern 10.000 Einträge notwendig, um alle Kombinationen zu speichern.

Bei deinen ca 262.000 unterschiedlichen Wörtern würden dann knapp 70 Milliarden Wortpaare gespeichert sein, was in einer 768 GB großen Datei gepeichert würde...

Und das alles nur mit 2er Wortpaaren. Andererseits sind die Zahlen nur Theorie und die Einträge würden kaum zur Prüfung herangezogen werden, da sie ohnehin nur ein oder zwei mal vokommen.

Hendrik

"Ich bin gerade noch am Nachdenken" würde zu:

2er
Ich bin
bin gerade
gerade noch
noch am
am Nachdenken

3er
Ich bin gerade
bin gerade noch
gerade noch am
noch am Nachdenken

4er
Ich bin gerade noch
bin gerade noch am
gerade noch am Nachdenken

Es würden ja nicht so viele Möglichkeiten, wie wenn man die Wörter zufällig neu kombinieren würde. Die nur einmal (oder eben zu selten) vorgekommenen Satzbrocken müßten genau wie jetzt schon mit einzelnen "Wörtern" (oder sonstigen Quellcode-Bruchstücken), eliminiert werden.

Zusätzlich könnte man sich doch vorstellen, daß (ähnlich der AutoWL) Einträge die eine bestimmte Zeit nicht mehr vorgekommen sind, eliminiert werden. Was ich z.B. vor einem Jahr für Junk gekriegt habe, ist doch heute nichtmehr 100%ig signifikant. Vielleicht ganz besonders was solche Wortgruppen angeht.

Z.B. habe ich so Volksbank-Junk, dem vom Port-Virenscanner der HTML-Teil entfernt wird, wo Bayes den MIME-Block des GIF-Bildes erkennt. siehe Anhang.

Viele Grüße
Hendrik

PS: fühle Dich nicht gedrängt, sondern nimm' das als konstruktives Brainstorming!

Gaijin

In der nächsten Zeit werde ich mich damit nicht beschäftigen können.

Hendrik

Zitat

In der nächsten Zeit werde ich mich damit nicht beschäftigen können.

Regula ist ja jetzt schon :denk: :rtfm: :banane: :yahoo:

...und gut Ding will Weile haben!