Bayes für Wortgruppen?

  • Hallo!

    Die aktuell übliche Auswertung einzelner Wörter bei der Bayesprüfung ist ja bereits sehr wirksam, aber bei manchen Sorten JUNKs ist so nichts zu machen.

    Selbst auf meinem Rechner mit 880-MHz-Prozessor geht die akuelle Bayesprüfung in Null Zeit. Die Bayes.wdb-Datei hat nur 3MB.

    Wäre es nicht möglich, anstatt der einzelnen Wörter immer gleitend zwei, drei oder vier Wörter zusammenzufassen? Also nicht bei jedem Leerzeichen und Satzzeichen abzubrechen, sondern erst bei jedem zweiten, dritten oder vierten. Es könnte dann vielleicht auch noch sinnvol sein, wenn selbst Zeilenumbrüche im Quellcode oder eMailtext überbrükt würden.

    Oder würde das die Grenzen der Computerleistung aus irgendeinem mathematischen Grund sprengen? :denk:

    Gruß Hendrik

  • Zitat


    Wäre es nicht möglich, anstatt der einzelnen Wörter immer gleitend zwei, drei oder vier Wörter zusammenzufassen? Also nicht bei jedem Leerzeichen und Satzzeichen abzubrechen, sondern erst bei jedem zweiten, dritten oder vierten. Es könnte dann vielleicht auch noch sinnvol sein, wenn selbst Zeilenumbrüche im Quellcode oder eMailtext überbrükt würden.

    Oder würde das die Grenzen der Computerleistung aus irgendeinem mathematischen Grund sprengen? :denk:


    Ich glaube, dass diese Art so ziehmlich alles beeinträchtigen würde, sowohl die Ladezeit als auch die Prüfgeschwindigkeit. Bei dir werden jetzt schon immerhin bis zu 262.000 Wörter pro E-Mail geprüft (mit 3 MB Datenbankgröße). Die Anzahl der Einträge bei nur zwei Wörtern wäre bereits um ein vielfaches höher, da sich die Wörter ja auch überlappen.

  • Ich bin gerade noch am Nachdenken... Ist es nicht so, daß es genau soviele Doppel-Wörter geben dürfte wie Einfach-Wörter? Und es sollte doch auch soviele Dreifach-Wörter geben, wie Einfach-Wörter. Jedes in einer Mail vorkommende Wort hätte doch einfach eine Verlängerung (nämlich die folgenden Wörter).
    Insofern dürfte das doch so schrecklich Rechenleistung-sprengend nicht sein. Selbst wenn die Bayes-Prüfung bei mir fünfmal so lange brauchen würde, wäre das für mich kein Problem.

  • Zitat


    Ich bin gerade noch am Nachdenken... Ist es nicht so, daß es genau soviele Doppel-Wörter geben dürfte wie Einfach-Wörter? Und es sollte doch auch soviele Dreifach-Wörter geben, wie Einfach-Wörter. Jedes in einer Mail vorkommende Wort hätte doch einfach eine Verlängerung (nämlich die folgenden Wörter).
    Insofern dürfte das doch so schrecklich Rechenleistung-sprengend nicht sein. Selbst wenn die Bayes-Prüfung bei mir fünfmal so lange brauchen würde, wäre das für mich kein Problem.


    Ich glaube da unterläuft dir ein Gedankenfehler. Die Wörter "Ich", "bin", "gerade" und "noch" benötigen (theoretisch) derzeit 4 Einträge in der Datenbank. Bei "Doppel-Wörtern" wären das bereits 16 Einträge. Bei 100 unterschiedlichen Wörtern wären dann nicht 100, sondern 10.000 Einträge notwendig, um alle Kombinationen zu speichern.

    Bei deinen ca 262.000 unterschiedlichen Wörtern würden dann knapp 70 Milliarden Wortpaare gespeichert sein, was in einer 768 GB großen Datei gepeichert würde...

    Und das alles nur mit 2er Wortpaaren. Andererseits sind die Zahlen nur Theorie und die Einträge würden kaum zur Prüfung herangezogen werden, da sie ohnehin nur ein oder zwei mal vokommen.

  • "Ich bin gerade noch am Nachdenken" würde zu:

    2er
    Ich bin
    bin gerade
    gerade noch
    noch am
    am Nachdenken

    3er
    Ich bin gerade
    bin gerade noch
    gerade noch am
    noch am Nachdenken

    4er
    Ich bin gerade noch
    bin gerade noch am
    gerade noch am Nachdenken

    Es würden ja nicht so viele Möglichkeiten, wie wenn man die Wörter zufällig neu kombinieren würde. Die nur einmal (oder eben zu selten) vorgekommenen Satzbrocken müßten genau wie jetzt schon mit einzelnen "Wörtern" (oder sonstigen Quellcode-Bruchstücken), eliminiert werden.

    Zusätzlich könnte man sich doch vorstellen, daß (ähnlich der AutoWL) Einträge die eine bestimmte Zeit nicht mehr vorgekommen sind, eliminiert werden. Was ich z.B. vor einem Jahr für Junk gekriegt habe, ist doch heute nichtmehr 100%ig signifikant. Vielleicht ganz besonders was solche Wortgruppen angeht.

    Z.B. habe ich so Volksbank-Junk, dem vom Port-Virenscanner der HTML-Teil entfernt wird, wo Bayes den MIME-Block des GIF-Bildes erkennt. siehe Anhang.

    Viele Grüße
    Hendrik

    PS: fühle Dich nicht gedrängt, sondern nimm' das als konstruktives Brainstorming! :)