Funktionsweise des Bayes'schen Spam-Filters
Die Bayes'sche Filtertechnologie basiert auf dem mathematischen Prinzip, dass die meisten Ereignisse voneinander abhängig sind und dass die Wahrscheinlichkeit eines zukünftigen Ereignisses aus vorherigen Ereigniseintritten abgeleitet werden kann. Weitere mathematische Hintergrundinformationen zur Bayes'schen Filtertechnologie finden Sie unter Bayesian Parameter Estimation und An Introduction to Bayesian Networks and their Contemporary Applications. (http://www.ccrma.stanford.edu/~jos/bayes/Bayesian_Parameter_Estimation.html und http://www.niedermayer.ca/papers/bayesian/
bayes.html.)
Diese Technik eignet sich ideal zum Identifizieren von Spam. Bestimmte Begriffe oder Inhalte werden oft nur in Spam-Mitteilungen verwendet und kommen in „gewöhnlichen" E-Mails nicht vor. Werden dieselben Begriffe in einer neuen Mitteilung gefunden, handelt es sich bei dieser Nachricht mit größter Wahrscheinlichkeit um Spam.
Erstellen einer angepassten Bayes'schen Begriffsdatenbank
Bevor Nachrichten mit Hilfe diese Methode gefiltert werden können, muss eine Datenbank mit Wörtern oder Token (Dollar-Zeichen, IP-Adressen, Domänen etc.) erstellt werden, die aus Spam-Beispielen und gültigen Mitteilungen (auch als „Ham" bezeichnet) stammen.
Abbildung 1 - Erstellung einer Begriffsdatenbank für den Filter
Danach wird jedem Wort oder Token ein Wahrscheinlichkeitswert zugewiesen. Die Wahrscheinlichkeit basiert hierbei auf Berechnungen, in die einfließt, wie oft das in der Spam-Mail verwendete Wort/der Token im Vergleich mit erwünschten Nachrichten (Ham) vorkommt. Als Datenmaterial dienen ausgehende Benutzerpost und Analyseergebnisse bekannter Spam-Mitteilungen. Hierbei werden sämtliche Wörter und Token in beiden E-Mail-Kategorien analysiert, um bestimmten Wörtern einen Wahrscheinlichkeitswert zuzuweisen, der sie als Spam-typisch klassifiziert.
Der Wahrscheinlichkeitswert wird wie folgt berechnet: Beim Wort „Hypothek", das in 3.000 Spam-Mails 400 Mal vorkommt und in 300 erwünschten E-Mails 5 Mal verwendet wird, liegt die Spam-Wahrscheinlichkeit bei 0,8889. Berechnung: (400/3000) / (5/300 + 400/3000) = 0.8889.
Erstellung einer an ein Unternehmen angepassten Ham-Datenbank
Im Zusammenhang mit der Ham-Datenbank muss beachtet werden, dass die Analyse von Ham-Mitteilungen speziell für die E-Mail-Korrespondenz eines einzelnen Unternehmens vorgenommen wird und die Ergebnisse somit nicht allgemeingültig sind. Beispielsweise würde die Anwendung einer allgemeinen Anti-Spam-Regel auf die E-Mail-Korrespondenz eines Finanzunternehmens sehr viele Fehlalarme auslösen, da von diesem das sonst für Spam übliche Wort „Hypothek" sehr häufig und legitim verwendet wird. Nach einer Lernphase und Anpassung an die Unternehmenskorrespondenz zu Beginn seines Einsatzes überprüft der Bayes'sche Filter jedoch die gültige ausgehende Post des Unternehmens, erkennt dabei „Hypothek" als häufig eingesetzten Begriff in ordnungsgemäßen Mitteilungen und vermeidet somit eine zu hohe Anzahl von Fehlalarmen - die Erkennungsrate „echter" Spam-Mitteilungen ist somit viel höher.
Bitte beachten Sie, dass bei einigen Anti-Spam-Lösungen die Bayes'sche Filtertechnologie nicht sehr umfassend integriert wurde, z. B. beim Spam-Filter von Outlook oder dem Internet Message Filter von Exchange Server. Diese Lösungen bieten lediglich eine standardmäßige Ham-Datei, die nicht dynamisch erweitert wird und sich nicht an die Anforderungen Ihres Unternehmens anpassen lässt. Obwohl bei dieser Technologie keine Lernphase erforderlich ist, weist sie zwei grundlegende Mängel auf:
1. Die Datei mit den Ham-Daten ist öffentlich zugänglich und kann daher von professionellen Spammern gehackt und somit umgangen werden. Ist die Ham-Datei jedoch an Ihr Unternehmen angepasst und somit einzigartig, hat das Hacken der Ham-Datei keinen Sinn. Auch beispielsweise für den Spam-Filter von Outlook 2003 oder Exchange Server sind bereits Hacks aufgetaucht. Weitere Informationen hierzu erhalten Sie unter Microsoft Outlook 2003 Spam Filter: Under the hood.
2. Der Inhalt der Ham-Datendatei ist sehr allgemein gehalten. Da die speziellen Eigenheiten der für Ihr Unternehmen üblichen Korrespondenz nicht berücksichtigt werden, ist diese Datei längst nicht so effektiv wie eine individuell angepasste Ham-Datei und hat eine höhere Anzahl von Fehlalarmen zur Folge.
Erstellung einer Spam-Datenbank
Zusätzlich zur Ham-Datenbank greift der Bayes'sche Filter zur Kontrolle von Mitteilungen auch auf eine Datei mit Spam-Daten zurück, die Spam-Profil-Datei weights.bsp. In dieser Datei muss für eine optimale Erkennung eine große Auswahl bekannter Spam-Mitteilungen gespeichert sein. Daher ist es erforderlich, dass diese Datei von der Anti-Spam-Lösung kontinuierlich mit den neuesten Spam-Nachrichten aktualisiert wird. Dadurch wird sichergestellt, dass der Bayes'sche Filter auch sämtliche neue Spam-Tricks erkennt und eine hohe Erkennungsrate erzielt (Hinweis: Optimale Erkennungsraten ergeben sich erst nach einer zweiwöchigen Lernphase.)
Vorgehensweise bei der Filterung
Sind die Datenbanken für Ham- und Spam-Nachrichten erstellt, kann der Spam-Wahrscheinlichkeitswert für die einzelnen Wörter berechnet werden, und der Filter ist einsatzbereit.
Trifft eine neue E-Mail ein, wird sie in ihre einzelnen Wörter aufgeschlüsselt, wobei die wichtigsten herausgegriffen werden, d. h. solche, die für die Klassifizierung von E-Mail als Spam von größter Bedeutung sind. Unter Berücksichtigung diese Wörter errechnet der Bayes'sche Filter die Wahrscheinlichkeit, ob eine neue Mitteilung als Spam eingestuft werden muss oder nicht. Ist die Wahrscheinlichkeit größer als ein bestimmter Schwellenwert, z. B. 0,9, wird die Nachricht als Spam gekennzeichnet.
Der Bayes'sche Ansatz der Spam-Bekämpfung hat sich als äußerst effektiv erwiesen. In einer Meldung der britischen BBC wurde hervorgehoben, dass mit dieser Methode über 99,7% aller Spam-Mitteilungen erkannt werden und Fehlalarme dabei sehr selten sind.