Table of ContentsPreviousNextIndex

Bayes'scher Anti-Spam-Filter

In GFI MailEssentials verwendet die Bayes'sche Filtertechnologie, mit deren Hilfe fast sämtliche Spam-Mitteilungen blockiert werden können. Bei der Bayes'schen Filtertechnologie handelt es sich um eine adaptive Technik mit "künstlicher Intelligenz", die von Spammern nur sehr schwer zu überlisten ist.

Funktionsweise des Bayes'schen Spam-Filters

Die Bayes'sche Filtertechnologie basiert auf dem mathematischen Prinzip, dass die meisten Ereignisse voneinander abhängig sind und dass die Wahrscheinlichkeit eines zukünftigen Ereignisses aus vorherigen Ereigniseintritten abgeleitet werden kann. (Weitere Hintergrundinformationen zur Berechnungsgrundlage, die bei der Bayes'schen Filterung verwendet wird, stehen zur Verfügung unter

http://www-ccrma.stanford.edu/~jos/bayes/Bayesian_Parameter_Estimation.html

und http://www.niedermayer.ca/papers/bayesian/bayes.html.)

Diese Technik eignet sich ideal zum Identifizieren von Spam. Einige Begriffe oder Inhalte werden oft nur in Spam-Mitteilungen verwendet und kommen in "normalen" Mitteilungen nicht vor. Werden dieselben Begriffe auch in einer neuen E-Mail gefunden, kann davon ausgegangen werden, dass es sich bei dieser Nachricht mit größter Wahrscheinlichkeit um Spam handelt.

Erstellen einer angepassten Bayes'schen Begriffsdatenbank

Bevor Nachrichten mit Hilfe diese Methode gefiltert werden können, muss für jedes Wort oder jeden Token (Dollar-Zeichen, IP-Adressen, Domänen etc.) ein Protokoll zur Nutzungshäufigkeit erstellt werden. Auf Grundlage der Ergebnisse wird dann jedem Wort oder Token ein Wahrscheinlichkeitswert zugewiesen. Die Wahrscheinlichkeit basiert hierbei auf Berechnungen, in die einfließt, wie oft das in der Spam-Mail verwendete Wort/der Token im Vergleich mit erwünschten Nachrichten vorkommt. Als Datenmaterial dienen ausgehende Benutzerpost und Analyseergebnisse bekannter Spam-Mitteilungen. Hierbei werden sämtliche Wörter und Token in beiden E-Mail-Kategorien analysiert, um bestimmten Wörtern einen Wahrscheinlichkeitswert zuzuweisen, der sie als Spam klassifiziert.

Beispielsweise liegt bei dem Wort "Hypothek", das in 3.000 Spam-Mails 400 Mal vorkommt und in 300 erwünschten E-Mails 5 Mal verwendet wird, die Spam-Wahrscheinlichkeit bei:

(400/3000) / (5/300 + 400/3000) = 0.8889.

Hierbei muss beachtet werden, dass diese Analyse speziell für die E-Mail-Korrespondenz eines einzelnen Unternehmens vorgenommen wird und die Ergebnisse somit nicht allgemeingültig sind. Beispielsweise würde die Anwendung einer allgemeinen Anti-Spam-Regel auf die E-Mail-Korrespondenz eines Finanzunternehmens viele Fehlalarme auslösen, da bei diesem das Wort "Hypothek" sehr häufig und legitim verwendet wird. Der Bayes'sche Filter hingegen überprüft die gültige ausgehende Post des Unternehmens, erkennt dabei "Hypothek" als häufig eingesetzten Begriff in ordnungsgemäßen Mitteilungen und vermeidet somit eine zu hohe Anzahl von Fehlalarmen - die Erkennungsquote "echter" Spam-Mitteilungen ist somit viel höher.

Nachdem der Wahrscheinlichkeitswert für die einzelnen Wörter und Token berechnet wurde, kann der Filter sofort eingesetzt werden.

Beachten Sie bitte, dass der Bayes'sche Filter keineswegs statisch ist. Nach seiner Konfigurierung aktualisiert er sich automatisch anhand neuer Spam-Mitteilungen und gültiger E-Mails - mit dem Vorteil, dass sich die Erkennungsquote im Verlauf der Zeit steigern lässt. Noch viel wichtiger ist jedoch, dass eine kontinuierliche Anpassung an neue Spam-Methoden und/oder veränderte Korrespondenzgewohnheiten von Anwendern innerhalb eines Unternehmens erfolgt.

Spam-Identifizierung per Bayes'schem Filter

Trifft eine neue E-Mail ein, wird sie in ihre einzelnen Wörter aufgeschlüsselt, wobei die wichtigsten herausgegriffen werden, d. h. solche, die für die Klassifizierung von E-Mail als Spam von größter Bedeutung sind. Unter Berücksichtigung diese Wörter errechnet der Bayes'sche Filter die Wahrscheinlichkeit, ob eine neue Mitteilung als Spam eingestuft werden muss oder nicht. Ist die Wahrscheinlichkeit größer als ein bestimmter Schwellenwert, z.B. 0,9, wird die Nachricht als Spam gekennzeichnet.

Der Bayes'sche Ansatz der Spam-Bekämpfung hat sich als äußerst effektiv erwiesen. In einer Meldung der britischen BBC vom Mai 2003 wurde hervorgehoben, dass mit dieser Methode über 99,7% aller Spam-Mitteilungen erkannt und gleichzeitig eine sehr geringe Anzahl von Fehlalarmen verursacht werden.

Vorteile der Bayes'schen Spam-Filterung gegenüber der Stichwort-Kontrolle

1. Die Bayes'sche Methode berücksichtigt die gesamte Mitteilung. Hierbei werden nicht nur Spam-typische Stichwörter erkannt, sondern auch solche, die in gültiger E-Mail-Korrespondenz vorkommen. Beispiel: Nicht jede E-Mail, in der die Wörter "kostenlos" und "bares Geld" vorkommen, ist als Spam einzustufen. Der Vorteil der Bayes'schen Methode besteht darin, dass Wörter, die am auffälligsten sind (ermittelt durch ihre Abweichung vom gängigen Wortschatz), kontrolliert werden, um dann die Wahrscheinlichkeit für das Vorliegen einer Spam-Mitteilung zu berechnen. Die Bayes'sche Methode würde die Wörter "bares Geld" und "kostenlos" zwar als auffällig einstufen, jedoch gleichzeitig den Namen des Absenders als Geschäftskontakt erkennen und die Mitteilung somit als legitim klassifizieren. Somit wirken mehrere berücksichtigte Wörter und Merkmale als "ausgleichend". Diese Filterung stellt einen wesentlich intelligenteren Ansatz der Spam-Abwehr dar, da alle Merkmale einer Mitteilung untersucht werden - und nicht nur einzelne Stichwörter, deren Verwendung in einer E-Mail diese bereits als Spam klassifizieren.

2. Ein Bayes'scher Filter aktualisiert sich automatisch und kontinuierlich. Der Filter verarbeitet die Merkmale neuartiger Spam-Mitteilungen und neuer, gültiger E-Mails, die verschickt werden, und passt sich somit aktuellen Spam-Methoden und veränderten Korrespondenzgewohnheiten von Benutzern an. Zu diesen neuen Methoden zählt z. B., dass Spammer "k-o-s-t-e-n-l-o-s" anstatt "kostenlos" verwendeten, um die Stichwort-Kontrolle zu umgehen. Diese Taktik war solange erfolgreich, bis die neue Schreibweise in der Stichwort-Datenbank aufgenommen wurde. Der Bayes'sche Filter hingegen erkennt diese Manipulationen automatisch. Die veränderte Schreibweise wird von ihm sogar als ein eindeutiges Merkmal für Spam gedeutet. Ein weiteres Beispiel für eine auffällige Schreibweise ist die Verwendung des Wortes "5ex" an Stelle von "Sex".

3. Die Bayes'sche Technik richtet sich an der Benutzer-Mail aus. Damit Mitteilungen erfolgreich beim Empfänger ankommen, müssen Spammer E-Mails verschicken, die von den personalisierten Filtern der Empfänger unentdeckt bleiben. Da die Bayes'sche Methode das für ein Unternehmen spezifische E-Mail-Profil berücksichtigt, kann Spam leichter entdeckt werden: Spammer müssten dieses Profil kennen, um es umgehen zu können. Da Spam-Mails einen eigenen Wortschatz und bestimmte Eigenarten aufweisen, können Sie leicht vom Bayes'schen Filter abgefangen werden. Spam-Versender stehen somit vor dem Problem, dass sie ihre Werbestrategie und -aussagen ändern müssten, die das E-Mail-Profil eines Unternehmens berücksichtigen und überlisten - diese Anpassung ist jedoch bei vielen Produkten nicht möglich.

4. Die Bayes'sche Methode kann für mehrere Sprachen und international eingesetzt werden. Da sich der Bayes'sche Anti-Spam-Filter automatisch anpasst, kann er für jede Sprache eingesetzt werden. Ein Großteil der Stichwort-Listen ist nur auf Englisch verfügbar und eignet sich daher nicht für die Verwendung in anderen Sprachen. Der Bayes'sche Filter berücksichtigt sogar bestimmte sprachliche Abweichungen oder die vielfältige Verwendung einzelner Wörter in verschiedenen Bereichen, selbst wenn es sich um die gleiche Sprache handelt. Diese Fähigkeit ermöglicht die Blockierung einer noch größeren Anzahl von Spam-Mitteilungen.

5. Ein Bayes'scher Filter ist schwerer zu überlisten als ein Stichwort-Filter. Erfahrene Spammer, die einen Bayes'schen Filter täuschen wollen, können versuchen, weniger negativ belegte Wörter (Spam-typische wie "kostenlos", "Viagra" etc.) zu verwenden oder eine größere Anzahl von Begriffen, die typisch für gültige Nachrichten sind (z. B. ein gültiger Kontaktname). Letztere Variante kann jedoch nicht realisiert werden, da dem Spammer das E-Mail-Profil eines jeden Empfängers bekannt sein müsste. Für Spam-Versender ist es jedoch so gut wie unmöglich, an diese Information eines jeden potenziellen Empfängers zu gelangen. Die Verwendung neutraler Begriffe wie "öffentlich" ist zum Scheitern verurteilt, da diese bei der Endanalyse nicht berücksichtigt werden. Auch die Aufteilung von Spam-Wörtern ("k-o-s-t-e-n-l-o-s" an Stelle von "kostenlos") verspricht keinen Erfolg, sondern bewirkt eher das Gegenteil. Kaum ein Benutzer wird die erste Schreibweise in seinen Nachrichten verwenden.

Bitte unbedingt beachten: Eine aussagekräftige Beurteilung der Spam-Erkennungsrate durch GFI MailEssentials ist erst möglich, nachdem der Bayes'sche Filter mindestens eine Woche lang Ihre E-Mail-Korrespondenz analysiert und daraus gelernt hat! Verglichen mit anderen Anti-Spam-Lösungen erzielen Sie mit GFI MailEssentials dank dieser exakten Anpassung weitaus höhere Erkennungsraten bei Spam. Der Bayes'sche Filter ist jedoch erst nach sieben Tagen effizient einsetzbar und voll einsatzfähig.


Table of ContentsPreviousNextIndex