GFI
English Deutsch Français Italiano Nederlands Español
Table of ContentsPreviousNextIndex

Fonctionnement du filtre Bayésien

Le filtrage bayésien est basé sur le principe que la plupart des événements sont dépendants et que la probabilité, qu'un événement se produise à l'avenir, peut se déduire des occurrences précédentes de cet événement. (Plus d'informations sur les bases mathématiques du filtrage Bayésien sont disponibles sur Estimation des Paramètres Bayésiens et Une introduction aux réseaux Bayésiens et à leurs applications contemporaines

http://www-ccrma.stanford.edu/~jos/bayes/Bayesian_Parameter_Estimation.html

& http://www.niedermayer.ca/papers/bayesian/bayes.html).

Cette même technique peut être utilisée pour distinguer le spam. Si certains morceaux de texte réapparaissent souvent dans un spam et non dans un message légitime, alors il est raisonnable d'assumer que cet email est un spam.

Création d'une base de données Bayésienne de mots sur mesure

Avant que le courrier ne puisse être filtré en selon cette méthode, l'utilisateur doit générer une base de données de mots et d'unités lexicales (telles que $, adresses et domaines IP, etc.), récupéré à partir d'un exemple de message spam et valide (connu sous le nom de « ham »).

Image 1 - Création d'une base de données de mots pour le filtre

Une valeur de probabilité est alors affectée à chaque mot ou d'unité lexicale ; elle est basée sur des calculs qui tiennent compte de combien de fois ce mot se présente en tant que spam par opposition au courrier légitime (ham). Cela se fait en analysant le courrier sortant des utilisateurs et en analysant les spams connus : Tous les mots et unités lexicales des deux regroupements de courrier sont analysés pour définir la probabilité qu'un mot particulier est spam.

Cette probabilité par mot est calculée de la façon suivante : Si le mot "mortgage" apparaît dans 400 des 3 000 messages spam et dans 5 des 300 messages légitimes, par exemple, alors sa probabilité spam serait de 0,8889 (c'est-à-dire, [400/3000]divisé par [5/300+400/3000]).

Création d'une base de données ham (selon les besoins de votre compagnie)

Il est important de noter que cette analyse est exécutée sur le courrier de l'entreprise et est donc conçue en fonction de cette entreprise en particulier. Par exemple, une institution financière pourrait utiliser le mot "mortgage" (anglais pour « hypothèque ») beaucoup de fois et obtiendrait beaucoup de faux positifs en utilisant une série de règles anti-spam générales. Cependant, le filtre bayésien considère le courrier sortant valide de l'entreprise (et reconnaît le mot "mortgage" comme étant fréquemment utilisé dans les messages légitimes), et a donc un taux bien meilleur de détection de spam et un taux de faux positifs bien inférieur.

Notez que certains logiciels anti-spam aux possibilités Bayésiennes basiques, tels que le filtre anti-spam d'Outlook ou l'Internet Message Filter dans le Serveur Exchange, ne créent pas de fichier de données ham sur mesure pour votre compagnie mais établit un fichier standard qui vient lors de l'installation. Bien que cette méthode ne requière pas de période d'apprentissage initiale, elle a 2 inconvénients majeurs :

  1. Le fichier de données ham est public et peut donc être piraté par des spammeurs professionnels et donc contourné. Si le fichier de données ham est spécifique à votre compagnie, alors le piratage du fichier est inutile. Par exemple, il y a des failles connues pour outrepasser le filtre anti-spam d'Outlook 2003 Microsoft ou du serveur Exchange. Pour plus d'information à ce sujet, allez à la page Microsoft Outlook 2003 Spam Filter: Under the hood.
  2. Deuxièmement, le fichier de données ham est général, et par là même n'est pas adapté à votre compagni  ; il ne peut pas être aussi efficace et vous recevrez donc beaucoup plus de faux positifs.
Création d'une base de données anti-spam

Mis à part le courrier ham, le filtre Bayésien dépend aussi d'un fichier de données anti-spam. Ce fichier de données spam doit comprendre un grand échantillonnage de spam connus et doit être constamment mis à jour avec les derniers spams et logiciels anti-spam. Cela fait que le filtre Bayésien est toujours au courant des derniers tours de spam, offrant ainsi un meilleur taux de détection (remarque : cela est possible une fois la période initiale d'apprentissage de 2 semaines terminée).

Comment se déroule le filtrage même

Une fois les bases de données de ham et de spam créées, les probabilités de mots peuvent être calculées et le filtre est prêt à l'emploi.

Quand un nouveau courrier arrive, il est décomposé en mots et les mots les plus importants - c'est-à-dire, ceux qui sont les plus significatifs pour identifier si le courrier est spam ou pas - sont sélectionnés. A partir de ces mots, le filtre bayésien calcule la probabilité que le nouveau message soit retenu comme spam ou non. Si la probabilité est plus grande qu'un certain seuil, par exemple 0,9, alors le message est classé comme spam.

Cette approche bayésienne du spam est très efficace - un article de mai 2003 de la BBC a signalé que des taux de détection de spam de plus de 99,7% peuvent être réalisés avec un nombre très bas de faux positifs.


Table of ContentsPreviousNextIndex


   © 2009. All rights reserved. GFI Software Home Products Download Trials Support Ordering Site Map About Us Contact us
GFI solutions: exchange anti spam filter - exchange anti virus - isa server - network vulnerability scanner - event log management - usb security software - exchange archiving - fax server software