GFI
English Deutsch Français Italiano Nederlands Español
Table of ContentsPreviousNextIndex

Modalità di funzionamento del filtro antispam bayesiano

Il filtraggio bayesiano si basa sul principio che la maggior parte degli eventi è interdipendente e la probabilità che un evento si verifichi in futuro può essere dedotta dal verificarsi di quello stesso evento in precedenza (ulteriori informazioni sulle basi matematiche del filtraggio bayesiano sono disponibili sui seguenti siti web (in inglese): Bayesian Parameter Estimation e An Introduction to Bayesian Networks and their Contemporary Applications).

Si può utilizzare questa stessa tecnica per classificare lo spam: in presenza di parti di testo presenti spesso in email di spam ma non in un'email legittima, è ragionevole presumere che tali email costituiscano probabilmente dello spam.

Creazione di un database di parole specifico per il filtro bayesiano

Prima di poter filtrare le email con questo metodo, l'utente deve generare un database di termini e simboli (quali il simbolo $, gli indirizzi e domini IP, ecc.) raccolti da campioni di email di spam e di email valide (denominate "ham").

Figura 1 - Creazione di un database di termini per il filtro

A ciascun termine o simbolo viene quindi assegnato un valore di probabilità. Tale valore è calcolato considerando la frequenza con cui un termine compare nello spam rispetto a quella di un'email legittima (ham). A tale scopo, si analizzano le email in uscita degli utenti e lo spam conosciuto: tutti i termini e i simboli comuni ad entrambi i gruppi di email vengono esaminati per generare la probabilità che un determinato termine permetta di definire l'email come spam.

La probabilità del termine si calcola come segue: se il termine "ipoteca", per esempio, è presente in 400 email di spam su 3.000 e in 5 email legittime su 300, il valore di probabilità dello spam sarà pari a 0,8889 (cioè, [400/3000] diviso per [5/300+400/3000]).

Creazione del database ham (adattato alle esigenze dell'azienda)

È importante notare che l'analisi delle email ham è eseguita sulla posta elettronica dell'azienda ed è pertanto adattata alle esigenze di quella specifica azienda. Per esempio, un istituto finanziario può utilizzare il termine "mutuo" abbastanza spesso e quindi, in questo caso, l'utilizzo di una serie di regole antispam generica potrebbe produrre molti falsi positivi. Del resto, il filtro bayesiano, se adattato all'azienda attraverso un periodo iniziale di addestramento, prende nota delle email valide in uscita dell'azienda (cioè, riconosce che la parola "mutuo" è usata spesso in messaggi legittimi) e quindi offre una migliore percentuale di individuazione dello spam e una più bassa probabilità di incorrere in falsi positivi.

NOTA: alcuni software antispam dotati di capacità bayesiane molto elementari, come il filtro antispam di Outlook o l'Internet Message Filter di Exchange Server, non creano un file di dati ham adattato alle esigenze dell'azienda, ma, nel pacchetto d'installazione includono un file di dati ham standard. Benché tale metodo non richieda un periodo iniziale di apprendimento, presenta 2 grossi difetti:

1. Il file di dati ham è disponibile pubblicamente e può quindi essere "piratato" ed evitato da spammer professionisti. Se il file di dati ham è esclusivo dell'azienda, allora piratare il file di dati ham risulta inutile. Ad esempio, esistono hacker disposti a superare il filtro antispam di Microsoft Outlook 2003 o il filtro antispam di Exchange Server. Per maggiori informazioni in proposito, leggere:Microsoft Outlook 2003 Spam Filter: Under the hood.

2. Il file di dati ham è generico; pertanto, non è adattato alle esigenze dell'azienda. Ne consegue che non può essere altrettanto efficace, conducendo così a una percentuale di falsi positivi sensibilmente più elevata.

Creazione del database di spam

Oltre che alle email ham (legittime), il filtro bayesiano si affida anche ad un file di dati spam. Questo file di dati spam deve contenere un ampio campione di spam noto e va costantemente aggiornato con lo spam più recente da parte del software antispam. In questo modo si assicura che il filtro bayesiano sia a conoscenza dei trucchi di spam più recenti, producendo un'elevata percentuale di individuazione dello spam (NOTA: tale livello si raggiunge al termine dell'iniziale periodo di apprendimento di due settimane richiesto).

Modalità di esecuzione effettive del filtraggio

Una volta creati i database ham e spam, è possibile calcolare i valori di probabilità dei termini e il filtro è quindi pronto per l'uso.

All'arrivo di una nuova email, la si scompone in parole e, tra queste ultime, si scelgono le più pertinenti, vale a dire, quelle più significative ai fini dell'identificazione o meno dell'email come spam. Dall'analisi di tali parole, il filtro bayesiano calcola la probabilità che il nuovo messaggio possa essere o no spam. Se il valore di probabilità è maggiore di un certo valore di soglia, per esempio 0,9, l'email è classificata come spam.

L'approccio bayesiano allo spam è estremamente efficace: in un articolo della BBC del Maggio 2003 si mette in evidenza che, con tale approccio, la percentuale d'individuazione dello spam può raggiungere oltre il 99,7% e con un numero molto basso di falsi positivi!


Table of ContentsPreviousNextIndex


   © 2008. Tutti i diritti riservati. GFI Software Home Prodotti Scarica Per Prova Supporto Ordinare Mappa del Sito Chi Siamo Contattaci