Filtro `Bayesiano' anti-spam di GFI MailEssentials
GFI MailEssentials utilizza una tecnologia di filtraggio di tipo Bayesiano per ottenere una forte percentuale di individuazione dello spam. La tecnologia di filtraggio di tipo Bayesiano è una tecnica auto-adattabile, basata su una `intelligenza artificiale' che risulta molto difficile da raggirare.
Come lavora il filtro Bayesiano anti-spam.
Il filtraggio Bayesiano è basato sul principio della dipendenza degli eventi, ossia sul fatto che molti eventi sono dipendenti tra loro e la probabilità che un evento avvenga in futuro è condizionata dall'evento accaduto in precedenza. (Maggiori informazioni sulla teoria matematica alla base del filtraggio Bayesiano sono disponibili alla pagina:
http://www-ccrma.stanford.edu/~jos/bayes/Bayesian_Parameter_Estimation.html
e http://www.niedermayer.ca/papers/bayesian/bayes.html .)
Questo stesso principio può essere utilizzato per classificare lo spam. Se alcune parti di testo compaiono spesso in messaggi di spam e non nella posta autorizzata, allora, se successivamente la stessa parte di testo è incontrata in una nuova e-mail, è ragionevole ritenere che per tale e-mail si tratti di spam.
Creazione di un database specifico per il filtro Bayesiano.
Prima che la posta possa essere filtrata con tale metodo, si deve generare un archivio storico per ogni parola o simbolo (ad esempio il simbolo $, gli indirizzi e i domini IP, e così via). Viene poi assegnato a ciascun simbolo o parola un valore di probabilità; tale valore viene calcolato tenendo conto di quanto spesso una parola compare nello spam e confrontandola con quante volte appare in un'e-mail legittima. Questo viene fatto analizzando la posta in uscita degli utenti e lo spam conosciuto: Tutte le parole e i simboli comuni ad entrambi vengono esaminati per generare la probabilità che una particolare parola sia spam.
Per esempio, se la parola "mutuo" è presente 400 volte su 3,000 e-mail di spam e 5 volte su 300 e-mail legittime, la probabilità di spam sarà la seguente:
(400/3000) / (5/300 + 400/3000) = 0.8889.
E' importante notare che quest'analisi è realizzata tenendo conto della posta elettronica dell'azienda, ed è pertanto fatta su misura per l'azienda. Per esempio, un'istituzione finanziaria può utilizzare la parola "mutuo" abbastanza spesso e quindi l'utilizzo di un set di regole anti-spam generali può comportare molti falsi positivi. Il filtro Bayesiano, d'altro canto, tiene nota della posta valida in uscita (riconosce che la parola "mutuo" è usata frequentemente in messaggi legittimi), e quindi offre una migliore percentuale di individuazione dello spam e una più bassa possibilità di avere falsi positivi.
Una volta calcolata la probabilità di una parola, il filtro è pronto per essere usato.
Si noti che il filtro Bayesiano non è statico - il filtro è costantemente aggiornato sul nuovo spam e sulle e-mail valide; le prestazioni del filtro Bayesiano miglioreranno nel tempo e - cosa fondamentale - si adatterà ai vari cambiamenti delle tattiche di spam e/o a modifiche del tipo di e-mail scritte dagli utenti all'interno dell'azienda.
Individuazione dello spam basata sul filtro Bayesiano
Quando arriva una nuova e-mail, questa viene scomposta in parole e le parole più rilevanti - ad esempio, quelle più significative per verificare se l'e-mail è spam oppure no - vengono scelte. Da queste parole il filtro Bayesiano calcola la probabilità che il nuovo messaggio possa essere o meno spam. Se la probabilità è maggiore di un certo valore di soglia, pari a 0.9, allora l'e-mail è classificata come spam.
Questa analisi dello spam basato sulla teoria di Bayes è estremamente efficace - in un articolo della BBC (Maggio 2003) si mette in evidenza che con tale approccio la percentuale di scoperta dello spam può arrivare al 99,7% e con un numero molto basso di falsi positivi.
Perchè nella scoperta dello spam il filtraggio Bayesiano è migliore della ricerca di parole chiavi
1. Il metodo Bayesiano considera l'intero messaggio - Riconosce le parole chiavi che identificano lo spam, ma riconosce anche le parole che contraddistinguono le e-mail valide. Per esempio: non tutte le e-mail che contengono le parole "free" e "guadagno" sono spam. Il vantaggio del metodo Bayesiano è che esso considera le parole più interessanti (come quelle ottenute da modifiche di altre) e fornisce la probabilità di spam del messaggio. Il filtro Bayesiano potrebbe ritenere le parole "free" e "guadagno" interessanti, ma è anche in grado di verificare se il mittente dell'e-mail è un cliente o un partner della vostra azienda e quindi classificare l'e-mail come legittima. In altre parole il filtro Bayesiano ha un approccio molto intelligente, questo perché esamina tutti gli aspetti di un messaggio, a differenza della ricerca di parole chiavi che classifica un e-mail come spam o no solo in base ad una singola parola.
2. Un filtro Bayesiano si adatta costantemente in modo autonomo - Venendo a conoscenza del nuovo spam e delle nuove e-mail in uscita valide, il filtro Bayesiano migliora e si adatta alle nuove tecniche spam. Per esempio, quando gli spammer hanno cominciato ad utilizzare la parola "f-r-e-e" anzicchè "free" sono stati in grado di superare il controllo basato su parole chiavi finchè anche la parola "f-r-e-e" è stata inserita nel database di parole chiavi. Il filtro Bayesiano invece, in modo automatico riconosce tale tecnica; infatti, se viene trovata la parola "f-r-e-e" questo è un chiaro indicatore di spam. Un altro esempio può essere l'utilizzo della parola "5ex" invece che "Sex".
3. La tecnica Bayesiana è attenta all'utente - Per avere successo e diffondere i propri messaggi, gli spammer devono inviare e-mail che non siano bloccate dai filtri personalizzati delle vittime. Poichè il metodo Bayesiano tiene in considerazione il profilo e-mail dell'azienda, è in grado di individuare lo spam con maggiore facilità: Gli spammer avranno bisogno di conoscere il profilo e-mail dell'azienda per poterlo raggirare. Fino a che le e-mail di spam hanno un proprio vocabolario e un proprio carattere, il filtro Bayesiano può facilmente individuarle; in ogni modo, non è semplice per gli spammer modificare la propria metodologia per poter entrare in possesso del profilo e-mail di un'azienda; dopo tutto, ci sono solo alcune parole per poter vendere il Viagra.
4. Il metodo Bayesiano è multilingue ed internazionale - Un filtro Bayesiano anti-spam, essendo adattabile, può essere usato per tutte le lingue richieste. Molte delle liste di paole chiavi sono disponibili soltanto in inglese pertanto non possono essere adeguatamente utilizzate nei paesi dove non si parla inglese. Il filtro Bayesiano è in grado di tenere presente le variazioni di linguaggio o il diverso utilizzo di alcune parole in differenti aree geografiche, anche se è parlata la stessa lingua. Questo tipo di intelligenza rende tale filtro molto più efficace nella ricerca dello spam.
5. Un filtro Bayesiano a differenza di un filtro basato su parole chiavi è molto difficile da aggirare - Un spammer avanzato che vuole superare un filtro Bayesiano può usare, solo poche parole `maligne' (ma tali parole normalmente indicano spam ad esempio, free, Viagra, etc.), oppure molte più parole che generalmente indicano e-mail valide (quali il nome di un contatto valido, etc.) Fare quest'ultima cosa è impossibile poichè lo spammer dovrebbe conoscere il profilo e-mail di tutti i destinatari - uno spammer non può mai sperare ti ottenere questo tipo di informazioni per tutti. Utilizzando parole neutre, per esempio la parola "pubblico", non funzionerebbe poichè queste parole sono ignorate nell'analisi finale. Modificando le parole spam (Utilizzando ad esempio "f-r-e-e'" invece che "free") incrementerà la possibilità che il messaggio sia spam, visto che un utente normale difficilmente scrive la parola "free" come "f-r-e-e".
IMPORTANTE: Non giudicate l'individuazione dello spam da parte GFI MailEssentials se non dopo che il filtro Bayesiano abbia funzionato per almeno una settima! GFI MailEssentials, comparato con le altre soluzioni anti-spam, è in grado di offrire la più alta percentuale d'individuazione dello spam perché si adatta in maniera specifica alla vostra posta. Siate pazienti ed aspettate almeno una settimana prima di giudicarlo!