GFI
English Deutsch Français Italiano Nederlands Español
Table of ContentsPreviousNextIndex

Cómo trabaja el filtro spam Bayesiano

El filtrado Bayesiano se basa en el principio de que la mayoría de los sucesos están condicionados y que la probabilidad de que ocurra un suceso en el futuro puede ser deducido de las apariciones previas de ese suceso. (Más información sobre las bases matemáticas del filtrado Bayesiano está disponible en Bayesian Parameter Estimation y An Introduction to Bayesian Networks and their Contemporary Applications)

Esta misma técnica se puede utilizar para clasificar spam. Si algún patrón de texto se encuentra a menudo en el spam pero no en el correo legítimo, entonces sería razonable asumir que este correo es probablemente spam.

Creando un base de datos Bayesiana de palabras hecha a medida

Antes de que el correo pueda ser filtrado utilizando este método, el usuario necesita generar una base de datos con palabras y testigos (cómo el signo $, direcciones IP y dominios, etc), recogidos de un ejemplo de correo spam y de correo válido (referido como `ham').

Figura 1 - Crear una base de datos de palabras para el filtro

Se asigna entonces un valor de probabilidad para cada palabra o muestra; la probabilidad se basa en cálculos que tienen en cuenta cuán a menudo aparece la palabra en el spam frente al correo legítimo (ham). Esto se hace mediante el análisis del correo saliente de los usuarios y del correo spam conocido. Todas las palabras y muestras de ambos grupos son analizadas para generar la probabilidad de que una palabra concreta apunte que el correo sea spam.

Esta probabilidad de la palabra se calcula como sigue: Si la palabra "mortgage" aparece en 400 de 3.000 correos spam y en 5 de 300 correos legítimos, por ejemplo, entonces su probabilidad de ser spam sería 0,8889 (esto es, [400/3000] dividido por [5/300 + 400/3000]).

Crear la base de datos de ham (a la medida de su empresa)

Es importante observar que este análisis del correo legítimo se realiza sobre el correo de la empresa, y por lo tanto es a la medida de esa empresa. Por ejemplo, una institución financiera podría utilizar la palabra "mortgage" más veces y obtendría muchos falsos positivos si utiliza un juego de reglas anti-spam general. Por otro lado, el filtro Bayesiano, si está hecho a la medida de su empresa mediante un periódo inicial de aprendizaje, toma nota del correo saliente válido de la empresa (y reconoce "mortgage" como frecuentemente utilizada en mensajes legítimos), y por lo tanto tendrá mucho mejor ratio de detección de spam y mucho menor ratio de falsos positivos.

NOTA: Algunas aplicaciones anti-spam con capacidades Bayesianas muy básicas, como el filtro spam de Outlook o el Filtro de Mensajes de Internet de Exchange Server, no crean un archivo de datos del ham hecha a medida para su empresa, sino que incluye un archivo de datos ham estándar con la instalación. A pesar de que este método no requiere de un período de aprendizaje inicial, tiene dos defectos principales:

1. El archivo de datos ham está públicamente disponible y puede ser reventado por spammers profesionales y por lo tanto evitado. Si el archivo de datos ham es único para su empresa, entonces el hacking del archivo de datos es inútil. Por ejemplo, hay hacks disponibles para evitar el filtro spam de Microsoft Outlook 2003 o de Exchange Server. Para más información sobre esto, Microsoft Outlook 2003 Spam Filter: Under the hood.

2. El archivo de datos legítimos es general, y por lo tanto como no está hecho a la medida de su empresa, no puede ser efectivo y usted sufrirá de un sensiblemente superior número de positivos falsos.

Crear la base de datos de spam

Además del correo ham, el filtro Bayesiano también se apoya en un archivo de datos spam. Este archivo de datos spam debe incluir un gran ejemplo de spam conocido y debe ser constantemente actualizado por el software anti-spam con lo último en spam. Esto asegurará que el filtro Bayesiano sea consciente de los último trucos spam, resultando en un alto ratio de detección (NOTA: este se adquiere una vez se finaliza el período de aprendizaje inicial de dos semanas).

Cómo se hace el filtrado en sí

Una vez han sido creadas las bases de datos de ham y spam, las probabilidades de las palabras pueden ser calculadas y el filtro está listo para su uso.

Cuando llega un nuevo correo, se descompone en palabras y las más relevantes - es decir, aquellas que son más significativas para identificar si el correo es spam o no - son seleccionadas. De estas palabras, el filtro Bayesiano calcula la probabilidad de que el nuevo mensaje sea spam o no. Si la probabilidad es más grande que un umbral, digamos 0,9, entonces el mensaje se clasifica como spam.

Este acercamiento Bayesiano al spam es altamente efectivo - un artículo de la BBC de Mayo de 2003 informaba que los ratios de detección de spam de más de 99,7% pueden lograrse con un muy bajo número de falsos positivos.


Table of ContentsPreviousNextIndex


   © 2009. Todos los derechos reservados. GFI Software Home Productos Descargar Demos Soporte Pedidos Mapa del Sitio Sobre nosotros Contáctenos