Os filtros de spam bayesianos calculam a probabilidade de uma mensagem ser spam com base em seu conteúdo. Ao contrário dos filtros simples baseados em conteúdo, a filtragem de spam bayesiana aprende com spam e boas correspondências, resultando em uma abordagem anti-spam muito robusta, adaptativa e eficiente que, o melhor de tudo, retorna quase nenhum falso positivo.
Como você reconhece o lixo eletrônico?
Pense em como você detecta spam. Uma rápida olhada é freqüentemente suficiente. Você sabe como é o spam e sabe como é um bom e-mail.
A probabilidade de spam parecer um bom e-mail é de cerca de zero.
Pontuando filtros baseados em conteúdo não se adaptam
Não seria ótimo se filtros automáticos de spam funcionassem assim também?
A pontuação de filtros de spam baseados em conteúdo tenta exatamente isso. Eles procuram palavras e outras características típicas do spam. Cada elemento de característica recebe uma pontuação e uma pontuação de spam para toda a mensagem é calculada a partir das pontuações individuais. Alguns filtros de pontuação também procuram características de correspondência legítima, reduzindo a pontuação final de uma mensagem.
A abordagem de filtros de pontuação funciona, mas também tem várias desvantagens:
- A lista de características é construída a partir do spam (e do bom e-mail) disponível para os engenheiros do filtro. Para ter uma boa noção do spam típico que qualquer pessoa pode obter, o correio deve ser coletado em centenas de endereços de e-mail. Isso enfraquece a eficiência dos filtros, especialmente porque o as características do bom correio serão diferentes para cada pessoa , mas isso não é levado em conta.
- As características para procurar são mais ou menos gravada na pedra . Se os spammers se esforçarem para se adaptar (e fazer com que o spam pareça um bom e-mail para os filtros), as características de filtragem precisam ser ajustadas manualmente - um esforço ainda maior.
- A pontuação atribuída a cada palavra é provavelmente baseada em uma boa estimativa, mas ainda é arbitrária. E, assim como a lista de características, ela não se adapta nem ao mundo em transformação do spam em geral, nem às necessidades de um usuário individual.
Filtros de Spam Bayesianos Se Modificam, Melhorando e Melhorando
Os filtros de spam bayesianos também são um tipo de filtro de conteúdo baseado em conteúdo. Sua abordagem acaba com os problemas de simples filtros de spam, e isso acontece radicalmente. Como a fraqueza dos filtros de pontuação está na lista de características criadas manualmente e em suas pontuações, essa lista é eliminada.
Em vez disso, os filtros de spam bayesianos criam a lista por conta própria. Idealmente, você começa com um grupo grande de e-mails que você classificou como spam e outro monte de e-mails bons. Os filtros analisam e analisam o e-mail legítimo, bem como o spam, para calcular a probabilidade de várias características aparecerem no spam e em um bom e-mail.
Como um filtro de spam bayesiano examina um email
As características que um filtro de spam bayesiano pode observar podem ser:
- as palavras no corpo da mensagem, é claro, e
- seus cabeçalhos (remetentes e caminhos de mensagens, por exemplo!), mas também
- outros aspectos, como código HTML / CSS (como cores e outras formatações), ou mesmo
- pares de palavras, frases e
- meta informação (onde uma frase particular aparece, por exemplo).
Se uma palavra, "cartesiana", por exemplo, nunca aparece em spam, mas muitas vezes no e-mail legítimo que você recebe, a probabilidade de que "cartesiano" indique spam é quase zero. "Toner", por outro lado, aparece exclusivamente e muitas vezes em spam. "Toner" tem uma probabilidade muito alta de ser encontrado em spam, não muito abaixo de 1 (100%).
Quando uma nova mensagem chega, ela é analisada pelo filtro de spam bayesiano e a probabilidade de a mensagem completa ser spam é calculada usando as características individuais.
Suponha que uma mensagem contenha "Cartesiano" e "toner". A partir dessas palavras, ainda não está claro se temos spam ou mensagens legítimas. Outras características (esperançosamente e provavelmente) indicam uma probabilidade que permite ao filtro classificar a mensagem como spam ou boa correspondência.
Filtros Bayesianos de Spam Podem Aprender Automaticamente
Agora que temos uma classificação, a mensagem pode ser usada para treinar o filtro em si. Nesse caso, a probabilidade de "Cartesiano" indicando boa correspondência é reduzida (se a mensagem que contém tanto "Cartesiano" e "toner" for considerada spam) ou a probabilidade de "toner" indicar spam deve ser reconsiderada.
Usando esta técnica auto-adaptativa, os filtros bayesianos aprenda com as próprias decisões e com as do usuário (se ela corrige manualmente um erro de julgamento pelos filtros). A adaptabilidade da filtragem bayesiana também garante que sejam mais eficazes para o usuário individual de email. Embora o spam da maioria das pessoas possa ter características semelhantes, o e-mail legítimo é caracteristicamente diferente para todos.
Como os spammers podem superar os filtros bayesianos?
As características do correio legítimo são tão importantes para o processo de filtragem de spam bayesiano quanto o spam. Se os filtros forem treinados especificamente para cada usuário, os spammers terão ainda mais dificuldade em trabalhar com filtros de spam de todos (ou até mesmo da maioria das pessoas), e os filtros podem se adaptar a quase tudo que os spammers tentam.
Os spammers só passarão por filtros Bayesianos bem treinados se fizerem com que suas mensagens de spam pareçam perfeitamente com o e-mail comum que todos podem receber.
Spammers geralmente não enviam emails comuns. Vamos supor que isso acontece porque esses e-mails não funcionam como lixo eletrônico.Então, as chances são de que eles não farão isso quando e-mails comuns e chatos forem a única maneira de passar por filtros de spam.
No entanto, se os spammers mudarem para e-mails com aparência comum, veremos muito spam em nossas caixas de entrada novamente, e os e-mails podem se tornar tão frustrantes quanto em dias pré-bayesianos (ou até piores). Ele também terá arruinado o mercado para a maioria dos tipos de spam, e assim não durará muito tempo.
Indicadores fortes podem ser o calcanhar de Aquiles de um filtro de spam bayesiano
Uma exceção pode ser percebida para os spammers trabalharem através de filtros Bayesianos, mesmo com seu conteúdo usual. É da natureza das estatísticas Bayesianas que uma palavra ou característica que aparece com muita frequência em um bom e-mail pode ser tão significativa a ponto de fazer com que qualquer mensagem pareça spam, sendo classificada como prejudicial pelo filtro.
Se os remetentes de spam encontrarem uma maneira de determinar suas palavras corretas - usando recibos de retorno HTML para ver quais mensagens você abriu, por exemplo -, eles poderão incluir um deles em um lixo eletrônico e chegar até você por meio de um filtro Bayesiano treinado.
John Graham-Cumming tentou isso ao permitir que dois filtros bayesianos trabalhassem uns contra os outros, o que é "ruim", adaptando-se a quais mensagens são encontradas para passar pelo filtro "bom". Ele diz que funciona, embora o processo seja demorado e complexo. Não achamos que veremos muito disso acontecendo, pelo menos não em grande escala, e não adaptados às características de e-mail dos indivíduos. Spammers podem (tentar) descobrir algumas palavras-chave para organizações (algo como "Almaden" para algumas pessoas na IBM, talvez?) Em vez disso.
Normalmente, o spam sempre será (significativamente) diferente do correio normal ou não será spam.
A linha de fundo: a força da filtragem bayesiana pode ser sua fraqueza
Filtros de spam bayesianos sãofiltros baseados em conteúdo naquela:
- estáespecificamente treinado para reconhecer o spam e o bom e-mail de um usuário de e-mail individual, tornando-os altamente eficazes e difíceis de adaptar para os spammers.
- pode continuamente e sem muito esforço ou análise manualadaptar aos últimos truques dos spammers.
- levar em conta o bom correio do usuário individual e ter umbaixa taxa de falsos positivos.
- Infelizmente, se isso causar uma confiança cega nos filtros anti-spam Bayesianos, ele renderizaráerro ocasional ainda mais grave. O efeito oposto defalsos negativos (spam que se parece exatamente com o correio normal) tem o potencial de perturbar e frustrar os usuários.