Skip to main content

Hvad er Bayesian Spam Filtrering?

Sawaar Loon Lootera Song With Lyrics | Ranveer Singh, Sonakshi Sinha (Kan 2025)

Sawaar Loon Lootera Song With Lyrics | Ranveer Singh, Sonakshi Sinha (Kan 2025)
Anonim

Bayesian spamfiltre beregner sandsynligheden for, at en besked er spam baseret på dens indhold. I modsætning til enkle indholdsbaserede filtre lærer Bayesian spamfiltrering fra spam og fra god mail, hvilket resulterer i en meget robust, tilpasset og effektiv anti-spam tilgang, der bedst af alt, returnerer næppe nogen falske positive.

Hvordan genkender du junk mail?

Tænk på, hvordan du registrerer spam. Et hurtigt blik er ofte nok. Du ved, hvad spam ser ud, og du ved, hvad god mail ligner.

Sandsynligheden for at spam ser ud som en god mail er omkring … nul.

Scoring indholdsbaserede filtre tilpasses ikke

Ville det ikke være godt, hvis automatiske spamfiltre fungerede sådan?

Scoring af indholdsbaserede spamfiltre, prøv bare det. De ser efter ord og andre karakteristika, der er typiske for spam. Hvert karakteristisk element er tildelt en score, og en spam score for hele meddelelsen beregnes fra de enkelte scoringer. Nogle scoringsfiltre søger også karakteristika for legitim mail, hvilket sænker en budgets slutresultat.

Scoring filtre tilgangen virker, men det har også flere ulemper:

  • Listen over karakteristika er opbygget af spam (og den gode mail), der er tilgængelig for filterets ingeniører. For at få en god forståelse for den typiske spam, som nogen måtte få, skal mail indsamles ved hundredvis af e-mail-adresser. Dette svækker filtreffektiviteten, især fordi Egenskaber ved god post vil være forskellige for hver person , men dette tages ikke i betragtning.
  • Karakteristika at kigge efter er mere eller mindre sat i sten . Hvis spammerne gør en indsats for at tilpasse (og få deres spam til at ligne en god mail til filtre), skal filtreringsegenskaberne tilpasses manuelt - en endnu større indsats.
  • Resultatet af hvert ord er sandsynligvis baseret på et godt skøn, men det er stadig vilkårligt. Og ligesom listen over egenskaber tilpasser den sig hverken til den ændrede verden af ​​spam generelt eller til en enkelt brugers behov.

Bayesian Spam Filtre Tweak sig selv, bliver bedre og bedre

Bayesian spam filtre er også en slags scoring indholdsbaserede filtre. Deres tilgang eliminerer dog problemerne med simple scoring-spamfiltre, og det gør det så radikalt. Da svagheden af ​​scoringsfiltre er i den manuelt opbyggede liste over karakteristika og deres score, er denne liste elimineret.

I stedet bygger Bayesian spam filtre selve listen. Ideelt set starter du med en (stor) masse e-mails, du har klassificeret som spam, og en anden masse god mail. Filtrene ser på både og analyserer den legitime mail samt spam for at beregne sandsynligheden for forskellige karakteristika, der forekommer i spam og i god mail.

Hvordan et Bayesian Spam filter undersøger en e-mail

De karakteristika, som et Bayesian spamfilter kan se på, kan være:

  • ordene i meddelelsens krop, selvfølgelig og
  • dets overskrifter (afsendere og meddelelsesstier, for eksempel!), men også
  • andre aspekter som HTML / CSS kode (som farver og anden formatering), eller endda
  • ordpar, sætninger og
  • meta information (hvor en bestemt sætning fremkommer, for eksempel).

Hvis et ord, f.eks. "Cartesian", f.eks. Aldrig vises i spam, men ofte i den legitime email, du modtager, er sandsynligheden for, at "kartesisk" angiver spam, næsten nul. "Toner" vises derimod udelukkende og ofte i spam. "Toner" har en meget høj sandsynlighed for at blive fundet i spam, ikke meget under 1 (100%).

Når en ny besked ankommer, analyseres den af ​​det bayesiske spamfilter, og sandsynligheden for, at den komplette besked er spam, beregnes ved hjælp af de enkelte egenskaber.

Antag en meddelelse indeholder både "Cartesian" og "toner". Ud fra disse ord er det endnu ikke klart, om vi har spam eller legit mail. Andre egenskaber vil (forhåbentlig og mest sandsynligt) angive en sandsynlighed, der gør det muligt for filteret at klassificere meddelelsen som enten spam eller god mail.

Bayesian Spam Filtre kan lære automatisk

Nu hvor vi har en klassificering, kan meddelelsen bruges til at træne filteret selv yderligere. I så fald sænkes sandsynligheden for "kartesian", der angiver god post (hvis meddelelsen indeholdende både "kartesian" og "toner" er fundet spam), eller sandsynligheden for "toner", der angiver spam, skal tages op til fornyet overvejelse.

Ved hjælp af denne auto-adaptive teknik kan Bayesian filtre lære af både deres egne og brugerens beslutninger (hvis hun manuelt retter en fejl ved filtrene). Tilpasningen af ​​Bayesian filtrering sikrer også, at de er mest effektive for den enkelte e-mail-bruger. Mens de fleste spam kan have lignende egenskaber, er den legitime mail karakteristisk anderledes for alle.

Hvordan kan spammere komme forbi bayesiske filtre?

Karakteristika for legitim mail er lige så vigtig for den bayesiske spamfiltreringsproces som spam. Hvis filtrene er uddannet specifikt til hver bruger, vil spammere have en endnu sværere tid omkring alle (eller endog de fleste) spamfiltre, og filtrene kan tilpasse sig næsten alt, hvad spammere prøver.

Spammere vil kun gøre det forbi veluddannede bayesiske filtre, hvis de får deres spambeskeder til at se helt ud som den almindelige email, alle kan få.

Spammere sender normalt ikke sådanne almindelige e-mails. Lad os antage, at dette skyldes, at disse e-mails ikke fungerer som junk email.Så chancerne er, at de ikke vil gøre det, når almindelige, kedelige e-mails er den eneste måde at gøre det forbi spamfiltre.

Hvis spammere skifter til mest almindeligt udbredte e-mails, vil vi dog se meget spam i vores indbakke igen, og e-mail kan blive så frustrerende som i pre-bayesiske dage (eller endnu værre). Det vil dog også ødelægge markedet for de fleste slags spam, og det vil således ikke vare længe.

Sterke indikatorer kan være en Bayesian Spam Filter's Achilles 'Heel

En undtagelse kan opfattes for spammere at arbejde deres vej gennem bayesiske filtre selv med deres sædvanlige indhold. Det er i den bayesiske statistiks natur, at et ord eller karakteristik, der meget ofte forekommer i god mail, være så signifikant, at en besked fra at se ud som spam bliver vurderet som skinke ved filteret.

Hvis spammere finder en vej til at bestemme dine ordre med god e-mail, ved at bruge HTML-kvitteringer for at se, hvilke meddelelser du har åbnet, for eksempel, kan de inkludere en af ​​dem i en uønsket mail og nå dig selv gennem en well- trænet bayesian filter.

John Graham-Cumming har forsøgt dette ved at lade to bayesiske filtre arbejde mod hinanden, den "dårlige" en tilpasning til, hvilke meddelelser der findes at komme igennem det "gode" filter. Han siger det virker, selvom processen er tidskrævende og kompleks. Vi tror ikke, vi vil se meget af dette, i det mindste ikke i stor skala, og ikke skræddersyet til enkeltpersoners e-mail-egenskaber. Spammere kan (forsøge at) finde ud af nogle søgeord til organisationer (noget som "Almaden" for nogle mennesker hos IBM måske?) I stedet.

Normalt vil spam altid være (signifikant) anderledes end almindelig post, eller det vil ikke være spam.

Bundlinjen: Bayesian filtrerings styrke kan være dens svaghed

Bayesian spam filtre erindholdsbaserede filtre at:

  • erSpecielt uddannet til at genkende den enkelte e-mail-brugerens spam og god mail, hvilket gør dem meget effektive og vanskelige at tilpasse sig til spammere.
  • kan løbende og uden stor indsats eller manuel analysetilpasse til spammers seneste tricks.
  • tage hensyn til den enkelte brugers gode post og har en megetlavt antal falske positiver.
  • Desværre, hvis dette forårsager blind tillid til Bayesian anti-spam filtre, gør det detlejlighedsvis fejl endnu mere alvorlig. Den modsatte virkning affalske negativer (spam, der ligner præcis som almindelig mail) har potentialet til at forstyrre og frustrere brugerne.