Wat jy moet weet oor Bayesian Spam Filtering

by Heinz Tschabitscher

Vind uit hoe statistieke help om jou inkassie skoon te hou

Bayesiese spamfilters bereken die waarskynlikheid dat 'n boodskap strooipos gebaseer is op die inhoud daarvan. In teenstelling met eenvoudige inhoudsgebaseerde filters leer Bayesiaanse spamfiltrering uit spam en uit goeie pos, wat lei tot 'n baie robuuste, aanpasbare en doeltreffende anti-spam-benadering wat die beste van almal nie vals positiewe opbrengste gee nie.

Hoe herken jy onskadelike e-pos?

Dink aan hoe jy strooipos opspoor. 'N Vinnige blik is dikwels genoeg. Jy weet hoe spam lyk, en jy weet hoe goeie pos lyk.

Die waarskynlikheid dat spam soos goeie pos lyk, is ongeveer ... nul.

Om inhoudgebaseerde filters te gradeer, moenie aanpas nie

Sou dit nie wonderlik wees as outomatiese spamfilters so gewerk het nie?

Om die inhoudsbasse spam filters te bepaal, probeer dit net. Hulle soek woorde en ander eienskappe wat tipies van spam is. Elke kenmerkende element word 'n telling toegeken, en 'n spam telling vir die hele boodskap word bereken uit die individuele tellings. Sommige scoring filters soek ook na eienskappe van legitieme pos, die verlaging van 'n boodskap se finale telling.

Die scoring filters benadering werk, maar dit het ook verskeie nadele:

Die lys eienskappe is gebou van die spam (en die goeie pos) wat beskikbaar is vir die ingenieurs van die filter. Om 'n goeie begrip te kry van die tipiese strooipos wat iemand mag kry, moet e-pos by honderde e-posadresse versamel word. Dit verswak die doeltreffendheid van die filters, veral omdat die eienskappe van goeie pos vir elke persoon anders sal wees , maar dit word nie in ag geneem nie.
Die eienskappe om te soek, is min of meer in klip . As die spammers die poging aangaan om aan te pas (en hul strooipos lyk soos 'n goeie pos aan die filters), moet die filter eienskappe handmatig aangepas word - 'n groter inspanning.
Die telling wat aan elke woord toegeken word, is waarskynlik gebaseer op 'n goeie skatting, maar dit is nog steeds arbitrêr. En soos die lys van eienskappe, pas dit nie aan by die veranderende wêreld van spam in die algemeen of op die behoeftes van 'n individuele gebruiker nie.

Bayesian Spam Filters Tweak Self, word beter en beter

Bayesiese spamfilters is ook 'n soort van inhoudsgebaseerde filters. Hul benadering wegdoen egter met die probleme van eenvoudige puntelysfilters, en dit doen dit radikaal. Aangesien die swakheid van die telling filters in die handgeskrewe lys van eienskappe en hul tellings is, word hierdie lys uitgeskakel.

In plaas daarvan bou Bayesian spam filters self die lys. Ideaal gesien begin jy met 'n (groot) klomp e-posse wat jy as strooipos geklassifiseer het, en nog 'n klomp goeie pos. Die filters kyk na beide en analiseer die wettige epos sowel as die strooipos om die waarskynlikheid van verskeie eienskappe wat in strooipos voorkom, en in goeie pos te bereken.

Hoe 'n Bayesian Spam Filter ondersoek 'n e-pos

Die eienskappe wat 'n Bayesiese spamfilter kan kyk, kan wees:

die woorde in die liggaam van die boodskap, natuurlik, en
sy opskrifte (senders en boodskap paaie , byvoorbeeld!), maar ook
ander aspekte soos HTML / CSS kode (soos kleure en ander formatering), of selfs
woordpare, frases en
Meta-inligting (waar 'n bepaalde frase byvoorbeeld voorkom).

As 'n woord, byvoorbeeld "Cartesian", nooit in strooipos voorkom nie, maar dikwels in die wettige e-pos wat jy ontvang, is die waarskynlikheid dat "Cartesian" spam dui op nul. "Toner", daarenteen, verskyn uitsluitlik, en dikwels, in strooipos. "Toner" het 'n baie hoë waarskynlikheid om in spam aangetref te word, nie veel minder as 1 (100%) nie.

Wanneer 'n nuwe boodskap arriveer, word dit geanaliseer deur die Bayesiese spamfilter, en die waarskynlikheid dat die volledige boodskap spam is, word bereken volgens die individuele eienskappe.

Gestel 'n boodskap bevat beide "Cartesian" en "toner". Uit hierdie woorde alleen is dit nog nie duidelik of ons spam of legitiese pos het nie. Ander eienskappe sal (hopelik en waarskynlik) 'n waarskynlikheid aandui wat die filter toelaat om die boodskap te klassifiseer as spam of goeie pos.

Bayesian Spam Filters kan outomaties leer

Noudat ons 'n klassifikasie het, kan die boodskap gebruik word om die filter self verder op te lei. In hierdie geval word óf die waarskynlikheid van "Cartesian" wat goeie posse aandui, verlaag (as die boodskap wat beide "Cartesian" en "toner" bevat, as spam voorkom), of die waarskynlikheid van 'n toner wat spam aandui, moet heroorweeg word.

Met behulp van hierdie outo-adaptiewe tegniek kan Bayesiaanse filters leer uit sowel hul eie as die gebruiker se besluite (as hulle die foute met die hand regstel). Die aanpasbaarheid van Bayesian filtering verseker ook dat dit die mees doeltreffende vir die individuele e-pos gebruiker is. Terwyl die meeste mense se strooipos dalk soortgelyke eienskappe het, is die wettige pos kenmerkend vir almal anders.

Hoe kan spammers verby Bayesian filters?

Die eienskappe van wettige pos is net so belangrik vir die Bayesian spam filter proses as die spam is. As die filters spesifiek vir elke gebruiker opgelei word, sal spammers 'n selfs moeiliker tyd hê om almal se spamfilters (of selfs die meeste mense) te verwerk, en die filters kan aanpas by byna alles wat spammers probeer.

Spammers sal dit net goed opgeleide Bayesian filters maak as hulle hul strooiboodskappe perfek lyk soos die gewone e-pos wat almal kan kry.

Spammers stuur gewoonlik nie sulke gewone e-posse nie. Kom ons aanvaar dit is omdat hierdie e-posse nie as junk-e-pos werk nie. So, die kanse is dat hulle dit nie sal doen as gewone, vervelige e-posse die enigste manier is om dit verby spamfilters te maak nie.

As spammers egter oorskakel na meestal gewone e-posse, sal ons weer baie spam in ons inkassies sien, en e-pos kan so frustrerend word soos in die voor-Bayesiese dae (of selfs erger). Dit sal ook die mark vir die meeste soorte spam gemors het, en dus sal dit nie lank duur nie.

Sterk aanwysers kan 'n Bayesiese Spam Filter se Achilles wees. heel

'N uitsondering kan gesien word vir spammers om hul weg deur Bayesian filters te werk, selfs met hul gewone inhoud. Dit is in die aard van Bayesiaanse statistieke dat een woord of kenmerk wat baie dikwels in goeie pos voorkom, so beduidend wees dat 'n boodskap van die lyk van strooipos word om as 'n ham by die filter beskou te word.

As spammers 'n manier vind om jou goeie-pos-goedwoord-woorde te bepaal - deur gebruik te maak van HTML-kwitansies om te sien watter boodskappe jy geopen het, byvoorbeeld - kan hulle een van hulle in 'n gemorspos insluit en bereik jy selfs deur 'n goed- opgeleide Bayesian filter.

John Graham-Cumming het dit probeer deur twee Bayesiaanse filters te laat werk, die "slegte" een wat aanpas by watter boodskappe deur die "goeie" filter gevind word. Hy sê dit werk, alhoewel die proses tydrowend en kompleks is. Ons dink nie ons sal baie van hierdie gebeure sien nie, ten minste nie op groot skaal nie en nie op e-posseienskappe van individue aangepas nie. Spammers kan (of probeer) sommige sleutelwoorde vir organisasies (soos "Almaden" vir sommige mense by IBM dalk?) In plaas daarvan uitvind.

Gewoonlik sal spam altyd (beduidend) verskil van gewone pos of dit sal nie spam wees nie.

Die onderste lyn: Bayesian Filtering se sterkte kan sy swakheid wees

Bayesian spam filters is inhoud gebaseerde filters wat:

is spesifiek opgelei om die individuele e-pos gebruiker se strooipos en goeie pos te herken , wat hulle baie effektief en moeilik maak om aan te pas by spammers.
kan voortdurend en sonder veel moeite of handleiding analise aanpas by die spammers se nuutste truuks.
neem die individuele gebruiker se goeie pos in ag en het 'n baie lae persentasie vals positiewe .
Ongelukkig, as dit blinde vertroue in Bayesiaanse anti-spam filters veroorsaak, maak dit die geleentheid foute selfs ernstiger . Die teenoorgestelde effek van vals negatiewe (spam wat lyk presies soos gewone pos) het die potensiaal om gebruikers te versteur en frustreer.