Klassifikasie in Data Mining

Klassifikasie is 'n data-ontginningstegniek wat kategorieë toewys aan 'n versameling data om te help met meer akkurate voorspellings en analise. Ook genoem word soms 'n Besluit Tree genoem , klassifikasie is een van verskeie metodes wat bedoel is om die analise van baie groot datastelle doeltreffend te maak.

Hoekom Klassifikasie?

Baie groot databasisse word die norm in vandag se wêreld van "groot data." Stel jou voor 'n databasis met verskeie terabyte data - 'n terabyte is een triljoen grepe data.

Facebook kraak elke 600 dae 600 terabyte nuwe data uit (vanaf 2014, die laaste keer dat dit hierdie spesifikasies gerapporteer het). Die primêre uitdaging van groot data is hoe om dit sin te maak.

En blote volume is nie die enigste probleem nie: groot data is ook geneig om uiteenlopend, ongestruktureerd en vinnig te verander. Oorweeg oudio- en video-data, sosiale media-plasings, 3D-data of geospatiale data. Hierdie soort data word nie maklik gekategoriseer of georganiseer nie.

Om hierdie uitdaging aan te spreek, is 'n verskeidenheid outomatiese metodes vir die onttrekking van nuttige inligting ontwikkel, onder andere klassifikasie .

Hoe klassifikasie werk

Met die gevaar om te ver in tegniek te beweeg, kom ons bespreek hoe klassifikasie werk. Die doel is om 'n stel klassifikasie reëls te skep wat 'n vraag sal beantwoord, 'n besluit sal neem of gedrag voorspel. Om te begin word 'n stel opleidingsdata ontwikkel wat 'n sekere stel eienskappe bevat asook die waarskynlike uitkoms.

Die taak van die klassifikasie algoritme is om te ontdek hoe daardie stel eienskappe sy gevolgtrekking bereik.

Scenario : Miskien probeer 'n kredietkaartmaatskappy watter vooruitsigte 'n kredietkaartaanbod moet ontvang.

Dit kan sy stel opleidingsdata wees:

Opleidingsdata
naam ouderdom geslag Jaarlikse inkomste Kredietkaartaanbod
John Doe 25 M $ 39.500 Geen
Jane Doe 56 F $ 125,000 Ja

Die "voorspeller" kolomme Ouderdom , Geslag en Jaarlikse Inkomste bepaal die waarde van die "Voorspeller Attribuut" Kredietkaart Aanbod . In 'n opleidingsstel is die voorspellerattribuut bekend. Die klassifikasie-algoritme probeer dan bepaal hoe die waarde van die voorspeller-kenmerk bereik is: watter verhoudings bestaan ​​tussen die voorspellers en die besluit? Dit sal 'n stel voorspellingsreëls ontwikkel, gewoonlik 'n IF / THEN stelling, byvoorbeeld:

IF (Ouderdom> 18 OF Ouderdom <75) EN Jaarlikse Inkomste> 40,000 DA Kredietkaart Aanbod = Ja

Dit is duidelik dat dit 'n eenvoudige voorbeeld is, en die algoritme sal 'n veel groter data-steekproef benodig as die twee rekords wat hier getoon word. Verder sal die voorspellingsreëls heelwat meer kompleks wees, insluitend subreëls om eienskapdetails te vang.

Vervolgens word die algoritme 'n "voorspellingsstel" gegee om te analiseer, maar hierdie stel ontbreek die voorspellingsattribuut (of besluit):

Voorspellingsdata
naam ouderdom geslag Jaarlikse inkomste Kredietkaartaanbod
Jack Frost 42 M $ 88.000
Mary Murray 16 F $ 0

Hierdie voorspellingsdata help om die akkuraatheid van die voorspellingsreëls te skat, en die reëls word dan aangepas totdat die ontwikkelaar die voorspellings doeltreffend en bruikbaar ag.

Dag tot dag voorbeelde van klassifikasie

Klassifikasie, en ander data-ontginningstegnieke, staan ​​agter baie van ons daaglikse ondervinding as verbruikers.

Weervoorspellings kan van klassifikasie gebruik maak om te rapporteer of die dag reënagtig, sonnig of bewolk sal wees. Die mediese beroep kan gesondheidstoestande analiseer om mediese uitkomste te voorspel. 'N Soort klassifikasiemetode, Naive Bayesian, gebruik voorwaardelike waarskynlikheid om spam-e-posse te kategoriseer. Van bedrogopsporing tot produkaanbiedings, elke dag word klassifikasie agter die skerms ontleed en data voorspel en voorspellings gemaak.