Regressie ontleed verhoudings tussen veranderlikes
Regressie is 'n data-ontginningstegniek wat gebruik word om 'n verskeidenheid numeriese waardes voor te stel (ook kontinue waardes genoem ), gegewe 'n spesifieke datastel. Byvoorbeeld, regressie kan gebruik word om die koste van 'n produk of diens te voorspel, gegewe ander veranderlikes.
Regressie word gebruik in verskeie nywerhede vir besigheids- en bemarkingsbeplanning, finansiële vooruitskatting, omgewingsmodellering en ontleding van tendense.
Regressie Vs. klassifikasie
Regressie en klassifikasie is data-ontginningstegnieke wat gebruik word om soortgelyke probleme op te los, maar hulle word dikwels verwar. Albei word in voorspellingsanalise gebruik, maar regressie word gebruik om 'n numeriese of deurlopende waarde te voorspel terwyl klassifikasie data in diskrete kategorieë toeken.
Byvoorbeeld, regressie sal gebruik word om 'n huis se waarde te voorspel gebaseer op sy ligging, vierkante voet, prys wanneer die laaste verkoop word, die prys van soortgelyke huise en ander faktore. Klassifikasie sal in orde wees as jy huise in kategorieë wil organiseer, soos loopbaarheid, grootmaat of misdaadkoerse.
Tipes regressietegnieke
Die eenvoudigste en oudste vorm van regressie is lineêre regressie wat gebruik word om 'n verhouding tussen twee veranderlikes te skat. Hierdie tegniek gebruik die wiskundige formule van 'n reguitlyn (y = mx + b). In eenvoudige terme beteken dit eenvoudig dat, gegewe 'n grafiek met 'n Y en 'n X-as, die verhouding tussen X en Y 'n reguit lyn is met min uitskieters. Byvoorbeeld, ons kan aanvaar dat, gegewe 'n toename in die bevolking, voedselproduksie teen dieselfde koers sal toeneem - dit vereis 'n sterk, lineêre verhouding tussen die twee syfers. Om dit te visualiseer, kyk na 'n grafiek waarin die Y-as spore populasie toeneem, en die X-as volg voedselproduksie. Namate die Y-waarde toeneem, sal die X-waarde teen dieselfde tempo toeneem, wat die verhouding tussen hulle 'n reguitlyn maak.
Gevorderde tegnieke, soos veelvuldige regressie, voorspel 'n verhouding tussen verskeie veranderlikes - byvoorbeeld, is daar 'n verband tussen inkomste, onderwys en waar een kies om te lewe? Die byvoeging van meer veranderlikes verhoog die kompleksiteit van die voorspelling aansienlik. Daar is verskeie soorte meervoudige regressietegnieke, insluitend standaard, hiërargies, setwise en stapsgewys, elk met sy eie toepassing.
Op hierdie stadium is dit belangrik om te verstaan wat ons voorspel (die afhanklike of voorspelde veranderlike) en die data wat ons gebruik om die voorspelling te maak (die onafhanklike of voorspeller veranderlikes). In ons voorbeeld wil ons die plek waar 'n mens kies om te leef (die voorspelde veranderlike) voorspel inkomste en opvoeding (beide voorspeller veranderlikes) voorspel .
- Standaard veelvoudige regressie beskou alle voorspeller veranderlikes gelyktydig. Byvoorbeeld 1) wat is die verhouding tussen inkomste en opvoeding (voorspellers) en keuse van omgewing (voorspel); en 2) tot watter mate dra elkeen van die individuele voorspellers by tot daardie verhouding?
- Stapsgewyse meervoudige regressie beantwoord 'n heel ander vraag. 'N Stapsgewyse regressie-algoritme sal ontleed watter voorspellers die beste gebruik word om die keuse van die omgewing te voorspel - wat beteken dat die stapsgewyse model die volgorde van belangrikheid van die voorspeller veranderlikes evalueer en dan 'n relevante subset kies. Hierdie tipe regressie probleem gebruik "stappe" om die regressievergelyking te ontwikkel. Gegewe hierdie tipe regressie, mag alle voorspellers nie eers in die finale regressievergelyking voorkom nie.
- Hiërargiese regressie , soos stapsgewys, is 'n opeenvolgende proses, maar die voorspeller veranderlikes word in die model ingevoer in 'n voorafbepaalde volgorde wat vooraf gedefinieer is, dws die algoritme bevat nie 'n ingeboude stel vergelykings om die volgorde te bepaal waarin voer die voorspellers in. Dit word die meeste gebruik wanneer die individu die regressievergelyking skep, kundige kennis van die veld het.
- Setwise regressie is ook soortgelyk aan stapsgewyse, maar ontleed stelle veranderlikes eerder as individuele veranderlikes.