Data-ontginning met die k-beteken algoritme
Die k- beteken clustering-algoritme is 'n data-ontginnings- en masjienleerinstrument wat gebruik word om waarnemings te groepeer in groepe verwante waarnemings sonder enige voorafkennis van daardie verhoudings. Deur monsterneming poog die algoritme om te wys in watter kategorie of groep die data behoort, met die aantal clusters wat deur die waarde k gedefinieer word .
Die k- middel algoritme is een van die eenvoudigste clusteringstegnieke en word algemeen in mediese beeldvorming, biometrie en verwante velde gebruik. Die voordeel van k- beteken clustering is dat dit vertel van jou data (met behulp van sy onopgedateerde vorm) eerder as om die algoritme oor die data aan die begin te onderrig (met behulp van die toesigvorm van die algoritme).
Dit word soms na verwys as Lloyd's Algoritme, veral in rekenaarwetenskap kringe, omdat die standaard algoritme eers in 1957 deur Stuart Lloyd voorgestel is. Die term "k-means" is in 1967 deur James McQueen geskep.
Hoe die k-beteken algoritme funksies
Die k- middel algoritme is 'n evolusionêre algoritme wat sy naam verkry uit sy werkswyse. Die algoritme groepeer waarnemings in k- groepe, waar k as insetparameter voorsien word. Dit gee dan elke waarneming aan clusters aan die hand van die waarneming se nabyheid aan die middel van die groep. Die groep se gemiddelde word dan herbereken en die proses begin weer. Hier is hoe die algoritme werk:
- Die algoritme kies arbitrêr k- punte as die aanvanklike groeperingsentrums (die middel).
- Elke punt in die datastel word toegeken aan die geslote groepering, gebaseer op die Euklidiese afstand tussen elke punt en elke groeperingsentrum.
- Elke groeperingsentrum word herbereken as die gemiddelde van die punte in die groep.
- Stappe 2 en 3 herhaal totdat die groepe konvergeer. Konvergensie kan verskillend gedefinieer word afhangende van die implementering, maar dit beteken normaalweg dat geen waarnemings klusters verander wanneer stappe 2 en 3 herhaal word nie, of dat die veranderinge nie 'n wesenlike verskil in die definisie van die groepe maak nie.
Die aantal klusters kies
Een van die vernaamste nadele vir k- beteken clustering is die feit dat jy die aantal klusters as 'n inset vir die algoritme moet spesifiseer. Soos ontwerp, is die algoritme nie in staat om die toepaslike aantal klusters te bepaal nie en hang dit af van die gebruiker om dit vooraf te identifiseer.
As jy byvoorbeeld 'n groep mense gehad het wat geklust moet word, gebaseer op binêre geslagsidentiteit as man of vrou, dan sal die k- beteken algoritme met die insette k = 3 die mense in drie groepe dwing as slegs twee of 'n inset van k = 2, sal 'n meer natuurlike pas gee.
Net so, as 'n groep individue maklik gegroepeer is gebaseer op huistoestand en jy die k- middel algoritme met die inset k = 20 genoem het, kan die resultate te algemene wees om effektief te wees.
Om hierdie rede is dit dikwels 'n goeie idee om met verskillende waardes van k te eksperimenteer om die waarde wat die beste by jou data pas, te identifiseer. U kan ook die gebruik van ander data-ontginningsalgoritmes ondersoek in u soeke na masjienleer kennis.