Skip to main content

Data Mining Med K-Means Clustering

Genetic Engineering Will Change Everything Forever – CRISPR (Juni 2025)

Genetic Engineering Will Change Everything Forever – CRISPR (Juni 2025)
Anonim

Det k- betyder clustering algoritme er et data mining og maskin læringsværktøj bruges til at klynge observationer i grupper af relaterede observationer uden forudgående kendskab til disse relationer. Ved prøveudtagning forsøger algoritmen at vise i hvilken kategori eller klynge dataene tilhører, hvor antallet af klynger defineres af værdien k.

Det k- Middelalgoritmen er en af ​​de enkleste klyngeteknikker, og den bruges almindeligvis i medicinsk billeddannelse, biometri og relaterede felter. Fordelen ved k- betyder, at clustering er, at den fortæller om dine data (ved hjælp af den uovervågne form) snarere end at du skal instruere algoritmen om dataene ved starten (ved hjælp af den overordnede form for algoritmen).

Det omtales undertiden som Lloyds algoritme, især i datalogiske kredse, fordi standardalgoritmen først blev foreslået af Stuart Lloyd i 1957. Udtrykket "k-means" blev udarbejdet i 1967 af James McQueen.

Hvordan K-Means Algoritmen Fungerer

Det k- Middelalgoritmen er en evolutionær algoritme, der vinder sit navn fra dets driftsmåde. Algoritmen klynger observationer i k grupper, hvor k leveres som input parameter. Det tildeler derefter hver observation til klynger baseret på observationens nærhed til middelværdien af ​​klyngen. Klyngens gennemsnit er derefter rekomputeret, og processen begynder igen. Sådan fungerer algoritmen:

  1. Algoritmen vælger vilkårligt k peger som de oprindelige klyngecentre (midlerne).
  2. Hvert punkt i datasættet er tildelt den lukkede klynge, baseret på den euklidiske afstand mellem hvert punkt og hvert klyngecenter.
  3. Hvert klyngecenter genkomputeres som gennemsnittet af punkterne i den klynge.
  4. Trin 2 og 3 gentag, indtil klyngerne konvergerer. Konvergens kan defineres forskelligt afhængigt af implementeringen, men det betyder normalt, at enten ingen observationer ændrer klynger, når trin 2 og 3 gentages, eller at ændringerne ikke gør en væsentlig forskel i definitionen af ​​klyngerne.

Valg af antallet af klynger

En af de største ulemper for k- betyder, at clustering er det faktum, at du skal angive antallet af klynger som input til algoritmen. Som designet er algoritmen ikke i stand til at bestemme det passende antal klynger og afhænger af brugeren at identificere dette på forhånd.

Hvis du for eksempel havde en gruppe mennesker, der skal grupperes på baggrund af binær kønsidentitet som mand eller kvinde, skal du ringe til k- betyder algoritme ved hjælp af input k = 3 ville tvinge folket ind i tre klynger, når kun to eller et input af k = 2, ville give en mere naturlig pasform.

Tilsvarende, hvis en gruppe af enkeltpersoner nemt blev grupperet baseret på hjemland og du kaldte k- betyder algoritme med input k = 20, resultaterne kan være for generelle til at være effektive.

Af denne grund er det ofte en god ide at eksperimentere med forskellige værdier af k at identificere den værdi, der bedst passer til dine data. Du kan også ønske at udforske brugen af ​​andre data mining algoritmer i din søgen efter maskin-lært viden.