Skip to main content

Anvendelsen af ​​klassificering i datautvinning

Zoll AED plus hjertestarter - Gennemgang af hjertestarteren - First-8.dk (Juni 2026)

Zoll AED plus hjertestarter - Gennemgang af hjertestarteren - First-8.dk (Juni 2026)
Anonim

Klassificering er en data mining teknik, der tildeler kategorier til en samling af data for at hjælpe med mere nøjagtige forudsigelser og analyser. Også kaldet nogle gange kaldet a Beslutningstræ , klassificering er en af ​​flere metoder, der skal gøre analysen af ​​meget store datasæt effektive.

Hvorfor klassificering?

Meget store databaser bliver normen i dagens verden af store data . Forestil dig en database med flere terabyte data - en terabyte er en billioner bytes data.

Facebook alene crunches 600 terabyte nye data hver eneste dag (fra 2014, den sidste gang det rapporterede disse specs). Den primære udfordring ved store data er, hvordan man giver mening.

Og rent volumen er ikke det eneste problem: store data har også en tendens til at være forskelligartet, ustruktureret og hurtigt skiftende. Overvej audio- og videodata, sociale medier, 3D-data eller geospatiale data. Denne slags data er ikke let kategoriseret eller organiseret.

For at imødegå denne udfordring er der udviklet en række automatiske metoder til udvinding af nyttig information, blandt dem klassifikation .

Hvordan klassificering virker

Lad os diskutere, hvordan klassificering fungerer, hvis vi risikerer at flytte for langt ind i teknologisk tale. Målet er at skabe et sæt klassificeringsregler, der svarer til et spørgsmål, træffer en beslutning eller forudsiger adfærd. For at starte er der udviklet et sæt træningsdata, der indeholder et bestemt sæt attributter samt det sandsynlige resultat.

Arbejdet med klassificeringsalgoritmen er at opdage, hvordan det sæt af attributter når sin konklusion.

Scenarie: Måske et kreditkortselskab forsøger at afgøre, hvilke udsigter der skal modtage et kreditkorttilbud.

Dette kan være sit sæt af træningsdata:

Træningsdata
NavnAlderKønÅrlige indkomstKreditkort tilbud
John Doe25M$39,500Ingen
Jane Doe56F$125,000Ja

Søjlerne "forudsigelser" Alder , Køn , og Årlige indkomst bestemme værdien af ​​"predictor attributten" Kreditkort tilbud . I et træningssæt er forudsigelsesattributten kendt. Klassificeringsalgoritmen forsøger derefter at bestemme, hvordan værdien af ​​forudsigelsesattributen blev nået: Hvilke forhold eksisterer mellem forudsigerne og beslutningen? Det vil udvikle et sæt forudsigelsesregler, som regel en IF / THEN erklæring, for eksempel:

IF (Alder> 18 ELLER Alder <75) OG Årlig Indkomst> 40.000 THEN Kreditkort Tilbud = Ja

Det er klart, at dette er et simpelt eksempel, og algoritmen ville have brug for en langt større dataudtagning end de to poster, der vises her. Desuden er forudsigelsesreglerne sandsynligvis langt mere komplekse, herunder underregler for at indfange attributdetaljer.

Derefter gives algoritmen et "forudsigelsessæt" for data til analyse, men dette sæt mangler forudsigelsesattributten (eller beslutningen):

Predictor Data
NavnAlderKønÅrlige indkomstKreditkort tilbud
Jack Frost42M$88,000
Mary Murray16F$0

Disse forudsigelsesdata hjælper med at estimere nøjagtigheden af ​​forudsigelsesreglerne, og reglerne tweakes derefter, indtil udvikleren finder forudsigelserne effektive og nyttige.

Dag til dag Eksempler på klassificering

Klassificering og andre data minedriftsteknikker er bag meget af vores daglige erfaring som forbrugere.

Vejrudsigter kan gøre brug af klassifikation for at rapportere om dagen bliver regnvejr, solskin eller overskyet. Lægeriet kan analysere sundhedsforholdene for at forudsige medicinske resultater. En type klassificeringsmetode, Naive Bayesian, bruger betinget sandsynlighed for at kategorisere spam-e-mails. Fra svindelopdagelse til produkttilbud er klassifikation bag scenen hver dag og analyserer data og producerer forudsigelser.