Et Ngram, der også almindeligvis hedder et N-gram, er en statistisk analyse af tekst eller taleindhold for at finde n (et tal) af en slags genstand i teksten.
Søgeelementet kan være alle mulige ting, som fonemer, præfikser, sætninger eller bogstaver. Selvom N-grammet er noget uklart udenfor forskningsmiljøet, bruges det på en række områder, og det har mange konsekvenser for udviklere, der kodes computerprogrammer, der forstår og reagerer på det naturlige talesprog.
I tilfældet med Google Books Ngram Viewer kommer teksten, der skal analyseres, fra den store mængde bøger, som Google har scannet ind fra offentlige biblioteker for at udfylde deres Google Bøger-søgemaskine. For Google Books Ngram Viewer henviser de til den tekst, du skal søge som corpus . Ngram Viewer aggregerer efter sprog, selvom du separat kan analysere britisk og amerikansk engelsk eller klump dem sammen.
Hvordan fungerer Ngram
-
Gå til Google Books Ngram Viewer på books.google.com/ngrams.
-
Indtast eventuelle sætninger eller sætninger, du ønsker at analysere. Adskil hver sætning med et komma. Google foreslår, "Albert Einstein, Sherlock Holmes, Frankenstein" for at komme i gang. Elementer er sagerfølsomme, i modsætning til Googles websøgninger.
-
Indtast et datointerval. Standard er 1800 til 2000.
-
Vælg et corpus. Du kan søge fremmedsprogstekster eller engelsk, og i tillæg til standardvalgene kan du bemærke ting som "Engelsk (2009) eller American English (2009)" nederst. Disse er ældre corpora, som Google siden har opdateret, men du har måske en eller anden grund til at sammenligne dine gamle datasæt. De fleste brugere kan ignorere dem og fokusere på de nyeste corpora.
-
Indstil dit udjævningsniveau. Udglatning refererer til, hvor glat grafen er i slutningen. Den mest præcise repræsentation ville være et udjævningsniveau på 0, men den indstilling kan være svært at læse. Standard er indstillet til 3. I de fleste tilfælde behøver du ikke justere det.
-
Tryk på Søg masser af bøger knap.
Google giver dig mulighed for at bore lidt ned med Ngram Viewer. Hvis du vil søge efter fisk, så er verben i stedet for at fiske substantivet, du kan gøre det ved at bruge tags. I dette tilfælde vil du søge efter "fish_VERB"
Google giver en komplet liste over kommandoer, du kan bruge, og anden avanceret dokumentation på deres hjemmeside.
Hvad er Ngram Viser?
Google Books Ngram Viewer udsender en graf, der repræsenterer brugen af en bestemt sætning i bøger gennem tiden. Hvis du har indtastet mere end et ord eller en sætning, vil du se farvekodede linjer for at kontrastere de forskellige søgeord. Dette svarer stort set til Google Trends, kun søgen dækker en længere periode.
Casestudie
Overvej case study af eddike tærter. De nævnes i Laura Ingalls Wilder's Lille Hus på Prairie serie. At udforske med Googles websøgning for at lære mere om eddike paier afslører, at de betragtes som en del af det amerikanske sydlige køkken og er virkelig lavet af eddike. De hører tilbage til tider, når ikke alle havde adgang til friske produkter på alle tidspunkter af året. Men er det hele historien?
Søg i Google Ngram Viewer for eddike pie og i løbet af 1940'erne møder man nogle omtale af tæren både i begyndelsen og slutningen af 1800'erne, og i stigende grad er nævnt i nyere tid. Men med et udjævningsniveau på 3 vil du se et plateau over nævningerne i 1800'erne. Fordi der ikke er mange bøger udgivet i løbet af den tid, og fordi vores data er indstillet til at glatte det, forvrider det billedet. Sandsynligvis var der en bog, der omtalte eddikepai, og det var lige i gennemsnit for at undgå en spike. Ved at sætte udjævningen til 0, kan vi se, at dette er nøjagtigt tilfældet. Spike centrerer i 1869, og der er en anden spike i 1897 og 1900.
Det er usandsynligt, at ingen talte om eddike tærter resten af tiden: Der var sandsynligvis opskrifter, der flydede overalt, men folk gjorde bare ikke skrive om dem i bøger, og det er en vigtig begrænsning af disse Ngram-søgninger.