1. UtdanningMatStatistikkStatistikk og histogrammer
Statistikk arbeidsbok for dummies med online praksis, 2. utgave

Av Deborah J. Rumsey

Et histogram er et søylediagram laget for kvantitative data. Fordi dataene er numeriske, deler du dem inn i grupper uten å etterlate noen mellomrom (slik at stolpene er koblet sammen). Y-aksen viser enten frekvenser (tellinger) eller relative frekvenser (prosent) av dataene som faller inn i hver gruppe.

Hvordan lage et histogram

For å lage et histogram, deler du først dataene dine i et rimelig antall grupper med lik lengde. Oppsummer antall verdier i datasettet som faller inn i hver gruppe (med andre ord, lag en frekvens tabell). Hvis et datapunkt faller på grensen, må du ta en beslutning om hvilken gruppe du vil sette det inn i, og sørg for at du holder deg konsekvent (legg den alltid i den høyeste av de to, eller legg den alltid i den nedre av de to). Lag et søylediagram ved å bruke gruppene og deres frekvenser - et frekvenshistogram.

Hvis du deler frekvensene med den totale prøvestørrelsen, får du prosentandelen som faller inn i hver gruppe. En tabell som viser gruppene og deres prosent er en relativ frekvenstabel. Det tilsvarende histogrammet er et relativt frekvenshistogram.

Du kan bruke Minitab eller en annen programvarepakke for å lage histogrammer, eller du kan lage histogrammer for hånd. Uansett kan ditt valg av intervallbredder (kalt kasser med datamaskinpakker) være forskjellig fra de som er vist på figurene, noe som er bra, så lenge din ser lik ut. Og de vil gjøre det, så lenge du ikke bruker et uvanlig lavt eller høyt antall søyler og stolpene dine har samme bredde.

Du kan også velge forskjellige start- / sluttpunkter for hvert intervall, og det er også bra. Bare sørg for å merke alt tydelig slik at instruktøren din kan se hva du prøver å gjøre. Og vær konsekvent om verdier som havner rett ved en grense; legg dem alltid i den nedre grupperingen, eller legg dem alltid i den øvre grupperingen. Hvis du har et valg, lager du imidlertid histogrammer ved å bruke en datamaskinpakke som Minitab. Det gjør oppgaven din mye enklere.

Se følgende for et eksempel på å lage de to typene histogrammer.

Testresultater for en klasse på 30 elever vises i tabellen nedenfor.

Frekvenshistogrammer og relative frekvenshistogrammer ser like ut; de er akkurat ferdige med forskjellige skalaer på Y-aksen.

Frekvenshistogrammet for skåringsdataene vises i figuren nedenfor.

frekvenshistogram

Du finner de relative frekvensene ved å ta hver frekvens og dele med 30 (den totale prøvestørrelsen). De relative frekvensene for disse tre gruppene er 8/30 = 0,27 eller 27%; 16/30 = 0,53 eller 53%; og 6/30 = henholdsvis 0,20 eller 20%.

Et histogram basert på relative frekvenser ser ut som histogrammet (av de samme dataene). Den eneste forskjellen er etiketten på Y-aksen.

Synliggjør histogrammer

Et histogram gir deg generell informasjon om tre hovedtrekk i dine kvantitative (numeriske) data: formen, sentrum og spredningen.

Formen på et histogram vises med det generelle mønsteret. Mange mønstre er mulige, og noen er vanlige, inkludert følgende:

  • Klokkeformet: Ser ut som en bjelle - en stor klump i midten og haler som går ned på hver side i omtrent samme takt. (Figur a) Rett skjevt: En stor del av dataene er satt av til venstre, med noen få større observasjoner som stikker av til høyre. (Figur b) Venstre skjevt: En stor del av dataene er satt til høyre, med noen få mindre observasjoner som stikker av til venstre. (Figur c) Uniform: Alle stolpene har en lignende høyde. (Figur d) Bimodal: To topper, eller (figur e) U-formet: Bimodal med de to toppene i lave og høye ender, med mindre data i midten. (Se figur 4-1 (figur f) Symmetrisk: Ser lik ut på hver side når du deler den ned på midten; bjelleformede, ensartede og U-formede histogrammer er alle eksempler på symmetriske data. (Figurene a, d og f)
vanlige histogrammønstre

Du kan se sentrum av et histogram på to måter. Det ene er punktet på x-aksen der grafen balanserer, og tar de faktiske verdiene på dataene i betraktning. Dette punktet kalles gjennomsnittet, og du kan finne det ved å finne balanseringspunktet (forestill deg at dataene er på et teeter-totter). Den andre måten å vise sentrum er å finne linjen i histogrammet der 50 prosent av dataene ligger på hver side. Linjen kalles median, og den representerer den fysiske midten av datasettet. Se for deg å kutte histogrammet i to, slik at halvparten av området ligger på hver side av linjen.

Spread refererer til avstanden mellom dataene, enten i forhold til hverandre eller i forhold til et sentralt punkt. En rå måte å måle spredning på er å finne rekkevidden, eller avstanden mellom den største verdien og den minste verdien. En annen måte er å se etter den gjennomsnittlige avstanden fra midten, ellers kjent som standardavviket. Det er vanskelig å finne standardavviket ved å bare se på et histogram, men du kan få en grov idé om du tar rekkevidden delt med 6. Hvis høydene på stolpene nær midten virker veldig høye, betyr det at de fleste av verdiene ligger nær gjennomsnittet, noe som indikerer et lite standardavvik. Hvis stolpene virker korte, kan det hende du har større standardavvik.

Du kan gjøre faktiske sammendragsstatistikker for å beregne de kvantitative dataene, men et histogram kan gi deg en generell retning for å finne disse milepælene. Og som kakediagrammer og stolpediagrammer, er ikke alle histogrammer rettferdige, komplette og nøyaktige. Du må vite hva du skal se etter for å evaluere dem.

Slik retter du ut skjeve data med histogrammer

Du må ta spesielle hensyn til skjevt datasett, med tanke på hvilken statistikk som er mest passende å bruke og når. Du bør også være klar over hvordan bruk av feil statistikk kan gi misvisende svar.

Du kan relatere middelverdien og medianen for å lære om dataformen din. Å ha middelverdien og medianen i nærheten av å være lik vil skape en form som er omtrent symmetrisk

Gjennomsnittet påvirkes av outliers i dataene, men medianen er det ikke. Hvis middelverdien og medianen er i nærheten av hverandre, er dataene ikke skjevt og inneholder sannsynligvis ikke utleggere på den ene eller den andre siden. Det betyr at dataene ser omtrent like ut på hver side av midten, som er definisjonen av symmetriske data (se a, d eller f i foregående figur).

At gjennomsnittet og medianen er nær, forteller deg at dataene er omtrent symmetriske, kan brukes i en annen type testspørsmål. Anta at noen spør deg om dataene er symmetriske, og at du ikke har et histogram, men du har middelverdien og medianen. Sammenlign de to verdiene for middelverdien og medianen, og hvis de er nærme, er dataene symmetriske. Hvis de ikke er det, er ikke dataene symmetriske.

Hvordan oppdage et misvisende histogram

Lesere kan bli villet av et histogram på måter som ikke er mulig med et søylediagram. Husk at et histogram omhandler numeriske data, ikke kategoriske data, noe som betyr at du må bestemme hvordan du vil at de numeriske dataene blir delt opp i grupper på den horisontale aksen. Og hvordan du bestemmer disse grupperingene kan få grafen til å se veldig annerledes ut. Se etter histogrammer som bruker skala for å villede lesere. Som med søylediagrammer, kan du overdrive forskjeller ved å bruke en mindre skala på den vertikale aksen til et histogram, og du kan bagatellisere forskjeller ved å bruke en større skala.