guidens.dk

4.4.2 Beregning af medianen

Medianen er værdien i midten af et datasæt, hvilket betyder, at 50 % af datapunkterne har en værdi, der er mindre eller lig med medianen, og 50 % af datapunkterne har en værdi, der er højere eller lig med medianen. For et lille datasæt tæller du først antallet af datapunkter (n) og arrangerer datapunkterne i stigende rækkefølge. Hvis antallet af datapunkter er ujævnt, tilføjer du 1 til antallet af point og dividerer resultaterne med 2 for at få rangeringen af det datapunkt, hvis værdi er medianen. Rangeringen er positionen for datapunktet, efter at datasættet er blevet arrangeret i stigende rækkefølge: den mindste værdi er rang 1, den næstmindste værdi er rang 2 osv.

Eksempel 1 – Mediantid i 200 meter for en topløbsatlet
Forestil dig, at en topløbsatlet i en typisk 200 meter træningssession løber i følgende tider: 26,1 sekunder, 25,6 sekunder, 25,7 sekunder, 25,2 sekunder, 25,0 sekunder, 27,8 sekunder og 24,1 sekunder. Hvordan ville du beregne hans mediantid?

Lad os starte med at arrangere værdierne i stigende rækkefølge:

Tabel 4.4.2.1
Rangering forbundet med hver værdi af 200-meters løbetider

Tabeloversigt
Denne tabel viser resultaterne af Rank forbundet med hver værdi af 200-meters løbetider. Oplysningerne er grupperet efter Rang (vises som rækkeoverskrifter), Tider (i sekunder) (vises som kolonneoverskrifter). Rangeringstider (i sekunder)
1 24,1
2 25,0
3 25,2
4 25,6
5 25,7
6 26,1
7 27,8

Der er n = 7 datapunkter, hvilket er et ulige tal. Medianen vil være værdien af datapunkterne i rang

(n + 1) ÷ 2 = (7 + 1) ÷ 2 = 4.

Mediantiden er 25,6 sekunder .

Hvis antallet af datapunkter er lige, vil medianen være gennemsnittet af datapunktet med rang n ÷ 2 og datapunktet med rang (n ÷ 2) + 1.

Eksempel 2 – Mediantid i 200 meter for en topløbende atlet (Del 2)
Antag nu, at atleten løber sit ottende 200 meter løb med en tid på 24,7 sekunder. Hvad er hans mediantid nu?

Tabel 4.4.2.2
Rangering forbundet med hver værdi af 200-meters løbetider, opdateret

Tabeloversigt
Denne tabel viser resultaterne af Rank forbundet med hver værdi af 200-meters køretider. Oplysningerne er grupperet efter Rang (vises som rækkeoverskrifter), Tider (i sekunder) (vises som kolonneoverskrifter). Rangeringstider (i sekunder)
1 24,1
2 24,7
3 25,0
4 25,2
5 25,6
6 25,7
7 26,1
8 27,8

Der er nu n = 8 datapunkter, et lige tal. Medianen er middelværdien mellem datapunktet for rang

n ÷ 2 = 8 ÷ 2 = 4 og datapunktet for rang

(n ÷ 2) + 1 = (8 ÷ 2) +1 = 5

Derfor er mediantiden (25,2 + 25,6) ÷ 2 = 25,4 sekunder.

For større datasæt kan den kumulative relative frekvensfordeling være nyttigt at identificere medianen. Medianen er den mindste værdi, for hvilken den kumulative relative frekvens er mindst 50 %. Men når det er muligt, er det bedst at bruge den grundlæggende statistiske funktion, der er tilgængelig i et regneark eller et statistisk softwareprogram, fordi resultaterne da vil være mere pålidelige.

Eksempel 3 – Medianstørrelsen af husstande for elever i klassen
Forestil dig, at du spørger de 30 elever i din klasse, hvor mange mennesker der er i deres husstande. Du opsummerer de data, du har indsamlet, i en frekvenstabel, hvor du inkluderer de relative frekvenser og de kumulative relative frekvenser.

Tabel 4.4.2.3
Frekvenstabel af elevernes husstandsstørrelser
Husstandsstørrelse Hyppighed (antal elever) Relativ frekvens (%) Kumulativ frekvens (antal elever) Kumulativ relativ frekvens (%)
2 3 10,0 3 10,0
3 4 13,3 7 23,3
4 10 33,3 17 56,7
5 4 13,3 21 70,0
6 2 6,7 23 76,7
7 3 10,0 26 86,7
3 86,7 9. 6,7 29 96,7
10 1 3,3 30 100,0

Du kan se, at 10 % af eleverne (3 elever) bor i en husstand på størrelse 2, 23 % af eleverne (7 elever) bor i en husstand på størrelse 3 eller derunder, og 57 % af eleverne (17 studerende) bor i en husstand på størrelse 4 eller derunder. Medianen vil være lig med 4, fordi det er den mindste værdi, for hvilken den kumulative relative frekvens er højere end 50 %. Dette er endnu mere indlysende, hvis du visualiserer den kumulative relative frekvens på et søjlediagram som på diagram 4.4.2.1. Den stiplede linje angiver den kumulative relative frekvens på 50 %.

Middelen er det samlede antal personer i elevernes husstande:
2 × 3 + 3 × 4 + 4 × 10 + 5 × 4 + 6 × 2 + 7 × 3 + 8 × 1 + 9 × 2 + 10 × 1 = 147
divideret med antallet af elever, som er 30. Resultatet er 147 ÷ 30 = 4,9 personer pr. husstand.

I dette eksempel er medianen (4) lavere end gennemsnittet (4,9).

Fordelen ved at bruge medianen i stedet for middelværdien er, at medianen er mere robust, hvilket betyder, at en ekstrem værdi tilføjet til en ekstremitet af fordelingen ikke har en indvirkning på medianen så stor som indvirkningen på middelværdien. Derfor er det vigtigt at tjekke, om datasættet indeholder ekstreme værdier, før man vælger et mål for central tendens. Dette vil blive illustreret af det næste eksempel.

Eksempel 4 – Medianstørrelsen af husstande for eleverne i klassen (Del 2)
En ny elev er for nylig kommet til din klasse . Du beslutter dig for at spørge ham, hvad størrelsen af hans husstand er for at opdatere dine resultater. Han svarer dig, at han bor i et stort flergenerationshus, der omfatter 18 personer!

Når den er opdateret, er gennemsnittet (147 + 18) ÷ 31 = 5,3 personer pr. husstand. Bare tilføjelse af en ny elev øgede gennemsnittet med 0,4 (5,3 – 4,9). Medianen er den samme efter opdateringen. Der er nu 7 ÷ 31 = 22,6 % af eleverne i en husstand på størrelse 3 eller derunder, og 17 ÷ 31 = 54,8 % af eleverne, der bor i en husstand på størrelse 4 eller mindre. Værdien 4 er stadig den mindste værdi med en kumulativ relativ frekvens på mindst 50 %.