Standardafvigelse

Fra Wikipedia, den frie encyklopædi
Gå til: navigation, søg

Standardafvigelsen eller spredningen bruges inden for sandsynlighedsregning og statistik og er et udtryk for, hvor meget en stokastisk variabel fordeler sig omkring sin middelværdi. Standardafvigelse er lig med kvadratroden af varians og er dermed mål for det samme. Derfor har standardafvigelse i modsætning til varians samme enhed som den stokastiske variabel og kan derfor være lettere at fortolke. Ligesom varians er standardafvigelse afhængig af skala, hvilket for eksempel betyder, at de samme størrelser i centimeter vil have 100 gange så stor standardafvigelse, end hvis de bliver målt i meter.

Definition[redigér | redigér wikikode]

Standardafvigelsen for en stokastisk variabel X benævnes σ (eller eventuelt \sigma_X hvis det skal gøres klart, hvilken stokastiske variabel der er tale om) og er defineret som:

\sigma = \sqrt{\mbox{E}[(X-\mbox {E}(X))^2}]

Her angiver E(X) middelværdien for X (det sande gennemsnit).

Standardafvigelsen er altså kvadratroden af middelværdien af kvadraterne på den enkelte observations afvigelse fra middelværdien. Det betyder, at én stor afvigelse har større indflydelse end mange små. Således vil 1 observation med afvigelse på 2 bidrage med en størrelsesorden af 4, hvor 2 observationer med en afvigelse på 1 samlet kun vil bidrage med en størrelsesorden af 2. Dette betyder igen, at blot en enkelt fejlobservation kan påvirke den estimerede standardafvigelsen meget – hvor det vil påvirke gennemsnittet i mindre grad.

Estimation af standardafvigelse[redigér | redigér wikikode]

Hvis middelværdien af en stokastisk variabel vides at være \mu kan den teoretiske standardafvigelse estimeres som kvadratroden af den empiriske varians:

\hat{\sigma} = \sqrt{\frac{1}{n} \sum_{i=1}^n (x_i - \mu)^2},

hvor xi for i = 1..n er observationerne. For en stikprøve med stokastisk variabel med ukendt middelværdi estimeres den teoretiske standardafvigelse normalt som:

 s = \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \overline{x})^2},

hvor \overline{x} er gennemsnittet af observationerne. Selvom s² er et centralt estimat for variansen, er s ikke et centralt estimat for standardafvigelsen[1]. Dette betyder, at der er en systematisk negativ afvigelse mellem den teoretiske standardafvigelse og stikprøvens standardafvigelse, hvis denne formel bruges. Forskellen bliver dog lille, når der er mange observationer og i praksis ses bort fra, at det ikke er et centralt estimat.

For et lille antal observationer (5 eller mindre), kan følgende formel bruges for at opnå et centralt estimat.

\hat{\sigma} = \frac{\mbox{max}(X) - \mbox{min}(X)}{d},

hvor \mbox{max}(X) - \mbox{min}(X) = R angiver variationsbredden for stikprøven. d er en konstant, som afhænger af hvor mange observationer, man har i stikprøven. Nedenstående tabel viser værdier af d for N = 2 ... 10 observationer.

n 2 3 4 5 6 7 8 9 10
d 1,128 1,693 2,059 2,326 2,534 2,704 2,847 2,970 3,078

Man skal være opmærksom på, at for større datasæt vil s være den bedste af de to estimater. Den alternative formel bruges mest indenfor industriel kvalitetskontrol i tilfælde, hvor det ikke er muligt at have en stor stikprøve.

Uestimation af standardafvigelsen kan lettes ved brug af formlen

\sum_{i=1}^n (x_i - \overline{x})^2=\sum_{i=1}^n x_i^2 - \frac{(\sum_{i=1}^nx_i)^2}{n},

hvilket betyder, at man kan summere data op løbende uden at beholde de enkelte observationer.

Tolkning af standardafvigelse for normalfordelte variable[redigér | redigér wikikode]

Normalfordelingen vist med procentvis fordeling af data: Det mørkeblå område ligger plus/minus én standardafvigelse væk fra middelværdien. Heri befinder sig 2 • 34% = 68% af dataene.

For en normalfordelt variabel er det let at tolke standardafvigelsen: 68% af datapunkterne vil være maksimalt én standardafvigelse væk fra gennemsnittet, 95% maksimalt to standardafvigelser og 99,7 maksimalt tre standardafvigelser. Da mange variable (ifølge den centrale grænseværdissætning) kan antages at være normalfordelte, kan dette bruges til de fleste målinger.

Tabellen viser, hvor mange data der vil ligge indenfor et interval af middelværdien plus/minus de givne spredninger.

σ 68,26894921371%
95,44997361036%
99,73002039367%
99,99366575163%
99,99994266969%
99,99999980268%
99,99999999974%

Referencer[redigér | redigér wikikode]

  1. Probability and Statistics for Engineers (2000) af Miller & Freund (Prentice Hall), ISBN 0-13-017974-4, 6. udgave, side 275