Regressionsanalyse

Fra Wikipedia, den frie encyklopædi
Gå til: navigation, søg

Regressionsanalyse er en gren af statistikken, der undersøger sammenhængen mellem en afhængig variabel (også kaldet responsvariabel eller endogen variabel) og andre specificerede uafhængige variable (også kaldet baggrundsvariable eller eksogene variable). Man forsøger altså at opstille en matematisk sammenhæng mellem en række observerede størrelser ved at tage højde for den statistiske usikkerhed. Når modellen er fastlagt, kan man benytte den til at forudsige værdien af den afhængige variabel ud fra andre værdier af baggrundsvariablene, og desuden kan modellen i sig selv give indsigt i de dybereliggende faktorer bag variablenes sammenhæng.

Den matematiske model af variablernes sammenhæng kaldes regressionsligningen. Den afhængige variabel modelleres som en stokastisk variabel på grund af den indbyggede usikkerhed angående dens værdi, givet værdierne af de andre uafhængige variable. En regressionsligning indeholder estimater (dvs. skøn) af en eller flere regressionsparametre ("konstanter"), som kvantitativt forbinder den afhængige og de uafhængige variable. Parametrene estimeres fra det givne datasæt.

Brug af regressionsanalyse inkluderer forudsigelser, modellering af årsagsbestemte forhold samt test af videnskabelige hypoteser om sammenhæng mellem variable.

Historie[redigér | redigér wikikode]

Udtrykket "regression" blev brugt i det 19. århundrede til at beskrive biologiske fænomener, nemlig at børn af exceptionelle individer har en tendens til i gennemsnit at være mindre exceptionelle end deres forældre og mere som deres fjerne forfædre. Francis Galton studerede dette fænomen og overførte det lidt misvisende udtryk "regression mod middelmådighed" til det. For Galton havde regression kun denne biologiske betydning, men hans værk[1] blev senere udvidet af Udny Yule og Karl Pearson til en mere generel statistisk kontekst.[2]

Simpel lineær regression[redigér | redigér wikikode]

Lineær regressionsanalyse går ud på at finde ligningen for den rette linje, der passer bedst til givne målepunkter

Lineær regressionsanalyse bygger på den antagelse, at sammenhængen mellem de variable der kan beskrives lineært. Det betyder, at grafen for regressionsligningen vil være en ret linje, hvis der kun er én baggrundsvariabel, eller en hyperplan, hvis der er flere baggrundsvariable.

I det mest simple tilfælde er der kun én baggrundsvariabel. Lad x_1,\ldots,x_n betegne de n observerede værdier af den uafhængige variabel (forklaringsvariablen) og lad y_1,\ldots,y_n betegne de tilsvarende værdier for responsvariablen (den afhængige variabel). Den generelle form for en simpel lineær regression er da

y_i=\nu +\beta x_i +\varepsilon_i

hvor \nu er den lodrette skæring med andenaksen, \beta er regressionslinjens hældning og \varepsilon er fejlleddet, som dækker over den statistiske usikkerhed. Fejlleddet antages sædvanligvis at være normalfordelt. Altså er x og y kendte størrelser, og \nu og \beta er de ukendte parametre, der skal estimeres ud fra dataene. Parameterestimaterne kan udledes af mindste kvadraters metode, og de benævnes normalt henholdsvis \hat{\nu} og \hat{\beta} eller deres tilsvarende romerske bogstaver. Man kan vise, at estimaterne ved mindste kvadraters metode er givet ved

\hat{\beta}=\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n(x_i-\bar{x})^2}     og     \hat{\nu}=\bar{y}-\hat{\beta}\bar{x}

hvor \bar{y} er gennemsnittet af y-værdierne og \bar{x} er gennemsnittet af x-værdierne.

Når regressionslinjens ligning er bestemt, kan man indsætte en værdi på t's plads og derved finde den x-værdi, som modellen forudsiger hører til. Det er desuden muligt at udregne sædvanlige statistiske størrelser for dette skøn, blandt andet standardafvigelse og konfidensintervaller. Den fundne linje vil være sikrest bestemt omkring \bar{t}, mens skøn over meget store eller meget små værdier af baggrundsvariablen vil resultere i stor varians for estimatet.

Generalisering af den simple model[redigér | redigér wikikode]

Den simple model ovenfor kan generaliseres på forskellige måder.

  • Antallet af baggrundsvariable kan øges fra én til adskillige.
  • Sammenhængen mellem baggrundsvariablene og responsvariablen kan være ikkelineær. I visse tilfælde kan sammenhængen dog "oversættes" til en lineær model. Hvis man fx har som hypotese, at sammenhængen er eksponentiel, kan man tage den naturlige logaritme af responsvariablen, hvorved regressionsligningen for de nye variable bliver lineær.
  • Responsvariablen kan være diskontinuert. Der findes forskellige modeller til dette tilfælde, afhængig af responsvariablens natur, fx hvis den er binær.
  • Formen af regressionsligningens højreside kan eventuelt bestemmes ud fra dataene (se ikkeparametrisk regression). Denne tilgang kræver et stort antal observationer, eftersom datene både benyttes til at bygge modelstrukturen og estimere parametrene. Det er sædvanligvis en meget tung metode rent beregningsmæssigt.

Regressionsvaliditet[redigér | redigér wikikode]

Når en regressionsmodel er blevet konstrueret, er det vigtigt at bekræfte modellens validitet (dvs. hvor godt den passer med observationerne og antagelserne) samt signifikansen af de estimerede parametre (dvs. om de enkelte parametre kan antages at have en anden given værdi – typisk 0). Almindeligt brugte test for modeltilpasningen omfatter blandt andet , analyser af residualernes mønster samt konstruktion af ANOVA-tabellen. Statistisk signifikans tjekkes ved et F-test af den overordnede tilpasning, efterfulgt af t-test af de individuelle parametre.

Estimation af parametre[redigér | redigér wikikode]

Regressionsmodellens parametre kan estimeres på mange måder. De mest almindelige er

For en model med normalfordelte fejl giver mindste kvadraters metode og likelihood-metoden de samme resultater (se Gauss-Markov-sætningen).

Interpolation og ekstrapolation[redigér | redigér wikikode]

Regressionsmodeller forudsiger en værdi for x-variablen givet nogle kendte værdier af t-variablene. Hvis forudsigelserne skal udføres inden for det område, som t-variablene ligger i, kaldes det interpolation. Forudsigelser uden for dataenes rækkevidde kaldes ekstrapolation og er mere risikable.

Hvis man eksempelvis har data for en persons højde målt hver anden måned, vil det at udregne den estimerede højde for hver måned ud fra modellen være interpolation. Hvis man bruger modellen til at udregne højden nogle måneder frem i tiden, er der tale om ekstrapolation.

Underliggende antagelser[redigér | redigér wikikode]

Regressionsanalyse afhænger af visse antagelser:

  1. Baggrundsvariablene skal være lineært uafhængige, dvs. det må ikke være muligt at udtrykke en af baggrundsvariablene som en lineær kombination af de andre.
  2. Målingerne skal være uafhængige af hinanden.
  3. Fejlleddet skal være normalfordelt og uafhængigt af målingerne (normalfordelingsantagelsen kan omgås i andre modeller).
  4. Fejlleddets varians skal være ens for alle målingerne.

Brug af regressionsanalyse[redigér | redigér wikikode]

Regressionsanalyse spiller en store rolle inden for mange videnskabelige områder.

  • I fysik kan man eksempelvis benytte teknikken til at efterprøve teorier fra statistisk mekanik. Ud over at tjene som forudsigelsesværktøj, kan regressionsanalyse i fysik også være med til at opklare de bagvedliggende faktorer, som skaber den observerede sammenhæng. Fx blev eksistensen af det absolutte nulpunkt essentielt set opdaget ved en form for regressionsanalyse.
  • Inden for økonomi spiller regressionsanalyse en vigtig rolle i faget økonometri, hvor man opstiller statistiske modeller ud fra et økonomisk datamateriale.
  • Inden for Sociologi bruges regressionsanalyse i analyser af blandet andet social arv.
  • Biologer benytter fx regressionsanalyse til at konstruere modeller for populationers vækst.

Regressionsanalyse bliver også benyttet i mere eksotiske sammenhænge. Mange analytikere har benyttet sig af regressioner til at undersøge datamateriale i form af baseballstatistikker for at påvise forhold mellem forskellige aspekter af sporten. Eksempelvis er baseballanalysefirmaet Baseball Prospectus ved hjælp af regressionsanalyse kommet frem til, at de eneste forudsigeligt vigtige elementer, som et baseballhold skal besidde for at have succes i baseballslutspillet, er en god closer, en god defensiv samt pitchers, der kaster mange strikeouts.[3]

Software[redigér | redigér wikikode]

Se også[redigér | redigér wikikode]

Noter[redigér | redigér wikikode]

  1. Francis Galton. Typical laws of heredity, Nature 15 (1877), 492-495, 512-514, 532-533. (Galton bruger udtrykket "reversion" i denne afhandling, som diskuterer ærters størrelse.); Francis Galton. Presidential address, Section H, Anthropology. (1885) (Galton bruger udtrykket "regression" i denne afhandling, som diskuterer menneskers højde.)
  2. G. Udny Yule. On the Theory of Correlation, J. Royal Statist. Soc., 1897, s. 812-54; Karl Pearson, G. U. Yule, Norman Blanchard og Alice Lee. The Law of Ancestral Heredity, Biometrika (1903). I Yules og Pearsons arbejde bliver den simultane fordeling af respons- og baggrundsvariablene antaget at være en normalfordeling. Denne antagelse blev svækket af R.A. Fisher i hans værker fra 1922 og 1925 (R.A. Fisher, The goodness of fit of regression formulae, and the distribution of regression coefficients, J. Royal Statist. Soc., 85, 597-612 fra 1922 og Statistical Methods for Research Workers fra 1925). Fisher antog, at den betingede fordeling af responsvariablen var en normalfordeling, men den simultane fordeling behøvede det ikke. I denne henseende er Fishers antagelse tættere på Gauss' formulering fra 1821.
  3. Baseball Prospectus (2006). Jonah Keri. ed. Baseball Between the Numbers. pp. 352-368. ISBN 0-465-00596-9. 

Litteraturhenvisninger[redigér | redigér wikikode]

  • Audi, R., Ed. (1996). Curve fitting problem, The Cambridge Dictionary of Philosophy. Cambridge, Cambridge University Press. s. 172-173.
  • William H. Kruskal og Judith M. Tanur, ed. (1978). Linear Hypotheses, International Encyclopedia of Statistics. Free Press, v. 1,
Evan J. Williams, "I. Regression," s. 523-41.
Julian C. Stanley, "II. Analysis of Variance," s. 541-554.
  • Lindley, D.V. (1987). Regression and correlation analysis, New Palgrave: A Dictionary of Economics, v. 4, s. 120-23.
  • Birkes, David and Yadolah Dodge, Alternative Methods of Regression. ISBN 0-471-56881-3
  • Chatfield, C. (1993) Calculating Interval Forecasts, Journal of Business and Economic Statistics, 11. s. 121-135.
  • Draper, N.R. og Smith, H. (1998).Applied Regression Analysis Wiley Series in Probability and Statistics.
  • Fox, J. (1997). Applied Regression Analysis, Linear Models and Related Methods. Sage.
  • Hardle, W., Applied Nonparametric Regression (1990), ISBN 0-521-42950-1.
  • Meade, N. og T. Islam (1995). Prediction Intervals for Growth Curve Forecasts, Journal of Forecasting, 14, s. 413-430.

Eksterne henvisninger[redigér | redigér wikikode]