Kapitel 5 Konfidensintervaller

Sentry Page Protection


Konfidensintervallet også kaldet KI eller CI (engelsk), fortæller os, baseret på en simpelt tilfældigt udvalgt stikprøve, med en bestemt konfidens- eller sikkerhed, indenfor hvilken nedre og øvre grænse, en populationsparameter ligger.

Vi taler om et 95% konfidensniveau, det betyder at i 19 ud af 20 simpelt tilfældigt udtrukne stikprøver af samme størrelse, ligger populationsparameteren i konfidensintervallet (populationsparameteren kan fx. være andelen, middelværdien eller standardafvigelsen i populationen). Sandsynligheden for at populationens parameter, ikke ligger i konfidensintervallet er 5%, dette kalder vi signifikansniveauet og betegner med \(\alpha\). I 1 ud af 20 simpelt tilfældigt udtrukne stikprøver af samme størrelse, ligger populationsparameteren, altså ikke i vores konfidensinterval. Typiske konfidensniveauer er 90%, 95% og 99%, med tilhørende signifikansniveauer på 10%, 5% og 1%, disse må nødvendigvis summere til 1 eller 100%.

5.0.1 Konfidensinterval for middelværdien

Vi bestemmer nedre og øvre grænse for konfidensintervallet, når vi ikke kender populationens standardafvigelse \(\sigma\) og estimerer denne vha. S altså \(\hat{\sigma}\), ved hjælp af følgende (bliv ikke bange software beregner grænserne for os) formel:

\[(1-\alpha)\ KI=\left[\bar{X} - t_{1-\frac{\alpha}{2}}\cdot \frac{s}{\sqrt[]{n}};\bar{X} + t_{1-\frac{\alpha}{2}}\cdot \frac{S}{\sqrt[]{n}}\right]\]

Hvor \(t_{1-\frac{\alpha}{2}}\) er \(1-\alpha\) fraktilen for t-fordelingen. En forudsætning for at benytte ovennævnte fordeling, ved små stikprøver (n ca. mindre end 30), er at populationen er appoximativt (tilnærmelsesvist) normalfordelt. Man kan fx. teste normaliteten af populationen, ved at undersøge om observationerne fra stikprøven ligger pænt i et normalfraktildiagram. Er populationen ikke normal, kan man altså benytte en større stikprøve.

En ejendomsmægler, der ønsker at vide, hvor langt kunderne har til nærmeste filial, indsamler en repræsentativ stikprøve ved 200 respondender. Det viser sig, at den gennemsnitlige afstand er 748 meter i stikprøven. Hvis mægleren ønsker at vide hvor lang den gennemsnitlige afstand i populationen til nærmeste filial er med en bestemt sikkerhed, kan han beregne et konfidensinterval. Det er klart man ikke kan få en sikkerhed på 100%, man har jo kun en stikprøve, men man beregner ofte et 95% konfidensinterval. Hvis standard afvigelsen er 102 meter, kan han nu ved ovenstående formel bestemme et 95% konfidensinterval.

Han ved at når han har beregnet formlen kan han sætte de nedre og øvre grænser for konfidensintervallet ind i nedenstående sætning:

Vi kan med 95% sikkerhed sige at den gennemsnitlige afstand til filialen, for kunderne i populationen ligger mellem nedre bla bla og øvre bla bla meter

Vi bestemmer nedre grænse for 95% KI ved:

\[\bar{X} - t_{1-\frac{\alpha}{2}}\cdot \frac{S}{\sqrt[]{n}}=\] \[748-1.972\cdot \frac{102}{\sqrt[]{200}}=733.7773\]

Hvor vi har benyttet 97.5% fraktilen for t-fordelingen med \(n-1=199\) frihedsgrader denne er 1.972, bemærk denne er ikke langt fra 97.5% fraktilen for z-fordelingen 1.96, når vi har en stikprøve på 200.

Vi bestemmer tilsvarende øvre grænse for 95% KI ved:

\[\bar{X} + t_{1-\frac{\alpha}{2}}\cdot \frac{S}{\sqrt[]{n}}=\] \[748+1.972\cdot \frac{102}{\sqrt[]{200}}=762.2227\]

Vi kan med 95% sikkerhed sige at den gennemsnitlige afstand til filialen, for kunderne i populationen ligger mellem 733.7773 og 762.2227 meter

5.0.1.1 Middelværdi standardafvigelse KI Freestat

5.0.1.2 Fejlmargin teori

5.0.1.3 Fejlmargin ved middelværdi

Fejlmarginen er den halve længde af konfidensintervallet, denne kan altså i forrige eksempel beregnes som:

\[\frac{762.2227-733.7773}{2}=14.2227\]

Vi kan også udregne fejlmarginen ved formlen:

\[1.972\cdot \frac{102}{\sqrt[]{200}}=14.2227\]

Vi bruger t-fordelingen når vi ikke kender standardafvigelsen \(\sigma\) for populationen. Hvis standardafvigelsen \(\sigma\) for populationen er kendt bruger vi standard normalfordelingen vi kalder også denne z-fordelingen. Er stikprøven stor kan vi ligeledes bruge z-fordelingen. Forskellen på z-fordelingen og t-fordelingen er at t-fordelingen har federe haler i forhold til z-fordelingens klokkeform. I Figuren til venstre er forskellen mellem disse indtegnet.

KI beregnes ved z-fordelingen som:

\[(1-\alpha)\ KI=\left[\bar{X} - z_{1-\frac{\alpha}{2}}\cdot \frac{S}{\sqrt[]{n}};\bar{X} + z_{1-\frac{\alpha}{2}}\cdot \frac{S}{\sqrt[]{n}}\right]\]

5.0.2 Eksempler konfidensinterval middelværdi

5.0.2.1 Tryg aktien

Hent seneste data for dagsafkastet i procent på trygaktien her.

Vi bestemmer nedre grænse for 95% KI ved:

\[\bar{X} - t_{1-\frac{\alpha}{2}}\cdot \frac{S}{\sqrt[]{n}}=\] \[0.0734556 - 1.9678\cdot \frac{0.941044}{\sqrt[]{306}}=\] \[-0.0324\]

Hvor vi har benyttet 97.5% fraktilen for t-fordelingen med 305 frihedsgrader denne er 1.9678, bemærk denne er ikke langt fra 97.5% fraktilen for z-fordelingen 1.96, når vi har en stikprøve på 306

Vi bestemmer tilsvarende øvre grænse for 95% KI ved:

\[\bar{X} + t_{1-\frac{\alpha}{2}}\cdot \frac{S}{\sqrt[]{n}}=\] \[0.0734556 + 1.9678\cdot \frac{0.941044}{\sqrt[]{306}}=\] \[0.1793\]

Vi kan altså med 95% sikkerhed sige at det gennemsnitlige dagsafkast i populationen ligger mellem -0.0324% og 0.1793%.

Tilsvarende bestemmer vi 90% KI for Tryg aktien:

Vi kan altså med 90% sikkerhed sige at det gennemsnitlige dagsafkast i populationen ligger mellem -0.0153% og 0.1622%.

99% KI for Tryg aktien bliver:

Vi kan altså med 99% sikkerhed sige at det gennemsnitlige dagsafkast i populationen ligger mellem -0.066% og 0.2129%.

5.1 Spørgsmål konfidensinterval og fejlmargin


Spørgsmål konfidensinterval og fejlmargin

Vi har en indsamlet data for dagsafkastet i procent for en aktie på 80 vilkårlige handelsdage. Aktien har et gennemsnitligt dagsafkast i procent på 0.05% og en standardafvigelse på 0.6%

1. Hvad bliver 95% konfidensintervallet for middelværdien i populationen, som er alle handelsdage for aktien?

2. Hvor stor skal stikprøven være for at fejlmarginen er 0.1?

3. Hvor stor skal stikprøven være for at fejlmarginen er 0.1, hvis vi kender populationen, og denne er 500 handelsdage?

Svar konfidensinterval og fejlmargin

Vi har ikke rådata for de 80 handelsdage, derfor må vi i stedet benytte beregnede data i Freestat fanen Middelværdi standardafvigelse.

1. Vi kan med 95% sikkerhed sige at middelværdien i populationen \(\mu\) ligger mellem 0.52% og 0.71%. Den ukendte middelværdi blandt alle handelsdage ligger med 95% sikkerhed mellem -0.08% og 0.18%

stdafvKI

Vi kan se Freestat beregner konfidensintervallet KI i celle U6 og U7, ligeledes står en kort sætning i celle T18, der beskriver konfidensintervallet.

2. Stikprøven skal mindst være 139 handelsdage for at fejlmarginen bliver 0.1 eller derunder. Bemærk for at finde stikprøvestørrelsen skrives ønsket fejlmargin i celle U12 i Freestat.

kimargin

3. Stikprøven skal mindst være 127 handelsdage for at fejlmarginen bliver 0.1 eller derunder, når populationen er kendt og mindre end 500 handelsdage. Pas meget på hvis du skriver i gule felter fx. celle V6, slet tallene bagefter ellers korrigeres for den mindre populationen i alle følgende beregninger.

kimarginkendt


Spørgsmål konfidensinterval

Vi kan ligeledes se på data for bankansatte betragt variablen gennemsnitligt antal års uddannelse EDUCATION. Datasættet kan hentes her bankdata
1. Bestem 90% Konfidensintervallet for middelværdien
2. Bestem 95% Konfidensintervallet for middelværdien
3. Bestem 99% Konfidensintervallet for middelværdien


Svar konfidensinterval

1. Antal års uddannelse i populationen ligger med 90% sikkerhed mellem 13.27 og 13.71 år

stdKI90

2. Antal års uddannelse i populationen ligger med 95% sikkerhed mellem 13.23 og 13.75 år

stdKI95

3. Antal års uddannelse i populationen ligger med 99% sikkerhed mellem 13.15 og 13.83 år

stdKI99

5.2 Konfidensinterval for standardafvigelsen

Ligesom vi kan sige at middelværdien for populationen med en vis sikkerhed ligger i et bestemt interval, kan vi beregne konfidensintervaller for standardafvigelsen i populationen. Freetat beregner konfidensintervallet for standardafvigelsen for os, beregningen er lidt indviklet denne er angivet herunder for en ordens skyld, men vi vil blot benytte Freestat.

\[(1-\alpha)\ KI=\left[\sqrt[]{\frac{(n-1)s^2}{\chi^2_{1-\frac{\alpha}{2},df_{n-1}}}};\sqrt[]{\frac{(n-1)s^2}{\chi^2_{1-\frac{\alpha}{2},df_{n-1}}}}\right]\]

Hvor \(\chi^2_{1-\frac{\alpha}{2},df_{n-1}}\) er \(1-\frac{\alpha}{2}\) fraktilen for \(\chi^2\) fordelingen med \(n-1\) frihedsgrader. s er \(\hat{\sigma}\)

Husk at chekke for normalitet fx. i et normalfraktildiagram. Det er en forudsætning for at benytte formlen ved konfidensintervallet for standardafvigelsen, at stikprøven stammer fra en normalfordelt population.

5.2.0.1 IMDB ratings datasæt

I datasættet IMDB data, findes oplysninger om 759 film inklusiv ratings for disse. Hvis vi betragter datasættet som en simpelt tilfældigt udtrukket stikprøve, kan vi udtale os om populationen. Vi undersøger vha. Freestat normalfraktildiagram, om stikprøven kan antages at stamme fra en normalfordelt population. Af nedenstående plot ses denne forudsætning at være opfyldt.

freestatvirkdksem

Vores bedste gæt på standardafvigelsen i populationen er \(\hat\sigma=1.5414\), dvs. en films rating typisk afviger 1.54 point fra gennemsnittet 5.96.

freestatvirkdksem

Vi kan af Freestat se, at den sande standard afvigelse i populationen med 95% sikkerhed ligger mellem 1.4676 og 1.6231 point.

5.3 Spørgsmål konfidensinterval for standardafvigelsen


Spørgsmål konfidensinterval for standardafvigelsen Vi har en indsamlet data for dagsafkastet i procent for en aktie på 80 vilkårlige handelsdage. Aktien har et gennemsnitligt dagsafkast i procent på 0.05% og en standardafvigelse på 0.6% Bestem 95% konfidensintervallet for standardafvigelsen i populationen, som er alle handelsdage for aktien.

Svar konfidensinterval for standardafvigelsen Vi har ikke rådata for de 80 handelsdage, derfor må vi i stedet benytte beregnede data i Freestat fanen Middelværdi standardafvigelse.

Vi kan med 95% sikkerhed sige at standardafvigelsen i populationen \(\sigma\) ligger mellem 0.52% og 0.71%. Den ukendte typiske afvigelse fra gennemsnittet blandt alle handelsdage ligger med 95% sikkerhed mellem 0.52% og 0.71%.

stdafvKI

Vi kan se Freestat beregner konfidensintervallet KI i celle U8 og U9, ligeledes står en kort sætning i celle T20 der beskriver konfidensintervallet.


Spørgsmål konfidensinterval for standardafvigelsen bankansatte USA

Vi kan ligeledes se på data for bankansatte betragt variablen gennemsnitligt antal års uddannelse EDUCATION. Datasættet kan hentes her: bankdata
1. Bestem 90% Konfidensinterval for standardafvigelsen for variablen education.
2. Bestem 95% Konfidensinterval for standardafvigelsen for variablen education.
3. Bestem 99% Konfidensinterval for standardafvigelsen for variablen education.

Svar konfidensinterval for standardafvigelsen bankansatte USA
1. Vi kan med 90% sikkerhed sige at standardafvigelsen for antal års uddannelse i populationen σ ligger mellem 2.74 år og 3.05 år.

stdKI90

2. Vi kan med 95% sikkerhed sige at standardafvigelsen for antal års uddannelse i populationen σ ligger mellem 2.71 år og 3.08 år.

stdKI95

3. Vi kan med 99% sikkerhed sige at standardafvigelsen for antal års uddannelse i populationen σ ligger mellem 2.66 år og 3.15 år.

stdKI99