Kapitel 5 Konfidensintervaller

Sentry Page Protection


Konfidensintervallet også kaldet KI eller CI (engelsk), fortæller os, baseret på en simpelt tilfældigt udvalgt , med en bestemt konfidens- eller sikkerhed, indenfor hvilken nedre og øvre grænse, en populationsparameter ligger.

Vi taler om et 95% , det betyder at i 19 ud af 20 simpelt tilfældigt udtrukne stikprøver af samme størrelse, ligger populationsparameteren i (populationsparameteren kan fx. være andelen, middelværdien eller i ). Sandsynligheden for at populationens , ikke ligger i er 5%, dette kalder vi og betegner med \(\alpha\). I 1 ud af 20 simpelt tilfældigt udtrukne stikprøver af samme størrelse, ligger populationsparameteren, altså ikke i vores . Typiske konfidensniveauer er 90%, 95% og 99%, med tilhørende signifikansniveauer på 10%, 5% og 1%, disse må nødvendigvis summere til 1 eller 100%.

5.0.1 Konfidensinterval for middelværdien

Vi bestemmer nedre og øvre grænse for , når vi ikke kender populationens standardafvigelse \(\sigma\) og estimerer denne vha. S altså \(\hat{\sigma}\), ved hjælp af følgende (bliv ikke bange software beregner grænserne for os) formel:

\[(1-\alpha)\ KI=\left[\bar{X} - t_{1-\frac{\alpha}{2}}\cdot \frac{s}{\sqrt[]{n}};\bar{X} + t_{1-\frac{\alpha}{2}}\cdot \frac{S}{\sqrt[]{n}}\right]\]

Hvor \(t_{1-\frac{\alpha}{2}}\) er \(1-\alpha\) for . En forudsætning for at benytte ovennævnte fordeling, ved små stikprøver (n ca. mindre end 30), er at er appoximativt (tilnærmelsesvist) normalfordelt. Man kan fx. teste normaliteten af , ved at undersøge om observationerne fra ligger pænt i et . Er ikke normal, kan man altså benytte en større .

En ejendomsmægler, der ønsker at vide, hvor langt kunderne har til nærmeste filial, indsamler en repræsentativ ved 200 respondender. Det viser sig, at den gennemsnitlige afstand er 748 meter i . Hvis mægleren ønsker at vide hvor lang den gennemsnitlige afstand i til nærmeste filial er med en bestemt sikkerhed, kan han beregne et . Det er klart man ikke kan få en sikkerhed på 100%, man har jo kun en , men man beregner ofte et 95% . Hvis standard afvigelsen er 102 meter, kan han nu ved ovenstående formel bestemme et 95% .

Han ved at når han har beregnet formlen kan han sætte de nedre og øvre grænser for ind i nedenstående sætning:

Vi kan med 95% sikkerhed sige at den gennemsnitlige afstand til filialen, for kunderne i ligger mellem nedre bla bla og øvre bla bla meter

Vi bestemmer nedre grænse for 95% KI ved:

\[\bar{X} - t_{1-\frac{\alpha}{2}}\cdot \frac{S}{\sqrt[]{n}}=\] \[748-1.972\cdot \frac{102}{\sqrt[]{200}}=733.7773\]

Hvor vi har benyttet 97.5% for med \(n-1=199\) denne er 1.972, bemærk denne er ikke langt fra 97.5% for 1.96, når vi har en på 200.

Vi bestemmer tilsvarende øvre grænse for 95% KI ved:

\[\bar{X} + t_{1-\frac{\alpha}{2}}\cdot \frac{S}{\sqrt[]{n}}=\] \[748+1.972\cdot \frac{102}{\sqrt[]{200}}=762.2227\]

Vi kan med 95% sikkerhed sige at den gennemsnitlige afstand til filialen, for kunderne i ligger mellem 733.7773 og 762.2227 meter

5.0.1.1 Middelværdi standardafvigelse KI Freestat

5.0.1.2 Fejlmargin teori

5.0.1.3 Fejlmargin ved middelværdi

Fejlmarginen er den halve længde af , denne kan altså i forrige eksempel beregnes som:

\[\frac{762.2227-733.7773}{2}=14.2227\]

Vi kan også udregne fejlmarginen ved formlen:

\[1.972\cdot \frac{102}{\sqrt[]{200}}=14.2227\]

Vi bruger når vi ikke kender \(\sigma\) for . Hvis \(\sigma\) for er kendt bruger vi standard normalfordelingen vi kalder også denne . Er stor kan vi ligeledes bruge . Forskellen på og er at har federe haler i forhold til z-fordelingens klokkeform. I Figuren til venstre er forskellen mellem disse indtegnet.

KI beregnes ved som:

\[(1-\alpha)\ KI=\left[\bar{X} - z_{1-\frac{\alpha}{2}}\cdot \frac{S}{\sqrt[]{n}};\bar{X} + z_{1-\frac{\alpha}{2}}\cdot \frac{S}{\sqrt[]{n}}\right]\]

5.0.2 Eksempler konfidensinterval middelværdi

5.0.2.1 Tryg aktien

Hent seneste data for dagsafkastet i procent på trygaktien her.

Vi bestemmer nedre grænse for 95% KI ved:

\[\bar{X} - t_{1-\frac{\alpha}{2}}\cdot \frac{S}{\sqrt[]{n}}=\] \[0.0514683 - 1.9635\cdot \frac{1.3832452}{\sqrt[]{666}}=\] \[-0.0538\]

Hvor vi har benyttet 97.5% for med 665 denne er 1.9635, bemærk denne er ikke langt fra 97.5% for 1.96, når vi har en på 666

Vi bestemmer tilsvarende øvre grænse for 95% KI ved:

\[\bar{X} + t_{1-\frac{\alpha}{2}}\cdot \frac{S}{\sqrt[]{n}}=\] \[0.0514683 + 1.9635\cdot \frac{1.3832452}{\sqrt[]{666}}=\] \[0.1567\]

Vi kan altså med 95% sikkerhed sige at det gennemsnitlige dagsafkast i ligger mellem -0.0538% og 0.1567%.

Tilsvarende bestemmer vi 90% KI for Tryg aktien:

Vi kan altså med 90% sikkerhed sige at det gennemsnitlige dagsafkast i ligger mellem -0.0368% og 0.1398%.

99% KI for Tryg aktien bliver:

Vi kan altså med 99% sikkerhed sige at det gennemsnitlige dagsafkast i ligger mellem -0.087% og 0.1899%.

5.1 Quiz konfidensintervaller

Quiz konfidensintervaller

5.2 Spørgsmål konfidensinterval og fejlmargin


Spørgsmål konfidensinterval og fejlmargin

Vi har en indsamlet data for dagsafkastet i procent for en aktie på 80 vilkårlige handelsdage. Aktien har et gennemsnitligt dagsafkast i procent på 0.05% eller 0.0005 og en standardafvigelse på 0.6% eller 0.006.

1. Hvad bliver 95% for middelværdien i , som er alle handelsdage for aktien?

2. Hvor stor skal være for at fejlmarginen er 0.001 procentpoint?

3. Hvor stor skal være for at fejlmarginen er 0.001 procentpoint, hvis vi kender , og denne er 500 handelsdage?

Svar konfidensinterval og fejlmargin

Vi har ikke rådata for de 80 handelsdage, derfor må vi i stedet benytte beregnede data i Freestat fanen Middelværdi standardafvigelse.

1. Vi kan med 95% sikkerhed sige at middelværdien i \(\mu\) ligger mellem -0.08% og 0.18%. Eller sagt på en anden måde, den ukendte middelværdi blandt alle handelsdage ligger med 95% sikkerhed mellem -0.08% og 0.18%.

stdafvKI

Vi kan se Freestat beregner KI i celle U6 og U7, ligeledes står en kort sætning i celle T18, der beskriver .

2. Stikprøven skal mindst være 139 handelsdage for at fejlmarginen bliver 0.001 procentpoint eller derunder. Bemærk for at finde stikprøvestørrelsen skrives ønsket fejlmargin i celle U12 i Freestat.

kimargin

3. Stikprøven skal mindst være 127 handelsdage for at fejlmarginen bliver 0.001 procentpoint eller derunder, når er kendt og mindre end 500 handelsdage. Pas meget på hvis du skriver i gule felter fx. celle V6, slet tallene bagefter ellers korrigeres for den mindre i alle følgende beregninger.

kimarginkendt


Spørgsmål konfidensinterval

Vi kan ligeledes se på data for bankansatte betragt variablen gennemsnitligt antal års uddannelse EDUCATION. Datasættet kan hentes her bankdata
1. Bestem 90% Konfidensintervallet for middelværdien
2. Bestem 95% Konfidensintervallet for middelværdien
3. Bestem 99% Konfidensintervallet for middelværdien


Svar konfidensinterval

1. Antal års uddannelse i ligger med 90% sikkerhed mellem 13.27 og 13.71 år

stdKI90

2. Antal års uddannelse i ligger med 95% sikkerhed mellem 13.23 og 13.75 år

stdKI95

3. Antal års uddannelse i ligger med 99% sikkerhed mellem 13.15 og 13.83 år

stdKI99

5.3 Konfidensinterval for standardafvigelsen

Ligesom vi kan sige at middelværdien for med en vis sikkerhed ligger i et bestemt interval, kan vi beregne konfidensintervaller for i . Freetat beregner for for os, beregningen er lidt indviklet denne er angivet herunder for en ordens skyld, men vi vil blot benytte Freestat.

\[(1-\alpha)\ KI=\left[\sqrt[]{\frac{(n-1)s^2}{\chi^2_{1-\frac{\alpha}{2},df_{n-1}}}};\sqrt[]{\frac{(n-1)s^2}{\chi^2_{1-\frac{\alpha}{2},df_{n-1}}}}\right]\]

Hvor \(\chi^2_{1-\frac{\alpha}{2},df_{n-1}}\) er \(1-\frac{\alpha}{2}\) for \(\chi^2\) fordelingen med \(n-1\) . s er \(\hat{\sigma}\)

Husk at chekke for normalitet fx. i et . Det er en forudsætning for at benytte formlen ved for , at stammer fra en normalfordelt population.

5.3.0.1 IMDB ratings datasæt

I datasættet IMDB data, findes oplysninger om 759 film inklusiv ratings for disse. Hvis vi betragter datasættet som en simpelt tilfældigt udtrukket , kan vi udtale os om . Vi undersøger vha. Freestat , om kan antages at stamme fra en normalfordelt population. Af nedenstående plot ses denne forudsætning at være opfyldt.

freestatvirkdksem

Vores bedste gæt på i er \(\hat\sigma=1.5414\), dvs. en films rating typisk afviger 1.54 point fra gennemsnittet 5.96.

freestatvirkdksem

Vi kan af Freestat se, at den sande standard afvigelse i med 95% sikkerhed ligger mellem 1.4676 og 1.6231 point.

5.4 Spørgsmål konfidensinterval for standardafvigelsen


Spørgsmål konfidensinterval for Vi har en indsamlet data for dagsafkastet i procent for en aktie på 80 vilkårlige handelsdage. Aktien har et gennemsnitligt dagsafkast i procent på 0.05% og en standardafvigelse på 0.6% Bestem 95% for i , som er alle handelsdage for aktien.

Svar konfidensinterval for Vi har ikke rådata for de 80 handelsdage, derfor må vi i stedet benytte beregnede data i Freestat fanen Middelværdi standardafvigelse.

Vi kan med 95% sikkerhed sige at i \(\sigma\) ligger mellem 0.52% og 0.71%. Den ukendte typiske afvigelse fra gennemsnittet blandt alle handelsdage ligger med 95% sikkerhed mellem 0.52% og 0.71%.

stdafvKI

Vi kan se Freestat beregner KI i celle U8 og U9, ligeledes står en kort sætning i celle T20 der beskriver .


Spørgsmål konfidensinterval for bankansatte USA

Vi kan ligeledes se på data for bankansatte betragt variablen gennemsnitligt antal års uddannelse EDUCATION. Datasættet kan hentes her: bankdata
1. Bestem 90% Konfidensinterval for for variablen education.
2. Bestem 95% Konfidensinterval for for variablen education.
3. Bestem 99% Konfidensinterval for for variablen education.

Svar konfidensinterval for bankansatte USA
1. Vi kan med 90% sikkerhed sige at for antal års uddannelse i σ ligger mellem 2.74 år og 3.05 år.

stdKI90

2. Vi kan med 95% sikkerhed sige at for antal års uddannelse i σ ligger mellem 2.71 år og 3.08 år.

stdKI95

3. Vi kan med 99% sikkerhed sige at for antal års uddannelse i σ ligger mellem 2.66 år og 3.15 år.

stdKI99