KGW UU - STATISTIEK - Masterjaar 1 Flashcards


Set Details Share
created 2 years ago by Niek_Vink
6 views
Cas Kruitwagen, cursus statistiek als onderdeel klinische gezondheidswetenschap. ANOVA ANCOVA multipele regressie logistische regressie factoranalyse power analyse
updated 2 years ago by Niek_Vink
Subjects:
clinical health science
show moreless
Page to share:
Embed this setcancel
COPY
code changes based on your size selection
Size:
X
Show:

1

Multicollineariteit in een multipel regressiemodel

Staat gelijk aan confounding. Wanneer je een variabele toevoegt of verwijdert uit een model dan kunnen de coefficienten van andere variabelen veranderen. In het college het voorbeeld van ADL dat samenhing met social support.

2

Confounding in een multipel regressiemodel

Staat gelijk aan multicollineariteit. Wanneer je een variabele toevoegt of verwijdert uit een model dan kunnen de coefficienten van andere variabelen veranderen. In het college het voorbeeld van ADL dat samenhing met social support.

3

Mult reg:
Waarom verschillen F waarden in een ANOVA tabel van de F waarden in je model summary?

De ANOVA uitdraai is eigenlijk niet zo interessant. Je kijkt liever naar de F waardes in de model summary uitdraai, deze laat zien of een toegevoegde variabele, gecorrigeerd door de overige variabelen, iets significants toevoegt. De tweede, derde, vierde, etc. F waardes gaan dus over een toets op deze specifieke variabele MET DAARBIJ ALLE VOORGAANDE VARIABELEN IN HET MODEL.

4

Homoskedasticiteit:

gelijkheid van de varianties van de spreiding over de hele range van de regressielijn.

UVA Wiki:
De aanname van homoskedasticiteit - een aanname voor regressie - houdt in dat wordt aangenomen dat de residuals dezelfde variantie hebben op elk niveau van de voorspeller. Een voorbeeld: Je hebt een regressielijn getrokken door een scatterplot. De afstand tussen de individuele observaties (de stippen in je plot) en de lijn is de residual: zoveel wijkt deze waarde af van de voorspelde waarde. Er is aan de assumptie van homoskedasticiteit voldaan op het moment dat die residuals op elk level van de voorspeller (op de x-as) een gelijke variantie hebben (dus gemiddeld dezelfde afstand tot de regressielijn).

5

R2 (R kwadraat)

R gekwadrateerd geeft R2, dit geeft aan hoeveel % van de variatie in Y verklaard wordt (of hangt samen met) de verklarende variabele X.

6

Simpele regressie analyse: wat toets je met je ANOVA F toetsingsgrootheid? Wat is de nulhypothese?

ANOVA met toetsingsgrootheid F. Nulhypothese: in de populatie is de regresielijn nul.

7

Simpele regressie analyse: Hoe kom je aan je t-waarde?

Deel de coefficient door zijn std. error

8

Interactie in een multipele regressie analyse. Wat is een ander woord voor interactie?

Effectmodificatie. Hierbij lopen de regressielijnen niet parallel. Door te corrigeren kun je de lijnen wel parallel laten lopen.

9

Welke vier aannames doe je bij een bij een multipele regressie analyse?

1. Hangen variabelen sterk samen?
2. Is er sprake van normaliteit?
3. We nemen lineariteit aan (en bijv geen exponentiele of curvaturen)
4. We nemen aan dat de variabiliteit rondom de regressielijn hetzelfde is.

10

Bij sterke correlatie tussen twee variabelen in een model is sprake van multicollineariteit / confounding. Hoe ge je hiermee om in het bouwen van je model?

1. Als ze min of meer hetzelfde meten dan zul je een van de twee variabelen weglaten.
2. Je neemt toch beiden mee in je model als je de invloeden voor elkaar wilt corrigeren.

11

Voorafgaand en na afloop van de multipele regressie moet je enige controles uitvoeren. Wat doe je vooraf en wat doe je achteraf?

  1. maak vooraf een scatter plot matrix en een correlatiematrix om de relaties tussen de variabelen (de afhankelijke en onafhankelijke) inzichtelijk te krijgen
  2. Controleer achteraf de aannames van de regressie m.b.v. bijv. een QQ-plot (normaliteit) en een residual plot van residuen vs. Voorspelde waarden (lineariteit en homoscedasticiteit)

12

Multipele regressie:
Wat lees je af aan een:
1. Scatterplot
2. COrrelatie matrix
3. QQ plot
4. Residuenplot

Scatterplot: geeft informatie over de multicollineariteit en outliers grafisch weer

Correlatie matrix geeft informatie over muticollineariteit in cijfers weer

Normal probability plot geeft informatie over normaliteit van de residuen (q-plot)

Residuenplot geeft informatie over homogeniteit van de variantie (hierbij worden residuen uitgezet tegen de voorspelde waarden).

13

Tolerance

proportie variatie in een X die niet door de andere X-en in het model verklaard kan worden (=1 - R2 met X als afhankelijke variabele):

Hoe dichter bij 0, hoe sterker de correlatie

14

VIF =

1 / tolerance en ligt tussen 1 en oneindig; hoe groter, hoe sterker de correlatie / multicollineariteit

15

Covariaat

NUMMERIEKE verklarende variabele. De zogenaamde 'nuisance variable', iets waar je rekening mee moet houden in je analyse omdat je ervoor moet corrigeren.

16

Factor

Categorische verklarende variabele, bijvoorbeeld geslacht of behandeling.

17

Ben je bij een ANCOVA met name geinteresseerd in de factor(en) of in de covariaat?

ANCOVA heeft als verklarende variabelen 1 of meerdere factoren en 1 numeriek covariaat, die als nuisance (“lastpak”) wordt opgevat en waarvoor we corrigeren. Primair ben je geïnteresseerd in het effect van de factor.

18

Drie aannames ANCOVA

  • De richtingscoëfficient is voor alle groepen hetzelfde (m.a.w. lijnen lopen parallel en er is dus geen sprake van effectmodificatie.
  • De behandelingen hebben geen effect op de covariaat (medicijn heeft invloed op gewicht). Anders zouden we, met het corrigeren voor de covariaat, het behandelingseffect weg”corrigeren”. Soort medicijn zou het gewicht kunnen beïnvloeden en daardoor de bloeddruk)
  • De residuen zijn normaal verdeeld en hebben gelijke varianties voor alle groepen, en over de gehele range van de covariaat (“homoscedasticiteit”)

19

Als de log odds gelijk is aan nul, wat is dan de bijbehorende kans?

Als de log odds nul is dan is de odds e0 = 1.
pi is dan odds / 1 + odds --> 1 / (1 + 1) = 0.5

20

Als de kans op Y = 1 gelijk is aan 0.75, wat is dan de bijbehorende odds?

odds = pi / (1-pi)
odds = 0.75 / 0.25 = 3