Teema 1: Mitmene imputeerimine

Praktikumi eesmärgiks on tutvuda mõningate võimalustega puuduvate andmetega tegelemiseks paketi mice vahendusel. Enne järgnevaid harjutusi installeeri pakett mice.

Harjutus 1

Tekita 200 elemendiga andmestik df tunnustega X, Y ja Z, mis vastavad juhusliku vektori \((X,Y,Z)\) sõltumatutele väärtustele, kus \(X\sim U(0,5)\), \(Y\mid X\sim (N(0.2X,0.2))\) ning \(Z\mid X,Y\sim N(X+1.2Y+1,0.3)\). Kasuta funktsiooni pairs(), et visualiseerida tekkinud andmestikku.


Selleks, et uurida, kuidas erinevad lünkade täitmise meetodid töötavad, on sageli kasulik teostada simulatsioone. Sel eesmärgik on paketis mice funktsioon ampute(), mille abil saab mitmesuguse struktuuriga puuduvaid andmeid tekitada. Käesolevas praktikumis kasutame selle käsu järgmisi parameetreid

  • data - andmemaatriks, kuhu tekitatakse puuduvaid andmeid
  • mech - puuduvate andmete tekkemehhanism, MCAR, MAR või MNAR
  • patterns - maatriks, mille veerud vastavad lähtetabeli tunnustele ja read puudumise mustritele, nullid tähendavad puudumist ja ühed mittepuudumist
  • prop - tõenäosus, et andmereas on puuduvaid väärtuseid

Käsu tulemuseks on objekt, mille elemendis $amp on puuduvate väärtustega andmestik. Tekkinud andmestiku puudumiste struktuuri saab visualiseerida käsuga md.pattern().

Harjutus 2

Tekita andmetabelist df kaks puuduvate andmetega versiooni df1 ja df2. Mõlemal juhul kasuta puudumise mustritena kõikvõimalikke mustreid, kus on vähemalt üks 1 ja vähemalt 1 null ning puuduvate väärtuste esinemise tõenäosus olgu 0.4. Andmestiku df1 puhul kasuta tekkemehhanismi MCAR ja df2 puhul mehhanismi MAR. Visualiseeri puudumise mustrid mõlemal juhul.

Harjutus 3

Tekita andmestikud df1_keskm ja df2_keskm, mis saadakse, kui puuduvad väärtused asendadakse vastavate tunnuste keskväärtuse hinnangutega. Seda on võimalik saavutada mice() käsuga kujul complete(mice(andmestik,method="mean",m=1,maxit=1)). Sobita mudel suuruse \(Z\) prognoosimises \(X\) ja \(Y\) kaudu täielikul andmestikul ja imputeeritud andmestikel. Kas kordajad on sarnased?

Harjutus 4

Kasuta mice käsku meetodiga norm, et tekitada m=10 imputeeritud andmestikku, kasutades maxit=30. Sobita neile andmestikele sama mudel mis eelmises ülesandes käsuga with(mice_tulemus,mudel(valem)) ning saadud tulemusest tekita koondtulemus pool käsuga. Kas kordajad on lähedased õigetele? Kontrolli ka imputeerimise protsessi stabiilsust plot(mice_tulemus) käsuga. Oluline on veenduda, et tunnuste keskmised ja standardhälbed ei hakkaks mingi selge trendiga muutuma.

Harjutus 5

Kasuta norm meetodi asemel pmm meetodit, et leida hinnangud eelnevalt vaadeldud mudeli parameetritele 10-kordse imputeerimise abil.