Praktikumi eesmärgiks on tutvuda mõningate võimalustega puuduvate
andmetega tegelemiseks paketi mice vahendusel. Enne
järgnevaid harjutusi installeeri pakett mice.
Tekita 200 elemendiga andmestik df tunnustega
X, Y ja Z, mis vastavad juhusliku
vektori \((X,Y,Z)\) sõltumatutele
väärtustele, kus \(X\sim U(0,5)\),
\(Y\mid X\sim (N(0.2X,0.2))\) ning
\(Z\mid X,Y\sim N(X+1.2Y+1,0.3)\).
Kasuta funktsiooni pairs(), et visualiseerida tekkinud
andmestikku.
Selleks, et uurida, kuidas erinevad lünkade täitmise meetodid
töötavad, on sageli kasulik teostada simulatsioone. Sel eesmärgik on
paketis mice funktsioon ampute(), mille abil
saab mitmesuguse struktuuriga puuduvaid andmeid tekitada. Käesolevas
praktikumis kasutame selle käsu järgmisi parameetreid
data - andmemaatriks, kuhu tekitatakse puuduvaid
andmeidmech - puuduvate andmete tekkemehhanism, MCAR, MAR või
MNARpatterns - maatriks, mille veerud vastavad lähtetabeli
tunnustele ja read puudumise mustritele, nullid tähendavad puudumist ja
ühed mittepuudumistprop - tõenäosus, et andmereas on puuduvaid
väärtuseidKäsu tulemuseks on objekt, mille elemendis $amp on
puuduvate väärtustega andmestik. Tekkinud andmestiku puudumiste
struktuuri saab visualiseerida käsuga md.pattern().
Tekita andmetabelist df kaks puuduvate andmetega
versiooni df1 ja df2. Mõlemal juhul kasuta
puudumise mustritena kõikvõimalikke mustreid, kus on vähemalt üks 1 ja
vähemalt 1 null ning puuduvate väärtuste esinemise tõenäosus olgu 0.4.
Andmestiku df1 puhul kasuta tekkemehhanismi MCAR ja
df2 puhul mehhanismi MAR. Visualiseeri
puudumise mustrid mõlemal juhul.
Tekita andmestikud df1_keskm ja df2_keskm,
mis saadakse, kui puuduvad väärtused asendadakse vastavate tunnuste
keskväärtuse hinnangutega. Seda on võimalik saavutada
mice() käsuga kujul
complete(mice(andmestik,method="mean",m=1,maxit=1)). Sobita
mudel suuruse \(Z\) prognoosimises
\(X\) ja \(Y\) kaudu täielikul andmestikul ja
imputeeritud andmestikel. Kas kordajad on sarnased?
Kasuta mice käsku meetodiga norm, et
tekitada m=10 imputeeritud andmestikku, kasutades
maxit=30. Sobita neile andmestikele sama mudel mis eelmises
ülesandes käsuga with(mice_tulemus,mudel(valem)) ning
saadud tulemusest tekita koondtulemus pool käsuga. Kas
kordajad on lähedased õigetele? Kontrolli ka imputeerimise protsessi
stabiilsust plot(mice_tulemus) käsuga. Oluline on veenduda,
et tunnuste keskmised ja standardhälbed ei hakkaks mingi selge trendiga
muutuma.
Kasuta norm meetodi asemel pmm meetodit, et
leida hinnangud eelnevalt vaadeldud mudeli parameetritele 10-kordse
imputeerimise abil.