Kui meil on lähtejaotuse (või üldkogumi) parameetri \(\theta\) hindamiseks hinangufunkstioon (ehk statistik) \(\hat{\theta}\), siis bootstrap hinnang nihkele avaldub kujul \[ \frac{1}{m}\sum_{i=1}^m \hat{\theta}_i-\theta_B,\] Kus \(\theta_B\) on vaadeldava parameetri väärtus bootstrap jaotuse (ehk valimile vastava empiirilise jaotuse) korral ning \(\hat{\theta}_i,\ i=1,2,\ldots,m\) on hinnangufunktsiooni väärtused bootstrap jaotusest võetud sõltumatute valimite korral. Bootstrap usaldusintervall olulisusnivool \(\alpha\) avaldub aga kujul \[(\hat{\theta}+\theta_B-q_{1-\frac{\alpha}{2}},\hat{\theta}+\theta_B-q_{\frac{\alpha}{2}}),\] kus \(q_\alpha\) tähistab hinnangu \(\hat{\theta}\) bootstrap jaotuse korral leitud \(\alpha\)-kvantiili ning \(\hat{\theta}\) on esialgse valimi põhjal arvutatud parameetri hinnang.
Vaatleme juhtu, kus tahame hinnata lähtejaotuse puhul suurust \(\lambda=\frac{1}{\sigma_X}\). Selle
hindamiseks kasutame hinnangufunktsiooni \(\frac{1}{s}\), kus \(s\) on standardhälbe hinnang (arvutatud
käsuga sd()). NB! Käsk sd on üldkogumi
standardhälbe hinnang valimi põhja ning ei ole võrdne empiirilise
jaotuse standardhälbega!
Olgu meil juhusliku suuruse \(X\) 15st väärtusest koosnev valim
## [1] 0.10 1.69 0.50 0.18 0.10 1.39 1.49 1.34 0.78 3.65 0.11 1.53 5.15 0.98 2.48
## [16] 0.50 2.43 1.35 4.54 0.18
Hinda bootstrap meetodil statistiku nihet ja leia selle abil parandatud hinnang \(\lambda\) väärtusele. Leia samuti olulisusnivoole \(\alpha=0.1\) vastav usaldusvahemik
Leia Monte-Carlo meetodil tegelik statistiku nihe 20-se valimi korral eeldusel, et lähtejaotus on \(Exp(0.5)\)
Parameetrilise bootstrap meetodi korral sobitatakse andmetele mingi jaotus (või mudel) ning seejärel genereeritakse valimeid selle jaotuse või mudeli kohaselt. Muus osas käib huvipakkuva parameetri hindamine ja usaldusintervalli leidmine samamoodi, nagu tavalise bootstrap meetodi korral.
Olgu meil juhusliku \(X\) 20st väärtusest koosnev valim
## [1] 39044 7619 17811 1086 12133 7522 44146 14856 2208 13030 9005 8118
## [13] 49708 2474 2563 17895 8391 21620 7244 4227
Hinda bootstrap meetodil vastava jaotuse 0,8-kvantiili (kasutades statistikuna empiirilise jaotuse vastavat kvantiili) koos usaldusnivoole 0,9 vastava usaldusintervalliga, kasutades 10000 bootstrap valimit. Seejärel kontrolli Shapiro-Wilk testi abil, et logaritmitud andmed võivad vastata normaaljaotusele ning leia vastavad parameetrid \(\hat{\mu},\hat{\sigma}\) (st sobitame andmetele lognormaaljaotuse). Seejärel leia bootstrap hinnang ja bootstrap usaldusvahemik juhul, kui bootsrap valim genereeritakse vastavalt jaotusele \(LN(\hat{\mu},\hat{\sigma})\). Kui suured on erinevused hinnangutes? Kumba tulemust praegusel juhul kasutaksite?
## [1] "Tavaline bootstrap"
## [1] "Punkthinnang: 14663"
## [1] "Usaldusintervall: (-3897,24250)"
## [1] "Parameetriline bootstrap"
## [1] "Punkthinnang: 18774"
## [1] "Usaldusintervall: (5687,28008)"
Uuri katseliselt 30-se valimi põhjal tavalise bootstrap meetodi abil leitud dispersiooni hinnangu 90% usaldusvahemiku õigsust juhul, kui tegelik lähtejaotus on \(Po(5)\). Selleks võta \(m=100\) korda \(30\)-elemendiline valim, leia selle jaoks bootstrap usaldusintervall ja kontrolli, kas õige dispersioon kuulub sinna sisse või mitte. Kas tulemus on kooskõlas valitud usaldusnivooga?
Bootstrap meetod võib osutuda väga ajakulukaks, kuna statistiku jaotuse piisava täpsusega leidmiseks tuleb sageli kasutada väga suurt arvu bootstrap valimeid.
Jackknife meetodi arvutuseeskiri on järgmine. Olgu hinnangu leidmiseks kasutatav statistik \(S\). Tähistame kujul \(S(i)\) sama statsitikut, mis on hinnatud ilma \(i\)-nda vaatluseta. Defineerime \[S^*_{(i)}=nS-(n-1)S(i)\] Jacknife hinnang nihkele on \[(n-1)\left(\frac{1}{n}\sum_{i=1}^n S(i)-S\right)\] Jackknife hinnang parameetrile on \[S^*=\frac{1}{n}\sum_{i=1}^n S^*_{(i)}=nS-\frac{n-1}{n}\sum_{i=1}^n S(i)\] Jacknife hinnangu standardhälbe hinnang on \[s^*_{jack}=\sqrt{\frac{n-1}{n}\sum_{i=1}^n\left(S(i)-\frac{1}{n}\sum_{j=1}^n S(j)\right)^2}=\sqrt{\frac{1}{n(n-1)}\sum_{i=1}^n\left(S^*_{(i)}-S^*\right)^2}\] Turkey (1958) valem jackknife hinnangu usaldusintervallile olulisusnivool \(\alpha\): \[(S^*-t_{n-1,1-\frac{\alpha}{2}}s^*_{jack},S^*+t_{n-1,1-\frac{\alpha}{2}}s^*_{jack}),\] kus \(t_{k,\alpha}\) tähistab vabadusastmete arvuga \(k\) t-jaotuse \(\alpha\)-kvantiili.
Leida esimeses ülesandes toodud andmete korral üldkogumi kesväärtuse
ruudu tavapärase valemi abil hindamisel tehtava nihke hinnang, selle
suuruse jackknife hinnang ja viimase 90% usaldusintervall. Vihje: kui
X on vektor, siis X[-i] annab R-is sama
vektori ilma \(i\)-nda komponendita.
Leia vastavad hinnangud ka tavalise bootstrap meetodi abil.