Tilastolliseen mallinnukseen sisältyvät oletukset kuvaavat joukon todennäköisyysjakaumia, joista joidenkin oletetaan riittävän approksimoivan jakaumaa. Tietty tietojoukko valitaan määritelmästä. Tilastolliseen mallinnukseen sisältyvät todennäköisyysjakaumat erottavat tilastolliset mallit muista, ei-tilastollisista matemaattisista malleista.
Yhteys matematiikan kanssa
Tämä tieteellinen menetelmä juontaa juurensa ensisijaisesti matematiikasta. Järjestelmien tilastollinen mallinnus annetaan yleensä matemaattisilla yhtälöillä, jotka liittyvät yhteen tai useampaan satunnaismuuttujaan ja mahdollisesti muihin ei-satunnaisiin muuttujiin. Näin ollen tilastollinen malli on "teorian muodollinen esitys" (Hermann Ader, lainaa Kenneth Bollenia).
Kaikki tilastolliset hypoteesitestit ja kaikki tilastolliset estimaatit on johdettu tilastollisista malleista. Yleisemmin tilastolliset mallit ovat osa tilastollisen päättelyn perustaa.
Tilastolliset menetelmätmallintaminen
Epävirallisesti tilastollista mallia voidaan pitää tilastollisena oletuksena (tai tilastollisena oletuksena), jolla on tietty ominaisuus: tämän oletuksen avulla voimme laskea minkä tahansa tapahtuman todennäköisyyden. Esimerkkinä harkitse paria tavallisia kuusisivuisia noppaa. Tutkimme kahta erilaista tilastollista oletusta luusta.
Ensimmäinen tilastollinen oletus muodostaa tilastollisen mallin, koska vain yhdellä oletuksella voimme laskea minkä tahansa tapahtuman todennäköisyyden. Vaihtoehtoinen tilastooletus ei muodosta tilastollista mallia, koska vain yhdellä oletuksella emme voi laskea kunkin tapahtuman todennäköisyyttä.
Yllä olevassa esimerkissä ensimmäisellä oletuksella on helppo laskea tapahtuman todennäköisyys. Joissakin muissa esimerkeissä laskenta voi kuitenkin olla monimutkaista tai jopa epäkäytännöllistä (esimerkiksi se voi vaatia miljoonia vuosia laskentaa). Tilastollisen mallin muodostavalle oletukselle tämä vaikeus on hyväksyttävä: laskennan suorittamisen ei tarvitse olla käytännössä mahdollista, se on vain teoriassa mahdollista.
Esimerkkejä malleista
Oletetaan, että meillä on koululaisia, joilla on tasaisesti jakautuneita lapsia. Lapsen pituus on stokastinen suhteessa ikään: esimerkiksi kun tiedämme lapsen olevan 7-vuotias, tämä vaikuttaa todennäköisyyteen, että lapsi on 5 jalkaa pitkä (noin 152 cm). Voisimme formalisoida tämän suhteen lineaarisella regressiomallilla, esimerkiksi: kasvu=b0 + b1agei+ εi, jossa b0 on leikkauspiste, b1 on parametri, jolla ikä kerrotaan kasvuennustetta hankittaessa, εi on virhetermi. Tämä tarkoittaa, että pituus ennustetaan iän mukaan jossain virheessä.
Kelvollisen mallin on vastattava kaikkia datapisteitä. Joten suora (heighti=b0 + b1agei) ei voi olla yhtälö tietomallille - ellei se sovi kaikkiin datapisteisiin tarkasti, eli kaikki datapisteet ovat täydellisesti suoralla. Virhetermi εi on sisällytettävä yhtälöön, jotta malli sopii kaikkiin datapisteisiin.
Tilastollisen päätelmän tekemiseksi meidän on ensin oletettava εi:n todennäköisyysjakaumia. Voidaan esimerkiksi olettaa, että εi:n jakaumat ovat Gaussin jakaumat, joiden keskiarvo on nolla. Tässä tapauksessa mallissa on 3 parametria: b0, b1 ja Gaussin jakauman varianssi.
Yleinen kuvaus
Tilastollinen malli on matemaattisten mallien erityinen luokka. Tilastollisen mallin erottaa muista matemaattisista malleista se, että se on epädeterministinen. Sitä käytetään tilastotietojen mallintamiseen. Näin ollen matemaattisilla yhtälöillä määritellyssä tilastollisessa mallissa joillakin muuttujilla ei ole tiettyjä arvoja, vaan niillä on todennäköisyysjakaumat; eli jotkut muuttujat ovat stokastisia. Yllä olevassa esimerkissä ε on stokastinen muuttuja; ilman tätä muuttujaa malli oliolisi determinististä.
Tilastollisia malleja käytetään usein tilastollisessa analyysissä ja mallintamisessa, vaikka mallinnettava fyysinen prosessi olisikin deterministinen. Esimerkiksi kolikoiden heittäminen on periaatteessa deterministinen prosessi; kuitenkin se yleensä mallinnetaan stokastiseksi (Bernoulli-prosessin kautta).
Parametriset mallit
Parametriset mallit ovat yleisimmin käytettyjä tilastomalleja. Sir David Cox sanoi puoliparametrisista ja ei-parametrisista malleista: "Ne sisältävät yleensä vähemmän oletuksia jakauman rakenteesta ja muodosta, mutta sisältävät yleensä vahvoja riippumattomuusoletuksia." Kuten kaikkia muitakin mainittuja malleja, niitä käytetään usein myös matemaattisen mallinnuksen tilastollisessa menetelmässä.
Monitasoiset mallit
Monitasomallit (tunnetaan myös hierarkkisina lineaarisina malleina, sisäkkäisinä tietomalleina, sekamalleina, satunnaiskertoimina, satunnaisvaikutusmalleina, satunnaisparametrimallina tai osioiduna mallina) ovat tilastollisia parametrimalleja, jotka vaihtelevat useammalla kuin yhdellä tasolla. Esimerkki on oppilaiden saavutusmalli, joka sisältää mittareita yksittäisille opiskelijoille sekä mittareita luokkahuoneille, joihin oppilaat on ryhmitelty. Näitä malleja voidaan pitää lineaaristen mallien yleistyksinä (erityisesti lineaarisena regressiona), vaikka ne voidaan laajentaa myös epälineaarisiin malleihin. Näistä malleista on tullutpaljon suositumpi, kun riittävästi laskentatehoa ja ohjelmistoja tuli saataville.
Monitasoiset mallit sopivat erityisesti tutkimusprojekteihin, joissa osallistujien tiedot on järjestetty useammalle kuin yhdelle tasolle (eli sisäkkäisiin tietoihin). Analyysiyksiköt ovat yleensä yksilöitä (alemmalla tasolla), jotka on sisäkkäin konteksti-/aggregaattiyksiköiden sisällä (korkeammalla tasolla). Vaikka monitasomalleissa alin datataso on tyypillisesti yksilöllistä, voidaan harkita myös yksilöiden toistuvia mittauksia. Siten monitasoiset mallit tarjoavat vaihtoehtoisen analyysin yksimuuttuja- tai monimuuttujaan toistetuille mittauksille. Yksilöllisiä eroja kasvukäyrissä voidaan ottaa huomioon. Lisäksi ANCOVA:n vaihtoehtona voidaan käyttää monitasoisia malleja, joissa riippuvien muuttujien pisteet korjataan kovariaateille (esim. yksilölliset erot) ennen hoitoerojen testaamista. Monitasoiset mallit pystyvät analysoimaan näitä kokeita ilman ANCOVA:n edellyttämää oletusta tasaisista regression kulmakerroksista.
Monitasomalleja voidaan käyttää monitasoisille tiedoille, vaikka kaksitasoiset mallit ovat yleisimpiä, ja tämän artikkelin loppuosassa keskitytään niihin. Riippuva muuttuja tulee tutkia analyysin alimmalla tasolla.
Mallin valinta
Mallin valintaon tilastollisen mallintamisen puitteissa tehtävä valinta ehdokasmallien joukosta tietojen perusteella. Yksinkertaisimmissa tapauksissa otetaan huomioon jo olemassa oleva tietojoukko. Tehtävä voi kuitenkin sisältää myös kokeiden suunnittelua niin, että kerätyt tiedot sopivat hyvin mallinvalintatehtävään. Kun otetaan huomioon ehdokasmallit, joilla on samanlainen ennustamis- tai selitysvoima, yksinkertaisin malli on todennäköisesti paras valinta (Occamin partaveitsi).
Konishi & Kitagawa sanoo: "Useimmat tilastolliset päättelyongelmat voidaan pitää tilastolliseen mallinnukseen liittyvinä ongelmina." Samoin Cox sanoi: "Se, miten aihe käännetään tilastolliseen malliin, on usein analyysin tärkein osa."
Mallin valinta voi viitata myös ongelmaan valita muutama edustava malli suuresta joukosta laskennallisia malleja päätöksenteko- tai optimointitarkoituksiin epävarmuuden vallitessa.
Graafiset kuviot
Graafinen malli tai todennäköisyyspohjainen graafinen malli (PGM) tai strukturoitu todennäköisyysmalli on todennäköisyysmalli, jonka kaavio ilmaisee satunnaismuuttujien välisen ehdollisen suhteen rakenteen. Niitä käytetään yleisesti todennäköisyysteoriassa, tilastoissa (erityisesti Bayesin tilastoissa) ja koneoppimisessa.
Ekonometriset mallit
Ekonometriset mallit ovat tilastollisia malleja, joita käytetäänekonometria. Ekonometrinen malli määrittelee tilastolliset suhteet, joiden uskotaan olevan olemassa tiettyyn talousilmiöön liittyvien erilaisten taloudellisten suureiden välillä. Ekonometrinen malli voidaan johtaa deterministisesta talousmallista, joka ottaa huomioon epävarmuuden, tai talousmallista, joka on itsessään stokastinen. On kuitenkin myös mahdollista käyttää ekonometrisiä malleja, jotka eivät ole sidottu mihinkään tiettyyn talousteoriaan.