Tilastollinen malli: menetelmän ydin, rakentaminen ja analyysi

Sisällysluettelo:

Tilastollinen malli: menetelmän ydin, rakentaminen ja analyysi
Tilastollinen malli: menetelmän ydin, rakentaminen ja analyysi
Anonim

Tilastollinen malli on matemaattinen projektio, joka sisältää joukon erilaisia oletuksia joidenkin näytetietojen luomisesta. Termi esitetään usein idealisoidussa muodossa.

Tilastomallissa esitetyt oletukset osoittavat joukon todennäköisyysjakaumia. Monet niistä on tarkoitettu arvioimaan oikein jakaumaa, josta tietty tietojoukko haetaan. Tilastollisiin malleihin sisältyvät todennäköisyysjakaumat erottavat projektion muista matemaattisista modifikaatioista.

Yleinen projektio

tilastolliset prosessimallit
tilastolliset prosessimallit

Matemaattinen malli on järjestelmän kuvaus käyttämällä tiettyjä käsitteitä ja kieltä. Ne koskevat luonnontieteitä (kuten fysiikka, biologia, maantiede, kemia) ja tekniikan tieteenaloja (kuten tietojenkäsittelytiede, sähkötekniikka) sekä yhteiskuntatieteitä (kuten taloustiede, psykologia, sosiologia, v altiotiede).

Malli voi auttaa selittämään järjestelmän jatutkia eri komponenttien vaikutusta ja tehdä ennusteita käyttäytymisestä.

Matemaattisilla malleilla voi olla monia muotoja, mukaan lukien dynaamiset järjestelmät, tilastolliset projektiot, differentiaaliyhtälöt tai peliteoreettiset parametrit. Nämä ja muut tyypit voivat olla päällekkäisiä, ja tämä malli sisältää monia abstrakteja rakenteita. Yleensä matemaattiset projektiot voivat sisältää myös loogisia komponentteja. Monissa tapauksissa tieteenalan laatu riippuu siitä, kuinka hyvin teoreettiselta puolelta kehitetyt matemaattiset mallit sopivat toistuvien kokeiden tulosten kanssa. Sopimuksen puute teoreettisten prosessien ja kokeellisten mittausten välillä johtaa usein merkittäviin edistysaskeliin, kun parempia teorioita kehitetään.

Fysikaalisissa tieteissä perinteinen matemaattinen malli sisältää suuren määrän seuraavia elementtejä:

  • Ohjausyhtälöt.
  • Muita alimalleja.
  • Määritä yhtälöt.
  • Osaosayhtälöt.
  • Oletukset ja rajoitukset.
  • Alku- ja reunaehdot.
  • Klassiset rajoitukset ja kinemaattiset yhtälöt.

Formula

Tilastollinen malli on pääsääntöisesti asetettu matemaattisilla yhtälöillä, jotka yhdistävät yhden tai useamman satunnaismuuttujan ja mahdollisesti muita luonnossa esiintyviä muuttujia. Samoin projektiota pidetään "käsitteen muodollisena käsitteenä".

Kaikki tilastolliset hypoteesien testaukset ja tilastolliset arvioinnit on saatu matemaattisista malleista.

Esittely

tilastolliset matemaattiset mallit
tilastolliset matemaattiset mallit

Epävirallisesti tilastollista mallia voidaan pitää oletuksena (tai olettamusten joukkona), jolla on tietty ominaisuus: sen avulla voidaan laskea minkä tahansa tapahtuman todennäköisyys. Esimerkkinä harkitse paria tavallisia kuusisivuisia noppaa. Kaksi erilaista luuta koskevaa tilastollista oletusta on tutkittava.

Ensimmäinen oletus on:

Todennäköisyys saada yksi luvuista (1, 2, 3, 4, 5 ja 6) kullakin noppaa on: 1/6.

Tästä oletuksesta voimme laskea molempien noppien todennäköisyyden: 1:1/6×1/6=1/36.

Yleisemmin voit laskea minkä tahansa tapahtuman todennäköisyyden. On kuitenkin ymmärrettävä, että on mahdotonta laskea minkään muun ei-triviaalin tapahtuman todennäköisyyttä.

Vain ensimmäinen mielipide kerää tilastollisen matemaattisen mallin: johtuen siitä, että vain yhdellä oletuksella on mahdollista määrittää kunkin toiminnan todennäköisyys.

Yllä olevassa näytteessä alustavalla luvalla on helppo määrittää tapahtuman mahdollisuus. Joissakin muissa esimerkeissä laskenta voi olla vaikeaa tai jopa epärealistista (esimerkiksi se voi vaatia useiden vuosien laskelmia). Tilastollisen analyysin mallia suunnittelevalle henkilölle tällaista monimutkaisuutta ei voida hyväksyä: laskelmien toteuttamisen ei pitäisi olla käytännössä mahdotonta eikä teoreettisesti mahdotonta.

Muodollinen määritelmä

Matemaattisesti järjestelmän tilastollista mallia pidetään yleensä parina (S, P), jossa S onmahdollisten havaintojen joukko, eli näyteavaruus, ja P on joukko S:n todennäköisyysjakaumia.

Tämän määritelmän intuitio on seuraava. Oletetaan, että tiettyä dataa luovan prosessin aiheuttama "tosi" todennäköisyysjakauma.

Set

Hän määrittää mallin parametrit. Parametrisointi vaatii yleensä erilaisia arvoja, jotta tuloksena on erilaisia jakaumia, eli

Mallin seuraus
Mallin seuraus

täytyy pitää (toisin sanoen sen on oltava injektiivinen). Vaatimuksen täyttävän parametrisoinnin sanotaan olevan tunnistettavissa.

Esimerkki

Tilastokaavio
Tilastokaavio

Oletetaan, että on jonkin verran eri-ikäisiä opiskelijoita. Lapsen pituus tulee olemaan stokastinen suhteessa syntymävuoteen: esimerkiksi kun koulupoika täyttää 7 vuotta, tämä vaikuttaa kasvun todennäköisyyteen, vain niin, että henkilö on pitempi kuin 3 senttimetriä.

Voit formalisoida tämän lähestymistavan suoraviivaiseksi regressiomalliksi esimerkiksi seuraavasti: korkeus i=b 0 + b 1agei + εi, missä b 0 on leikkauspiste, b 1 on parametri, jolla ikä lasketaan. kerrotaan korkeusvalvontaa haettaessa. Tämä on virhetermi. Eli se olettaa, että pituus ennustetaan iän mukaan tietyllä virheellä.

Voimassa olevan lomakkeen on vastattava kaikkia tietopisteitä. Siten suoraviivainen suunta (taso i=b 0 + b 1agei) ei voi olla yhtälö tietomallille - jos se ei vastaa selkeästi ehdottomasti kaikkiin pisteisiin. Elipoikkeuksetta kaikki tieto on virheetöntä. Virhemarginaali εi on syötettävä yhtälöön, jotta lomake vastaa ehdottomasti kaikkia tietoja.

Tilastollisen päätelmän tekemiseksi meidän on ensin oletettava joitain todennäköisyysjakaumia ε i:lle. Voidaan esimerkiksi olettaa, että ε i:n jakaumilla on Gaussin muoto, jonka keskiarvo on nolla. Tässä tapauksessa mallissa on 3 parametria: b 0, b 1 ja Gaussin jakauman varianssi.

Voit määrittää mallin muodollisesti muodossa (S, P).

Tässä esimerkissä malli määritellään määrittämällä S, joten P:stä voidaan tehdä joitakin oletuksia. Vaihtoehtoja on kaksi:

Tämä kasvu voidaan arvioida iän lineaarisella funktiolla;

Että virheet approksimaatiossa jakautuvat Gaussin sisällä.

Yleiset huomautukset

Mallien tilastolliset parametrit ovat matemaattisten projektioiden erityisluokka. Mikä tekee yhdestä lajista erilaisen? Tilastollinen malli on siis ei-deterministinen. Näin ollen siinä, toisin kuin matemaattisissa yhtälöissä, tietyillä muuttujilla ei ole tiettyjä arvoja, vaan niillä on mahdollisuuksien jakauma. Toisin sanoen yksittäisiä muuttujia pidetään stokastisina. Yllä olevassa esimerkissä ε on stokastinen muuttuja. Ilman sitä projektio olisi deterministinen.

Tilastollisen mallin rakentamista käytetään usein, vaikka materiaaliprosessia pidettäisiinkin deterministisenä. Esimerkiksi kolikoiden heittäminen on periaatteessa enn alta määrätty toiminta. Tämä on kuitenkin useimmissa tapauksissa edelleen mallinnettu stokastiseksi (Bernoulli-prosessin kautta).

Konishin ja Kitagawan mukaan tilastollisella mallilla on kolme tavoitetta:

  • Ennusteet.
  • Tiedonlouhinta.
  • Stokastisten rakenteiden kuvaus.

Projisoinnin koko

Oletetaan, että on olemassa tilastollinen ennustemalli, Mallia kutsutaan parametriseksi, jos O:lla on äärellinen ulottuvuus. Ratkaisuun on kirjoitettava, että

Mallin ero
Mallin ero

jossa k on positiivinen kokonaisluku (R tarkoittaa mitä tahansa reaalilukua). Tässä k on mallin mitta.

Esimerkiksi voimme olettaa, että kaikki tiedot ovat peräisin yksimuuttujaisesta Gaussin jakaumasta:

Tilastokaava
Tilastokaava

Tässä esimerkissä k:n ulottuvuus on 2.

Ja toisena esimerkkinä tietojen voidaan olettaa koostuvan (x, y) pisteistä, joiden oletetaan jakautuvan suoraan Gaussin residuaalien kanssa (nollakeskiarvolla). Tällöin tilastollisen talousmallin ulottuvuus on yhtä suuri kuin 3: suoran leikkauspiste, sen k altevuus ja jäännösjakauman varianssi. On huomattava, että geometriassa suoran mitta on 1.

Vaikka yllä oleva arvo on teknisesti ainoa parametri, jolla on ulottuvuus k, sen katsotaan joskus sisältävän k erillistä arvoa. Esimerkiksi yksiulotteisessa Gaussin jakaumassa O on ainoa parametri, jonka koko on 2, mutta joskus sen katsotaan sisältävän kaksiyksittäinen parametri - keskiarvo ja keskihajonta.

Tilastollinen prosessimalli on ei-parametrinen, jos O-arvojen joukko on ääretön. Se on myös puoliparametrinen, jos sillä on sekä äärellisulotteisia että äärettömän ulottuvia parametreja. Muodollisesti, jos k on O:n ulottuvuus ja n on näytteiden lukumäärä, puoliparametrisilla ja ei-parametrisilla malleilla on

Mallikaava
Mallikaava

malli on puoliparametrinen. Muussa tapauksessa projektio on ei-parametrinen.

Parametriset mallit ovat yleisimmin käytettyjä tilastoja. Puoliparametristen ja ei-parametristen projektioiden os alta Sir David Cox totesi:

"Yleensä niihin liittyy vähiten hypoteeseja rakenteesta ja jakautumisen muodosta, mutta ne sisältävät voimakkaita teorioita omavaraisuudesta."

Sisäkkäiset mallit

Älä sekoita niitä monitasoisiin projektioihin.

Kaksi tilastollista mallia on sisäkkäin, jos ensimmäinen voidaan muuntaa toiseksi asettamalla rajoituksia ensimmäisen parametreille. Esimerkiksi kaikkien Gaussin jakaumien joukossa on sisäkkäinen joukko nollakeskiarvojakaumia:

Toisin sanoen sinun on rajoitettava keskiarvoa kaikkien Gaussin jakaumien joukossa saadaksesi jakaumat, joiden keskiarvo on nolla. Toisena esimerkkinä neliömallilla y=b 0 + b 1 x + b 2 x 2 + ε, ε ~N (0, σ 2) on upotettu lineaarinen malli y=b 0 + b 1 x + ε, ε ~ N (0,σ 2) - eli parametri b2 on yhtä suuri kuin 0.

Molemmissa näissä esimerkeissä ensimmäisellä mallilla on suurempi ulottuvuus kuin toisella mallilla. Näin on usein, mutta ei aina. Toinen esimerkki on joukko Gaussin jakaumia positiivisella keskiarvolla, jonka ulottuvuus on 2.

Mallejen vertailu

tilastollinen malli
tilastollinen malli

Oletetaan, että havaittujen tietojen taustalla on "tosi" todennäköisyysjakauma, joka on saatu aikaan sen tuottaneella prosessilla.

Ja myös malleja voidaan verrata toisiinsa käyttämällä tutkivaa analyysiä tai vahvistusta. Tutkivassa analyysissä muotoillaan erilaisia malleja ja arvioidaan, kuinka hyvin kukin niistä kuvaa dataa. Vahvistavassa analyysissä verrataan aiemmin muotoiltua hypoteesia alkuperäiseen. Yleisiä kriteerejä tälle ovat P 2, Bayesin tekijä ja suhteellinen todennäköisyys.

Konishin ja Kitagawan ajatus

“Useimmat tilastollisen matemaattisen mallin ongelmista voidaan pitää ennustavina kysymyksinä. Ne on yleensä muotoiltu useiden tekijöiden vertailuiksi.”

Lisäksi Sir David Cox sanoi: "Käännöksenä aiheesta tilastollisen mallin ongelma on usein analyysin tärkein osa."

Suositeltava: