Tilastotiedot: kerääminen, käsittely, analysointi

Sisällysluettelo:

Tilastotiedot: kerääminen, käsittely, analysointi
Tilastotiedot: kerääminen, käsittely, analysointi
Anonim

Tilaston historian aikana on yritetty luoda useita mittaustasojen taksonomiaa. Psykofyysikko Stanley Smith Stevens määritteli nominaali-, järjestys-, intervalli- ja suhteelliset asteikot.

Nimellismittauksilla ei ole merkittävää järjestystä arvojen välillä, ja ne mahdollistavat kaikki yksi-yhteen-muunnokset.

Säännöllisillä dimensioilla on epätarkkoja eroja peräkkäisten arvojen välillä, mutta niillä on tietty järjestys arvojen välillä ja ne mahdollistavat järjestyksen säilyttävän muunnoksen.

Välimittauksissa on merkittäviä pisteiden välisiä etäisyyksiä, mutta nolla-arvo on mieliv altainen (kuten pituus- ja lämpötilamittauksissa Celsius- tai Fahrenheit-asteissa) ja sallii minkä tahansa lineaarisen muunnoksen.

Suhdemitoilla on sekä merkityksellinen nolla-arvo että eri mittojen väliset etäisyydet, ja ne mahdollistavat minkä tahansa skaalausmuunnoksen.

Image
Image

Muuttujat ja tietojen luokittelu

Koska muuttujatVain nimellis- tai järjestysmittauksia vastaavia ei voida kohtuudella mitata numeerisesti, ja joskus ne ryhmitellään kategorisiksi muuttujiksi. Suhde- ja intervallimittaukset on ryhmitelty kvantitatiivisiksi muuttujiksi, jotka voivat numeerisuutensa vuoksi olla joko diskreettejä tai jatkuvia. Tällaiset erot liittyvät usein löyhästi tietojenkäsittelytieteen tietotyyppeihin, koska kaksijakoisia kategorisia muuttujia voidaan esittää loogisilla arvoilla, polytomisilla kategorisilla muuttujilla, joissa on mieliv altaisia kokonaislukuja integraalisessa tietotyypissä, ja jatkuvilla muuttujilla, joissa on todellisia komponentteja, joihin liittyy liukulukulaskenta. Mutta tilastotietojen tietotyyppien näyttö riippuu käytetystä luokittelusta.

Tilastotietoja työntekijöistä
Tilastotietoja työntekijöistä

Muut luokitukset

Myös tilastotietojen (tiedon) muita luokituksia on luotu. Esimerkiksi Mosteller ja Tukey erottivat arvosanat, arvosanat, lasketut osakkeet, määrät, summat ja saldot. Nelder kuvaili aikoinaan jatkuvia laskuja, jatkuvia suhteita, laskelmien korrelaatiota ja kategorisia tapoja kommunikoida dataa. Kaikkia näitä luokittelumenetelmiä käytetään tilastotietojen keruussa.

Ongelmia

Kysymystä siitä, onko tarkoituksenmukaista soveltaa erilaisia tilastollisia menetelmiä erilaisilla mittaus- (keräys)menetelmillä saatuun tietoon, vaikeuttaa muuttujien muuntamiseen ja kysymysten tarkkaan tulkintaan liittyvät kysymykset.tutkimusta. Tiedon ja sen kuvauksen välinen suhde heijastaa yksinkertaisesti sitä tosiasiaa, että tietyntyyppisillä tilastollisilla väitteillä voi olla totuusarvoja, jotka eivät ole muuttumattomia tietyissä muunnoksissa. Se, kannattaako muutosta harkita, riippuu kysymyksestä, johon yrität vastata.

Esimerkki tilastotiedoista
Esimerkki tilastotiedoista

Mikä on tietotyyppi

Tietotyyppi on muuttujan semanttisen sisällön peruskomponentti, ja se ohjaa, millaisia todennäköisyysjakaumia voidaan loogisesti käyttää kuvaamaan muuttuja, sille sallitut toiminnot ja sen ennustamiseen käytetyn regressioanalyysin tyyppi. jne. Tietotyypin käsite on samanlainen mittaustason käsitteessä, mutta tarkempi - esimerkiksi datamäärät vaativat erilaisen jakauman (Poisson tai binomiaali) kuin ei-negatiivisille reaaliarvoille, mutta molemmat kuuluvat samaan mittaustaso (kerroinasteikko).

Tilastotietoja tuomareista
Tilastotietoja tuomareista

vaa'at

Mittaustasojen taksonomiaa on yritetty luoda useita tilastotietojen käsittelyä varten. Psykofyysikko Stanley Smith Stevens määritteli nimellis-, järjestys-, intervalli- ja suhteelliset asteikot. Nimellismittauksilla ei ole merkittävää järjestystä arvojen joukossa, ja ne mahdollistavat minkä tahansa yksi-yhteen muuntamisen. Tavallisissa mittauksissa on epätarkkoja eroja peräkkäisten arvojen välillä, mutta ne eroavat näiden arvojen merkittävässä järjestyksessä ja mahdollistavatmikä tahansa järjestystä säilyttävä muunnos. Intervalmimittauksissa on merkityksellisiä etäisyyksiä mittausten välillä, mutta nolla-arvo on mieliv altainen (kuten pituus- ja lämpötilamittauksissa Celsius- tai Fahrenheit-asteissa) ja sallii minkä tahansa lineaarisen muunnoksen. Suhdemitoilla on sekä merkityksellinen nolla-arvo että etäisyydet eri määriteltyjen mittojen välillä, ja ne mahdollistavat minkä tahansa skaalausmuunnoksen.

Kaavion malli
Kaavion malli

Tietoja, joita ei voida kuvata yhdellä numerolla, sisällytetään usein todellisten satunnaismuuttujien satunnaisvektoreihin, vaikka onkin kasvava suuntaus käsitellä niitä itse. Tällaisia esimerkkejä käsitellään alla.

Satunnaiset vektorit

Yksittäiset elementit voivat olla korreloimattomia. Esimerkkejä jakaumista, joita käytetään kuvaamaan korreloituja satunnaisvektoreita, ovat monimuuttuja normaalijakauma ja monimuuttuja t-jakauma. Yleensä minkä tahansa elementin välillä voi olla mieliv altaisia korrelaatioita, mutta tämä tulee usein hallitsemattomaksi tietyn koon yläpuolella, mikä vaatii lisärajoituksia korreloiduille komponenteille.

tilastolliset ominaisuudet
tilastolliset ominaisuudet

Satunnaiset matriisit

Satunnaismatriiseja voidaan järjestää lineaarisesti ja käsitellä satunnaisvektoreina, mutta tämä ei välttämättä ole tehokas tapa esittää korrelaatioita eri elementtien välillä. Jotkut todennäköisyysjakaumat on suunniteltu erityisesti satunnaismatriiseille, kuten normaalimatriisillejakelu ja Wishart-jakelu.

Satunnaiset sekvenssit

Joskus niitä pidetään samoina kuin satunnaisvektoreita, mutta toisissa tapauksissa termiä sovelletaan erityisesti tapauksiin, joissa kukin satunnaismuuttuja korreloi vain lähellä olevien muuttujien kanssa (kuten Markovin mallissa). Tämä on Bayes-verkon erikoistapaus, ja sitä käytetään erittäin pitkille sekvensseille, kuten geeniketjuille tai pitkille tekstidokumenteille. Useat mallit on suunniteltu erityisesti tällaisia sekvenssejä varten, kuten piilotettuja Markov-sekvenssejä.

Tyypillinen kaavio
Tyypillinen kaavio

Satunnaiset prosessit

Ne ovat samanlaisia kuin satunnaiset sekvenssit, mutta vain silloin, kun sekvenssin pituus on määrittelemätön tai ääretön ja sekvenssin elementit käsitellään yksitellen. Tätä käytetään usein tiedoille, joita voidaan kuvata aikasarjoiksi. Tämä pätee esimerkiksi seuraavan päivän osakekurssiin.

Johtopäätös

Tilastotietojen analysointi riippuu täysin sen keräämisen laadusta. Jälkimmäinen puolestaan liittyy vahvasti sen luokittelumahdollisuuksiin. Tietenkin on olemassa monia tilastotietojen luokittelutyyppejä, jotka lukija saattoi nähdä itse lukiessaan tätä artikkelia. Siitä huolimatta tehokkaiden työkalujen olemassaolo ja hyvä matematiikan taito sekä sosiologian alan tietämys tekevät työnsä, jolloin voit suorittaa minkä tahansa kyselyn tai tutkimuksen ilman merkittäviä virheen korjauksia. Tilastotietojen lähteet lomakkeessaIhmiset, järjestöt ja muut sosiologian aiheet ovat onneksi runsaasti edustettuina. Eikä mikään vaikeus voi olla todellisen tutkimusmatkailijan tiellä.

Suositeltava: