Logistinen regressio: malli ja menetelmät

2026 Kirjoittaja: Angel Austin | [email protected]. Viimeksi muokattu: 2025-01-23 12:24:33

Logistisen regression ja erotteluanalyysin menetelmiä käytetään silloin, kun vastaajat on erotettava selkeästi kohdeluokkien mukaan. Tässä tapauksessa itse ryhmät esitetään yhden yhden muunnelman parametrin tasoilla. Tarkastellaan lähemmin logistista regressiomallia ja selvitetään, miksi sitä tarvitaan.

Yleistä tietoa

Esimerkki ongelmasta, jossa käytetään logistista regressiota, on vastaajien luokittelu ryhmiin, jotka ostavat ja eivät osta sinappia. Erottaminen tapahtuu sosiodemografisten ominaispiirteiden mukaisesti. Näitä ovat erityisesti ikä, sukupuoli, sukulaisten lukumäärä, tulot jne. Toiminnassa on erottelukriteerit ja muuttuja. Jälkimmäinen koodaa kohdeluokat, joihin vastaajat itse asiassa pitäisi jakaa.

Vuanssit

On sanottava, että tapausten valikoima, joissa logistista regressiota sovelletaan, on paljon kapeampi kuin erotteluanalyysissä. Tässä suhteessa harkitaan jälkimmäisen käyttöä yleismaailmallisena erottelumenetelmänäsuositeltavampi. Lisäksi asiantuntijat suosittelevat luokittelututkimuksen aloittamista erotteluanalyysillä. Ja vain siinä tapauksessa, että tulokset ovat epävarmoja, voit käyttää logistista regressiota. Tämä tarve johtuu useista tekijöistä. Logistista regressiota käytetään, kun on selkeä käsitys riippumattomien ja riippuvien muuttujien tyypeistä. Tämän mukaisesti valitaan yksi kolmesta mahdollisesta menettelystä. Diskriminanttianalyysissä tutkija käsittelee aina yhtä staattista operaatiota. Se sisältää yhden riippuvan ja useita riippumattomia kategoriamuuttujia millä tahansa asteikolla.

Näkymät

Logistista regressiota käyttävän tilastollisen tutkimuksen tehtävänä on määrittää todennäköisyys, että tietty vastaaja liitetään tiettyyn ryhmään. Erottaminen suoritetaan tiettyjen parametrien mukaan. Käytännössä yhden tai useamman riippumattoman tekijän arvojen mukaan vastaajat voidaan jakaa kahteen ryhmään. Tässä tapauksessa tapahtuu binäärinen logistinen regressio. Määritettyjä parametreja voidaan käyttää myös jaettaessa useamman kuin kahden hengen ryhmiin. Tällaisessa tilanteessa tapahtuu multinomiaalinen logistinen regressio. Tuloksena saadut ryhmät ilmaistaan yhden muuttujan tasoina.

Esimerkki

Oletetaan, että on olemassa vastaajien vastauksia kysymykseen, ovatko he kiinnostuneita tarjouksesta ostaa tontti Moskovan esikaupunkialueella. Vaihtoehdot ovat "ei"ja kyllä. On tarpeen selvittää, mitkä tekijät vaikuttavat potentiaalisten ostajien päätökseen. Tätä varten vastaajilta kysytään alueen infrastruktuurista, etäisyydestä pääkaupunkiin, kohteen pinta-alasta, asuinrakennuksen olemassaolosta / puuttumisesta jne. Binääriregression avulla on mahdollista jakaa vastaajat kahteen ryhmään. Ensimmäinen sisältää ne, jotka ovat kiinnostuneita hankinnasta - potentiaaliset ostajat, ja toinen, vastaavasti, ne, jotka eivät ole kiinnostuneita tällaisesta tarjouksesta. Jokaiselle vastaajalle lasketaan lisäksi todennäköisyys joutua johonkin luokkaan.

Vertailevat ominaisuudet

Erona kahdesta yllä olevista vaihtoehdoista on ryhmien eri määrä sekä riippuvien ja riippumattomien muuttujien tyyppi. Binääriregressiossa tutkitaan esimerkiksi dikotomisen tekijän riippuvuutta yhdestä tai useammasta riippumattomasta ehdosta. Lisäksi jälkimmäisellä voi olla mikä tahansa asteikko. Multinomiaalista regressiota pidetään tämän luokitusvaihtoehdon muunnelmana. Siinä yli 2 ryhmää kuuluu riippuvaiseen muuttujaan. Riippumattomilla tekijöillä on oltava joko järjestysasteikko tai nimellisasteikko.

Logistinen regressio spss:ssä

Tilastopaketissa 11-12 otettiin käyttöön uusi analyysiversio - järjestysluku. Tätä menetelmää käytetään, kun riippuva tekijä kuuluu samannimiseen (järjestysasteikkoon). Tässä tapauksessa riippumattomat muuttujat valitaan yhdestä tietystä tyypistä. Niiden on oltava ordinaalisia tai nimellisiä. Luokittelua useisiin luokkiin pidetään enitenyleismaailmallinen. Tätä menetelmää voidaan käyttää kaikissa tutkimuksissa, joissa käytetään logistista regressiota. Ainoa tapa parantaa mallin laatua on kuitenkin käyttää kaikkia kolmea tekniikkaa.

riittävyyden laadun tarkistus ja logistinen regressio

Tavallinen luokitus

On sanottava, että aiemmin tilastopaketissa ei ollut tyypillistä mahdollisuutta suorittaa riippuvaisten tekijöiden erikoisanalyysiä järjestysasteikolla. Kaikille muuttujille, joissa on enemmän kuin 2 ryhmää, käytettiin moninomista varianttia. Suhteellisen hiljattain käyttöön otetulla järjestysanalyysillä on useita ominaisuuksia. Ne ottavat huomioon mittakaavan erityispiirteet. Sitä vastoin opetusvälineissä ordinaalista logistista regressiota ei usein pidetä erillisenä tekniikkana. Tämä johtuu seuraavista syistä: ordinaalisella analyysillä ei ole merkittäviä etuja multinomiaaliin verrattuna. Tutkija voi hyvin käyttää jälkimmäistä sekä ordinaalisen että nimellisen riippuvaisen muuttujan läsnä ollessa. Samanaikaisesti itse luokitusprosessit eivät juuri eroa toisistaan. Tämä tarkoittaa, että järjestysanalyysin suorittaminen ei aiheuta vaikeuksia.

Analyysivaihtoehto

Katsotaanpa yksinkertaista tapausta - binääristä regressiota. Oletetaan, että markkinointitutkimuksen yhteydessä arvioidaan tietyn suurkaupunkiyliopiston valmistuneiden kysyntää. Kyselylomakkeessa vastaajilta esitettiin kysymyksiä, mukaan lukien:

Oletko töissä? (ql).
Anna valmistumisvuosi (q 21).
Mikä on keskiarvovalmistumispisteet (keskiarvo).
Sukupuoli (q22).

Logistinen regressio arvioi riippumattomien tekijöiden aver, q 21 ja q 22 vaikutuksen muuttujaan ql. Yksinkertaisesti sanottuna analyysin tarkoituksena on määrittää valmistuneiden todennäköinen työllisyys alan, valmistumisvuoden ja GPA:n perusteella.

logistinen sigmoidiregressioindikaattori

Logistinen regressio

Asettaaksesi parametrit binääriregression avulla, käytä Analysoi►Regression►Binary Logistic -valikkoa. Valitse Logistic Regression -ikkunassa riippuva tekijä vasemmalla olevasta käytettävissä olevien muuttujien luettelosta. Se on ql. Tämä muuttuja on sijoitettava Dependent-kenttään. Sen jälkeen on tarpeen lisätä riippumattomat tekijät kovariaattien kuvaajaan - q 21, q 22, keskiarvo. Sitten sinun on valittava, kuinka sisällytät ne analyysiisi. Jos riippumattomien tekijöiden lukumäärä on enemmän kuin 2, käytetään oletusarvoisesti asetettua menetelmää kaikkien muuttujien samanaikaiseen käyttöön ottamiseksi, mutta askel askeleelta. Suosituin tapa on Backward:LR. Valitse-painikkeella voit sisällyttää tutkimukseen ei kaikkia vastaajia, vaan vain tietyn kohdekategorian.

Määritä Kategoriset muuttujat

Kategorinen-painiketta tulee käyttää, kun yksi riippumattomista muuttujista on nimellinen ja sisältää enemmän kuin kaksi luokkaa. Tässä tilanteessa Define Categorical Variables -ikkunassa juuri tällainen parametri sijoitetaan Categorical Covariates -osioon. Tässä esimerkissä tällaista muuttujaa ei ole. Sen jälkeen avattavassa luettelossa näkyy Kontrastivalitse kohta Poikkeama ja paina Muuta-painiketta. Tämän seurauksena jokaisesta nimellistekijästä muodostuu useita riippuvia muuttujia. Niiden lukumäärä vastaa alkuehdon kategorioiden määrää.

Tallenna uudet muuttujat

Käyttämällä tutkimuksen päävalintaikkunan Tallenna-painiketta asetetaan uusien parametrien luominen. Ne sisältävät regressioprosessissa lasketut indikaattorit. Erityisesti voit luoda muuttujia, jotka määrittelevät:

Kuuluu tiettyyn luokitusluokkaan (ryhmäjäsenyys).
Todennäköisyys, että jokaiseen tutkimusryhmään määrätään vastaaja (todennäköisyydet).

Asetukset-painiketta käytettäessä tutkija ei saa merkittäviä vaihtoehtoja. Näin ollen se voidaan jättää huomiotta. Kun olet napsauttanut "OK"-painiketta, analyysin tulokset näkyvät pääikkunassa.

Laatutarkistus riittävyyden ja logistisen regression var alta

Harkitse mallikertoimien omnibus-testien taulukkoa. Se näyttää mallin approksimoinnin laadun analyysin tulokset. Koska vaiheittainen vaihtoehto asetettiin, sinun on tarkasteltava viimeisen vaiheen (vaihe 2) tuloksia. Positiivinen tulos katsotaan, jos Chi-neliö-indikaattorissa havaitaan nousu, kun siirrytään seuraavaan vaiheeseen suurella merkitystasolla (Sig. < 0,05). Mallin laatua arvioidaan Malli-rivillä. Jos saadaan negatiivinen arvo, mutta sitä ei pidetä merkittävänä mallin yleisen suuren olennaisuuden kanssa, viimeinenvoidaan pitää käytännössä sopivana.

taulukot

Model Summary mahdollistaa kokonaisvarianssiindeksin arvioinnin, joka kuvataan konstruoidulla mallilla (R Square index). On suositeltavaa käyttää Nagelker-arvoa. Nagelkerke R Square -parametria voidaan pitää positiivisena indikaattorina, jos se on yli 0,50. Tämän jälkeen arvioidaan luokittelun tuloksia, jossa verrataan todellisia indikaattoreita kuulumisesta yhteen tai toiseen tutkittavaan kategoriaan regressiomallin perusteella ennustettuihin. Tätä varten käytetään luokitustaulukkoa. Sen avulla voimme myös tehdä johtopäätöksiä kunkin tarkasteltavan ryhmän erottamisen oikeellisuudesta.

Seuraava taulukko antaa mahdollisuuden saada selville analyysiin lisättyjen riippumattomien tekijöiden tilastollinen merkitsevyys sekä kunkin standardoimattoman logistisen regressiokertoimen. Näiden indikaattoreiden perusteella on mahdollista ennustaa kunkin otokseen kuuluvan vastaajan kuuluminen tiettyyn ryhmään. Tallenna-painikkeella voit syöttää uusia muuttujia. Ne sisältävät tietoa kuulumisesta tiettyyn luokitusluokkaan (Predictedcategory) ja todennäköisyyteen kuulua näihin ryhmiin (Predicted probabilities -jäsenyys). Kun napsautat "OK", laskennan tulokset näkyvät Multinomial Logistic Regression -ohjelman pääikkunassa.

Ensimmäinen taulukko, joka sisältää tutkijalle tärkeitä indikaattoreita, on Model Fitting Information. Korkea tilastollinen merkitsevyys merkitsisi korkeaa laatua jamallin soveltuvuus käytännön ongelmien ratkaisemiseen. Toinen merkittävä pöytä on Pseudo R-Square. Sen avulla voit arvioida riippuvaisen tekijän kokonaisvarianssin osuuden, jonka määrittävät analyysiin valitut riippumattomat muuttujat. Todennäköisyyssuhdetestien taulukon perusteella voimme tehdä johtopäätöksiä jälkimmäisen tilastollisesta merkitsevyydestä. Parametriarviot heijastavat standardoimattomia kertoimia. Niitä käytetään yhtälön rakentamisessa. Lisäksi jokaiselle muuttujayhdistelmälle määritettiin niiden vaikutuksen tilastollinen merkitsevyys riippuvaan tekijään. Sitä vastoin markkinointitutkimuksessa on usein tarpeen erottaa vastaajat kategorioittain ei yksilöllisesti, vaan osana kohderyhmää. Tätä varten käytetään Havaitut ja ennustetut taajuudet -taulukkoa.

Käytännön sovellus

Tarkasteltua analyysimenetelmää käytetään laaj alti kauppiaiden työssä. Vuonna 1991 kehitettiin logistinen sigmoidiregressioindikaattori. Se on helppokäyttöinen ja tehokas työkalu todennäköisten hintojen ennustamiseen ennen kuin ne "ylikuumenevat". Osoitin näkyy kaaviossa kahden rinnakkaisen viivan muodostamana kanavana. Ne ovat yhtä kaukana trendistä. Käytävän leveys riippuu yksinomaan aikataulusta. Indikaattoria käytetään työskenneltäessä lähes kaikkien omaisuuserien kanssa - valuuttapareista jalometalleihin.

Käytännössä instrumentin käyttöön on kehitetty 2 keskeistä strategiaa: purkautuminen javuoroa varten. Jälkimmäisessä tapauksessa elinkeinonharjoittaja keskittyy hintamuutosten dynamiikkaan kanavan sisällä. Kun arvo lähestyy tuki- tai vastusviivaa, panostetaan todennäköisyydellä, että liike alkaa vastakkaiseen suuntaan. Jos hinta on lähellä ylärajaa, voit päästä eroon omaisuudesta. Jos se on alarajalla, kannattaa harkita ostamista. Breakout-strategiaan kuuluu tilausten käyttö. Ne asennetaan rajojen ulkopuolelle suhteellisen pienelle etäisyydelle. Ottaen huomioon, että hinta joissakin tapauksissa rikkoo niitä lyhyen aikaa, kannattaa toimia varmana ja asettaa stop losss. Samalla tietysti elinkeinonharjoittajan tulee valitusta strategiasta riippumatta havaita ja arvioida markkinoilla syntynyt tilanne mahdollisimman rauhallisesti.

Johtopäätös

Siksi logistisen regression avulla voit nopeasti ja helposti luokitella vastaajat luokkiin annettujen parametrien mukaan. Analysoitaessa voit käyttää mitä tahansa tiettyä menetelmää. Erityisesti moninomiregressio on universaali. Asiantuntijat suosittelevat kuitenkin kaikkien edellä kuvattujen menetelmien käyttöä yhdessä. Tämä johtuu siitä, että tässä tapauksessa mallin laatu on huomattavasti korkeampi. Tämä puolestaan laajentaa sen sovellusaluetta.