Multivariate scaling (MDS) on työkalu tietojoukon yksittäisten tapausten samank altaisuuden tason visualisointiin. Se viittaa joukkoon toisiinsa liittyviä ordinaatiomenetelmiä, joita käytetään tiedon visualisoinnissa, erityisesti etäisyysmatriisin sisältämän tiedon näyttämiseksi. Tämä on epälineaarisen ulottuvuuden vähentämisen muoto. MDS-algoritmin tavoitteena on sijoittaa jokainen kohde N-ulotteiseen tilaan siten, että objektien väliset etäisyydet säilyvät mahdollisimman hyvin. Jokaiselle kohteelle määritetään sitten koordinaatit jokaisessa N mittasuhteessa.
MDS-kaavion ulottuvuuksien määrä voi ylittää 2 ja se määritetään etukäteen. Jos valitset N=2, objektien sijoittelu optimoidaan 2D-sirontakuvaajaa varten. Voit nähdä esimerkkejä moniulotteisesta skaalauksesta artikkelin kuvista. Esimerkit venäjänkielisillä symboleilla ovat erityisen havainnollisia.
Essence
Moniulotteisen skaalausmenetelmän (MMS,MDS) on laajennettu joukko klassisia työkaluja, jotka yleistävät optimointimenettelyn joukolle häviöfunktioita ja syöttömatriiseja tunnetuilla etäisyyksillä painoilla ja niin edelleen. Tässä yhteydessä hyödyllistä häviöfunktiota kutsutaan stressiksi, joka usein minimoidaan stressin majorisaatioksi kutsutulla menettelyllä.
Manuaalinen
Moniulotteiseen skaalaukseen on useita vaihtoehtoja. MDS-ohjelmat minimoivat automaattisesti kuorman löytääkseen ratkaisun. Ei-metrisen MDS-algoritmin ydin on kaksinkertainen optimointiprosessi. Ensin on löydettävä optimaalinen monotoninen läheisyysmuunnos. Toiseksi konfigurointipisteet on sijoitettava optimaalisesti siten, että niiden etäisyydet vastaavat mahdollisimman tarkasti skaalattuja läheisyysarvoja.
Laajennus
Metrinen moniulotteisen skaalauksen laajennus tilastoissa, joissa kohdeavaruus on mieliv altainen sileä ei-euklidinen avaruus. Missä erot ovat etäisyydet pinnalla ja kohdetila on eri pinta. Temaattisten ohjelmien avulla voit löytää liitteen siten, että yksi pinta vääristyy mahdollisimman vähän.
Vaiheet
Monimuuttujaskaalausta käyttävän tutkimuksen suorittamisessa on useita vaiheita:
- Ongelman muotoilu. Mitä muuttujia haluat verrata? Kuinka monta muuttujaa haluat verrata? Mihin tarkoitukseen tutkimusta käytetään?
- Haetaan syöttötietoja. Vastaajilta kysytään sarja kysymyksiä. Jokaisen tuoteparin os alta heitä pyydetään arvioimaan samank altaisuus (yleensä 7-pisteen Likert-asteikolla hyvin samank altaisesta erittäin erilaiseen). Ensimmäinen kysymys voisi olla esimerkiksi Coca-Cola/Pepsistä, seuraava oluesta, seuraava Dr. Pepperistä jne. Kysymysten määrä riippuu merkkien määrästä.
Vaihtoehtoisia lähestymistapoja
On olemassa kaksi muuta lähestymistapaa. On olemassa tekniikka nimeltä "Perceptual Data: Derived Approach", jossa tuotteet hajotetaan attribuutteiksi ja arviointi suoritetaan semanttisella differentiaaliasteikolla. Toinen menetelmä on "preference data -lähestymistapa", jossa vastaajilta kysytään mieltymyksiä samank altaisuuksien sijaan.
Se koostuu seuraavista vaiheista:
- MDS-tilastoohjelman käynnistäminen. Ohjelmisto toimenpiteen suorittamiseen on saatavilla useissa tilastoohjelmistopaketeissa. Usein on valittavissa metrisen MDS:n (joka käsittelee intervalli- tai suhdetason tietoja) ja ei-metrisen MDS:n (jossa käsitellään järjestystietoja) välillä.
- Mittausten lukumäärän määrittäminen. Tutkijan tulee määrittää, kuinka monta mittausta hän haluaa luoda tietokoneelle. Mitä enemmän mittauksia, sitä parempi tilastollinen yhteensopivuus, mutta sitä vaikeampaa on tulkita tuloksia.
- Näytä tulokset ja määritä mittaukset - tilastoohjelma (tai siihen liittyvä moduuli) näyttää tulokset. Kartta näyttää jokaisen tuotteen (yleensä 2D-muodossa).tilaa). Tuotteiden läheisyys toisiinsa osoittaa joko niiden samank altaisuuden tai mieltymyksen riippuen siitä, kumpaa lähestymistapaa on käytetty. Aina ei kuitenkaan ole selvää, kuinka mittaukset itse asiassa vastaavat järjestelmän käyttäytymisen mittauksia. Tässä voidaan tehdä subjektiivinen arviointi vaatimustenmukaisuudesta.
- Tarkista tulosten luotettavuus ja pätevyys – laske R-neliö määrittääksesi skaalatun datan varianssin osuuden, joka voidaan ottaa huomioon MDS-menettelyllä. Neliön R 0,6 katsotaan pienimmäksi hyväksyttäväksi tasoksi. R:n neliö 0,8 katsotaan hyväksi metriseen skaalaukseen, kun taas 0,9:n katsotaan olevan hyvä ei-metriseen skaalaukseen.
Erilaiset testit
Muita mahdollisia testejä ovat Kruskal-tyyppiset stressitestit, split data -testit, tietojen vakaustestit ja uudelleentestauksen luotettavuustestit. Kirjoita testin tuloksista yksityiskohtaisesti. Karttauksen yhteydessä tulee määrittää ainakin etäisyyden (esim. Sorenson-indeksi, Jaccard-indeksi) ja luotettavuuden (esim. jännitysarvo) mitta.
On myös erittäin toivottavaa antaa algoritmi (esim. Kruskal, Mather), joka usein määräytyy käytetyn ohjelman mukaan (joskus korvaa algoritmiraportin), jos olet antanut aloituskonfiguraation tai satunnaisen valinnan, numeron mittaajoista, Monte Carlon tuloksista, iteraatioiden lukumäärästä, stabiilisuuspisteistä ja kunkin akselin suhteellisesta varianssista (r-neliö).
Visuaaliset tiedot ja data-analyysimenetelmämoniulotteinen skaalaus
Tiedon visualisointi on abstraktin tiedon interaktiivisten (visuaalisten) esittelyjen tutkimus ihmisen kognition parantamiseksi. Abstrakti data sisältää sekä numeerista että ei-numeerista tietoa, kuten teksti- ja maantieteellisiä tietoja. Tiedon visualisointi eroaa kuitenkin tieteellisestä visualisoinnista: "se on informaatiota (informaation visualisointi), kun valitaan tilaesitys, ja scivis (tieteellinen visualisointi), kun spatiaalinen esitys annetaan."
Tiedon visualisoinnin ala syntyi ihmisen ja tietokoneen vuorovaikutuksen, tietojenkäsittelytieteen sovellusten, grafiikan, visuaalisen suunnittelun, psykologian ja liiketoimintamenetelmien tutkimuksesta. Sitä käytetään yhä enemmän olennaisena osana tieteellisessä tutkimuksessa, digitaalisissa kirjastoissa, tiedon louhinnassa, taloustiedoissa, markkinatutkimuksessa, tuotannon ohjauksessa ja niin edelleen.
Menetelmät ja periaatteet
Tiedon visualisointi viittaa siihen, että visualisointi- ja vuorovaikutusmenetelmissä hyödynnetään ihmisen havainnon rikkautta, jolloin käyttäjät voivat samanaikaisesti nähdä, tutkia ja ymmärtää suuria määriä tietoa. Tiedon visualisoinnin tavoitteena on luoda lähestymistapoja abstraktin datan, tiedon välittämiseen intuitiivisella tavalla.
Tietojen analysointi on olennainen osa kaikkea teollisuuden soveltavaa tutkimusta ja ongelmanratkaisua. Suurin osaTietojen analysoinnin perustavanlaatuisia lähestymistapoja ovat visualisointi (histogrammit, sirontakuvaajat, pintakuvaajat, puukartat, rinnakkaiset koordinaattikuvaajat jne.), tilastot (hypoteesitestaus, regressio, PCA jne.), data-analyysi (sovitus jne.)..d.) ja koneoppimismenetelmiä (klusterointi, luokittelu, päätöspuut jne.).
Näistä lähestymistavoista tiedon visualisointi tai visuaalinen data-analyysi on eniten riippuvainen analyyttisen henkilöstön kognitiivisista taidoista, ja se mahdollistaa jäsentämättömien toimivien oivallusten löytämisen, joita vain ihmisen mielikuvitus ja luovuus rajoittavat. Analyytikon ei tarvitse opetella mitään monimutkaisia tekniikoita voidakseen tulkita datavisualisaatioita. Tiedon visualisointi on myös hypoteesien luomisjärjestelmä, johon voidaan ja yleensä liittyy analyyttisempi tai muodollinen analyysi, kuten tilastollinen hypoteesien testaus.
Opiskelu
Nykyaikainen visualisoinnin tutkimus alkoi tietokonegrafiikasta, jota "alusta lähtien käytettiin tieteellisten ongelmien tutkimiseen. Alkuvuosina graafisen tehon puute rajoitti kuitenkin usein sen käyttökelpoisuutta. Visualisoinnin etusija alkoi kehitetään vuonna 1987, jolloin tieteellisen laskennan tietokonegrafiikkaa ja visualisointia varten julkaistiin erityinen ohjelmisto. Sen jälkeen on järjestetty useita konferensseja ja työpajoja, jotka IEEE Computer Society ja ACM SIGGRAPH ovat yhdessä järjestäneet."
Ne käsittelivät tiedon visualisoinnin, tiedon visualisoinnin ja tieteellisen visualisoinnin yleisiä aiheita,sekä tarkemmat alueet, kuten volyymin renderöinti.
Yhteenveto
Generalized Multidimensional Scaling (GMDS) on metrisen moniulotteisen skaalauksen laajennus, jossa kohdeavaruus ei ole euklidinen. Kun erot ovat pinnan etäisyyksiä ja kohdeavaruus on toinen pinta, GMDS antaa sinun löytää yhden pinnan sisäkkäisyyden toiseen pintaan mahdollisimman vähän vääristymällä.
GMDS on uusi tutkimuslinja. Tällä hetkellä tärkeimmät sovellukset ovat muotoutuvien objektien tunnistus (esimerkiksi 3D-kasvojen tunnistus) ja pintakuvioiden kartoitus.
Moniulotteisen skaalauksen tarkoitus on edustaa moniulotteista tietoa. Moniulotteinen data, eli data, jonka esittämiseen tarvitaan enemmän kuin kaksi tai kolme ulottuvuutta, voi olla vaikea tulkita. Yksi lähestymistapa yksinkertaistamiseen on olettaa, että kiinnostava data on upotetussa epälineaarisessa monistossa korkeaulotteisessa avaruudessa. Jos keräilijän ulottuvuus on riittävän pieni, tiedot voidaan visualisoida pieniulotteisessa tilassa.
Monet epälineaarisen ulottuvuuden vähennysmenetelmät liittyvät lineaarisiin menetelmiin. Epälineaariset menetelmät voidaan luokitella laajasti kahteen ryhmään: ne, jotka tarjoavat kartoitusta (joko korkeaulotteisesta tilasta matalaulotteiseen upotukseen tai päinvastoin), ja ne, jotka tarjoavat yksinkertaisesti visualisoinnin. Koneoppimisen yhteydessä kartoitusmenetelmiä voidaan tarkastella mmpiirteiden poimimisen alustava vaihe, jonka jälkeen sovelletaan hahmontunnistusalgoritmeja. Yleensä ne, jotka antavat vain visualisointeja, perustuvat läheisyystietoihin - eli etäisyysmittauksiin. Moniulotteinen skaalaus on melko yleistä myös psykologiassa ja muissa humanistisissa tieteissä.
Jos attribuuttien määrä on suuri, niin yksilöllisten mahdollisten merkkijonojen tila on myös eksponentiaalisesti suuri. Siten mitä suurempi ulottuvuus, sitä vaikeampaa on tilan kuvaaminen. Tämä aiheuttaa paljon ongelmia. Algoritmeilla, jotka toimivat korkeaulotteisella tiedolla, on yleensä erittäin suuri ajallinen monimutkaisuus. Tietojen pienentäminen harvempiin ulottuvuuksiin tekee analyysialgoritmeista usein tehokkaampia ja voi auttaa koneoppimisalgoritmeja tekemään tarkempia ennusteita. Tästä syystä moniulotteinen tietojen skaalaus on niin suosittua.