Klusterimenetelmä: kuvaus, peruskäsitteet, sovellusominaisuudet

2025 Kirjoittaja: Angel Austin | [email protected]. Viimeksi muokattu: 2025-06-01 07:34

Klusterointimenetelmän tehtävänä on ryhmitellä joukko objekteja siten, että ne ovat saman ryhmän kanssa samank altaisempia kuin muiden toimialojen objektit. Se on tiedon louhinnan ensisijainen tehtävä ja yleinen tilastollinen analyysitekniikka, jota käytetään monilla aloilla, mukaan lukien koneoppiminen, hahmontunnistus, kuvantunnistus, tiedonhaku, tietojen pakkaus ja tietokonegrafiikka.

Optimointiongelma

Klusterointimenetelmä itsessään ei ole yksi erityinen algoritmi, vaan yleinen tehtävä, joka on ratkaistava. Tämä voidaan saavuttaa erilaisilla algoritmeilla, jotka eroavat toisistaan merkittävästi sen ymmärtämisessä, mikä ryhmä muodostaa ja kuinka se löydetään tehokkaasti. Klusterointimenetelmän käyttö metasubjektien muodostamiseen sisältää ryhmän käytönpienet etäisyydet jäsenten välillä, tiheät avaruuden alueet, intervallit tai tietyt tilastolliset jakaumat. Siksi klusterointi voidaan muotoilla usean tavoitteen optimointiongelmaksi.

Sopiva menetelmä ja parametriasetukset (mukaan lukien kohteet, kuten käytettävä etäisyysfunktio, tiheyskynnys tai odotettujen klustereiden lukumäärä) riippuvat yksittäisestä tietojoukosta ja tulosten käyttötarkoituksesta. Analyysi sinänsä ei ole automaattinen tehtävä, vaan iteratiivinen tiedonhakuprosessi tai interaktiivinen usean tavoitteen optimointi. Tämä klusterointimenetelmä sisältää yritys- ja virheyritykset. Usein on tarpeen muokata tietojen esikäsittelyä ja mallintamisparametreja, kunnes tulos saavuttaa halutut ominaisuudet.

Termin "klusterointi" lisäksi on useita sanoja, joilla on samank altainen merkitys, mukaan lukien automaattinen luokittelu, numeerinen taksonomia, molempia ja typologinen analyysi. Hienovaraisia eroja on usein klusterointimenetelmän käytössä metasubjektisuhteiden muodostamisessa. Kun tiedon poiminnassa tuloksena olevat ryhmät kiinnostavat, niin automaattisessa luokittelussa nämä toiminnot suorittaa jo eroava voima.

Klusterianalyysi perustui lukuisiin Kroeberin töihin vuonna 1932. Zubin toi sen psykologiaan vuonna 1938 ja Robert Tryon vuonna 1939. Cattell on käyttänyt näitä teoksia vuodesta 1943 osoittaakseen klusterointimenetelmien teorian luokituksen.

Välikausi

Klusterin käsitettä ei voida määritellä tarkasti. Tämä on yksi syistä, miksi klusterointimenetelmiä on niin monia. On yhteinen nimittäjä: tietoobjektien ryhmä. Eri tutkijat käyttävät kuitenkin erilaisia malleja. Ja jokainen näistä klusterointimenetelmien käyttötavoista sisältää erilaisia tietoja. Eri algoritmien löytämä käsite eroaa merkittävästi ominaisuuksiltaan.

Klusterointimenetelmän käyttö on avain ohjeiden välisten erojen ymmärtämiseen. Tyypillisiä klusterimalleja ovat:

Centroid s. Tämä on esimerkiksi kun k-keskiarvoklusteri edustaa jokaista klusteria yhdellä keskiarvovektorilla.
Yhteysmalli s. Tämä on esimerkiksi hierarkkista klusterointia, joka rakentaa malleja etäisyysyhteyksien perusteella.
Jakelumalli s. Tässä tapauksessa klusterit mallinnetaan klusterointimenetelmällä metasubjektitilastojakaumien muodostamiseksi. Kuten monimuuttuja normaalierottelu, jota voidaan soveltaa odotusten maksimointialgoritmiin.
Tiheysmalli s. Näitä ovat esimerkiksi DBSCAN (Spatial Clustering Algorithm with Noise) ja OPTICS (Order Points for Structure Detection), jotka määrittelevät klusterit toisiinsa liittyviksi tiheiksi alueiksi tietoavaruudessa.
Alatilan malli c. Biklusteroinnissa (tunnetaan myös nimellä yhteisklusterointi tai kaksi tilaa) ryhmät mallinnetaan molemmilla elementeillä ja asianmukaisilla attribuuteilla.
Model s. Jotkut algoritmit eiväthienostunut suhde niiden klusterointimenetelmään, joka tuottaa meta-aihetuloksia ja tarjoaa yksinkertaisesti tietojen ryhmittelyn.
Käviöön s perustuva malli. Klikki eli solmujen osajoukko, jonka jokaista kahta reunaosan yhteyttä voidaan pitää klusterin muodon prototyyppinä. Kokonaiskysynnän heikkeneminen tunnetaan kvasiklikkeinä. Täsmälleen sama nimi esitetään HCS-klusterointialgoritmissa.
Neuraalimallit s. Tunnetuin valvomaton verkko on itseorganisoituva kartta. Ja juuri näitä malleja voidaan yleensä luonnehtia samanlaisiksi kuin yksi tai useampi edellä mainituista klusterointimenetelmistä meta-aihetulosten muodostamiseksi. Se sisältää aliavaruusjärjestelmät, kun hermoverkot toteuttavat tarvittavan pää- tai riippumattoman komponenttianalyysin muodon.

Tämä termi on itse asiassa joukko sellaisia ryhmiä, jotka yleensä sisältävät kaikki tietoklusterointimenetelmien joukon objektit. Lisäksi se voi osoittaa klusterien suhteen toisiinsa, kuten toisiinsa rakennettujen järjestelmien hierarkian. Ryhmittely voidaan jakaa seuraaviin näkökohtiin:

Kova sentroidiklusterimenetelmä. Tässä jokainen objekti kuuluu ryhmään tai on sen ulkopuolella.
Pehmeä tai sumea järjestelmä. Tässä vaiheessa jokainen objekti kuuluu jo jossain määrin mihin tahansa klusteriin. Sitä kutsutaan myös c-means fuzzy -klusterointimenetelmäksi.

Ja hienovaraisemmat erot ovat myös mahdollisia. Esimerkki:

Tiukka osiointiklusterointi. Tässäjokainen kohde kuuluu täsmälleen yhteen ryhmään.
Tiukka osiointiklusterointi poikkeavuuksilla. Tässä tapauksessa objektit eivät myöskään välttämättä kuulu mihinkään klusteriin ja niitä pidetään tarpeettomina.
Päällekkäinen klusterointi (myös vaihtoehtoinen, useilla näkymillä). Tässä objektit voivat kuulua useampaan kuin yhteen haaraan. Tyypillisesti mukana kiinteitä klustereita.
Hierarkkiset klusterointimenetelmät. Aliryhmään kuuluvat objektit kuuluvat myös pääalijärjestelmään.
Alaavaruuden muodostuminen. Vaikka keskinäiset ryhmät ovat samank altaisia kuin päällekkäiset klusterit, yksilöllisesti määritellyssä järjestelmässä, keskinäiset ryhmät eivät saa mennä päällekkäin.

Ohjeet

käyttämällä klusterointimenetelmää muodostamiseen

Kuten edellä mainittiin, klusterointialgoritmit voidaan luokitella niiden klusterimallin perusteella. Seuraavassa katsauksessa luetellaan vain näkyvimmät esimerkit näistä ohjeista. Koska julkaistuja algoritmeja voi olla yli 100, kaikki eivät tarjoa malleja klustereilleen, joten niitä ei voida luokitella helposti.

Ei ole olemassa objektiivisesti oikeaa klusterointialgoritmia. Mutta kuten edellä todettiin, ohje on aina tarkkailijan näkökentässä. Sopivin klusterointialgoritmi tiettyyn ongelmaan on usein valittava kokeellisesti, ellei ole matemaattista syytä suosia yhtä mallia toisen sijaan. On huomattava, että yhdelle tyypille suunniteltu algoritmi ei yleensä toimitietojoukko, joka sisältää radikaalisti erilaisen aiheen. Esimerkiksi k-keskiarvot eivät löydä ei-kuperia ryhmiä.

Yhteyspohjainen klusterointi

Tämä liitto tunnetaan myös nimellä, hierarkkisella mallilla. Se perustuu tyypilliseen ajatukseen, että esineet ovat enemmän yhteydessä viereisiin osiin kuin niihin, jotka ovat paljon kauempana. Nämä algoritmit yhdistävät esineitä muodostaen erilaisia klustereita niiden etäisyydestä riippuen. Ryhmää voidaan kuvata pääasiassa suurimmalla etäisyydellä, joka tarvitaan klusterin eri osien yhdistämiseen. Kaikilla mahdollisilla etäisyyksillä muodostuu muita ryhmiä, jotka voidaan esittää dendrogrammin avulla. Tämä selittää, mistä yleinen nimi "hierarkkinen klusteri" tulee. Toisin sanoen nämä algoritmit eivät tarjoa yhtä osiota tietojoukosta, vaan tarjoavat sen sijaan laajan v altuutusjärjestyksen. Hänen ansiostaan on viemäri toistensa kanssa tietyillä etäisyyksillä. Dendrogrammissa y-akseli tarkoittaa etäisyyttä, jolla klusterit kohtaavat. Ja objektit on järjestetty X-viivaa pitkin niin, että ryhmät eivät sekoitu.

Yhteyspohjainen klusterointi on joukko menetelmiä, jotka eroavat toisistaan etäisyyksien laskemistavalla. Tavallisen etäisyystoimintojen valinnan lisäksi käyttäjän on päätettävä myös yhteyskriteeristä. Koska klusteri koostuu useista objekteista, sen laskemiseen on monia vaihtoehtoja. Suosittu valinta tunnetaan yhden vivun ryhmittelynä, tämä on menetelmätäysi linkki, joka sisältää UPGMA:n tai WPGMA:n (painottamaton tai painotettu parien ensemble aritmeettisella keskiarvolla, joka tunnetaan myös keskimääräisen linkin klusterina). Lisäksi hierarkkinen järjestelmä voi olla agglomeratiivinen (alkaen yksittäisistä elementeistä ja yhdistämällä ne ryhmiksi) tai jakavaksi (alkaa täydellisestä tietojoukosta ja jakaa sen osiin).

Hajautettu klusterointi

Nämä mallit liittyvät läheisimmin splitteihin perustuviin tilastoihin. Klusterit voidaan helposti määritellä objekteiksi, jotka todennäköisimmin kuuluvat samaan jakaumaan. Tämän lähestymistavan kätevä ominaisuus on, että se on hyvin samanlainen kuin keinotekoisten tietojoukkojen luontitapa. Ottamalla satunnaisia objekteja näytteille jakaumasta.

Vaikka näiden menetelmien teoreettinen perusta on erinomainen, ne kärsivät yhdestä keskeisestä ongelmasta, joka tunnetaan nimellä ylisovitus, ellei mallin monimutkaisuutta rajoita. Suurempi yhdistys selittää yleensä tiedot paremmin, mikä vaikeuttaa oikean menetelmän valintaa.

Gaussin sekoitusmalli

Tämä menetelmä käyttää kaikenlaisia odotusten maksimointialgoritmeja. Tässä tietojoukko mallinnetaan tavallisesti kiinteällä (syrjäytymisen välttämiseksi) määrällä Gaussin jakaumia, jotka alustetaan satunnaisesti ja joiden parametrit optimoidaan iteratiivisesti sopimaan paremmin tietojoukkoon. Tämä järjestelmä konvergoi paikalliseen optimiin. Siksi useat juoksut voivat antaaerilaisia tuloksia. Tiukimman klusteroinnin saamiseksi ominaisuudet määritetään usein Gaussin jakaumaan, johon ne todennäköisimmin kuuluvat. Ja pehmeämmille ryhmille tämä ei ole välttämätöntä.

Jakelupohjainen klusterointi luo monimutkaisia malleja, jotka voivat viime kädessä kaapata attribuuttien välisen korrelaation ja riippuvuuden. Nämä algoritmit aiheuttavat kuitenkin lisätaakkaa käyttäjälle. Monille reaalimaailman tietojoukoille ei ehkä ole ytimekkäästi määriteltyä matemaattista mallia (esimerkiksi Gaussin jakauman oletus on melko vahva oletus).

Tiheyteen perustuva klusterointi

Tässä esimerkissä ryhmät määritellään periaatteessa alueiksi, joiden läpäisevyys on suurempi kuin muulla tietojoukolla. Näissä harvinaisissa osissa olevia esineitä, jotka ovat välttämättömiä kaikkien komponenttien erottamiseksi, pidetään yleensä kohina- ja reunapisteinä.

Suosituin tiheyteen perustuva klusterointimenetelmä on DBSCAN (Spatial Noise Clustering Algorithm). Toisin kuin monissa uudemmissa menetelmissä, siinä on hyvin määritelty klusterikomponentti nimeltä "tiheyden saavutettavuus". Linkkipohjaisen klusteroinnin tapaan se perustuu yhteyspisteisiin tiettyjen etäisyyskynnysten sisällä. Tämä menetelmä kuitenkin kerää vain ne kohteet, jotka täyttävät tiheyskriteerin. Alkuperäisessä versiossa, joka on määritelty muiden tällä säteellä olevien objektien vähimmäismääräksi, klusteri koostuu kaikistatiheyteen liittyvät kohteet (jotka voivat muodostaa vapaamuotoisen ryhmän, toisin kuin monet muut menetelmät) ja kaikki objektit, jotka ovat sallitulla alueella.

Toinen DBSCANin mielenkiintoinen ominaisuus on, että sen monimutkaisuus on melko alhainen - se vaatii lineaarisen määrän aluekyselyitä tietokantaa vastaan. Epätavallista on myös se, että se löytää olennaisesti samat tulokset (tämä on determinististä ydin- ja kohinapisteille, mutta ei rajaelementeille) joka ajossa. Siksi sitä ei tarvitse suorittaa useita kertoja.

DBSCANin ja OPTICSin suurin haittapuoli on, että ne odottavat jonkin verran tiheyden laskua havaitakseen klusterin rajat. Esimerkiksi tietojoukoissa, joissa on päällekkäisiä Gaussin jakaumia - yleinen tapaus keinotekoisille objekteille - näiden algoritmien luomat klusterin rajat näyttävät usein mieliv altaisilta. Tämä johtuu siitä, että ryhmien tiheys vähenee jatkuvasti. Ja Gaussin sekoitustietojoukossa nämä algoritmit toimivat lähes aina paremmin kuin menetelmät, kuten EM-klusterointi, jotka pystyvät mallintamaan tarkasti tämäntyyppisiä järjestelmiä.

Keskimääräinen siirtymä on klusterointimenetelmä, jossa jokainen kohde siirtyy lähialueen tiheisimmälle alueelle koko ytimen arvion perusteella. Lopulta objektit konvergoivat paikallisiin läpäisemättömyysmaksimiin. Samoin kuin k-keskiarvoklusterointi, nämä "tiheysattraktorit" voivat toimia tietojoukon edustajina. Mutta keskimääräinen muutosvoi havaita mieliv altaisesti muotoiltuja klustereita, jotka ovat samanlaisia kuin DBSCAN. Kalliin iteratiivisen menettelyn ja tiheysestimoinnin vuoksi keskimääräinen siirtymä on yleensä hitaampi kuin DBSCAN tai k-Means. Lisäksi tyypillisen siirtoalgoritmin soveltuvuus suuriulotteiseen dataan on vaikeaa johtuen ytimen tiheysestimaatin epäyhtenäisestä käyttäytymisestä, mikä johtaa klusterin pyrstöjen liialliseen pirstoutumiseen.

Arviointi

klusterointimenetelmä metasubjektin muodostamiseksi

Klusterointitulosten tarkistaminen on yhtä vaikeaa kuin itse klusterointi. Suosittuja lähestymistapoja ovat "sisäinen" pisteytys (jossa järjestelmä on pelkistetty yhdeksi laadun mittapuuksi) ja tietysti "ulkoinen" pisteytys (jossa klusterointia verrataan olemassa olevaan "perustatuuden" luokitukseen). Ja ihmisasiantuntijan manuaalinen pistemäärä ja epäsuora pistemäärä löydetään tutkimalla klusteroinnin hyödyllisyyttä aiotussa sovelluksessa.

Sisäiset lipputoimenpiteet kärsivät siitä ongelmasta, että ne edustavat ominaisuuksia, joita voidaan pitää klusterointikohteina. On mahdollista esimerkiksi ryhmitellä siluettikertoimella annettua dataa, paitsi että sille ei ole tunnettua tehokasta algoritmia. Käyttämällä tällaista sisäistä mittaa arviointiin, on parempi verrata optimointiongelmien samank altaisuutta.

Ulkomerkissä on samanlaisia ongelmia. Jos on sellaisia "pohjatotuuden" merkintöjä, ei ole tarvetta ryhmitellä. Ja käytännön sovelluksissa tällaisia käsitteitä ei yleensä ole. Toisa alta tunnisteet heijastavat vain yhtä mahdollista tietojoukon osiota, mikä ei tarkoitaettä muuta (ehkä jopa parempaa) klusterointia ei ole olemassa.

Joten mikään näistä lähestymistavoista ei voi lopulta arvioida todellista laatua. Mutta tämä vaatii inhimillistä arviointia, joka on erittäin subjektiivinen. Tällaiset tilastot voivat kuitenkin olla informatiivisia huonojen klustereiden tunnistamisessa. Mutta ei pidä väheksyä henkilön subjektiivista arviota.

Sisämerkki

Kun klusteroinnin tulos arvioidaan itse klusteroitujen tietojen perusteella, tätä kutsutaan termiksi. Nämä menetelmät antavat yleensä parhaan tuloksen algoritmille, joka luo ryhmiä, joilla on suuri samank altaisuus ryhmien sisällä ja vähän ryhmien välillä. Yksi sisäisten kriteerien käytön haitoista klusteriarvioinnissa on se, että korkeat pisteet eivät välttämättä johda tehokkaisiin tiedonhakusovelluksia. Myös tämä pistemäärä on puolueellinen algoritmeihin, jotka käyttävät samaa mallia. Esimerkiksi k-keskiarvoklusterointi optimoi luonnollisesti piirteiden etäisyydet, ja siihen perustuva sisäinen kriteeri todennäköisesti yliarvioi tuloksena olevan klusteroinnin.

Nämä arviointitoimenpiteet sopivat siis parhaiten saamaan käsityksen tilanteista, joissa yksi algoritmi toimii paremmin kuin toinen. Mutta tämä ei tarkoita, että jokainen tieto antaisi luotettavampia tuloksia kuin muut. Tällaisella indeksillä mitattu voimassaoloaika riippuu väitteestä, että rakenne on olemassa tietojoukossa. Joillekin tyypeille kehitetyllä algoritmilla ei ole mahdollisuutta, jos joukko sisältää radikaalistierilainen koostumus tai jos arvioinnissa käytetään erilaisia kriteerejä. Esimerkiksi k-keskiarvoklusterointi voi löytää vain kuperia klustereita, ja monet pistemääräindeksit ottavat saman muodon. Tietojoukossa, jossa on ei-kupereita malleja, ei ole tarkoituksenmukaista käyttää k-keskiarvoja ja tyypillisiä arviointikriteerejä.

Ulkoinen arviointi

Tällaisella pallotuksella klusterointitulokset arvioidaan tietojen perusteella, joita ei käytetty ryhmittelyyn. Eli kuten tunnetut luokkatunnisteet ja ulkoiset testit. Tällaiset kysymykset koostuvat joukosta enn alta luokiteltuja kohteita, ja ne ovat usein asiantuntijoiden (ihmisten) laatimia. Sellaisenaan referenssisarjoja voidaan pitää arvioinnin kultaisena standardina. Tämäntyyppiset pisteytysmenetelmät mittaavat, kuinka lähellä klusterointi on annettuja vertailuluokkia. Äskettäin on kuitenkin keskusteltu siitä, riittääkö tämä todelliselle datalle vai vain synteettisille joukoille, joilla on todellinen perustotuus. Koska luokat voivat sisältää sisäistä rakennetta, ja olemassa olevat attribuutit eivät välttämättä salli klustereiden erottamista. Tiedon löytämisen näkökulmasta myös tunnettujen tosiasioiden toistaminen ei välttämättä tuota odotettua tulosta. Erityisessä rajoitetussa klusterointiskenaariossa, jossa metatietoja (kuten luokkatunnisteita) käytetään jo ryhmittelyprosessissa, ei ole triviaalia säilyttää kaikkia tietoja arviointia varten.

Nyt on selvää, mikä ei päde klusterointimenetelmiin ja mitä malleja näihin tarkoituksiin käytetään.