Datan louhinta on Konsepti, algoritmianalyysi, tarkoitus ja sovellus

Sisällysluettelo:

Datan louhinta on Konsepti, algoritmianalyysi, tarkoitus ja sovellus
Datan louhinta on Konsepti, algoritmianalyysi, tarkoitus ja sovellus
Anonim

Tietotekniikan kehitys tuo käytännön tuloksia. Mutta sellaiset tehtävät kuin tiedon etsiminen, analysointi ja käyttö eivät ole vielä saaneet tehokasta ja laadukasta työkalua. On olemassa analytiikkaa ja kvantitatiivisia työkaluja, ne todella toimivat. Mutta laadullista vallankumousta tiedon käytössä ei ole vielä tapahtunut.

Kauan ennen tietotekniikan tuloa ihmisen täytyi käsitellä suuria tietomääriä ja hän selviytyi siitä parhaan kokemuksensa ja käytettävissä olevien teknisten kykyjensä mukaan.

Tietojen ja taitojen kehittäminen on aina vastannut todellisia tarpeita ja vastannut ajankohtaisia tehtäviä. Tiedonlouhinta on kollektiivinen nimi, jota käytetään viittaamaan menetelmiin, joilla löydetään tiedosta aiemmin tuntematonta, ei-triviaalia, käytännöllisesti katsoen hyödyllistä ja saatavilla olevaa tietoa, joka on tarpeen päätöksenteossa ihmisen toiminnan eri osa-alueilla.

Ihminen, älykkyys, ohjelmointi

Ihminen tietää aina, kuinka toimia missä tahansa tilanteessa. Tietämättömyys tai tuntematon tilanne ei estä häntä tekemästä päätöstä. Minkä tahansa ihmisen päätöksen objektiivisuus ja järkevyys voidaan kyseenalaistaa, mutta se hyväksytään.

Älykkyys perustuu: perinnölliseen "mekanismiin", hankittuun, aktiiviseen tietoon. Tietoa käytetään ihmisen eteen tulevien ongelmien ratkaisemiseen.

  1. Älykkyys on ainutlaatuinen joukko tietoja ja taitoja: mahdollisuuksia ja perustaa ihmiselämälle ja työlle.
  2. Älykkyys kehittyy jatkuvasti, ja ihmisten teoilla on vaikutusta muihin ihmisiin.

Ohjelmointi on ensimmäinen yritys virallistaa tietojen esitys ja algoritmien luontiprosessi.

Mies, älykkyys, ohjelmointi
Mies, älykkyys, ohjelmointi

Tekoäly (AI) on ajan ja resurssien haaskausta, mutta viime vuosisadan epäonnistuneiden tekoälyyritysten tulokset jäivät muistiin, niitä käytettiin erilaisissa asiantuntija- (älykkäissä) järjestelmissä ja muunnettiin, erityisesti algoritmeihin (sääntöihin) ja matemaattiseen (loogiseen) data-analyysiin ja tiedon louhintaan.

Tiedot ja tavallinen ratkaisun etsintä

Tavallinen kirjasto on tiedon varasto, eikä painettu sana ja grafiikka ole vielä luovuttaneet tietotekniikkaa. Fysiikan, kemian, teoreettisen mekaniikan, suunnittelun, luonnonhistorian, filosofian, luonnontieteiden, kasvitieteen, oppikirjat, monografiat, tutkijoiden teokset, konferenssimateriaalit, kehitystyöraportit jne. kirjat ovat aina ajankohtaisia ja luotettavia.

Kirjastossa on paljon erilaisia lähteitä, jotka eroavat toisistaanmateriaalin esitysmuoto, alkuperä, rakenne, sisältö, esitystapa jne.

Kirjasto: kirjat, aikakauslehdet ja muut painotuotteet
Kirjasto: kirjat, aikakauslehdet ja muut painotuotteet

Ulkopuolisesti kaikki on nähtävissä (luettavissa, saavutettavissa) ymmärrystä ja käyttöä varten. Osaat ratkaista minkä tahansa ongelman, asettaa tehtävän oikein, perustella ratkaisun, kirjoittaa esseen tai tutkielman, valita materiaalia tutkintotodistukseen, analysoida lähteitä väitöskirjan tai tieteellisen ja analyyttisen raportin aiheesta.

Kaikki tietoongelmat voidaan ratkaista. Asianmukaisella sitkeydellä ja taidolla saadaan tarkka ja luotettava tulos. Tässä yhteydessä tiedon louhinta on täysin erilainen lähestymistapa.

Tuloksen lisäksi henkilö saa "aktiivisia linkkejä" kaikkeen, mitä katsottiin tavoitteen saavuttamisprosessissa. Lähteet, joita hän käytti ongelman ratkaisemisessa, voidaan viitata, eikä kukaan kiistä lähteen olemassaoloa. Tämä ei ole takuu aitoudesta, mutta se on varma todistus siitä, kenelle vastuu aitoudesta on "poistettu". Tästä näkökulmasta Data Mining tarkoittaa suuria epäilyjä luotettavuudesta eikä "aktiivisia" linkkejä.

Ratkaisemalla useita ongelmia ihminen saa tuloksia ja laajentaa henkistä potentiaaliaan moniin "aktiivisiin linkkeihin". Jos uusi tehtävä "aktivoi" jo olemassa olevan linkin, henkilö tietää, kuinka se ratkaistaan: mitään ei tarvitse etsiä uudelleen.

"Aktiivinen linkki" on kiinteä yhteys: miten ja mitä tehdä tietyssä tapauksessa. Ihmisaivot muistavat automaattisesti kaiken, mikä näyttää siltä mahdollisesti mielenkiintoiselta, hyödylliseltä.tai todennäköisesti tarvitaan tulevaisuudessa. Tämä tapahtuu monella tapaa alitajunnan tasolla, mutta heti kun”aktiiviseen linkkiin” yhdistettävä tehtävä ilmaantuu, se ponnahtaa heti mieleen ja ratkaisu saadaan ilman lisätietoa. Tiedonlouhinta on aina hakualgoritmin toistoa, eikä tämä algoritmi muutu.

Tavallinen haku: "taiteelliset" ongelmat

Math kirjasto ja tiedon etsiminen siitä on suhteellisen heikko tehtävä. Yhden tai toisen tavan löytäminen integraalin ratkaisemiseksi, matriisin muodostamiseksi tai kahden imaginaariluvun lisäämisen suorittamiseksi on työlästä, mutta yksinkertaista. Sinun on lajiteltava useita kirjoja, joista monet on kirjoitettu tietyllä kielellä, löydettävä oikea teksti, tutkittava sitä ja hankittava tarvittava ratkaisu.

Ajan mittaan luettelointi tulee tutuksi ja kertynyt kokemus antaa sinun navigoida kirjaston tiedoissa ja muissa matemaattisissa tehtävissä. Tämä on rajoitettu kysymys- ja vastaustila. Tyypillinen piirre: tällainen tiedonhaku kerää tietoa samanlaisten ongelmien ratkaisemiseksi. Ihmisen tiedonhaku jättää hänen muistiinsa jälkiä ("aktiivisia linkkejä") mahdollisista ratkaisuista muihin ongelmiin.

Etsi kaunokirjallisuudesta vastaus kysymykseen: "Kuinka ihmiset elivät tammikuussa 1248?" tosi kovasti. Vielä vaikeampaa on vastata kysymykseen, mitä kauppojen hyllyillä oli ja miten ruokakauppa oli järjestetty. Vaikka joku kirjoittaja kirjoitti tästä selvästi ja suoraan romaanissaan, jos tämän kirjailijan nimi löytyisi, niin epäilyksiävastaanotettujen tietojen luotettavuus säilyy. Luotettavuus on minkä tahansa tietomäärän kriittinen ominaisuus. Lähde, kirjoittaja ja todisteet, jotka sulkevat pois tuloksen virheellisyyden, ovat tärkeitä.

Tietenkin tilanteen objektiiviset olosuhteet

Ihminen näkee, kuulee, tuntee. Jotkut asiantuntijat hallitsevat sujuvasti ainutlaatuista tunnetta - intuitiota. Ongelman ilmaisu vaatii tietoa, ongelman ratkaisuprosessiin liittyy useimmiten ongelman lausunnon tarkentaminen. Tämä on pienempi ongelma, joka liittyy tiedon siirtämiseen tietokonejärjestelmän sisälle.

Tietoa virtuaalitilassa
Tietoa virtuaalitilassa

Kirjasto ja työtoverit ovat epäsuorasti mukana päätöksentekoprosessissa. Kirjan ulkoasu (lähde), tekstin grafiikka, tiedon jakamisen ominaisuudet otsikoiksi, alaviitteet lauseiden mukaan, aihehakemisto, ensisijaisten lähteiden luettelo - kaikki herättää ihmisessä assosiaatioita, jotka vaikuttavat epäsuorasti ratkaisuprosessiin ongelma.

Ongelman ratkaisemisen aika ja paikka on olennainen. Ihminen on niin järjestetty, että hän kiinnittää tahattomasti huomiota kaikkeen, mikä häntä ympäröi ongelman ratkaisuprosessissa. Se voi olla häiritsevää tai stimuloivaa. Tiedonlouhinta ei koskaan "ymmärrä".

Tietoa virtuaalitilassa

Ihminen on aina ollut kiinnostunut vain luotettavasta tiedosta tapahtumasta, ilmiöstä, kohteesta, ongelmanratkaisualgoritmista. Ihminen on aina kuvitellut tarkalleen, kuinka hän voi saavuttaa halutun tavoitteen.

Tietokoneiden ja tietojärjestelmien ulkonäön olisi pitänyt helpottaa ihmisen elämää, mutta kaikki on vain monimutkaistunut. Tieto vaelsi tietokonejärjestelmien sisälle ja katosi näkyvistä. Tarvittavien tietojen valitsemiseksi sinun on luotava oikea algoritmi tai laadittava kysely tietokantaan.

Tiedot tietojärjestelmän sisällä
Tiedot tietojärjestelmän sisällä

Kysymyksen on oltava oikea. Vasta sitten voit saada vastauksen. Mutta epäilykset aitoudesta säilyvät. Tässä mielessä Data Mining on todella "kaivauksia", se on "tiedon t alteenotto". Näin tämä lause on muodikasta kääntää. Venäläinen versio on tiedonlouhinta tai tiedonlouhintatekniikka.

Auvov altaisten asiantuntijoiden töissä tiedon louhinnan tehtävät on merkitty seuraavasti:

  • luokitus;
  • klusterointi;
  • yhdistys;
  • sekvenssi;
  • ennuste.

Tietojen manuaalisessa käsittelyssä henkilöä ohjaavan käytännön näkökulmasta kaikki nämä kannat ovat kiistanalaisia. Joka tapauksessa henkilö käsittelee tietoja automaattisesti eikä ajattele tietojen luokittelua, temaattisten objektiryhmien kokoamista (klusterointi), ajallisten mallien etsimistä (sekvenssi) tai tuloksen ennustamista.

Kaikki nämä ihmismielen asennot edustavat aktiivista tietoa, joka kattaa enemmän asentoja ja käyttää dynaamisesti lähtötietojen käsittelyn logiikkaa. Ihmisen alitajunnalla on tärkeä rooli, varsinkin kun hän on tietyn tiedon alan asiantuntija.

Esimerkki: Tietokonelaitteiden tukkumyynti

Tehtävä on yksinkertainen. On useitakymmeniä tietokonelaitteiden ja oheislaitteiden toimittajia. Jokaisella on hinnasto xls-muodossa (Excel-tiedosto), joka voidaan ladata toimittajan viralliselta verkkosivustolta. On luotava verkkoresurssi, joka lukee Excel-tiedostoja, muuntaa ne tietokantataulukoiksi ja antaa asiakkaille mahdollisuuden valita haluamansa tuotteet halvimmalla hinnalla.

Ongelmia ilmaantuu välittömästi. Jokainen toimittaja tarjoaa oman versionsa xls-tiedoston rakenteesta ja sisällöstä. Voit saada tiedoston lataamalla sen toimittajan verkkosivuilta, tilaamalla sen sähköpostitse tai hankkimalla latauslinkin henkilökohtaisen tilisi kautta, eli rekisteröitymällä virallisesti toimittajalle.

Virtuaalinen tietokonekauppa
Virtuaalinen tietokonekauppa

Ongelman ratkaisu (alkuvaiheessa) on teknisesti yksinkertainen. Ladattaessa tiedostoja (alkutietoja), jokaiselle toimittajalle kirjoitetaan tiedostontunnistusalgoritmi ja tiedot sijoitetaan yhteen isoon lähtötietojen taulukkoon. Kun kaikki tiedot on vastaanotettu, uusien tietojen jatkuvan vaihtamisen (päivittäin, viikoittain tai muuttuessa) mekanismi on määritetty:

  • muuta valikoimaa;
  • hintamuutokset;
  • varastomäärän selvennys;
  • takuuehtojen, teknisten tietojen jne. muuttaminen

Tästä todelliset ongelmat alkavat. Asia on, että toimittaja voi kirjoittaa:

  • kannettava Acer;
  • kannettava Asus;
  • Dell-kannettava.

Puhumme samasta tuotteesta, mutta eri valmistajilta. Kuinka yhdistää kannettava tietokone=kannettava tietokone tai kuinka poistaa Acer, Asus ja Dell tuotevalikoimasta?

Siitäihminen ei ole ongelma, mutta miten algoritmi "ymmärtää", että Acer, Asus, Dell, Samsung, LG, HP, Sony ovat tavaramerkkejä tai toimittajia? Kuinka yhdistää "tulostin" ja tulostin, "skanneri" ja "MFP", "kopiokone" ja "MFP", "kuulokkeet" ja "kuulokkeet", "lisävarusteet" ja "lisävarusteet"?

Lähdetietojen (lähdetiedostojen) perusteella luokkipuun rakentaminen on jo ongelma, kun kaikki on asetettava automaattisesti.

Tietonäytteenotto: "vastavalatun" kaivaukset

Tehtävä luoda tietokanta tietokonelaitteiden toimittajista on ratkaistu. Luokkapuu on rakennettu, yhteinen taulukko kaikkien toimittajien tarjouksista toimii.

Tyypilliset tiedonlouhintatehtävät tässä esimerkissä:

  • löydä tuote halvimmalla hinnalla;
  • valitse tuote, jolla on alhaisin toimituskulut ja hinta;
  • tuoteanalyysi: ominaisuudet ja hinnat kriteerien mukaan.

Muiden kymmenien toimittajien tietoja käyttävän johtajan todellisessa työssä näistä tehtävistä on monia muunnelmia ja vielä enemmän todellisia tilanteita.

Esimerkiksi toimittaja "A", joka myy ASUS VivoBook S15:tä: ennakkomaksu, toimitus 5 päivää todellisen rahan vastaanottamisen jälkeen. Saman tuotteen toimittaja "B" on samaa mallia: maksu vastaanoton yhteydessä, toimitus sopimuksen tekemisen jälkeen päivän sisällä, hinta on puolitoista kertaa korkeampi.

Datan louhinta alkaa - "kaivaukset". Kuvannolliset ilmaisut: "kaivaukset" tai "tiedonlouhinta" ovat synonyymejä. Kyse on siitä, kuinka saada syy päätöksentekoon.

Toimittajilla "A" ja "B" on toimituksia. ArvosanaEnnakkomaksu ensimmäisessä tapauksessa vastaanotettua maksua vastaan toisessa tapauksessa ottaen huomioon, että toimitushäiriö toisessa tapauksessa on 65 % suurempi. Asiakkaan seuraamusten riski on suurempi/pienempi. Miten ja mitä määrittää ja mikä päätös tehdä?

Toisa alta: tietokannan ovat luoneet ohjelmoija ja johtaja. Jos ohjelmoija ja johtaja ovat vaihtuneet, kuinka määrittää tietokannan nykyinen tila ja oppia käyttämään sitä oikein? Sinun on myös tehtävä tiedon louhinta. Data Mining tarjoaa erilaisia matemaattisia ja loogisia menetelmiä, jotka eivät välitä siitä, millaista dataa tutkitaan. Tämä antaa oikean ratkaisun joissakin tapauksissa, mutta ei kaikissa.

Siirry virtuaalisuuteen ja merkityksen löytäminen

Datan louhintamenetelmät tulevat mielekkäiksi heti, kun tiedot on kirjoitettu tietokantaan ja katoavat "näkökentästä". Tietokonelaitteiden kauppa on mielenkiintoinen tehtävä, mutta se on vain bisnestä. Se, kuinka hyvin hän on organisoitunut yrityksessä, riippuu sen menestyksestä.

Maapallon ilmastonmuutokset ja tietyn kaupungin sää kiinnostavat kaikkia, ei vain ammattimaisia ilmastoasiantuntijoita. Tuhannet anturit mittaavat tuulen, kosteuden, paineen ja maan keinotekoisten satelliittien tietoja, ja dataa on vuosien ja vuosisatojen aj alta.

Säätiedot eivät tarkoita vain päättämistä, otetaanko sateenvarjo mukaan töihin vai ei. Data Mining -teknologiat ovat lentokoneen turvallinen lento, moottoritien vakaa toiminta ja öljytuotteiden luotettava toimitus meritse.

"Raaka"-data lähetetään tietoonjärjestelmä. Data Miningin tehtävänä on muuttaa ne systematisoiduksi taulukkojärjestelmäksi, muodostaa linkkejä, korostaa homogeenisten tietojen ryhmiä ja havaita kuvioita.

Ilmasto, sää ja raakatiedot
Ilmasto, sää ja raakatiedot

Matemaattiset ja loogiset menetelmät kvantitatiivisen analytiikan ajoista lähtien OLAP (On-line Analytical Processing) ovat osoittaneet käytännöllisyytensä. Tässä tekniikan avulla voit löytää merkityksen, etkä menettää sitä, kuten esimerkissä tietokonelaitteiden myynnistä.

Lisäksi globaaleissa tehtävissä:

  • kansainvälinen liiketoiminta;
  • lentoliikenteen hallinta;
  • tutkimus maan sisimmästä tai sosiaalisista ongelmista (v altiotasolla);
  • tutkimus lääkkeiden vaikutuksesta elävään organismiin;
  • ennustaa teollisuusyrityksen rakentamisen seurauksia jne.

Data Mine -teknologiat ja "merkittävyyden" muuttaminen todelliseksi dataksi, jonka avulla voit tehdä objektiivisia päätöksiä, on ainoa vaihtoehto.

Ihmisen mahdollisuudet loppuvat sinne, missä on paljon raakatietoa. Tiedonlouhintajärjestelmät menettävät käyttökelpoisuutensa silloin, kun sitä vaaditaan näkemään, ymmärtämään ja tuntemaan tietoa.

Toiminnon ja objektiivisuuden kohtuullinen jakautuminen

Ihmisen ja tietokoneen tulee täydentää toisiaan - tämä on aksiooma. Väitöskirjan kirjoittaminen on ihmiselle etusijalla ja tietojärjestelmä on apuväline. Tässä datan louhintateknologialla on heuristiikkaa, sääntöjä, algoritmeja.

Viikoittaisen sääennusteen laatiminen on tietojärjestelmän prioriteetti. Ihminen hallitsee dataa, mutta perustaa päätöksensä järjestelmän laskelmien tuloksiin. Siinä yhdistyvät tiedonlouhintamenetelmät, asiantuntijatietojen luokittelu, algoritmien käytön manuaalinen ohjaus, aiempien tietojen automaattinen vertailu, matemaattinen ennuste ja paljon tietojärjestelmän soveltamiseen osallistuvien todellisten ihmisten tietoja ja taitoja.

Mies ja tietokone
Mies ja tietokone

Todennäköisyysteoria ja matemaattiset tilastot eivät ole "suosikki" ja ymmärrettävimmät tiedon alueet. Monet asiantuntijat ovat heistä hyvin kaukana, mutta näillä aloilla kehitetyt menetelmät antavat lähes 100 % oikeat tulokset. Data Miningin ideoihin, menetelmiin ja algoritmeihin perustuvia järjestelmiä soveltamalla saadaan ratkaisuja objektiivisesti ja luotettavasti. Muuten ratkaisun löytäminen on yksinkertaisesti mahdotonta.

Faraot ja menneiden vuosisatojen mysteerit

Historiaa kirjoitettiin ajoittain uudelleen:

  • v altiot - strategisten etujensa vuoksi;
  • arvov altaiset tiedemiehet - subjektiivisen uskomuksensa vuoksi.

On vaikea sanoa, mikä on totta ja mikä tarua. Tietojen louhinnan avulla voimme ratkaista tämän ongelman. Esimerkiksi kronikoitsijat kuvasivat pyramidien rakentamistekniikkaa, ja tutkijat tutkivat sitä eri vuosisatoina. Kaikki materiaalit eivät päässeet Internetiin, kaikki ei ole ainutlaatuista täällä, ja monissa tiedoissa ei välttämättä ole:

  • kuvattu ajankohta;
  • kuvauksen kirjoittamisaika;
  • päivämäärät, joihin kuvaus perustuu;
  • tekijä(t), mielipiteet (linkit) otettu huomioon;
  • objektiivisuuden vahvistus.

Bkirjastoista, temppeleistä ja "odottamattomista paikoista" löydät käsikirjoituksia eri vuosisatoilta ja aineellisia todisteita menneisyydestä.

Mielenkiintoinen tavoite: laittaa kaikki yhteen ja kaivaa esiin "totuus". Ongelman piirre: tietoa voidaan saada kronikon ensimmäisestä kuvauksesta faaraoiden elinaikana nykyiselle vuosisadalle, jolloin monet tiedemiehet ovat ratkaisseet tämän ongelman nykyaikaisilla menetelmillä.

Tietojen louhinnan käytön perusteet: käsityö ei ole mahdollista. Liian monta määrää:

  • tietolähteet;
  • esityskielet;
  • tutkijat kuvaavat samaa asiaa eri tavoilla;
  • päivämäärät, tapahtumat ja ehdot;
  • termikorrelaatioongelmat;
  • tilastojen analyysi tietoryhmittäin ajan myötä voi vaihdella jne.

Viime vuosisadan lopussa, kun tekoälyn idean toinen fiasko tuli ilmeiseksi paitsi maallikolle, myös hienostuneelle asiantuntijalle, ilmestyi ajatus: "luoda persoonallisuus uudelleen".

Esimerkiksi Puškinin, Gogolin, Tšehovin teosten mukaan muodostuu tietty sääntöjärjestelmä, käyttäytymislogiikka ja tietojärjestelmä, joka pystyy vastaamaan tiettyihin kysymyksiin kuten ihminen: Pushkin, Gogol tai Tšehov. Teoriassa tällainen tehtävä on mielenkiintoinen, mutta käytännössä se on erittäin vaikea toteuttaa.

Ajatus tällaisesta tehtävästä kuitenkin ehdottaa hyvin käytännöllistä ideaa: "miten luodaan älykäs tiedonhaku." Internet on paljon kehittyviä resursseja, v altava tietokanta ja tämä on loistava tilaisuus soveltaa tiedon louhintaa yhdessä ihmisen kanssalogiikkaa yhteisen kehityksen muodossa.

Kone ja mies yhdessä
Kone ja mies yhdessä

Kone ja mies parisuhteessa on erinomainen tehtävä ja kiistaton menestys "tietoarkeologian" alalla, laadukkaat kaivaukset tiedoissa ja tuloksissa, jotka asettavat jotain epäselväksi, mutta epäilemättä mahdollistavat hankkia uutta tietoa ja olla kysyntää yhteiskunnassa.

Suositeltava: