A klaszteranalízis az

Jó nap. Itt tisztelem azokat az embereket, akik rajonganak a munkájukért.

Maxim, barátom, ebbe a kategóriába tartozik. Állandóan számadatokkal dolgozik, azokat elemzi, releváns jelentéseket készít.

Tegnap együtt ebédeltünk, így közel fél órán keresztül mesélt a klaszteranalízisről - mi az, és milyen esetekben ésszerű és célszerű használni. Nos, mi vagyok én?

Jó a memóriám, így ezeket az adatokat, amelyekről egyébként már tudtam, eredeti és leginformatívabb formában közlöm.

A klaszteranalízis célja, hogy egy objektumkészletet homogén csoportokra (klaszterekre vagy osztályokra) ossza fel. Ez egy többdimenziós adatosztályozási feladat.

Körülbelül 100 különböző klaszterezési algoritmus létezik, azonban a leggyakrabban használt a hierarchikus klaszteranalízis és a k-közép klaszterezés.

Hol használják a klaszterelemzést? A marketingben ez a versenytársak és a fogyasztók szegmentálása.

A menedzsmentben: a személyi állomány felosztása különböző motivációs szintű csoportokra, a beszállítók besorolása, a hasonló termelési helyzetek azonosítása, amelyben házasság jön létre.

Az orvostudományban - a tünetek, a betegek, a gyógyszerek osztályozása. A szociológiában a válaszadók homogén csoportokra való felosztása. Valójában a klaszterelemzés az emberi élet minden területén bevált.

Ennek a módszernek az a szépsége, hogy akkor is működik, ha kevés az adat, és nem teljesülnek a valószínűségi változók normális eloszlására vonatkozó követelmények és a klasszikus statisztikai elemzési módszerek egyéb követelményei.

Magyarázzuk meg a klaszteranalízis lényegét anélkül, hogy szigorú terminológiához folyamodnánk:
Tegyük fel, hogy felmérést végzett az alkalmazottak körében, és szeretné meghatározni, hogyan tudja a leghatékonyabban irányítani a személyzetét.

Vagyis csoportokra szeretné osztani az alkalmazottakat, és mindegyikük számára meghatározni a leghatékonyabb irányítási eszközöket. Ugyanakkor a csoportok közötti különbségeknek szembetűnőnek kell lenniük, a csoporton belül pedig a válaszadók minél hasonlóbbak legyenek.

A probléma megoldására hierarchikus klaszterelemzést javasolunk.

Ennek eredményeként egy fát kapunk, amelyre nézve el kell döntenünk, hogy hány osztályba (klaszterbe) szeretnénk felosztani a létszámot.

Tegyük fel, hogy úgy döntöttünk, hogy három csoportra osztjuk a személyzetet, majd az egyes klaszterekbe került válaszadók vizsgálatához egy hozzávetőlegesen a következő tartalmú táblázatot kapunk:


Nézzük meg, hogyan készül a fenti táblázat. Az első oszlop a fürt számát tartalmazza - a csoportot, amelynek adatai megjelennek a sorban.

Például az első klaszter 80%-a férfiak. Az első klaszter 90%-a a 30-50 éves korosztályba tartozik, és a válaszadók 12%-a tartja nagyon fontosnak a juttatásokat. Stb.

Próbáljunk meg portrékat készíteni a válaszadókról az egyes klaszterekben:

  1. Az első csoport - többnyire férfiak érett kor vezető pozíciókat tölt be. A szociális csomag (MED, LGOTI, IDŐ-mentes idő) nem érdekli őket. Inkább jó fizetést kapnak, mintsem munkáltatói segítséget.
  2. A második csoport ezzel szemben a szociális csomagot részesíti előnyben. Főleg alacsony pozíciót betöltő "korú" emberekből áll. A fizetés minden bizonnyal fontos számukra, de vannak más prioritások is.
  3. A harmadik csoport a legfiatalabb. Az előző kettővel szemben egyértelmű érdeklődés mutatkozik a tanulási és szakmai fejlődési lehetőségek iránt. Ez a munkavállalói kategória jó eséllyel hamarosan csatlakozik az első csoporthoz.

Így a hatékony személyzeti menedzsment módszereinek bevezetésére irányuló kampány tervezésekor nyilvánvaló, hogy a mi helyzetünkben lehetséges a második csoport szociális csomagjának emelése például a fizetések rovására.

Ha már arról beszélünk, hogy mely szakembereket érdemes továbbképzésre küldeni, akkor mindenképpen a harmadik csoportra ajánlhatjuk a figyelmet.

Forrás: http://www.nickart.spb.ru/analysis/cluster.php

A klaszteranalízis jellemzői

A klaszter egy eszköz ára egy adott időszakban, amely alatt a tranzakciókat végrehajtották. Az így létrejövő vásárlások és eladások mennyiségét egy szám jelzi a klaszteren belül.

Általános szabály, hogy bármely TF sávja több klasztert tartalmaz. Ez lehetővé teszi, hogy részletesen megtekinthesse a vásárlások, eladások mennyiségét és azok egyenlegét minden egyes sávban, minden árszinthez.


Egy eszköz árának változása elkerülhetetlenül más eszközök ármozgásának láncolatát vonja maga után.

Figyelem!

A legtöbb esetben a trendmozgás megértése abban a pillanatban történik, amikor az gyorsan fejlődik, és a trend mentén történő piacra lépés korrekciós hullámba eséssel jár.

A sikeres kereskedéshez meg kell értenie a jelenlegi helyzetet, és képesnek kell lennie előre látni a jövőbeni ármozgásokat. Ezt a klasztergrafikon elemzésével tanulhatja meg.

A klaszteranalízis segítségével a legkisebb ársávon belül is láthatja a piaci szereplők aktivitását. Ez a legpontosabb és legrészletesebb elemzés, mivel ez mutatja meg a tranzakciók volumenének pont szerinti eloszlását az egyes eszköz árszintjein.

A piac folyamatosan szembesül a vevők és az eladók érdekeivel. És minden legkisebb ármozgás (pipa) egy kompromisszumra – olyan árszintre – való lépés, amely pillanatnyilag mindkét félnek megfelel.

De a piac dinamikus, a vevők és az eladók száma folyamatosan változik. Ha egy időben a piacot az eladók uralták, akkor a következő pillanatban nagy valószínűséggel lesznek vevők.

A szomszédos árszinteken kötött ügyletek száma sem azonos. Pedig a piaci helyzet eleinte a tranzakciók összvolumenében, majd csak azután az árban tükröződik.

Ha látjuk a domináns piaci szereplők (eladók vagy vevők) lépéseit, akkor maga az ármozgás is előre jelezhető.

A fürtelemzés sikeres alkalmazásához először meg kell értenie, mi a fürt és a delta.


A klaszter egy ármozgás, amely szintekre van felosztva, amelyeken ismert volumenű tranzakciók történtek. A Delta megmutatja az egyes klaszterekben zajló vétel és eladás közötti különbséget.

Minden klaszter vagy delták csoportja lehetővé teszi annak megértését, hogy egy adott időpontban a vevők vagy az eladók uralják-e a piacot.

Elég csak a teljes deltát kiszámítani az eladások és vásárlások összegzésével. Ha a delta negatív, akkor a piac túladott, és az eladási ügyletek túlzóak rajta. Ha a delta pozitív, a vásárlók egyértelműen dominánsak a piacon.

Maga a delta normál vagy kritikus értéket vehet fel. A klaszterben a normált meghaladó delta térfogat értéke piros színnel van kiemelve.

Ha a delta mérsékelt, akkor ez jellemzi a piacon a lapos állapotot. Normál delta érték mellett trendmozgás figyelhető meg a piacon, de a kritikus érték mindig az árforduló előhírnöke.

Forex kereskedés a CA-val

A maximális profit eléréséhez meg kell tudnia határozni a delta átmenetét a mérsékelt szintről a normál szintre. Valójában ebben az esetben észreveheti a lakásból a trendmozgásba való átmenet legelejét, és a legnagyobb profitot érheti el.

A fürtdiagram szemléletesebb, rajta látható a mennyiségek jelentős felhalmozódása és eloszlása, kiépítési támogatási és ellenállási szintek. Ez lehetővé teszi a kereskedő számára, hogy megtalálja a kereskedés pontos bejegyzését.

A delta segítségével meg lehet ítélni az eladások vagy vásárlások elterjedtségét a piacon. A fürtelemzés lehetővé teszi az ügyletek megfigyelését és mennyiségük nyomon követését bármely TF sávjában.

Ez különösen fontos, ha jelentős támogatási vagy ellenállási szintet közelít meg. A klaszterek megítélése kulcsfontosságú a piac megértéséhez.

Forrás: http://orderflowtrading.ru/analitika-rynka/obemy/klasternyy-analiz/

A klaszteranalízis alkalmazásának területei, jellemzői

A klaszteranalízis kifejezés (elsőként Tryon, 1939) valójában különféle osztályozási algoritmusok halmazát öleli fel.

Sok terület kutatóinak gyakori kérdése, hogy a megfigyelhető adatokat hogyan lehet vizuális struktúrákba rendezni, pl. taxonómiákat bővíteni.

A biológiában elfogadott modern rendszer szerint az ember a főemlősökhöz, emlősökhöz, magzatvízhez, gerincesekhez és állatokhoz tartozik.

Vegye figyelembe, hogy ebben az osztályozásban minél magasabb az aggregáció szintje, annál kisebb a hasonlóság a megfelelő osztály tagjai között.

Az ember több hasonlóságot mutat más főemlősökkel (pl. majmokkal), mint az emlőscsalád „távoli” tagjaival (pl. kutyák) stb.

Vegye figyelembe, hogy az előző tárgyalás a klaszterezési algoritmusokra vonatkozik, de nem tesz említést a statisztikai szignifikancia teszteléséről.

Valójában a klaszteranalízis nem annyira hagyományos statisztikai módszer, mint inkább különféle algoritmusok „halmaza” az objektumok „klaszterekbe való elosztására”.

Van egy olyan álláspont, hogy sok más statisztikai eljárástól eltérően a klaszterelemzési módszereket a legtöbb esetben akkor alkalmazzák, amikor nincs a priori hipotézis az osztályokra vonatkozóan, de még a kutatás leíró szakaszában van.

Figyelem!

Meg kell érteni, hogy a klaszterelemzés „a lehető legjelentősebb döntést” azonosítja.

Ezért a statisztikai szignifikancia-vizsgálat itt nem igazán alkalmazható, még olyan esetekben sem, amikor ismertek a p-szintek (mint például a K-közép módszernél).

A klaszterezési technikákat számos területen alkalmazzák. Hartigan (1975) kiváló áttekintést adott számos klaszteranalízis eredményeit tartalmazó publikált tanulmányról.

Például az orvostudomány területén a betegségek csoportosítása, a betegségek vagy a betegségtünetek kezelése széles körben használt taxonómiákhoz vezet.

A pszichiátria területén az olyan tünetcsoportok helyes diagnózisa, mint a paranoia, skizofrénia stb., elengedhetetlen a sikeres terápia szempontjából. A régészetben klaszteranalízissel a kutatók megpróbálják megállapítani a kőeszközök, temetkezési tárgyak stb. taxonómiáját.

A klaszteranalízisnek széles körben elterjedt alkalmazásai vannak marketing kutatás... Általában, amikor információhegyeket kell további feldolgozásra alkalmas csoportokba sorolni, a klaszterelemzés nagyon hasznosnak és hatékonynak bizonyul.

Fa klaszterezés

Az Általános célú részben található példa elmagyarázza az összekapcsolási (fa klaszterezés) algoritmus célját.

Ennek az algoritmusnak az a célja, hogy az objektumokat (például állatokat) elég nagy klaszterekké egyesítse az objektumok közötti hasonlóság vagy távolság bizonyos mértékével. Az ilyen klaszterezés tipikus eredménye egy hierarchikus fa.

Vegyünk egy vízszintes fa diagramot. A diagram az osztály minden objektumával kezdődik (a diagram bal oldalán).

Most képzeljük el, hogy fokozatosan (nagyon kis lépésekben) "gyengíti" a kritériumát, hogy mely tárgyak egyediek és melyek nem.

Más szóval, csökkenti a két vagy több objektum egy fürtbe való egyesítésére vonatkozó döntéshez kapcsolódó küszöbértéket.

Ennek eredményeként egyre több objektumot kapcsol össze, és egyre több, egyre eltérőbb elemből álló klasztert aggregál (kombinál).

Végül az utolsó lépésben az összes objektumot összevonják. Ezeken a diagramokon a vízszintes tengelyek az illesztési távolságot jelentik (a függőleges fadiagramokon a függőleges tengelyek a csatlakozási távolságot).

Tehát a grafikon minden egyes csomópontjához (ahol új klaszter jön létre) láthatja, hogy milyen távolságra vannak a megfelelő elemek egy új, egyetlen klaszterbe kapcsolva.

Ha az adatok világos "struktúrával" rendelkeznek az egymáshoz hasonló objektumok klaszterei tekintetében, akkor ez a struktúra valószínűleg különböző ágakon tükröződik a hierarchikus fában.

A kombináló módszerrel végzett sikeres elemzés eredményeként lehetővé válik a klaszterek (elágazások) kimutatása és értelmezése.

Uniós vagy fa klaszterezési módszert használnak az objektumok közötti eltérések vagy távolságok klasztereinek kialakításakor. Ezek a távolságok meghatározhatók egydimenziós vagy többdimenziós térben.

Például, ha egy kávézóban össze kell csoportosítania az ételfajtákat, akkor figyelembe veheti a benne lévő kalóriák számát, az árat, a szubjektív ízt stb.

A többdimenziós térben lévő objektumok közötti távolság kiszámításának legközvetlenebb módja az euklideszi távolságok kiszámítása.

Ha két- vagy háromdimenziós térrel rendelkezik, akkor ez a mérték a térbeli objektumok közötti valós geometriai távolság (mintha az objektumok közötti távolságokat mérőszalaggal mérnék).

A kombináló algoritmus azonban nem „törődik” azzal, hogy az ehhez „megadott” távolságok valósak-e, vagy valamilyen más származtatott távolságmérték, ami a kutató számára értelmesebb; a kutatók kihívása pedig az, hogy megtalálják a megfelelő módszert az adott alkalmazásokhoz.

Euklideszi távolság.Úgy tűnik, hogy ez a távolság leggyakoribb típusa. Ez egyszerűen a geometriai távolság többdimenziós térben, és a következőképpen számítható ki:

Vegye figyelembe, hogy az euklideszi távolságot (és négyzetét) az eredeti, nem szabványosított adatokból számítják ki.

Ez a szokásos számítási módja, aminek vannak bizonyos előnyei (például két objektum távolsága nem változik, amikor új objektumot veszünk az elemzésbe, ami kiugró értéknek bizonyulhat).

Figyelem!

A távolságokat azonban erősen befolyásolhatják azon tengelyek közötti különbségek, amelyekből a távolságokat számítjuk. Például, ha az egyik tengely centiméterben van mérve, és ezután átváltja milliméterre (az értékek 10-zel való megszorzásával), akkor a koordinátákkal kiszámított végső euklideszi távolság (vagy az euklideszi távolság négyzete) , nagymértékben változni fog, és ennek következtében a klaszterelemzések eredményei nagymértékben eltérhetnek a korábbiaktól.

Négyzetes euklideszi távolság. Néha érdemes négyzetre emelni a szabványos euklideszi távolságot, hogy nagyobb súlyt adjunk az egymástól távolabb lévő tárgyaknak.

Ezt a távolságot a következőképpen kell kiszámítani:

A várostömbök távolsága (Manhattan távolság). Ez a távolság egyszerűen a koordináta-különbségek átlaga.

A legtöbb esetben ez a távolságmérés ugyanazokhoz az eredményekhez vezet, mint a közönséges euklideszi távolság esetében.

Megjegyzendő azonban, hogy ennél a mértéknél az egyes nagy eltérések (outlierek) hatása csökken (mivel nem négyzetesek). A Manhattan távolságot a következő képlettel számítják ki:

Csebisev távolsága. Ez a távolság akkor lehet hasznos, ha két objektumot szeretne "különbözőként" definiálni, ha azok bármely koordinátában (bármelyik dimenzióban) különböznek. A Csebisev távolságot a következő képlettel számítják ki:

Hatalmi távolság. Néha az ember fokozatosan növelni vagy csökkenteni akarja egy olyan mérethez kapcsolódó súlyt, amelyhez a megfelelő objektumok nagyon eltérőek.

Ez egy hatványtörvény távolság használatával érhető el. A hatványtörvény távolságát a következő képlettel számítjuk ki:

ahol r és p a felhasználó által meghatározott paraméterek. Néhány példa a számításokra megmutathatja, hogyan "működik" ez a mérték.

A p paraméter az egyes koordináták különbségeinek fokozatos súlyozásáért, az r paraméter az objektumok közötti nagy távolságok progresszív súlyozásáért felelős. Ha mindkét paraméter - r és p egyenlő kettővel, akkor ez a távolság egybeesik az euklideszi távolsággal.

Egyet nem értés százaléka. Ezt a mértéket akkor használjuk, ha az adatok kategorikusak. Ezt a távolságot a következő képlettel számítjuk ki:

Társítási vagy linkelési szabályok

Az első lépésben, amikor minden objektum egy külön klaszter, az objektumok közötti távolságokat a kiválasztott mérték határozza meg.

Ha azonban több objektum kapcsolódik egymáshoz, akkor felmerül a kérdés, hogyan határozható meg a klaszterek közötti távolság?

Más szavakkal, szükség van egy unió- vagy linkszabályra két fürthöz. Számos lehetőség kínálkozik itt: például összekapcsolhat két klasztert, ha bármely két objektum két klaszterben van. közelebbi barátja a megfelelő kommunikációs távolságnál.

Más szavakkal, a legközelebbi szomszéd szabályt használja a klaszterek közötti távolság meghatározásához; ezt a módszert egyetlen link módszernek nevezik.

Ez a szabály "szálas" klasztereket épít, pl. klaszterek, amelyeket csak különálló elemek kapcsolnak össze, amelyek történetesen közelebb állnak egymáshoz, mint a többi.

Alternatív megoldásként használhat szomszédokat olyan fürtökben, amelyek a legtávolabb vannak egymástól, mint az összes többi objektumpár. Ezt a módszert teljes összekapcsolási módszernek nevezzük.

Számos más, a tárgyalthoz hasonló klaszterezési módszer is létezik.

Egyetlen link (legközelebbi szomszéd módszer). Ahogy fentebb leírtuk, ennél a módszernél a két klaszter közötti távolságot a különböző klaszterekben lévő két legközelebbi objektum (legközelebbi szomszéd) távolsága határozza meg.

Ennek a szabálynak bizonyos értelemben össze kell fűznie az objektumokat, hogy klasztereket képezzenek, és a kapott klaszterek általában hosszú "láncok" legyenek.

Teljes kommunikáció (a legtávolabbi szomszédok módszere). Ebben a módszerben a klaszterek közötti távolságot a különböző klaszterekben (azaz a "legtávolabbi szomszédok") lévő bármely két elem közötti legnagyobb távolság határozza meg.

Súlyozatlan páronkénti átlag. Ebben a módszerben a két különböző klaszter közötti távolságot a bennük lévő összes objektumpár közötti átlagos távolságként számítjuk ki.

A módszer akkor hatékony, ha az objektumok valójában különböző „ligeteket” alkotnak, de ugyanolyan jól működik kiterjesztett („lánc” típusú) klaszterek esetén is.

Figyeljük meg, hogy Sneath és Sokal (1973) könyvükben bevezetik az UPGMA rövidítést, hogy ezt a módszert a számtani átlagokat használó súlyozatlan párcsoportos módszernek nevezzék.

Súlyozott páronkénti átlag. A módszer megegyezik a súlyozatlan páronkénti átlag módszerrel, azzal a különbséggel, hogy a számításoknál a megfelelő klaszterek méretét (vagyis a bennük lévő objektumok számát) használjuk súlyozó tényezőként.

Ezért a javasolt módszert kell használni (az előző helyett), ha egyenlőtlen klaszterméreteket feltételezünk.

Sneath és Sokal (1973) könyvében a WPGMA rövidítést bevezették, hogy ezt a módszert egy aritmetikai átlagokat használó, súlyozott párcsoportos módszerként emlegessék.

Súlyozatlan centroid módszer. Ebben a módszerben a két klaszter közötti távolságot a súlypontjaik közötti távolságként határozzuk meg.

Figyelem!

Sneath és Sokal (1973) az UPGMC mozaikszót használják, hogy ezt a módszert súlyozatlan párcsoportos módszerként említik a centroid átlagát használva.

Súlyozott centroid módszer (medián). Ez a módszer megegyezik az előzővel, azzal a különbséggel, hogy a számítások súlyokkal veszik figyelembe a klaszterek mérete (vagyis a bennük lévő objektumok száma) közötti különbséget.

Ezért, ha jelentős különbségek vannak (vagy gyaníthatóan) a klaszterméretekben, ez a módszer előnyösebb, mint az előző.

Sneath és Sokal (1973) a WPGMC mozaikszót használta, hogy súlyozott párcsoportos módszerként hivatkozzon rá a centroid átlagát használva.

Ward módszere. Ez a módszer különbözik az összes többi módszertől, mert varianciaanalízist használ a klaszterek közötti távolságok becslésére.

A módszer minimalizálja a négyzetek összegét (SS) bármely két (hipotetikus) klaszterre, amely minden lépésben létrehozható.

Részletek Ward (1963) munkájában találhatók. Összességében a módszer nagyon hatékonynak tűnik, de hajlamos kis klaszterek létrehozására.

Ezt a technikát korábban a csoportosítandó "objektumokkal" kapcsolatban tárgyaltuk. Minden más típusú elemzésben a kutatót érdeklő kérdés általában megfigyelésekben vagy változókban fejeződik ki.

Kiderült, hogy a klaszterezés mind megfigyeléssel, mind változókkal egészen érdekes eredményekhez vezethet.

Képzeljük el például, hogy egy orvoskutató adatokat gyűjt a szívbetegségben szenvedő betegek (megfigyelések) különféle jellemzőiről (változóiról).

A kutató esetleg csoportosítani szeretné a megfigyeléseket (betegeket), hogy azonosítsa a hasonló tünetekkel rendelkező betegek csoportjait.

Ugyanakkor a kutatónak érdemes lehet változókat klaszterezni, hogy azonosítsa azokat a változók klasztereit, amelyek hasonló fizikai állapothoz kapcsolódnak.

A megfigyelések vagy változók klaszterezésére vonatkozó vita után felmerülhet a kérdés, hogy miért ne csoportosíthatnánk mindkét irányban?

A Cluster Analysis modul hatékony kétirányú csatlakozási eljárást tartalmaz, hogy ezt megtegye.

A kétirányú kombinálást azonban (viszonylag ritkán) alkalmazzák olyan körülmények között, amikor a megfigyelések és a változók várhatóan egyidejűleg járulnak hozzá az értelmes klaszterek kimutatásához.

Tehát, visszatérve az előző példához, feltételezhetjük, hogy az orvoskutatónak olyan betegcsoportokat kell azonosítania, amelyek hasonlóak a fizikai állapot jellemzőinek bizonyos klasztereihez.

A kapott eredmények értelmezési nehézségei abból fakadnak, hogy a különböző klaszterek közötti hasonlóságok származhatnak (vagy okozhatnak) a változók részhalmazaiban lévő eltérésekből.

Ezért a kapott klaszterek eredendően heterogének. Először kissé homályosnak tűnhet; Valójában a többi klaszterelemzési módszerhez képest a kétirányú kombinálás valószínűleg a legkevésbé használt módszer.

Egyes kutatók azonban úgy vélik, hogy hatékony feltáró adatelemző eszközt kínál (több mint részletes információk lásd Hartigan (1975) leírását erről a módszerről).

A K módszer azt jelenti

Ez a klaszterezési módszer jelentősen eltér az olyan agglomeratív módszerektől, mint az Unió (fa klaszterezés) és a kétirányú összekapcsolás. Tegyük fel, hogy már vannak hipotézisei a klaszterek számáról (megfigyelések vagy változók alapján).

Megadhatja a rendszernek, hogy pontosan három klasztert hozzon létre, hogy azok a lehető legkülönbözőbbek legyenek.

Pontosan ezt a típusú problémát oldja meg a K-means metódus algoritmusa. Általános esetben a K jelenti módszer pontosan K különböző klasztert hoz létre, amelyek egymástól a lehető legnagyobb távolságra helyezkednek el.

A fizikai állapot példájában az orvosi vizsgálónak a klinikai tapasztalatai alapján „gyanúja” lehet, hogy páciensei általában három különböző kategóriába sorolhatók.

Figyelem!

Ha ez a helyzet, akkor az egyes klaszterek fizikai paramétereinek különböző mérési eszközei kvantitatív módon reprezentálják a kutató hipotéziseit (például az 1. klaszterbe tartozó betegeknél magas az 1-es, alacsonyabb a 2-es paraméter stb.). ).

Számítási szempontból ezt a módszert ANOVA-nak tekinthetjük. A program K véletlenszerűen kiválasztott klaszterrel indul, majd megváltoztatja a hozzájuk tartozó objektumokat úgy, hogy:

  1. minimalizálja a klasztereken belüli változékonyságot,
  2. maximalizálja a klaszterek közötti változékonyságot.

Ez a módszer hasonlít a fordított varianciaanalízis (ANOVA) módszerhez abban az értelemben, hogy a szignifikancia teszt a varianciaanalízis során a csoportok közötti variabilitást összehasonlítja a csoporton belüli variabilitással, amikor azt a hipotézist teszteli, hogy a csoportok átlagai különböznek. egymástól.

A K-közép klaszterezés során a program objektumokat (vagyis megfigyeléseket) mozgat egyik csoportból (klaszterből) a másikba, hogy a varianciaanalízisben (ANOVA) a legjelentősebb eredményt kapja.

Általában a K-Means klaszteranalízis eredményeinek megszerzése után az egyes klaszterek átlagai minden dimenzióhoz kiszámíthatók, hogy megbecsüljék, hogyan különböznek egymástól a klaszterek.

Ideális esetben nagyon eltérő eszközöket kell beszereznie az elemzés során használt legtöbb, ha nem az összes méréshez.

Forrás: http://www.biometrica.tomsk.ru/textbook/modules/stcluan.html

A tárgyak osztályozása jellemzőik szerint

A klaszteranalízis többdimenziós statisztikai módszerek összessége az objektumok jellemző tulajdonságai alapján történő osztályozására, az objektumok halmazának homogén csoportokra való felosztására, amelyek a kritériumok meghatározása szempontjából közel állnak egymáshoz, egy bizonyos csoport objektumainak azonosításához.

A fürt objektumok csoportja, amelyet az objektumok közötti hasonlóság vagy különbségek meghatározott mértéke alapján a fürtelemzés eredményeként azonosítottak.

Objektum – ezek speciális kutatási témák, amelyeket be kell sorolni. Az osztályozásban szereplő objektumok általában megfigyelések. Például termékek fogyasztói, országok vagy régiók, áruk stb.

Bár lehet klaszteranalízist és változókat is végezni. Az objektumok osztályozása a többváltozós klaszteranalízisben több okból is egyszerre történik.

Ezek lehetnek mennyiségi és kategorikus változók is, a klaszteranalízis módszerétől függően. Tehát a klaszteranalízis fő célja hasonló objektumok csoportjainak megtalálása a mintában.

A klaszteranalízis többváltozós statisztikai módszereinek halmaza felosztható hierarchikus (agglomeratív és osztó) és nem hierarchikus (k-közép módszer, kétlépcsős klaszteranalízis) módszerekre.

A módszereknek azonban nincs általánosan elfogadott osztályozása, és a döntési fák, neurális hálózatok, diszkriminanciaanalízis és logisztikus regresszió létrehozására szolgáló módszereket néha klaszteranalízis módszereinek is nevezik.

A klaszteranalízis felhasználási köre sokoldalúsága miatt igen széles. A klaszterelemzést a közgazdaságtan, a marketing, a régészet, az orvostudomány, a pszichológia, a kémia, a biológia, a közigazgatás, a filológia, az antropológia, a szociológia és más területeken használják.

Íme néhány példa a klaszteranalízis alkalmazására:

  • orvostudomány - betegségek osztályozása, tüneteik, kezelési módszerek, betegcsoportok osztályozása;
  • marketing - a vállalat választékának optimalizálása, a piac árucsoportok vagy fogyasztók szerinti szegmentálása, a potenciális fogyasztó azonosítása;
  • szociológia - a válaszadók homogén csoportokba osztása;
  • pszichiátria - a tünetcsoportok helyes diagnosztizálása kulcsfontosságú a sikeres terápia szempontjából;
  • biológia - az élőlények csoportosítása;
  • gazdaság - a rádiófrekvenciás alanyok osztályozása a befektetés vonzereje szerint.

Forrás: http://www.statmethods.ru/konsalting/statistics-metody/121-klasternyj-analiz.html

A klaszterelemzés megértése

A klaszteranalízis különböző osztályozási algoritmusokat tartalmaz. A kutatók gyakori kérdése számos területen, hogy hogyan lehet a megfigyelhető adatokat vizuális struktúrákba rendezni.

Például a biológusok célja az állatok felosztása különböző fajták hogy értelmesen leírjuk a köztük lévő különbségeket.

A klaszteranalízis feladata az objektumok kezdeti halmazának felosztása hasonló, közeli objektumok csoportjaira. Ezeket a csoportokat klasztereknek nevezzük.

Más szóval, a klaszteranalízis az objektumok jellemzőik szerinti osztályozásának egyik módja. Kívánatos, hogy az osztályozási eredmények értelmes értelmezést kapjanak.

A klaszterelemzési módszerekkel kapott eredményeket a legkülönfélébb területeken alkalmazzák. A marketingben ez a versenytársak és a fogyasztók szegmentálása.

A pszichiátriában az olyan tünetek helyes diagnózisa, mint a paranoia, skizofrénia stb., kulcsfontosságú a sikeres terápia szempontjából.

A menedzsmentben fontos a beszállítók osztályozása, a hasonló termelési helyzetek azonosítása, amelyben házasság jön létre. A szociológiában a válaszadók homogén csoportokra való felosztása. A portfólióbefektetésben fontos az értékpapírok hozamtrendbeli hasonlóságuk szerinti csoportosítása, hogy a kapott információk alapján tőzsde optimális befektetési portfólió, amely adott kockázati fok mellett maximalizálja a befektetés megtérülését.

Általánosságban elmondható, hogy amikor nagy mennyiségű ilyen jellegű információt kell osztályozni és további feldolgozásra alkalmas formában kell bemutatni, a klaszteranalízis nagyon hasznosnak és hatékonynak bizonyul.

A klaszterelemzés lehetővé teszi meglehetősen nagy mennyiségű információ figyelembevételét és a társadalmi-gazdasági információk nagy tömbeinek erőteljes tömörítését, ezáltal azok kompakt és egyértelművé tételét.

Figyelem!

A klaszteranalízisnek nagy jelentősége van a gazdasági fejlődést jellemző idősorok aggregátumai (például általános gazdasági és árukörülmények) kapcsán.

Itt lehet kiemelni azokat az időszakokat, amikor a megfelelő mutatók értékei elég közel voltak, valamint meghatározható az idősorok azon csoportjai, amelyek dinamikája a leginkább hasonló.

A társadalmi-gazdasági előrejelzés feladataiban nagyon ígéretes a klaszteranalízis más kvantitatív módszerekkel (például regressziós elemzéssel) való kombinálása.

Előnyök és hátrányok

A fürtelemzés lehetővé teszi minden olyan objektum objektív osztályozását, amelyekre számos jellemző jellemző. Ennek számos előnye származhat:

  1. Az így létrejövő klaszterek értelmezhetők, azaz leírhatók, mely csoportok léteznek valójában.
  2. Az egyes klaszterek eldobhatók. Ez olyan esetekben hasznos, amikor bizonyos hibák történtek az adatkészletben, aminek következtében az egyes objektumok indikátorainak értékei élesen eltérnek. Klaszteranalízis alkalmazásakor az ilyen objektumok külön fürtbe esnek.
  3. További elemzéshez csak azokat a klasztereket lehet kiválasztani, amelyek rendelkeznek az érdeklődésre számot tartó jellemzőkkel.

Mint minden más módszernek, a klaszteranalízisnek is vannak bizonyos hátrányai és korlátai. Különösen a fürtök összetétele és száma függ a kiválasztott particionálási feltételektől.

Az eredeti adattömb kompaktabb formára való redukálásakor bizonyos torzulások léphetnek fel, és az egyes objektumok egyedi jellemzői is elveszhetnek, mivel azokat a klaszterparaméterek általánosított értékeinek jellemzői helyettesítik.

Mód

Jelenleg több mint száz különféle klaszterezési algoritmus ismert. Sokféleségüket nemcsak a különböző számítási módszerek magyarázzák, hanem a klaszterezés alapjául szolgáló különböző fogalmak is.

A Statistica csomag a következő klaszterezési módszereket valósítja meg.

  • Hierarchikus algoritmusok - fa klaszterezés. A hierarchikus algoritmusok a szekvenciális klaszterezés elvén alapulnak. A kezdeti lépésben minden objektumot külön fürtnek tekintünk. A következő lépésben az egymáshoz legközelebb eső klaszterek egy részét külön fürtté egyesítjük.
  • K-módszer. Ez a leggyakrabban használt módszer. A klaszteranalízis ún. referenciamódszereinek csoportjába tartozik. A K klaszterek számát a felhasználó állítja be.
  • Két bemenetes csatlakozás. Ennek a módszernek a használatakor a klaszterezés egyszerre történik változók (oszlopok) és megfigyelési eredmények (sorok) alapján.

A kétirányú összekapcsolási eljárást olyan esetekben hajtjuk végre, amikor arra számíthatunk, hogy a változók és megfigyelések egyidejű klaszterezése értelmes eredményeket hoz.

Az eljárás eredménye a változók és megfigyelések leíró statisztikái, valamint egy kétdimenziós színdiagram, amely az adatértékeket színezi.

A színek eloszlásával képet kaphat a homogén csoportokról.

Változók normalizálása

Az objektumok kezdeti halmazának klaszterekre bontása az objektumok közötti távolság kiszámításával és az objektumok kiválasztásával jár, amelyek távolsága a lehető legkisebb.

A leggyakrabban használt euklideszi (geometriai) távolság mindannyiunk számára ismerős. Ez a mérőszám megfelel az objektumok térbeli közelségének intuitív elképzelésének (mintha az objektumok közötti távolságokat mérőszalaggal mérnék).

De egy adott metrika esetében az objektumok közötti távolságot erősen befolyásolhatják a léptékek (mértékegységek) változásai. Például, ha az egyik jellemzőt milliméterben mérjük, majd az értékét centiméterre konvertáljuk, az objektumok közötti euklideszi távolság drámaian megváltozik. Ez oda vezet, hogy a klaszteranalízis eredményei jelentősen eltérhetnek a korábbiaktól.

Ha a változókat különböző mértékegységekben mérjük, akkor ezek előzetes normalizálása szükséges, vagyis a kiindulási adatok transzformálása, amely azokat dimenzió nélküli mennyiségekké alakítja.

A normalizálás nagymértékben torzítja az eredeti tér geometriáját, ami megváltoztathatja a klaszterezési eredményeket

A Statistica csomagban bármely x változó a következő képlet szerint normalizálva van:

Ehhez kattintson a jobb gombbal a változó nevére, és a megnyíló menüben válassza ki a parancssort: Kitöltés / Blokk szabványosítása / Oszlopok szabványosítása. A normalizált változó értéke nulla, a variancia pedig egy lesz.

K-Means módszer a Statisticában

A K-közép módszer az objektumok halmazát adott számú K különböző klaszterre osztja fel, amelyek egymástól a lehető legnagyobb távolságra helyezkednek el.

Általában a K-Means klaszteranalízis eredményeinek megszerzése után az egyes dimenziókban az egyes klaszterek átlagai kiszámíthatók, hogy felmérjék, miben különböznek a klaszterek egymástól.

Ideális esetben nagyon eltérő eszközöket kell beszereznie az elemzésben használt legtöbb méréshez.

Az egyes dimenziókhoz kapott F-statisztikai értékek egy másik mutatója annak, hogy a megfelelő dimenzió mennyire megkülönbözteti a klasztereket.

Példaként vegyük egy vállalkozás 17 dolgozójának szolgálati pályafutásuk minőségi mutatóival való elégedettségéről szóló felmérésének eredményeit. A táblázat tízfokú skálán (1 - minimum pont, 10 - maximum) ad választ a kérdőív kérdéseire.

A változónevek a következő kérdésekre adott válaszoknak felelnek meg:

  1. SLC - a személyes célok és a szervezet céljainak kombinációja;
  2. CCA – a méltányosság érzése a bérekben;
  3. TBD - a ház területi közelsége;
  4. SEB - a gazdasági jólét érzése;
  5. KR - karrier növekedés;
  6. ZhSR - munkahelyváltási vágy;
  7. OSB - a társadalmi jólét érzése.

Ezen adatok felhasználásával az alkalmazottakat csoportokra kell osztani, és mindegyikük számára azonosítani kell a leghatékonyabb irányítási eszközöket.

Ugyanakkor a csoportok közötti különbségeknek szembetűnőnek kell lenniük, a csoporton belül pedig a válaszadók minél hasonlóbbak legyenek.

Ma a legtöbb szociológiai közvélemény-kutatás csak a szavazatok százalékos arányát adja meg: a pozitív választ adók többségét, vagy az elégedetlenek százalékát figyelembe veszik, de ezt a kérdést nem szisztematikusan mérlegelik.

Leggyakrabban a felmérés nem mutat változást a helyzeten. Egyes esetekben nem a "mellett" vagy "ellen" képviselők számát kell számolni, hanem a távolságot, vagy a hasonlóság mértékét, vagyis meg kell határozni az egyformán gondolkodók csoportjait.

A klaszterelemzési eljárások segítségével a felmérési adatok alapján azonosíthatók a jellemzők néhány valóban létező kölcsönhatása, és ez alapján hozhatók létre azok tipológiája.

Figyelem!

A klaszterelemzési eljárásokkal végzett munka során a szociológus a priori hipotéziseinek megléte nem szükséges feltétel.

A Statistica programban a klaszterelemzés a következőképpen történik.

A klaszterek számának kiválasztásakor a következőket kell követni: a klaszterek száma lehetőleg ne legyen túl nagy.

Ha lehetséges, annak a távolságnak, amelyen belül a klaszter objektumai egyesültek, sokkal kisebbnek kell lennie, mint az a távolság, amelynél valami más kapcsolódik ehhez a klaszterhez.

A klaszterek számának megválasztásakor leggyakrabban több helyes döntés születik egyszerre.

Arra vagyunk kíváncsiak például, hogy a beosztottak és a vállalkozás vezetése által feltett kérdőívre adott válaszok hogyan kapcsolódnak egymáshoz. Ezért a K = 2-t választjuk. A további szegmentáláshoz növelheti a fürtök számát.

  1. válassza ki a megfigyeléseket a klaszterek középpontjai közötti maximális távolsággal;
  2. távolságok rendezése és megfigyelések kiválasztása rendszeres időközönként (alapbeállítás);
  3. vegyük az első megfigyeléseket a központokról, és rögzítsük hozzájuk a többi objektumot.

Az 1. lehetőség megfelel a céljainknak).

Sok klaszterező algoritmus gyakran olyan adatstruktúrákat „kényszerít ki”, amelyek nem velejárói, és megzavarják a kutatót. Ezért feltétlenül szükséges több klaszterelemzési algoritmus alkalmazása és ezek alapján következtetések levonása átfogó értékelés az algoritmusok eredményeit

Az elemzés eredményei a megjelenő párbeszédpanelen tekinthetők meg:

Ha kiválasztja az Átlagok grafikonja lapot, a klaszterközéppontok koordinátáinak grafikonja készül:


A grafikonon minden szaggatott vonal az egyik klaszternek felel meg. A grafikon vízszintes tengelyén minden osztás megfelel az elemzésben szereplő változók valamelyikének.

A függőleges tengely az egyes klaszterekbe tartozó objektumok változóinak átlagos értékeinek felel meg.

Megállapítható, hogy szinte minden kérdésben jelentős különbségek mutatkoznak a két embercsoport karrierjéhez való hozzáállásában. Egyetlen kérdésben van teljes egyetértés - a társadalmi jólét (OSB) értelmében, vagy inkább annak hiányában (10-ből 2,5 pont).

Feltételezhetjük, hogy az 1. klaszter a dolgozókat, a 2. klaszter pedig a menedzsmentet jelenti. A vezetők elégedettebbek a karrierfejlesztéssel (CR), a személyes célok és a szervezeti célok kombinációjával (SLC).

Magasabb a gazdasági jólét (SEW) és a fizetési igazságosság (WCO) érzése.

Az otthonhoz való területi közelség (LDP) kevésbé foglalkoztatja őket, mint a munkavállalókat, valószínűleg a kevesebb szállítási probléma miatt. Ezenkívül a vezetők kevésbé akarnak munkahelyet váltani (WSR).

Annak ellenére, hogy a munkavállalókat két kategóriába sorolják, a legtöbb kérdésre viszonylag hasonló válaszokat kapnak. Más szóval, ha valami nem tetszik általános csoport alkalmazottak, ugyanez nem felel meg a felső vezetésnek, és fordítva.

A grafikonok egymáshoz igazítása arra enged következtetni, hogy az egyik csoport jóléte hatással van egy másik csoport jólétére.

Az 1. klaszter nem elégedett az otthonhoz való területi közelséggel. Ez a csoport alkotja a munkavállalók nagy részét, akik elsősorban a város különböző pontjairól érkeznek a vállalkozáshoz.

Ezért felkérheti a fő vezetést, hogy a nyereség egy részét fordítsa a vállalkozás alkalmazottainak lakásépítésére.

Jelentős különbségek láthatók a két embercsoport karrierjéhez való hozzáállásában. Azok a munkavállalók, akik elégedettek a karrier növekedésével, akiknél nagy az egyezés a személyes célok és a szervezet céljai között, nem vágynak munkahelyet váltani, és elégedettek munkájuk eredményével.

Ezzel szemben azok a munkavállalók, akik munkahelyet akarnak váltani, és elégedetlenek munkájuk eredményével, nem elégedettek a megadott mutatókkal. A felső vezetésnek foglalkoznia kell Speciális figyelem a jelenlegi helyzetről.

Az egyes jellemzők varianciaanalízisének eredményei a Varianciaanalízis gomb megnyomásával jelennek meg.

Megjelennek az objektumok klaszterközpontoktól való eltéréseinek négyzetes összegei (SS belül), valamint a klaszterközpontok közötti eltérések négyzetösszegei (SS Between), az F-statisztikai értékek és a p szignifikanciaszintek.

Figyelem!

Példánkban a két változó szignifikanciaszintje meglehetősen magas a megfigyelések kis száma miatt. A tanulmány teljes verziójában, amely a munkában található, a klaszterek középpontjaira vonatkozó átlagok egyenlőségére vonatkozó hipotéziseket 0,01-nél kisebb szignifikanciaszinteken elvetik.

Az Osztályozások és távolságok mentése gomb megjeleníti az egyes fürtökben lévő objektumok számát, valamint az objektumok távolságát az egyes klaszterek közepétől.

A táblázat bemutatja a CLUSTER számokkal rendelkező fürtöket alkotó esetszámokat (CASE_NO), valamint az egyes klaszterek középpontjától való távolságot (DISTANCE).

Az objektumok fürtökhöz való tartozásáról szóló információk fájlba írhatók, és felhasználhatók további elemzésekhez. Ebben a példában a kapott eredmények és a kérdőívek összehasonlítása azt mutatta, hogy az 1. klaszter főleg hétköznapi dolgozókból, a 2. klaszter pedig vezetőkből áll.

Megállapítható tehát, hogy a felmérési eredmények feldolgozása során a klaszteranalízis olyan hatékony módszernek bizonyult, amely lehetővé teszi olyan következtetések levonását, amelyekre nem lehet levonni az átlagok hisztogramjának felépítését, vagy a különböző mutatókkal elégedettek százalékos arányának kiszámítását. a munkahelyi élet minősége.

A fa klaszterezés egy példa egy hierarchikus algoritmusra, amelynek elve abból áll, hogy szekvenciálisan egyesítik egy klaszterbe, először a legközelebbi, majd egyre távolabbi elemeket.

A legtöbb ilyen algoritmus egy hasonlósági (távolsági) mátrixból származik, és minden egyes elemet kezdetben külön klaszternek tekintünk.

A fürtelemző modul betöltése és a Joining (fa klaszterezés) kiválasztása után a következő paraméterek módosíthatók a fürtözési paraméterek beviteli ablakában:

  • Kezdeti adatok (Input). Lehetnek a vizsgált adatok mátrixa (Raw data) és távolságok mátrixa (Distance matrix) formájában.
  • Egy objektum állapotát leíró megfigyelések (Cases (raw)) vagy változók (Változó (oszlopok)) klaszterezése.
  • Távolságmérés. Itt a következő mértékeket választhatja ki: Euklideszi távolságok, Négyzetes euklideszi távolságok, Várostömb (Manhattan) távolság, Csebicsev távolság metrika, Teljesítmény...), Százalékos nézeteltérés.
  • Klaszterezési módszer (Amalgamation (linkage) szabály). A lehetőségek a következők: Egyszeri kapcsolat, Teljes kapcsolat, Súlyozatlan pár-csoport átlag, Súlyozott pár-csoport átlag ), Súlyozatlan pár-csoport centroid, Súlyozott pár-csoport centroid (medián), Ward módszere.

A klaszterezés eredményeként egy vízszintes vagy függőleges dendrogram épül fel - egy grafikon, amelyen az objektumok és a klaszterek közötti távolságok meghatározásra kerülnek, ha szekvenciálisan kombinálják őket.

A gráf faszerű szerkezete lehetővé teszi a klaszterek meghatározását a kiválasztott küszöbtől – a klaszterek közötti adott távolságtól függően.

Ezenkívül megjelenik a Távolság mátrix; az egyes forrásobjektumok átlagát és szórását (Distiptív statisztika).

A vizsgált példa esetében végezzük el a változók fürtelemzését alapértelmezett beállításokkal. Az így kapott dendrogram az ábrán látható.


A dendrogram függőleges tengelye az objektumok, valamint az objektumok és a klaszterek közötti távolság. Így a SEB és az RSD változók közötti távolság öttel egyenlő. Az első lépésben ezeket a változókat egy klaszterbe egyesítik.

A dendrogram vízszintes szegmensei az adott klaszterezési lépéshez választott távolságok küszöbértékeinek megfelelő szinteken rajzolódnak ki.

A grafikonon látható, hogy a „munkahelyváltási vágy” (FSW) kérdés külön klasztert alkot. Általában mindenkit egyformán meglátogat a vágy, hogy bárhol lerakjanak. Továbbá külön klaszter a házhoz való területi közelség (LDP) kérdése.

Fontosságát tekintve a második helyen áll, ami megerősíti a lakásépítés szükségességére vonatkozó, a K-közép módszerrel végzett vizsgálat eredményeiből levont következtetést.

A gazdasági jólét érzése (SEW) és a méltányos fizetés (CCA) ötvöződik – ez a gazdasági kérdések blokkja. A karriernövekedés (CR) és a személyes és szervezeti célok kombinációja (WLC) is kombinálható.

Más klaszterezési módszerek, valamint más típusú távolságok megválasztása nem vezet jelentős változáshoz a dendrogramban.

Eredmények:

  1. A klaszterelemzés hatékony eszköz a feltáró adatelemzésekhez és statisztikai kutatásokhoz bármely témakörben.
  2. A klaszteranalízis hierarchikus és strukturális módszereit egyaránt megvalósítja a Statistica program. Ennek a statisztikai csomagnak az előnyei a grafikus képességeikből fakadnak. A kapott klaszterek kétdimenziós és háromdimenziós grafikus megjelenítései vannak a vizsgált változók terében, valamint az objektumok csoportosítására szolgáló hierarchikus eljárás eredményei.
  3. Több klaszterelemzési algoritmust kell alkalmazni, és az algoritmusok eredményeinek átfogó értékelése alapján következtetéseket levonni.
  4. A klaszteranalízis akkor tekinthető sikeresnek, ha különböző módon hajtjuk végre, az eredményeket összehasonlítjuk és általános mintákat találunk, illetve klaszterezési módszertől függetlenül stabil klasztereket találunk.
  5. A klaszterelemzés lehetővé teszi a problémahelyzetek azonosítását és a megoldási módok felvázolását. Ennélfogva a nemparaméteres statisztika e módszere úgy tekinthető alkotórész rendszer elemzése.

Az adatbányászat alapvetően az információk feldolgozását, valamint a döntések meghozatalát segítő minták és trendek azonosítását jelenti. Alapelvek intellektuális elemzés adatok sok éve ismertek, de megjelenésével nagy adat még jobban elterjedtek.

A big data a szélesebb körű adatbányászati ​​technikák népszerűségének robbanásszerű növekedéséhez vezetett, részben azért, mert sokkal több információ áll rendelkezésre, és természetüknél fogva és tartalmánál fogva egyre szerteágazóbb és kiterjedtebb. Ha nagy adathalmazokkal foglalkozunk, a viszonylag egyszerű és egyértelmű statisztikák már nem elegendőek. 30 millió vagy 40 millió részletes vásárlási nyilvántartás mellett nem elég tudni, hogy kétmillió ugyanarról a helyről származik. Az ügyfelek igényeinek jobb kielégítése érdekében meg kell érteni, hogy ez a két millió egy bizonyoshoz tartozik-e korcsoportés ismerik az átlagkeresetüket.

Ezek az üzleti követelmények az egyszerű kereséstől és az adatok statisztikai elemzésétől a kifinomultabb adatbányászat felé mozdultak el. Az üzleti problémák megoldásához adatelemzésre van szükség, amely lehetővé teszi az információk leírására szolgáló modell felépítését, és végül egy jelentés elkészítéséhez vezet. Ezt a folyamatot szemléltetjük.

1. ábra Folyamat diagram

Az adatok elemzésének, a keresésnek és a modellépítésnek a folyamata gyakran iteratív, mivel különféle kinyerhető információkat kell felkutatnia és felfednie. Azt is meg kell értenie, hogyan lehet ezeket összekapcsolni, átalakítani és más adatokkal kombinálni az eredmény eléréséhez. Az adatok új elemeinek és aspektusainak felfedezése után megváltozhat a források és adatformátumok azonosításának, majd az információknak egy adott eredménnyel való összehasonlításának megközelítése.

Adatbányászati ​​eszközök

Az adatbányászat nem csak a használt eszközökről ill szoftver adatbázisok. Az adatbányászat viszonylag szerény adatbázis-rendszerekkel és egyszerű eszközökkel végezhető, beleértve a saját létrehozását vagy a kész szoftvercsomagok használatát. A kifinomult adatbányászat a korábbi tapasztalatokra és a meglévő szoftverekkel és csomagokkal definiált algoritmusokra támaszkodik, különféle speciális eszközökkel, amelyek különböző módszerekhez kapcsolódnak.

Például az IBM SPSS®, amely a statisztikai elemzésben és közvélemény-kutatásban gyökerezik, lehetővé teszi a múltbeli trendek alapján hatékony prediktív modellek felépítését és pontos előrejelzések készítését. Az IBM InfoSphere® Warehouse egyetlen csomagban biztosítja az adatforrás-felderítést, az előfeldolgozást és a bányászatot, lehetővé téve az információknak a forrásadatbázisból közvetlenül a végső jelentésbe történő kinyerését.

V mostanában nagyon nagy adatkészletek és fürtözött/nagy léptékű adatfeldolgozás már lehetséges, ami lehetővé teszi az adatbányászati ​​eredmények még kifinomultabb általánosítását az adatcsoportok között és az összehasonlításokat. Ma teljesen új eszközök és rendszerek állnak rendelkezésre, beleértve a kombinált tárolási és adatfeldolgozó rendszereket.

Sokféle adatkészletet elemezhet, beleértve a hagyományos SQL-adatbázisokat, nyers szöveges adatokat, kulcs-/értékkészleteket és dokumentumadatbázisokat. A fürtözött adatbázisok, például a Hadoop, a Cassandra, a CouchDB és a Couchbase Server olyan módon tárolják és érik el az adatokat, amelyek nem követik a hagyományos táblázatos struktúrát.

A dokumentumbázis tárolásának rugalmasabb formátuma új fókuszba helyezi és bonyolítja az információfeldolgozást. Az SQL-adatbázisok erősen strukturáltak, és megfelelnek a sémának, ami megkönnyíti az adatok ismert formátumú és szerkezetű lekérdezését és elemzését.

A szabványos struktúrát, például a JSON-t követő dokumentum-adatbázisok, vagy valamilyen géppel olvasható struktúrájú fájlok szintén könnyen kezelhetők, bár ezt a változatos és gördülékeny struktúra bonyolíthatja. Például a teljesen "nyers" adatokat feldolgozó Hadoopban nehéz lehet azonosítani és kinyerni az információkat a feldolgozás és korreláció előtt.

Alapvető módszerek

Az adatbányászathoz használt számos alapvető módszer leírja az elemzés típusát és az adatok helyreállításának műveletét. Sajnos a különböző cégek és megoldások nem mindig ugyanazokat a kifejezéseket használják, ami tovább fokozhatja a zavart és az észlelt bonyolultságot.

Vessünk egy pillantást néhány kulcsfontosságú technikára és példákra konkrét adatbányászati ​​eszközök használatára.

Egyesület

Az asszociáció (vagy reláció) valószínűleg a legismertebb, legismertebb és legegyszerűbb adatbányászati ​​technika. A minták azonosításához egyszerű összehasonlítást kell végezni két vagy több, gyakran azonos típusú elem között. Például a vásárlási szokások nyomon követésével észreveheti, hogy a krémet általában eperrel vásárolják.

Nem nehéz adatbányászati ​​eszközöket létrehozni asszociációk vagy kapcsolatok alapján. Például az InfoSphere Warehouse egy varázslót biztosít, amely végigvezeti az információáramlási konfigurációkon, hogy társításokat hozzanak létre a bemeneti forrás, a döntési alap és a kimeneti információk vizsgálatával. példa a mintaadatbázishoz.

2. ábra Az asszociációs megközelítésben használt információáramlás

Osztályozás

Az osztályozás felhasználható arra, hogy képet kapjunk a vevő, termék vagy objektum típusáról azáltal, hogy több attribútumot is leírunk egy adott osztály azonosítására. Például az autók könnyen osztályozhatók típus szerint (szedán, SUV, kabrió) különböző attribútumok (ülésszám, karosszériaforma, hajtókerekek) meghatározásával. Egy új autó tanulmányozása során osztályozhatja az attribútumok egy ismert definícióval való összehasonlításával. Ugyanezek az elvek alkalmazhatók a vásárlókra is, például életkor és társadalmi csoportok szerinti kategorizálással.

Ezenkívül az osztályozás más módszerek bemeneteként is használható. Például döntési fák használhatók osztályozás meghatározására. A fürtözés lehetővé teszi a különböző osztályozások közös attribútumainak használatát a fürtök azonosításához.

Egy vagy több attribútum vagy osztály vizsgálatával csoportosíthatja az egyes adatelemeket, hogy strukturált következtetést lehessen levonni. Egyszerű szinten a klaszterezés egy vagy több attribútumot használ a hasonló eredmények fürtjének meghatározásához. A klaszterezés hasznos a különböző információk azonosításában, mivel más példákkal korrelál, így láthatja, hol egyeznek a hasonlóságok és a tartományok.

A klaszterezési módszer mindkét irányban működik. Feltételezheti, hogy van egy fürt egy bizonyos ponton, majd az azonosítási kritériumok segítségével ellenőrizze ezt. Az ábrán látható grafikon szemléltető példa. Itt a vevő életkorát vetik össze a vételárral. Jogosan elvárható, hogy a húsz és harminc év közöttiek (házasságkötés és gyermekvállalás előtt), valamint az 50-60 év közöttiek (amikor a gyerekek elhagyják otthonukat) magasabb rendelkezésre álló jövedelemmel rendelkezzenek.

3. ábra Klaszterezés

Ebben a példában két klaszter látható, az egyik 2000 USD / 20-30 év, a másik 7000-8000 USD / 50-65 év körüli. Ebben az esetben feltételeztük és egy egyszerű gráfon teszteltük, amely bármilyen alkalmas grafikus szoftverrel ábrázolható. Bonyolultabb kombinációkhoz teljes analitikai csomagra van szükség, különösen akkor, ha a döntéseket automatikusan a legközelebbi szomszéd.

Ez a klaszterezés az úgynevezett kép leegyszerűsített példája legközelebbi szomszéd... Az egyes vásárlókat a diagramon egymáshoz való szó szerinti közelségük alapján lehet megkülönböztetni. Nagyon valószínű, hogy az ugyanabból a fürtből származó ügyfelek más közös attribútumokkal is rendelkeznek, és ez a feltételezés felhasználható egy adatkészlet tagjainak megkeresésére, osztályozására és egyéb elemzésére.

A klaszterezési módszer fordítva is alkalmazható: bizonyos bemeneti attribútumok mellett különféle műtermékek azonosíthatók. Például egy közelmúltbeli, négyjegyű PIN-kód tanulmányozása 1-12 és 1-31 közötti számcsoportokat talált az első és a második pár esetében. Ezeket a párokat grafikonon ábrázolva láthatja a dátumokhoz (születésnapok, évfordulók) társított klasztereket.

Előrejelzés

Az előrejelzés egy széles téma, amely az alkatrészek meghibásodásának előrejelzésétől a csalások felderítéséig, sőt a vállalat profitjának előrejelzéséig terjed. Más adatbányászati ​​technikákkal kombinálva az előrejelzés trendelemzést, osztályozást, modellillesztést és kapcsolatokat foglal magában. A múlt eseményeinek vagy eseteinek elemzésével megjósolható a jövő.

Például a hitelkártya-engedélyezési adatok használatával kombinálhatja egy személy múltbeli tranzakcióinak döntési fa elemzését az osztályozással és a történelmi modellek csalárd tranzakciók felderítése érdekében. Ha a repülőjegyek vásárlása az Egyesült Államokban egybeesik az Egyesült Államokban lebonyolított tranzakciókkal, akkor valószínű, hogy ezek a tranzakciók valódiak.

Szekvenciális modellek

A szekvenciális modellek, amelyeket gyakran használnak hosszú távú adatok elemzésére, hasznos technikát jelentenek a trendek vagy hasonló események rendszeres megismétlődésének azonosítására. Például a vásárlói adatok megtekintésével megállapíthatja, hogy az év különböző időszakaiban vásárolnak bizonyos termékkészleteket. Ezen információk alapján a bevásárlókosár-előrejelző alkalmazás automatikusan feltételezheti, hogy bizonyos termékek a vásárlások gyakorisága és előzményei alapján kerülnek a kosárba.

Döntési fák

A legtöbb egyéb módszerhez (főleg osztályozáshoz és előrejelzéshez) kapcsolódó döntési fa akár kiválasztási kritériumokon belül, akár konkrét adatok általános kereteken belüli kiválasztásának támogatására használható. A döntési fa ezzel kezdődik egyszerű kérdés amelynek két válasza van (néha több). Minden válasz oda vezet következő kérdés segít az adatok osztályozásában és azonosításában vagy előrejelzésekben.

5. ábra Adat-előkészítés

Az adatforrás, a hely és az adatbázis egyaránt befolyásolja az információk feldolgozásának és kombinálásának módját.

SQL-re támaszkodás

Az összes megközelítés közül a legegyszerűbb gyakran az SQL-adatbázisokra való támaszkodás. Az SQL (és a hozzá tartozó táblázatstruktúra) jól ismert, de az információ szerkezetét és formátumát nem lehet teljesen figyelmen kívül hagyni. Például az értékesítési adatok felhasználói viselkedésének tanulmányozásakor az SQL-adatmodellben (és általában az adatbányászatban), két fő formátumot használhat: tranzakciós és viselkedési-demográfiai.

Az InfoSphere Warehouse segítségével demográfiai viselkedési modell felépítése az ügyfelek adatainak elemzéséhez az ügyfelek viselkedésének megértése érdekében, magában foglalja a tranzakciós információkon és az ismert ügyfélparamétereken alapuló nyers SQL-adatokat, és az információkat előre meghatározott táblázatos struktúrába rendezve. Az InfoSphere Warehouse ezt az információt felhasználhatja az adatok fürtözési és osztályozási technikákkal történő bányászására a kívánt eredmény elérése érdekében. Az ügyfelek demográfiai és tranzakciós adatai kombinálhatók, majd konvertálhatók olyan formátumba, amely lehetővé teszi az egyes adatok elemzését, amint az az ábrán látható.

6. ábra Egyedi adatelemzési formátum

Az értékesítési adatok például felhasználhatók bizonyos termékek értékesítési trendjeinek azonosítására. Az egyes cikkek eredeti értékesítési adatai tranzakciós információkká konvertálhatók, amelyek a vevőazonosítókat tranzakciós adatokhoz és cikkkódokhoz rendelik. Ezen információk felhasználásával könnyen azonosítható az egyes termékek és az egyes vásárlók közötti konzisztenciák és kapcsolatok idővel. Ez lehetővé teszi az InfoSphere Warehouse számára, hogy konzisztens információkat számítson ki, például annak meghatározásával, hogy az ügyfél valószínűleg mikor vásárolja meg újra ugyanazt a cikket.

Az eredeti adatokból új adatelemzési pontokat hozhat létre. Például kibővítheti (vagy finomíthatja) a termékinformációkat az egyes termékek szélesebb csoportokba való egyeztetésével vagy osztályozásával, majd az egyes ügyfelek helyett az adott csoportok adatait elemezheti.

7. ábra: MapReduce szerkezet

Az előző példában feldolgoztuk (jelen esetben a MapReduce-en keresztül) az eredeti adatokat egy dokumentumadatbázisban, és adatbányászati ​​célból táblázatos formátumba konvertáltuk egy SQL adatbázisban.

Ezzel az összetett, sőt strukturálatlan információval való munka több előkészítést és feldolgozást igényelhet. Vannak összetett típusok és adatstruktúrák, amelyeket nem lehet egy lépésben a kívánt formában feldolgozni és elkészíteni. Ebben az esetben a MapReduce kimenetet bármelyikre irányíthatja következetesátalakítani és befogadni szükséges szerkezet vagy a képen látható adatok Egyedi több kimeneti táblázat elkészítése.

8. ábra: A MapReduce feldolgozási eredményeinek egymást követő kimeneti lánca

Például egyetlen lépésben nyers információkat vehet ki egy dokumentum-adatbázisból, és végrehajthat egy MapReduce műveletet, hogy áttekintést kapjon ezekről az információkról dátum szerint. Jó példa A szekvenciális folyamat az információk újragenerálása, és az eredmények kombinálása egy döntési mátrixszal (amely a MapReduce feldolgozás második szakaszában jött létre), majd további egyszerűsítéssel szekvenciális struktúrává alakítják. A feldolgozási szakaszban a MapReduce ezt megköveteli teljes készlet adatok támogatták az adatfeldolgozás egyes lépéseit.

A forrásadatoktól függetlenül sok eszköz használhat sima fájlokat, CSV-ket vagy más adatforrásokat. Például az InfoSphere Warehouse a DB2 adattárházhoz való közvetlen kapcsolódáson túl sima fájlokat is képes elemezni.

Következtetés

Az adatbányászat többről szól, mint néhány összetett lekérdezés végrehajtásáról az adatbázisban tárolt adatokon. Függetlenül attól, hogy SQL-t, dokumentumalapú adatbázisokat (például Hadoop) vagy egyszerű lapos fájlokat használ, dolgoznia kell az adatokkal, formáznia vagy át kell strukturálnia azokat. Meg akarja határozni az információ formátumát, amelyen módszere és elemzése alapul. Ezután, ha az információ megfelelő formátumban van, különböző módszereket lehet alkalmazni (egyénileg vagy együttesen), függetlenül a mögöttes adatszerkezettől vagy a szükséges adatkészlettől.

Annak ellenére, hogy az „információelemzési folyamat” inkább szakkifejezés, tartalma 90%-ban az emberi tevékenységhez kapcsolódik.

Az információelemzési feladat középpontjában álló igények megértése szorosan összefügg a vállalat üzleti tevékenységének megértésével. A megfelelő forrásokból származó adatok gyűjtése tapasztalatot igényel az adatgyűjtésben, függetlenül attól, hogy a végső adatgyűjtési folyamat hogyan automatizálható. Az összegyűjtött adatok belátásokká alakítása és hatékony gyakorlati alkalmazása megköveteli az üzleti folyamatok mélyreható ismeretét és a tanácsadói készségek rendelkezésre állását.

Az információelemzési folyamat az események ciklikus áramlása, amely a vizsgált terület szükségleteinek elemzésével kezdődik. Ezt követi a másodlagos és (vagy) elsődleges forrásokból származó információk gyűjtése, elemzése és jelentés készítése a döntéshozók számára, akik ezt felhasználják, visszajelzést adnak, javaslatokat készítenek.

Nemzetközi szinten az információelemzési folyamatot a következőképpen jellemzik:

  • Először a kulcsfontosságú üzleti folyamatokban határozzák meg a döntési szakaszokat, és hasonlítják össze az információelemzés szokásos végeredményeivel.
  • Az információelemzés folyamata nemzetközi szintű igényfelméréssel kezdődik, vagyis a jövőbeni döntési igények azonosításával és ellenőrzésével.
  • Az információgyűjtés szakasza automatizált, ami lehetővé teszi, hogy időt és erőforrásokat rendeljen az információk elsődleges elemzéséhez, és ennek megfelelően növelje a meglévő másodlagos információk értékét.
  • Sok időt és erőforrást fordítanak az információk elemzésére, a következtetések levonására és az értelmezésre.
  • Az így kapott elemző információkat minden döntéshozó egyénileg tudomására hozzuk, nyomon követve a további felhasználás folyamatát.
  • Az információelemző csapat tagjai a folyamatos fejlesztésre törekednek.

Bevezetés: az információelemzés ciklusa

Az „információelemzési folyamat” kifejezés egy folyamatos, ciklikus folyamatot jelent, amely a döntéshozók információigényének feltárásával kezdődik, és az ezeket az igényeket kielégítő információmennyiség biztosításával ér véget. Ebben a tekintetben azonnal különbséget kell tenni az információ mennyisége és az információelemzés folyamata között. Az információ mennyiségének meghatározása a célok és igények azonosítására irányul információs források a teljes információelemző programra, míg az információelemzési folyamat egy ilyen elemzés egy, bár jelentéktelen végeredménye iránti igények meghatározásával kezdődik.

Az információelemzési folyamatot mindig a vállalatban meglévő folyamatokhoz kell kötni, azaz stratégiai tervezés, értékesítési, marketing vagy termékmenedzsment, amelyben ezeket az információkat felhasználják. A gyakorlatban a kimeneten megszerzett információk felhasználásának vagy közvetlenül kapcsolódnia kell a döntéshozatali helyzetekhez, vagy ezeknek az információknak kell segíteniük a szervezet tudatosságának emelését azokon a működési területeken, amelyek különféle üzleti folyamatokhoz kapcsolódnak.

ábrán. Az 1. ábra az információelemzés ciklikus folyamatának szakaszait mutatja be (további részleteket lásd alább). A diagram jobb oldalán viszont láthatók az információelemzési folyamat konkrét eredményei, amikor az általános piackutatás alapján születnek döntések, illetve a különféle üzleti folyamatokhoz, projektekhez közvetlenül kapcsolódó információelemzési folyamat eredményei.

Kattintson a képre a nagyításhoz

Az információelemzés ciklusa hat szakaszból áll. Az övék Részletes leírás lásd lejjebb.

1. Igények elemzése

Az alapos igényfelmérés lehetővé teszi az információelemzési feladat céljainak és terjedelmének meghatározását. Még ha az ilyen problémákat megoldók saját használatra is gyűjtenek információkat, célszerű egyértelműen meghatározni a probléma megoldásának kulcsfontosságú irányait, hogy az erőforrásokat a legmegfelelőbb területekre koncentrálhassuk. Az esetek túlnyomó többségében azonban a kutatást végzők nem az eredmények végfelhasználói. Ezért teljes mértékben tisztában kell lenniük azzal, hogy a végeredményeket mire fogják felhasználni, hogy elkerüljék a felhasználók számára esetlegesen irreleváns adatok gyűjtését és elemzését. Az igényfelmérés szakaszához különféle sablonokat és kérdőíveket fejlesztettek ki, amelyek a probléma megoldásának kezdeti szakaszában magas minőségi mércét állítanak fel.

A legfontosabb azonban az, hogy a szervezet információelemzési igényeit maradéktalanul meg kell érteni és külsőből belsővé kell alakítani ahhoz, hogy az információelemző program határozott értékű legyen. A sablonok és a kérdőívek önmagukban ezt a célt nem tudják elérni. Természetesen hasznosak lehetnek, de előfordult már, hogy a cégvezetőkkel folytatott kötetlen beszélgetés alapján kiváló igényfelmérés készült. Ez viszont megköveteli az információelemző csapattól, hogy tanácsadói megközelítést alkalmazzon, vagy legalább produktív legyen. üzleti találkozó azokkal, akik felelősek a döntések meghozataláért.

2. A másodlagos információforrások lefedettsége

Az információelemzési ciklus részeként külön kiemeljük a másodlagos és elsődleges forrásokból származó információgyűjtést. Ennek számos oka van. Először is, a nyilvánosan elérhető forrásokból való információgyűjtés olcsóbb, mint az elsődleges forrásokhoz való közvetlen hozzáférés. Másodszor, könnyebb, feltéve persze, ha az ilyen feladattal szembesülő emberek kellő tapasztalattal rendelkeznek a rendelkezésre álló másodlagos források tanulmányozásában. Valójában az információforrások kezelése és a kapcsolódó költségoptimalizálás önmagában is külön szakterület. Harmadszor, a másodlagos információforrások lefedettsége a kutatást megelőzően interjúk formájában, értékes, általános jellegű háttérinformációkat biztosít a kutatást végzők számára, amelyek ellenőrizhetők és felhasználhatók az interjúalanyoktól származó információk alapján. Ezen túlmenően, ha a szekunder források tanulmányozása során néhány kérdésre választ lehet kapni, ez csökkenti a primer források kutatási szakaszának költségeit, sőt esetenként szükségtelenné is teszi őket.

3. Primer források kutatása

Bármilyen hatalmas is a ma elérhető nyilvános információmennyiség, a másodlagos források tanulmányozásával nem minden információhoz lehet hozzáférni. A másodlagos források feltárása után a kutatási hiányosságokat a kutatási témában jártas szakemberek megkérdezésével lehet pótolni. Ez a szakasz viszonylag költséges lehet a másodlagos források tanulmányozásához képest, ami természetesen függ a feladat nagyságától, valamint attól, hogy milyen erőforrásokat vonnak be: gyakran a cégek külső szereplőket vonnak be az elsődleges források kutatásába. források.

4. Elemzés

A különböző forrásokból származó információk összegyűjtése után meg kell érteni, hogy pontosan mire van szükség a szükségletek kezdeti elemzéséhez az adott feladattal összhangban. A kutatásnak ez a szakasza az adott feladat terjedelmétől függően ismét meglehetősen költségesnek bizonyulhat, mivel magában foglalja legalább a belső és néha külső erőforrásokra fordított időt, és esetleg néhányat. kiegészítő ellenőrzés a teszteredmények helyességét további interjúkkal.

5. Eredmények biztosítása

Az információelemzési feladat elvégzése utáni eredmények bemutatásának formátuma nem kis jelentőséggel bír a végfelhasználók számára. A döntéshozóknak jellemzően nincs idejük a kulcsfontosságú elemzési eredmények után kutatni a megszerzett nagy mennyiségű adatban. A fő tartalmat a követelményeknek megfelelően könnyen olvasható formátumba kell lefordítani. Ugyanakkor biztosítania kell a további háttéradatokhoz való könnyű hozzáférést az érdeklődőknek és "mélyebbre ásni". Ezek az alapvető szabályok az információ megjelenítésének formátumától függetlenül érvényesek, legyen az adatbázisszoftver, hírlevél, Powerpoint prezentáció, személyes találkozó vagy szeminárium. Ezen túlmenően van egy másik oka is annak, hogy az információszolgáltatás szakaszát elválasztottuk a végfelhasználástól, valamint a visszajelzések és javaslatok fogadását a megadott elemző információkkal kapcsolatban. Néha a döntéseket ugyanabban a sorrendben hozzák meg, mint az analitikai információkat. Az alapvető, referenciaanyagokat azonban leggyakrabban még a tényleges döntési helyzet kialakulása előtt biztosítják, így az információ formátuma, csatornája és bemutatásának módja befolyásolja az észlelést.

6. Megjegyzések/ észrevételek felhasználása és biztosítása

A felhasználási szakasz egyfajta lakmusz tesztként szolgál az információelemzési feladat sikerességének értékeléséhez. Lehetővé teszi annak megértését, hogy a kapott eredmények megfelelnek-e az információelemzési folyamat legelején azonosított igényeknek. Függetlenül attól, hogy mindegyikre eredetileg válaszoltak-e vagy sem feltett kérdéseket, a felhasználási szakaszban rendszerint új kérdések és új igényelemzés szükségessége merül fel, különösen, ha az információelemzés igénye folyamatban van. Ráadásul a végfelhasználók és az információelemzők közös tartalomalkotási erőfeszítéseinek eredményeként, mire az a felhasználási fázisba kerül, előfordulhat, hogy az információ végfelhasználói már hozzájárultak a várt végeredményhez. A főként elemzéssel foglalkozók viszont aktívan bekapcsolódhatnak a következtetések levonásába és az eredmények értelmezésébe, amelyek alapján megszületik a végső döntés. Ideális esetben a jól átgondolt észrevételek és megjegyzések a felhasználási szakaszban már alapul szolgálhatnak a következő információelemzési feladat igényeinek felméréséhez. Ezzel az információelemzési folyamat ciklusa véget ér.

Kezdő lépések: Információelemzési folyamat kidolgozása

Az üzleti folyamatok elemző piackutatást igénylő döntéshozatali szakaszainak meghatározása

Az „információelemzés a döntéshozatali szakaszban” kifejezés egyre nagyobb lendületet kap. nagy népszerűség mivel azok a vállalatok, amelyek már rendelkeznek információelemző programokkal, elkezdték mérlegelni a különféle lehetőségeket e programok hatékonyabb integrálására a döntéshozatali folyamatokba. Az, hogy mennyire lesznek elvont, vagy fordítva, specifikusak az "információelemzés végső eredményei és az üzleti folyamatok közötti kapcsolat javítását" célzó intézkedések, nagyban függ attól, hogy ezeket az üzleti folyamatokat formálisan meghatározták-e, valamint hogy a csoport rendelkezik-e információelemzéssel. e folyamatok döntéshozatali szakaszaihoz kapcsolódó konkrét információs igények megértése.

Ahogy az 1. fejezetben említettük, az ebben a könyvben tárgyalt technikák és technikák a legalkalmasabbak olyan vállalatok számára, amelyek már rendelkeznek strukturált üzleti folyamatokkal, például stratégiai fejlesztéssel. Előfordulhat, hogy az irányításhoz kevésbé jól felépített cégeknek egy kis kreativitásra van szükségük, amikor irányítási struktúrájukon alapuló nemzetközi piacelemzési módszertant alkalmaznak. Az itt tárgyalt alapelvek azonban minden vállalatnál működnek.

Az információelemzés szükségleteinek felmérése: miért olyan fontos?

Tekintettel arra, hogy a kulcsfontosságú információelemzési követelmények megértése a folyamat korai szakaszában erősebb hatással van az eredmények minőségére, mint a folyamat bármely szakaszában, feltűnő, hogy az igényfelmérés szakaszát gyakran figyelmen kívül hagyják. Az információelemzési folyamat más szakaszaiban jelentkező potenciális erőforrás-korlátok ellenére, önmagában az igényfelmérés fokozott odafigyelése sok esetben jelentősen növelné a folyamat eredményeinek értékét és alkalmazhatóságát, így indokolttá válik az információelemzési feladatra fordított idő és erőforrás. Az alábbiakban az igényfelmérés minőségének javításának konkrét módjait tekintjük át.

Gyakran automatikusan feltételezik, hogy a vezetés tudja, milyen információkra van szüksége a vállalatnak. A valóságban azonban a felső vezetés általában szervezete információigényének csak töredékével van tisztában, és még így sem lehet a legjobb helyzetben annak meghatározásához, hogy pontosan milyen információra van szükség, nem is beszélve arról, hogy hol van. találhatók.

Emiatt folyamatosan megismétlődik az a helyzet, amikor sem a probléma világosan megfogalmazott fogalma, sem üzleti kontextusa nincs információelemzési feladatok elvégzésére. Aki a legjobban ismeri az információforrásokat és az elemzési módszereket, az időt veszteget a zűrzavarosnak tűnő adatfeldolgozásban, és nem látja át a teljes képet vagy a vállalat számára legfontosabb megközelítéseket. Nem meglepő módon ennek eredményeként a döntéshozók sokkal több információt kapnak, mint amennyire szükségük van, ami elvileg kontraproduktív, hiszen hamar figyelmen kívül hagyják nemcsak a haszontalan, hanem fontos információ... Nem több információra van szükségük, hanem jobb és pontosabb információra.

Ugyanakkor a döntéshozók irreális elvárásaik lehetnek az információk elérhetőségével és pontosságával kapcsolatban, hiszen a feladat meghatározása előtt nem konzultáltak az információelemzés szakértőivel. Ezért ideális esetben az információelemzőknek és a döntéshozóknak állandó kapcsolatban kell lenniük egymással, és együtt kell működniük annak érdekében, hogy mindkét fél egyformán megértse az elsődleges információs szükségleteket. Ennek a folyamatnak a kezeléséhez az ebben az irányban dolgozó elemzőktől számos készségre van szükség:

  • Az elemzőnek meg kell értenie, hogyan azonosíthatja és határozhatja meg a döntéshozók információigényét.
  • Az elemzőnek készségeket kell fejlesztenie hatékony kommunikáció interjúk és prezentációk készítése.
  • Ideális esetben az elemzőnek meg kell értenie a személyiségtípusokat, hogy figyelembe tudja venni eltérő fókusz döntésekért felelős emberek.
  • Az elemzőnek tudnia kell szervezeti struktúra, kultúra és környezet, valamint a legfontosabb interjúalanyok.
  • Az elemzőnek meg kell őriznie az objektivitást.

Az információelemzés és a folyamat szűk keresztmetszetek kiküszöbölésének ciklusán belüli munka

Az információelemző program megvalósításának kezdeti szakaszában a tevékenységek célcsoportja általában korlátozott, csakúgy, mint a program által elért végeredmények. Hasonlóan a végeredmény feldolgozásakor is gyakran felmerülnek különféle nehézségek (ún. "szűk keresztmetszetek"): a másodlagos és elsődleges forrásokból származó, szórványos adatok egyszerű összegyűjtése is igényelhet olyan ismereteket és tapasztalatokat, amelyekkel a cég nem rendelkezik, és a befejezést követően. Az információgyűjtés során előfordulhat, hogy nem elegendő az idő és az erőforrások az összegyűjtött adatok részletes elemzésére, nem beszélve arról, hogy informatív és jól kidolgozott prezentációkat készítsenek a döntéshozók számára. Ráadásul az információelemző program kidolgozásának kezdeti szakaszában szinte egyetlen vállalat sem rendelkezik speciális eszközökkel az ilyen elemzések eredményeinek tárolására és terjesztésére. Általában az eredményeket végső soron rendszeres e-mail mellékletként juttatják el a célcsoportokhoz.

Az elemzési feladat összetettsége az információelemzési cikluson belül a szabványos projektmenedzsment háromszög segítségével írható le, azaz három fő korlát mellett kell elvégezni a feladatot és az eredményt szállítani: költségvetés, idővonal és munkakör. Sok esetben ez a három korlát verseng egymással: egy szabványos információelemzési feladatnál a terhelés növelése idő- és költségvetés-növekedést igényel; a szűkös határidő valószínűleg a költségvetés növekedését és egyidejűleg a munka mennyiségének csökkentését jelenti, a szűkös költségvetés pedig a munka mennyiségének korlátozását és a projekt időkeretének csökkenését is jelenti.

A szűk keresztmetszetek megjelenése az információelemzési folyamatban általában jelentős súrlódásokhoz vezet a kutatási feladat végrehajtásában az információelemzési cikluson belül az ilyen elemzési program kidolgozásának kezdeti szakaszában. Mivel az erőforrások korlátozottak, először a legkritikusabb szűk keresztmetszeteket kell kezelni. Rendelkezik-e elegendő kapacitással az információelemző csapat ennek elvégzéséhez? További képzésre van szüksége? Vagy inkább az a probléma, hogy az elemzőknek hiányoznak az értékes információk a munkához – vagyis a legkritikusabb szűk keresztmetszet az információgyűjtés? Vagy az információelemző csapatnak egyszerűen nincs elég ideje, vagyis a csoport nem tud időben válaszolni a sürgős kérésekre?

Az információelemzési cikluson belül kétféleképpen lehet javítani az elemzési feladat hatékonyságát. A ciklus „produktivitása”, vagyis az, hogy az információelemző csapat milyen alapossággal tudja kezelni az elemzési feladatokat az egyes szakaszokban, és a kérdés megválaszolásának sebessége. ábrán. A 2. ábra bemutatja ezen megközelítések közötti különbséget, és általában a stratégiai elemzési feladatok és a gyors reagálást igénylő kutatási kérések közötti különbséget.

Bár mindkét megközelítés magában foglalja az elemzési feladat áthaladását az információelemzési ciklus minden szakaszán, az információelemző csoport, amelynek feladata a gyors kutatások lefolytatása, párhuzamosan a másodlagos és a primer források tanulmányozásán dolgozik majd (néha egy telefonhívás szakemberhez). meg tudja adni a szükséges válaszokat a kutatási felhívásban feltett kérdésekre). Emellett sok esetben az elemzést és az információszolgáltatást egyesítik, például egy szinopszisban, amelyet az elemző ad az információt kérő vezetőnek.

Az információelemzési ciklus teljesítménye javítható belső (bérelt) vagy külső (megszerzett) erőforrások hozzáadásával, ahol szükséges, jobb eredményeket és jobb szervizelhetőséget eredményezve. több felhasználói csoportok a szervezeten belül.

Ugyanez az elv vonatkozik egy műveletsor válaszkészségének biztosítására is, vagyis arra, hogy egy sürgős kutatási feladat milyen gyorsan megy végbe. különböző szakaszaiban ciklus. Hagyományosan a vállalatok elsősorban a stabil áteresztőképesség biztosítására összpontosítanak hosszú távú erőforrás-tervezés és személyzeti képzési programok révén. Az olyan speciális irányzatok fejlődésével, mint az információelemzés, valamint a kívülről vonzott globális szakmai erőforrások elérhetőségének növekedésével azonban egyre elterjedtebbek a minden konkrét esetben megvalósuló, a szükséges rugalmasságot biztosító átmeneti sémák.

ábrán. A 3. ábra az információelemzési ciklus kétféle kimenetelét mutatja be, vagyis a stratégiai elemzést és a gyors reagálást igénylő kutatást (lásd az információelemzési eredmények grafikonját). Annak ellenére, hogy a gyors reagálást igénylő kutatási feladatok általában üzleti folyamatokhoz kapcsolódnak, ezek elemzésének szintje az elemzés banális időhiánya miatt nem túl magas. Másrészt a stratégiai elemzési feladatokhoz általában az elemzés és az információszolgáltatás szakaszában magas szintű együttalkotás társul, ami gyakorlatilag a háromszög tetejére helyezi őket, ahol a megszerzett információk értelmezése és alkalmazása végrehajtani.

Folyamatos fejlesztés: törekvés az információelemzés nemzetközi szintjére

Az információelemzési folyamat zökkenőmentes lefutása egy egyenletes vastagságú ciklusgrafikon formájában jeleníthető meg (2. ábra), abban az értelemben, hogy egy kiforrott információelemzési folyamatnak nincsenek „gyenge láncszemei” vagy jelentős „szűk keresztmetszete” a műveletek sorrendjének megszervezése. Ez az egységesség megfelelő erőforrás-ütemezést tesz szükségessé minden szakaszban, ami viszont úgy érhető el, hogy a cikluson végighaladunk minden részlettel. Például a kezdeti igényfelmérés fokozatosan javítható azzal, hogy a döntéshozók és a munka eredményeinek felhasználói a piackutatási feladatok ellátásának kezdeti szakaszában hiányosságokat, jellemző eltéréseket észlelnek. Hasonlóképpen, idővel kialakulhat a keresők és az elemzők közötti együttműködés (ha a két funkciót elválasztjuk) azáltal, hogy a korábban észrevétlen és az elemzés során felmerült problémákat átadja a keresőknek, hogy további adatokat gyűjtsenek. A tapasztalat idővel megmutatja, hogy az egyes lépésekhez milyen erőforrásokra van szükség az optimális eredmények eléréséhez.

Az határozza meg, hogy végül milyen eredmények „optimálisak”, az határozza meg, hogy a kapott információk mennyire felelnek meg az üzleti folyamat döntéshozóinak igényeinek. Ez pedig ismét visszavezet bennünket az információelemzési ciklus egységes vastagságához: az információelemzés folyamata nemzetközi szinten nem a szükségletek felmérésével kezdődik, hanem annak világos meghatározásával, hogy a megszerzett információ hol és hogyan lesz. alkalmazott. Valójában a döntéshozók és az információelemzők közötti kommunikációnak a nemzetközi elemzési folyamat során állandónak, informatívnak és kétirányúnak kell lennie.

A döntéshozatal és a piackutatás közötti kapcsolatok erősítésének egyik módja az, hogy szolgáltatási szintre vonatkozó megállapodásokat kötünk a piacintelligencia program által kiszolgált kulcsfontosságú érintettekkel. A szükséges szintű piackutatási szolgáltatások menedzserekkel történő egyeztetése legfelső szint A stratégiai tervezés, az értékesítés, a marketing és a K+F egyértelműen meghatározza az ilyen elemző tanulmányok és tevékenységek végeredményét minden érintett csoport számára a következő 6-12 hónapra, beleértve a piackutatás költségvetését, az érintett személyeket, a mérföldköveket és a folyamat során folytatott interakciót.

A szolgáltatási szint megállapodások számos előnnyel járnak:

  • Időbe telik, amíg leülnek és megvitatják a legfontosabb üzleti folyamatokért felelős fő célokat és döntési mérföldköveket = a piackutató csapat jobban megérti, mi a fontos a vezetés számára, miközben javítja a személyes kapcsolatokat.
  • A speciális projektek váratlan túlterhelésének kockázatát csökkenti a rendszeres felülvizsgálatra, az információk stratégiai elemzésére stb.
  • Az információelemzés folyamatában eljött az ideje a közös kreativitásnak: gyakran találkozók, szemináriumok elemző piackutatással, állandó részvétellel. elfoglalt vezetők több hónappal előre meg kell tervezni.
  • A célok egyértelmű kitűzésével és az eredmények értékelésével a piackutatási tevékenység ésszerűsödik, az elemzési szint emelkedik.
  • Általában csökken a szervezet elszigeteltsége és az úgynevezett "saját lében főzés", gyümölcsözőbbé válik a menedzserek és a szakemberek közötti együttműködés az elemző piackutatásban.

A végén található két példa azt szemlélteti, hogy egy egyszerűsített információelemzési folyamaton keresztül az elemző csapat hogyan tud reagálni az információelemzési feladat különböző követelményeire, attól függően, hogy a feladathoz milyen földrajzi régiót elemeznek. A "nyugati világban" másodlagos forrásokból nagy mennyiségű megbízható információhoz juthat szinte bármilyen témában. Így az információelemzők feladata a legjobb források megtalálása a költséghatékony információgyűjtéshez a későbbi elemzés és jelentéskészítés céljából.

Másrészt a feltörekvő piacokon gyakran hiányoznak a megbízható másodlagos források, vagy hiányoznak a szükséges adatok angol nyelv... Következésképpen az információelemzőknek gyorsan az elsődleges forrásokhoz kell fordulniuk, és interjúkat kell készíteniük, általában az adott ország nyelvén. Ebben a helyzetben fontos, hogy kellően nagy számú forrásra támaszkodjunk a kutatási eredmények helyességének megítéléséhez, mielőtt folytatnánk az elemzést.

Példa.Üzleti ciklus tanulmány egy vegyipari vállalat számára

Egy vegyipari vállalatnak rengeteg információra volt szüksége a már meglévő, jelenlegi és jövőbeli üzleti ciklusokról több termékvonalon. vegyipar az észak-amerikai piacon. Ez az információ a vegyipari termelés egyes területein a jövőbeni növekedés felmérésére, valamint az ipar üzleti ciklusainak ismerete alapján történő üzletfejlesztés tervezésére szolgál.

Az elemzés statisztikai módszerekkel történt, beleértve a regressziós és vizuális elemzést. A konjunktúra-elemzést mennyiségileg és minőségileg is elvégezték, figyelembe véve az iparági szakértők véleményét a hosszú távú növekedésről. A feladat végrehajtása során csak másodlagos információforrásokat használtunk, az elemzéshez pedig statisztikai módszereket, beleértve a regressziót és a vizuális elemzést. Ennek eredményeként egy részletes elemző jelentés készült, amely leírja az üzleti ciklusok időtartamát és jellegét, valamint a vállalat termékeinek kulcsfontosságú területei (etilén, polietilén, sztirol, ammónia és butilgumi) jövőbeli kilátásait.

Példa. Az ammónium-bifluorid és a hidrogén-fluorid piacának felmérése Oroszországban és a FÁK-ban

A világ egyik legnagyobbja előtt nukleáris központok a feladat az volt, hogy tanulmányozzuk a gyártás e két melléktermékének, az ammónium-bifluoridnak és a hidrogén-fluoridnak a piacát Oroszországban és a FÁK-ban. Tekintettel a piac elégtelen kapacitására, be kellene fektetniük e termékek ártalmatlanítására szolgáló létesítmények építésébe.

A másodlagos források tanulmányozását mind Oroszország, mind a FÁK, mind pedig globális szinten végezték. A piac erősen specializált jellege és a magas hazai melléktermék-felhasználás miatt a hangsúly az elsődleges forráskutatáson volt. A későbbi elemzés előkészítéseként 50 mélyinterjút készítettek potenciális ügyfelekkel, versenytársakkal és iparági szakemberekkel.

A zárójelentés bemutatta a piac belföldi fogyasztás nélküli méretének becslését, a szegmensek elemzését, az import elemzését, az értéklánc elemzését, az egyes ipari szegmensekre vonatkozó helyettesítő technológiák és termékek elemzését, a piac fejlődésének előrejelzését, árelemzés és végül az oroszországi és a FÁK potenciális piaci lehetőségeinek felmérése.

Példa. Hatékony folyamat az információk elemzésére, amely a vezetők felé történő jelentéstétel irányadó trendjei értékelésén alapul

Egy vezető energetikai és petrolkémiai vállalat sikeresen javította információelemzési folyamatát az információgyűjtés, -elemzés és -szolgáltatás stratégiai forgatókönyv-elemzésén alapul.

Az információelemzési tevékenységeknek a tervezési szakaszban a kulcsfontosságú üzleti folyamatokba történő integrálásának köszönhetően egyértelműen meghatározható volt az igaz stratégiai szükségletek szervezeteket, és hozza őket a felülvizsgálati csoportba, amely ennek megfelelően a stratégiára és cselekvésre összpontosító módon meg tudta szervezni a felülvizsgálati folyamatot. A vállalaton belüli információelemzés folyamata az uralkodó trendek vizsgálatával kezdődik, és a kockázatokra való reagálás szemléltető példáival zárul a vezetésnek szóló ajánlásokkal.

Az információelemző program hatékonyságának javításának kulcsa a vállalat stratégiai céljainak szempontjából sikeres igényfelmérés volt. Ugyanakkor a döntésekért felelős személyek már a kezdeti szakaszban (megbeszélések, értekezletek, szemináriumok) részt vettek az információelemzés folyamatában. Ez hozzájárult a kétoldalú párbeszéd kialakításához és az információelemző program teljesebb integrálásához a vállalat más területeibe.

Példa. A globális biotechnológiai vállalat információelemzési ciklust dolgozott ki, hogy időszerű betekintést és proaktív döntéshozatalt biztosítson.

Az információelemző program célja az volt, hogy olyan korai figyelmeztető és figyelmeztető információkat nyújtson, amelyek lehetővé teszik a megvalósítható és megvalósítható stratégiák bevezetését minden olyan piacon, ahol a vállalat működik. Létrejött egy információelemzési ciklus, amelyben több szakaszban vonták be az információelemzésben érdekelt személyeket (mind input, mind output), valamint számos információforrást.

Az információelemzés iránt érdeklődők négy kulcsfontosságú funkciót képviseltek a vállalatnál (stratégiai csoport, marketing és értékesítés, pénzügy, befektetői kapcsolatok és igazgatók). A legaktívabb tevékenység a tervezés és a megvalósítás szakaszában zajlott. Egy olyan információelemzési ciklus sikeres megvalósítása, amely a belső érdekelt feleket (az igények felmérésére) és több információforrást egy jól meghatározott folyamatban egyesítette az elemzési eredmények elérése érdekében, azt jelentette, hogy a végrehajtott elemző programnak volt némi hatása a stratégia kidolgozására és a proaktív döntésekre. készítése.

2. Kritsman VA, Rozen B. Ya., Dmitrev IS Az anyag szerkezetének titkaihoz. - Felsőiskola, 1983.

A természettudomány forradalmi felfedezései gyakran a tehetséges kísérletezők által végrehajtott kísérletek eredményeinek hatására születtek. A biológiában, kémiában és fizikában végzett nagyszerű kísérletek hozzájárultak ahhoz, hogy megváltozott az elképzelés a világról, amelyben élünk, az anyag szerkezetéről, az öröklődés átviteli mechanizmusairól. A nagy kísérletek eredményei alapján további elméleti és technológiai felfedezések születtek.

9. § Elméleti kutatási módszerek

Óra-előadás

Vannak fontosabb dolgok is a világon

a legszebb felfedezések -

olyan módszerek ismerete, amelyekkel

készültek

Leibniz

https://pandia.ru/text/78/355/images/image014_2.gif "alt =" (! LANG: Aláírás:!" align="left" width="42 height=41" height="41">Метод. Классификация. Систематизация. Систематика. Индукция. Дедукция.!}

Fizikai jelenségek megfigyelése, leírása. Fizikai törvények. (Fizika, 7-9. osztály).

Mi az a módszer . Módszer a tudományban a tudásépítés módszerét, a valóság gyakorlati és elméleti elsajátításának formájának nevezik. Francis Bacon a módszert egy lámpához hasonlította, amely megvilágítja az utazók útját a sötétben: "Még az úton haladó béna ember is megelőzi azt, aki út nélkül jár." A helyesen megválasztott módszer legyen világos, logikus, meghatározott célhoz vezessen, és eredményt adjon. A módszerek rendszerének tanát ún módszertan.

A tudományos tevékenységben alkalmazott megismerési módszerek a empirikus ( gyakorlati, kísérleti) módszerek: megfigyelés, kísérletés elméleti ( logikai, racionális) módszerek: elemzés, szintézis, összehasonlítás, osztályozás, rendszerezés, absztrakció, általánosítás, modellezés, indukció, levonás... A valódi tudományos ismeretekben ezeket a módszereket mindig egységben alkalmazzák. Például egy kísérlet kidolgozásakor szükséges a probléma előzetes elméleti megértése, kutatási hipotézis megfogalmazása, majd a kísérlet után az eredmények matematikai módszerekkel történő feldolgozása. Tekintsük néhány elméleti megismerési módszer jellemzőit.

Osztályozás és rendszerezés. Az osztályozás lehetővé teszi a vizsgált anyag rendezését úgy, hogy a vizsgált objektumok halmazát (osztályát) alhalmazokba (alosztályokba) csoportosítja a kiválasztott jellemzőnek megfelelően.

Például egy iskola összes diákja alosztályokra osztható - "lányok" és "fiúk". Választhat másik jellemzőt is, például magasságot. Ebben az esetben az osztályozás többféleképpen is elvégezhető. Például jelölje ki a 160 cm-es magassághatárt, és osztályozza a tanulókat "alacsony" és "magas" alosztályokba, vagy ossza fel a növekedési skálát 10 cm-es szegmensekre, akkor az osztályozás részletesebb lesz. Ha több évre hasonlítjuk össze egy ilyen besorolás eredményeit, akkor ez empirikusan lehetővé teszi a tanulók fizikai fejlődésének tendenciáinak megállapítását. Következésképpen az osztályozás mint módszer felhasználható új ismeretek megszerzésére, sőt új tudományos elméletek felépítésének alapjául is szolgálhat.

A tudományban ugyanazon tárgyak osztályozását általában különböző kritériumok szerint alkalmazzák, a céloktól függően. A jellemzőt (az osztályozás alapját) azonban mindig egyedül választják ki. Például a vegyészek a "sav" osztályt alosztályokra osztják mind a disszociáció mértéke (erős és gyenge), mind az oxigén jelenléte (oxigéntartalmú és anoxikus), valamint fizikai tulajdonságok(illékony - nem illékony; oldható - oldhatatlan) és egyéb jellemzők.

A besorolás a tudomány fejlődése során változhat.

A xx század közepén. a különféle magreakciók tanulmányozása elemi (nem hasadó) részecskék felfedezéséhez vezetett. Kezdetben tömeg szerint kezdték osztályozni őket, így megjelentek a leptonok (kicsi), a mezonok (köztes), a barionok (nagy) és a hiperonok (szupernagy). A fizika további fejlődése azt mutatta, hogy a tömeg szerinti osztályozásnak kevés a fizikai jelentése, de a kifejezések megmaradtak, ennek eredményeként megjelentek a leptonok, amelyek sokkal nagyobb tömegűek, mint a barionok.

Az osztályozást célszerű táblázatok vagy diagramok (grafikonok) formájában tükrözni. Például a Naprendszer bolygóinak diagrammal - grafikonnal ábrázolt besorolása így nézhet ki:

FŐ BOLYGÓK

NAPRENDSZER

FÖLD CSOPORT BOLYGÓI

BOLYGÓK – ÓRIÁSOK

PLÚTÓ

MERCU-

VENE

MARS

JUPITER

SZATURNUSZ

URÁNUSZ

Kérjük, vegye figyelembe, hogy a Plútó bolygó ebben az osztályozásban egy külön alosztályt képvisel, nem tartozik sem a földi, sem az óriásbolygók közé. A tudósok megjegyzik, hogy a Plútó tulajdonságaiban hasonló egy aszteroidához, amelyből sok lehet a Naprendszer perifériáján.

A természet összetett rendszereinek tanulmányozása során az osztályozás tulajdonképpen az első lépés a természettudományos elmélet felépítése felé. A következő magasabb szint a rendszerezés (taxonómia). A rendszerezést meglehetősen nagy mennyiségű anyag osztályozása alapján végzik. Ugyanakkor megkülönböztetésre kerülnek a leglényegesebb jellemzők, amelyek lehetővé teszik a felhalmozott anyag olyan rendszerként való bemutatását, amely tükrözi az objektumok közötti összes különféle kapcsolatot. Olyan esetekben szükséges, amikor sokféle objektum létezik, és maguk az objektumok összetett rendszerek. A tudományos adatok rendszerezésének eredménye az taxonómia vagy másképpen - taxonómia. A szisztematika mint tudományterület olyan ismeretterületeken fejlődött ki, mint a biológia, geológia, nyelvészet, néprajz.

A taxonómia egységét taxonnak nevezzük. A biológiában a taxonok például egy típus, osztály, család, nemzetség, rend stb. egységes rendszer a hierarchikus elv szerint különböző rangú taxonok. Egy ilyen rendszer tartalmazza az összes létező és korábban kihalt organizmus leírását, kideríti fejlődésük útjait. Ha a tudósok rájönnek az újfajta, akkor meg kell erősítenie a helyét az általános rendszerben. Magán a rendszeren lehet változtatni, amely továbbra is fejlődő és dinamikus marad. A taxonómia megkönnyíti a navigációt az élőlények sokféleségében - csak az állatok körülbelül 1,5 millió fajt ismernek, és a növények - több mint 500 ezer fajt, nem számítva a többi szervezetcsoportot. A modern biológiai rendszertan Saint-Hilaire törvényét tükrözi: "Az életformák sokfélesége egy természetes taxonómiai rendszert alkot, amely különböző rangú taxonok hierarchikus csoportjaiból áll."

Indukció és dedukció. Indukciónak nevezzük azt a megismerési utat, amely során a felhalmozott információk rendszerezése alapján - a konkréttól az általánosig - következtetést vonnak le a fennálló törvényszerűségről. Ezt a természetkutatási módszert F. Bacon angol filozófus dolgozta ki. Ezt írta: „A lehető legtöbb esetet meg kell vizsgálni – mind azokat, ahol a vizsgált jelenség jelen van, és azokat is, ahol hiányzik, de várhatóan találkozni kell vele; akkor módszeresen kell elrendeznie őket ... és meg kell adnia a legvalószínűbb magyarázatot; végül próbálja meg igazolni ezt a magyarázatot a tényekkel való további összehasonlítással."

Gondolat és kép

F. Bacon és S. Holmes portréi

Miért helyezkednek el egymás mellett egy tudós és egy irodalmi hős portréi?

Az indukció nem az egyetlen módja annak, hogy tudományos ismereteket szerezzünk a világról. Ha a kísérleti fizika, a kémia és a biológia elsősorban az indukció miatt épült fel tudományként, akkor az elméleti fizikának, a modern matematikának az alapjainál volt egy rendszer. axiómák- következetes, spekulatív, a józan ész és a szint szempontjából megbízható történelmi fejlődés az állítások tudománya. Ekkor ezekre az axiómákra lehet építeni a tudást úgy, hogy az általánosból a konkrétra, az előfeltevésből a következményekbe való átmenettel következtetéseket vonunk le. Ezt a módszert dedukciónak nevezik. Kifejlesztette

René Descartes francia filozófus és tudós.

Egy-egy témával kapcsolatos ismeretek megszerzésének szembetűnő példája az égitestek mozgási törvényeinek felfedezése. I. Kepler alapján egy nagy szám a 17. század elején a Mars bolygó mozgásának megfigyeléseiből származó adatok. indukcióval fedezték fel a bolygómozgás empirikus törvényeit a Naprendszerben. Ugyanennek a századnak a végén Newton az egyetemes gravitáció törvénye alapján levezette az égitestek általános mozgási törvényeit.

A valódi kutatási tevékenységekben a kutatási módszerek összefüggenek.

1. ○ Magyarázza el, mi az a kutatási módszer, természettudományos módszertan?

Mindezeket a közelítéseket indokolni kell, és az általuk okozott hibákat számszerűen meg kell becsülni.

A tudomány fejlődése azt mutatja, hogy minden természettudományos törvénynek megvannak a maga alkalmazási határai. Például a Newton-törvények alkalmatlannak bizonyulnak a mikrovilág folyamatainak vizsgálatában. E folyamatok leírására megfogalmazzák a kvantumelmélet törvényeit, amelyek egyenértékűvé válnak Newton törvényeivel, ha makroszkopikus testek mozgásának leírására alkalmazzák őket. A modellezés szempontjából ez azt jelenti, hogy a Newton-törvények egyfajta modell, amely bizonyos közelítések mellett több alapelvet követ. általános elmélet... A kvantumelmélet törvényei azonban nem abszolútak, és megvannak a maguk korlátai az alkalmazhatóságban. Általánosabb törvények már megfogalmazódtak és általánosabb egyenletek is születtek, amelyeknek viszont korlátai is vannak. És ennek a láncnak nincs vége. Még nem érkezett meg abszolút törvények, amely mindent leír a természetben, amiből az összes sajátos törvény levezethető. És nem világos, hogy ilyen törvényeket lehet-e megfogalmazni. De ez azt jelenti, hogy a természettudományos törvények bármelyike ​​valójában valamiféle modell. Az ebben a részben vizsgált modellektől csupán annyi a különbség, hogy a természettudományi törvények nem egy konkrét jelenség leírására, hanem a jelenségek széles osztályára alkalmazható modellek.

Kezdőlap> Előadás

7. téma.OSZTÁLYOZÁSI ELEMZÉS

9. számú előadás

1. Feltáró adatelemzés. Mérőmérleg

2. Osztályozó fák

3. Diszkriminanciaanalízis (osztályozás képzéssel)

4. Klaszterelemzés (osztályozás képzés nélkül)

5. Kanonikus összefüggések

1. Feltáró adatelemzés. Mérőmérleg

Nagyszámú változó jelenlétében, valamint az összefüggésekre, mintázatokra vonatkozó információk hiányában a rendelkezésre álló adatok elemzésének egyik első lépése az ún. feltáró adatelemzés. A feltáró elemzés jellemzően nagyszámú változót vesz figyelembe és hasonlít össze, és a változók keresését osztályozzák és skálázzák. A változók abban különböznek egymástól, hogy mennyire jól mérhetők, vagy más szóval, hogy a mérések skálája mennyi mérendő információt szolgáltat. Egy másik tényező, amely meghatározza az információ mennyiségét, az a skála típusa, amelyben a mérést végezzük. Általában a következő típusú mérési skálákat használják: névleges, ordinális, intervallum és relatív. Nominális változók csak minőségi osztályozásra szolgálnak. Ez azt jelenti, hogy ezek a változók csak néhány lényegesen eltérő osztályhoz való tartozás szempontjából mérhetők. Tipikus példa a névleges változókra a gyártó, a termék típusa, az alkalmasság jele stb. A névleges változókat gyakran kategorikusnak nevezik. Ordinális változók lehetővé teszi az objektumok rangsorolását, ha meg van jelölve, hogy melyikük rendelkezik kisebb vagy nagyobb mértékben az adott változó által kifejezett minőséggel. Nem teszik lehetővé azonban annak megítélését, hogy egy adott minőség mennyivel többet vagy mennyivel kevesebbet tartalmaz egy változóban. Tipikus példa a termék fajtája: legmagasabb, első, második, harmadik. Egy és ugyanaz a termék minőségileg különbözik, de nem mondható el, hogy 25%-os a különbség köztük. A kategoriális és az ordinális változók különösen gyakoriak, ha rákérdezünk, például a köztük lévő különbségeket mérjük és összehasonlítjuk. Példa erre a fokban mért hőmérséklet intervallumskálát alkot, hiszen már számszerű formában is meg lehet becsülni a változók közötti különbséget (40 fok több mint 30 x 10). Az intervallum skála könnyen átváltható sorszámúvá, ha a változók egyes értékeit különböző osztályok határainak vesszük (például meleg vagy meleg van kint egy hónapig, a "meleg" és a "meleg" osztályok határát vesszük. " a változó értékében, de jellemzőjük egy bizonyos pont abszolút nulla jelenléte, általában folytonos változók. 2. Osztályozó fák Osztályozó fák egy olyan módszer, amely lehetővé teszi a megfigyelések vagy objektumok kategorikus függő változók egy adott osztályához való tartozásának előrejelzését, egy vagy több előrejelző változó megfelelő értékétől függően. Épület osztályozó fák- az egyik hierarchikus érmeválogató eszköz. Az érméket egy keskeny csúszdán görgessük végig, amelynek nyílása akkora, mint egy kopejkás érme. Ha az érme beleesett a nyílásba, akkor 1 kopekka; ellenkező esetben tovább gurul a csúszda mentén, és belebotlik egy kétkopejkás érme nyílásába; ha ott megbukik, akkor 2 kopijka, ha nem (az azt jelenti, hogy 3 vagy 5 kopijka) - tovább gurul stb. Így felépítettünk egy osztályozási fát. Az ebben az osztályozási fában megvalósított döntési szabály lehetővé teszi egy maroknyi érme hatékony rendezését, és általában az osztályozási problémák széles körében alkalmazható. Az osztályozófák kiválóan alkalmasak grafikus megjelenítésre, ezért a belőlük levont következtetések sokkal könnyebben értelmezhetők, mintha csak numerikus formában jelennének meg. Hierarchikus struktúra osztályozó fa- az építési folyamat egyike osztályozó fa négy fő lépésből áll:

    Az előrejelzés pontossági kritériumának kiválasztása

    Az elágazás típusának kiválasztása

    Annak meghatározása, hogy mikor kell leállítani az elágazást

    "Megfelelő" faméretek meghatározása

Végső soron az osztályozási fa elemzésének célja a lehető legpontosabb előrejelzés elérése. A legtöbb besorolás.

3. Diszkriminanciaanalízis (osztályozás képzéssel)

A diszkriminancia analízis segítségével eldönthető, hogy egy adott objektumot (folyamatot) melyik osztályhoz (csoporthoz) rendeljük a paramétereinek vagy jellemzőinek vizsgálata alapján.) A termékből és a feladat annak megállapítása, hogy a paraméterek közül melyik járul hozzá a különbséghez (diszkrimináció) az általános népességet alkotó javak külön csoportosított aggregátumai (változatai) között. Ezt követően döntés születik arról, hogy ez a termék egy bizonyos csoporthoz tartozik-e. Ezért ez a fajta statisztikai elemzés többváltozós, és a diszkriminanciaelemzés fő gondolata annak meghatározása, hogy a populációk különböznek-e valamely paraméter (változó) átlagában, majd ezt a változót használják a tartományaik új tagjainak előrejelzésére. Mindegyik terület egy-egy paraméter értékében (vagy inkább annak átlagának értékében) vagy osztályozási jellemzőként vett paraméterhalmazban különbözik a másiktól. A diszkriminációs szabályt egy bizonyos optimalitási elv, például a hamis besorolás minimális valószínűsége alapján választják ki. A gyakorlati számításokban a megkülönböztetések a jellemzővektortól a lineáris függvény(diszkriminanciafüggvény), amely két csoport (osztály) esetében lineáris többszörös regressziós egyenlet alakja, amelyben a csoportokba való differenciálás kódolt jellemzői függő változóként működnek. Ha kettőnél több csoport van, akkor egynél több diszkrimináns függvény is összeállítható. Például, ha három sokaság van, akkor kiértékelhető: (1) - a diszkriminációs értelm függvénye nagyon hasonlít a többváltozós varianciaanalízishez. Amikor diszkrimináns függvényeket kapunk, felmerül a kérdés, hogy ezek mennyire képesek megjósolni Melyik populációhoz tartozik egy adott minta? Ehhez osztályozási mutatókat vagy osztályozási függvényeket határoznak meg, és a következő megfigyelést vagy egy meghatározott mintát ahhoz a csoporthoz rendelik, amelyik számára az osztályozási csoport a legnagyobb jelentőséggel bír. 4. Klaszterelemzés (osztályozás képzés nélkül) A klaszterelemzés egy statisztikai módszer, amely különféle algoritmusokat tartalmaz az objektumok klaszterekbe (klaszter - csomó, klaszter) való elosztására. A H objektumok felosztása egész számú K klaszterre úgy, hogy minden objektum a partíció egy és csak egy részhalmazához tartozik. Ebben az esetben az azonos klaszterbe tartozó objektumoknak hasonlóaknak, a különböző klaszterekhez tartozó objektumoknak pedig heterogéneknek kell lenniük. Az optimalitás kritériumát kielégítő partíciók jelentik a megoldást a klaszteranalízis problémájára. Ezt a kritériumot célfüggvénynek nevezzük, amely lehet például a csoportobjektumok jellemzőinek az átlagtól való eltéréseinek négyzeteinek minimális összege.

min Σ (x i - x av) 2

A csoportokban lévő objektumok hasonlóságát és heterogenitását egy bizonyos érték jellemzi, amely nevet kapott - a távolság függvénye. Minél nagyobb az objektumok közötti távolság függvénye, annál heterogénebbek. Nyilvánvaló, hogy ha ez a funkció túllép egy bizonyos beállított határt, akkor az objektumokat különböző csoportokhoz (klaszterekhez) kell hozzárendelni. Az alkalmazott klaszterezési algoritmustól függően a következő távolságfüggvényeket különböztetjük meg: - Euklideszi metrika (Σx i - xj) 2) 1/2; - Manhattan távolság Σ | x i - x j |; - Csebisev távolság max | x i - x j | stb. külön klaszternek minősül. Ezt követően az algoritmus minden lépésében összevonjuk a két legközelebbi klasztert, és az elfogadott távolságfüggvény figyelembevételével az összes távolságot a képlet segítségével újraszámoljuk. A célfüggvény elérésekor az iterációk leállnak. 5. Kanonikus összefüggések A klasszikus korrelációelemzés segítségével statisztikai összefüggéseket találhatunk két változó között, az úgynevezett két változóhalmaz a kanonikus elemzés módszereit használja. A kanonikus elemzés, amely a többszörös korreláció általánosítása egy valószínűségi változó és sok más valószínűségi változó közötti kapcsolat mérőszámaként, figyelembe veszi a valószínűségi változók halmazai közötti kapcsolatot. Ugyanakkor az egyes halmazokból a leginkább korrelált lineáris kombinációk kis számának figyelembevételére korlátozódik. A kanonikus korreláció elemzése a kanonikus gyökök vagy kanonikus változók használatán alapul, amelyeket a megfigyelt jelenségeket jellemző „rejtett” változóknak tekintünk. A kanonikus gyökök száma megegyezik a kisebb halmaz változóinak számával. A gyakorlatban a kanonikus korreláció definiálásakor külön korrelációs mátrixot építenek fel, amely két különálló változó közötti kapcsolatot jellemző standard korrelációs mátrixok szorzata. Ezután a kapott mátrixnak annyi sajátértéke kerül kiszámításra, ahány kanonikus gyök van. Ha kivonjuk a kapott sajátértékek négyzetgyökét, akkor egy olyan számkészletet kapunk, amely korrelációs együtthatóként értelmezhető. Mivel ezek kanonikus változók, kanonikus korrelációknak is nevezik őket. A diszkriminancia, klaszter és kanonikus elemzés munkáját célszerű speciális statisztikai csomagokkal értékelni, amelyek ezeket az algoritmusokat számítógépen implementálják.