Кластерний аналіз це

Доброго вам дня. Ось у мене є повага до людей, які є фанатами своєї справи.

Максим, мій друже, належить саме до цієї категорії. Постійно працює із цифрами, аналізує їх, робить відповідні звіти.

Вчора разом обідали, так майже півгодини розповідав мені про кластерний аналіз – що це і в яких випадках його застосування є обґрунтованим та доцільним. Ну, а я що?

Пам'ять у мене хороша, тому всі ці дані, до речі, про які я й так знала, надам вам у первозданному та максимально інформативному вигляді.

Кластерний аналіз призначений для розбиття сукупності об'єктів на однорідні групи (кластери чи класи). Це завдання багатовимірної класифікації даних.

Існує близько 100 різних алгоритмів кластеризації, проте найчастіше використовуються — ієрархічний кластерний аналіз та кластеризація методом k-середніх.

Де застосовується кластерний аналіз? У маркетингу це сегментація конкурентів та споживачів.

У менеджменті: розбиття персоналу різні за рівнем мотивації групи, класифікація постачальників, виявлення подібних виробничих ситуацій, у яких виникає брак.

У медицині – класифікація симптомів, пацієнтів, препаратів. У соціології – розбиття респондентів на однорідні групи. Насправді кластерний аналіз добре зарекомендував себе у всіх сферах життєдіяльності людини.

Принадність даного методу він працює навіть тоді, коли даних мало і не виконуються вимоги нормальності розподілів випадкових величин та інші вимоги класичних методів статистичного аналізу.

Пояснимо суть кластерного аналізу, не вдаючись до суворої термінології:
припустимо, Ви провели анкетування співробітників і хочете визначити, яким чином можна ефективно керувати персоналом.

Тобто Ви хочете розділити співробітників на групи і для кожної з них виділити найефективніші важелі управління. При цьому різницю між групами мають бути очевидними, а всередині групи респонденти мають бути максимально схожими.

Для вирішення задачі пропонується використати ієрархічний кластерний аналіз.

В результаті ми отримаємо дерево, дивлячись на яке ми повинні визначитися, на скільки класів (кластерів) ми хочемо розбити персонал.

Припустимо, що ми вирішили розбити персонал на три групи, тоді для вивчення респондентів, що потрапили в кожен кластер, отримаємо табличку приблизно наступного змісту:


Пояснимо, як сформовано наведену вище таблицю. У першому стовпці розташований номер кластера - групи, дані за якою відображені у рядку.

Наприклад, перший кластер на 80% становлять чоловіки. 90% першого кластера потрапляють до вікової категорії від 30 до 50 років, а 12% респондентів вважає, що пільги дуже важливі. І так далі.

Спробуємо скласти портрети респондентів кожного кластера:

  1. Перша група — переважно чоловіки зрілого віку, що посідають керівні позиції. Соцпакет (MED, LGOTI, TIME-вільний час) їх не цікавить. Вони вважають за краще отримувати хорошу зарплату, а не допомогу від роботодавця.
  2. Група два навпаки віддає перевагу соцпакету. Складається вона, здебільшого, із людей «у віці», які займають невисокі пости. Зарплата для них, безумовно, важлива, але є й інші пріоритети.
  3. Третя група наймолодша. На відміну від попередніх двох, очевидним є інтерес до можливостей навчання та професійного зростання. Ця категорія співробітників має хороший шанс незабаром поповнити першу групу.

Таким чином, плануючи кампанію запровадження ефективних методів управління персоналом, очевидно, що в нашій ситуації можна збільшити соцпакет у другої групи на шкоду, наприклад, зарплаті.

Якщо говорити про те, яких фахівців слід спрямовувати на навчання, можна однозначно рекомендувати звернути увагу на третю групу.

Джерело: http://www.nickart.spb.ru/analysis/cluster.php

Особливості кластерного аналізу

Кластер - це вартість активу у певний проміжок часу, у якому відбувалися угоди. Результуючий обсяг купівлі та продажу вказаний цифрою всередині кластера.

Бар будь-якого ТФ вміщує,як правило, кілька кластерів. Це дозволяє детально бачити обсяги покупок, продажів та їх баланс у кожному окремому барі, за кожним ціновим рівнем.


Зміна ціни одного активу неминуче тягне за собою ланцюжок цінових рухів та на інших інструментах.

Увага!

У більшості випадків розуміння трендового руху відбувається вже в той момент, коли воно бурхливо розвивається, і вхід у ринок по тренду чреватий попаданням у корекційну хвилю.

Для успішних угод необхідно розуміти поточну ситуацію та вміти передбачати майбутні цінові рухи. Цьому можна навчитися, аналізуючи графік кластерів.

За допомогою кластерного аналізу можна бачити активність учасників ринку всередині навіть найменшого цінового бару. Це найточніший і детальний аналіз, оскільки показує точковий розподіл обсягів угод за кожним ціновим рівнем активу.

На ринку постійно йде протистояння інтересів продавців та покупців. І кожен найменший рух ціни (тік), є тим ходом до компромісу - цінового рівня - який зараз влаштовує обидві сторони.

Але ринок динамічний, кількість продавців та покупців безперервно змінюється. Якщо в один момент часу на ринку домінували продавці, то наступного моменту, найімовірніше, будуть покупці.

Не однаковим виявляється і кількість вчинених угод на сусідніх цінових рівнях. І все ж таки спочатку ринкова ситуація відбивається на сумарних обсягах угод, а вже потім на ціні.

Якщо бачити дії домінуючих учасників ринку (продавців чи покупців), можна прогнозувати і саме рух ціни.

Для успішного застосування кластерного аналізу насамперед слід зрозуміти, що таке кластер та дельта.


Кластером називають ціновий рух, який розбитий на рівні, на яких відбувалися угоди з відомими обсягами. Дельта показує різницю між покупками та продажами, що відбуваються у кожному кластері.

Кожен кластер, або група дельт, дозволяє розібратися в тому, чи покупці або продавці переважають на ринку в даний момент часу.

Достатньо лише підрахувати загальну дельту, просумувавши продажі та покупки. Якщо дельта негативна, то ринок перепроданий, у ньому надлишковими є угоди продаж. Коли ж дельта є позитивною, то на ринку явно домінують покупці.

Сама дельта може набувати нормального або критичного значення. Значення обсягу дельти понад нормальний у кластері виділяють червоним кольором.

Якщо дельта помірна, це характеризує флетовий стан над ринком. При нормальному значенні дельти над ринком спостерігається трендове рух, тоді як критичне значення завжди є провісником розвороту ціни.

Торгівля на Форекс за допомогою КА

Для отримання максимального прибутку потрібно вміти визначити перехід дельти з помірного рівня нормальний. Адже в цьому випадку можна помітити початок переходу від флету до трендового руху і зуміти отримати найбільший прибуток.

Найбільш наочним є кластерний графік на ньому можна побачити значні рівні накопичення та розподілу обсягів, побудувати рівні підтримки та опору. Це дозволяє трейдеру знайти точний вхід до угоди.

Використовуючи дельту, можна судити про переважання ринку продажу чи покупок. Кластерний аналіз дозволяє спостерігати угоди та відстежувати їх обсяги всередині бару будь-якого ТФ.

Особливо це важливо при підході до значних рівнів підтримки чи опору. Судження щодо кластерів - ключ до розуміння ринку.

Джерело: http://orderflowtrading.ru/analitika-rynka/obemy/klasternyy-analiz/

Області та особливості застосування аналізу кластерів

Термін кластерний аналіз (вперше ввів Tryon, 1939) насправді включає набір різних алгоритмів класифікації.

Загальне питання, поставлене дослідниками у багатьох галузях, у тому, як організувати спостережувані дані наочні структури, тобто. розгорнути таксономії.

Відповідно до сучасної системи, прийнятої в біології, людина належить до приматів, ссавців, амніотів, хребетних та тварин.

Зауважте, що в цій класифікації чим вище рівень агрегації, тим менше подібності між членами у відповідному класі.

Людина має більше подібності з іншими приматами (тобто з мавпами), ніж із «віддаленими» членами сімейства ссавців (наприклад, собаками) тощо.

Зауважимо, що попередні міркування посилаються на алгоритми кластеризації, але нічого не згадують про перевірку статистичної значущості.

Фактично, кластерний аналіз є не так звичайним статистичним методом, як «набором» різних алгоритмів «розподілу об'єктів за кластерами».

Існує думка, що на відміну від багатьох інших статистичних процедур, методи кластерного аналізу використовуються в більшості випадків тоді, коли ви не маєте якихось апріорних гіпотез щодо класів, але все ще перебуваєте в описовій стадії дослідження.

Увага!

Слід розуміти, що кластерний аналіз визначає «найбільш можливе рішення».

Тому перевірка статистичної значимості насправді тут не застосовна, навіть у випадках, коли відомі p-рівні (як, наприклад, методу K середніх).

Техніка кластеризації застосовується у найрізноманітніших областях. Хартіган (Hartigan, 1975) дав чудовий огляд багатьох опублікованих досліджень, що містять результати, отримані методами кластерного аналізу.

Наприклад, в галузі медицини кластеризація захворювань, лікування захворювань або симптомів захворювань призводить до таксономій, що широко використовуються.

В області психіатрії правильна діагностика кластерів симптомів, таких як параноя, шизофренія тощо, є вирішальною для успішної терапії. В археології за допомогою кластерного аналізу дослідники намагаються встановити таксономію кам'яних знарядь, похоронних об'єктів тощо.

Відомі широкі застосування кластерного аналізу маркетингових дослідженнях. Загалом, щоразу, коли необхідно класифікувати «гори» інформації до придатним для подальшої обробки груп, кластерний аналіз виявляється дуже корисним та ефективним.

Деревоподібна кластеризація

Наведений розділ Основна мета приклад пояснює мета алгоритму об'єднання (древовидної кластеризації).

Призначення цього алгоритму полягає в об'єднанні об'єктів (наприклад, тварин) у досить великі кластери, використовуючи певну міру подібності або відстань між об'єктами. Типовим результатом такої кластеризації є ієрархічне дерево.

Розглянемо горизонтальну деревоподібну діаграму. Діаграма починається з кожного об'єкта у класі (у лівій частині діаграми).

Тепер уявімо, що поступово (дуже малими кроками) ви «послаблюєте» ваш критерій про те, які об'єкти є унікальними, а які ні.

Іншими словами, ви знижуєте поріг, що стосується рішення про об'єднання двох або більше об'єктів в один кластер.

В результаті, ви пов'язуєте разом все більше і більше об'єктів і агрегуєте (об'єднуєте) все більше і більше кластерів, що складаються з елементів, що все сильніше розрізняються.

Остаточно, на останньому етапі всі об'єкти об'єднуються разом. На цих діаграмах горизонтальні осі є відстанню об'єднання (у вертикальних деревоподібних діаграмах вертикальні осі представляють відстань об'єднання).

Так, для кожного вузла у графі (там де формується новий кластер) ви можете бачити величину відстані, для якої відповідні елементи зв'язуються в новий єдиний кластер.

Коли дані мають ясну «структуру» у термінах кластерів об'єктів, подібних між собою, тоді ця структура, швидше за все, має бути відображена в ієрархічному дереві різними гілками.

В результаті успішного аналізу методом об'єднання з'являється можливість виявити кластери (гілки) та інтерпретувати їх.

Об'єднання або метод деревоподібної кластеризації використовується для формування кластерів відмінності або відстані між об'єктами. Ці відстані можуть визначатися в одновимірному або багатовимірному просторі.

Наприклад, якщо ви повинні кластеризувати типи їжі в кафе, то можете взяти до уваги кількість калорій, що містяться в ній, ціну, суб'єктивну оцінку смаку і т.д.

Найбільш прямий шлях обчислення відстаней між об'єктами у багатовимірному просторі полягає у обчисленні евклідових відстаней.

Якщо ви маєте дво- або тривимірний простір, то цей захід є реальною геометричною відстанню між об'єктами в просторі (начебто відстані між об'єктами виміряні рулеткою).

Однак алгоритм об'єднання не «дбає» про те, чи є «надані» для цієї відстані справжніми або деякими іншими похідними заходами відстані, що є значущим для дослідника; і завдання дослідників є підібрати правильний метод для специфічних застосувань.

Євклідова відстань.Це, мабуть, найбільш загальний тип відстані. Воно просто є геометричною відстанню в багатовимірному просторі і обчислюється таким чином:

Зауважимо, що евклідова відстань (і його квадрат) обчислюється за вихідними, а не за стандартизованими даними.

Це звичайний спосіб обчислення, який має певні переваги (наприклад, відстань між двома об'єктами не змінюється при введенні в аналіз нового об'єкта, який може виявитися викидом).

Увага!

Тим не менш, на відстані можуть сильно впливати різницю між осями, за координатами яких обчислюються ці відстані. Наприклад, якщо одна з осей виміряна в сантиметрах, а ви потім переведете її в міліметри (помножуючи значення на 10), то остаточна відстань евкліда (або квадрат евклідова відстані), що обчислюється по координатах, сильно зміниться, і, як наслідок, результати кластерного аналізу можуть відрізнятися від попередніх.

Квадрат евклідова відстані.Іноді може виникнути бажання звести в квадрат стандартну евклідову відстань, щоб надати більших ваг більш віддаленим один від одного об'єктам.

Ця відстань обчислюється так:

Відстань міських кварталів (манхеттенська відстань).Ця відстань є просто середнім різницями по координатам.

Здебільшого цей захід відстані призводить до таких самих результатів, як і для звичайної відстані Евкліда.

Однак зазначимо, що для цього заходу вплив окремих великих різниць (викидів) зменшується (оскільки вони не зводяться у квадрат). Манхеттенська відстань обчислюється за такою формулою:

Відстань Чебишева.Ця відстань може виявитися корисною, коли бажають визначити два об'єкти як «різні», якщо вони відрізняються за якоюсь однією координатою (якимось одним виміром). Відстань Чебишева обчислюється за такою формулою:

Ступінна відстань.Іноді бажають прогресивно збільшити або зменшити вагу, що відноситься до розмірності, на яку відповідні об'єкти сильно відрізняються.

Це може бути досягнуто з використанням статечної відстані. Ступінна відстань обчислюється за формулою:

де r і p - Параметри, що визначаються користувачем. Декілька прикладів обчислень можуть показати, як «працює» цей захід.

Параметр p відповідає за поступове зважування різниць за окремими координатами, параметр r відповідальний за прогресивне зважування великих відстаней між об'єктами. Якщо обидва параметри - r і p, рівні двом, то ця відстань збігається з відстанню Евкліда.

Відсоток незгоди.Цей захід використовується в тих випадках, коли дані є категоріальними. Ця відстань обчислюється за такою формулою:

Правила об'єднання чи зв'язку

На першому кроці, коли кожен об'єкт є окремим кластером, відстані між цими об'єктами визначаються обраним заходом.

Однак, коли зв'язуються разом кілька об'єктів, виникає питання, як слід визначити відстані між кластерами?

Іншими словами, потрібне правило об'єднання або зв'язку для двох кластерів. Тут є різні можливості: наприклад, ви можете зв'язати два кластери разом, коли будь-які два об'єкти у двох кластерах ближче другдо друга, ніж відповідна відстань зв'язку.

Іншими словами, ви використовуєте "правило найближчого сусіда" для визначення відстані між кластерами; цей метод називається методом одиночного зв'язку.

Це будує «волокнисті» кластери, тобто. кластери, «зчеплені разом» лише окремими елементами, що випадково опинилися ближче за решту один до одного.

Як альтернативу ви можете використовувати сусідів у кластерах, які знаходяться далі за решту пар об'єктів один від одного. Цей метод називається метод повного зв'язку.

Існує також безліч інших методів об'єднання кластерів, подібних до тих, що були розглянуті.

Одиночний зв'язок (метод найближчого сусіда). Як було описано вище, у цьому методі відстань між двома кластерами визначається відстанню між двома найбільш близькими об'єктами (найближчими сусідами) у різних кластерах.

Це правило має, у певному сенсі, нанизувати об'єкти разом на формування кластерів, і результуючі кластери мають тенденцію бути представленими довгими «ланцюжками».

Повний зв'язок (метод найвіддаленіших сусідів).У цьому методі відстані між кластерами визначаються найбільшою відстанню між будь-якими двома об'єктами в різних кластерах (тобто найбільш віддаленими сусідами).

Незважене попарне середнє.У цьому методі відстань між двома різними кластерами обчислюється як середня відстань між усіма парами об'єктів у них.

Метод ефективний, коли об'єкти насправді формують різні «гаї», проте він працює однаково добре і у випадках протяжних («ланцюжкового» типу) кластерів.

Зазначимо, що у своїй книзі Сніт і Сокол (Sneath, Sokal, 1973) вводять абревіатуру UPGMA для посилання на цей метод як на метод невваженого попарного арифметичного середнього — unweighted pair-group method using arithmetic averages.

Зважене попарне середнє.Метод ідентичний методу невваженого попарного середнього, за винятком того, що при обчисленнях розмір відповідних кластерів (тобто кількість об'єктів, що містяться в них) використовується як ваговий коефіцієнт.

Тому запропонований метод може бути використаний (скоріше навіть, ніж попередній), коли передбачаються нерівні розміри кластерів.

У книзі Сніта і Сокела (Sneath, Sokal, 1973) вводиться абревіатура WPGMA для посилання на цей метод, як на метод зваженого попарного середнього арифметичного — weighted pair-group method using arithmetic averages.

Незважений центроїдний метод. У цьому методі відстань між двома кластерами визначається як відстань між їхніми центрами тяжкості.

Увага!

Сніт і Сокел (Sneath and Sokal (1973)) використовують абревіатуру UPGMC для посилання на цей метод, як на метод невваженого попарного центроїдного усереднення - unweighted pair-group method using the centroid average.

Виважений центроїдний метод (медіана). той метод ідентичний попередньому, крім те, що з обчислення використовуються ваги для обліку різниці між розмірами кластерів (тобто числами об'єктів у них).

Тому, якщо є (або підозрюються) значні відмінності в розмірах кластерів, цей метод виявляється кращим за попередній.

Сніт і Сокол (Sneath, Sokal 1973) використовували абревіатуру WPGMC для посилань на нього як метод невваженого попарного центроїдного усереднення - weighted pair-group method using the centroid average.

Спосіб Варда.Цей метод відрізняється від інших методів, оскільки він використовує методи дисперсійного аналізу для оцінки відстаней між кластерами.

Метод мінімізує суму квадратів (SS) для будь-яких двох (гіпотетичних) кластерів, які можуть бути сформовані на кожному кроці.

Подробиці можна знайти у роботі Варда (Ward, 1963). У цілому нині метод є дуже ефективним, але він прагне створювати кластери мінімального розміру.

Раніше цей метод обговорювався в термінах «об'єктів», які мають бути кластеризовані. У всіх інших видах аналізу цікавий дослідника питання зазвичай виявляється у термінах спостережень чи змінних.

Виявляється, що кластеризація як за спостереженнями, так і змінними може призвести до досить цікавих результатів.

Наприклад, уявіть, що медичний дослідник збирає дані про різні характеристики (змінні) станів пацієнтів (спостережень), що страждають на серцеві захворювання.

Дослідник може захотіти кластеризувати спостереження (пацієнтів) для визначення кластерів пацієнтів із подібними симптомами.

У той самий час дослідник може захотіти кластеризувати змінні визначення кластерів змінних, які пов'язані з подібним фізичним станом.

Після цього обговорення, що відноситься до того, кластеризувати спостереження або змінні, можна поставити запитання, а чому б не проводити кластеризацію в обох напрямках?

Кластерний аналіз містить ефективну двовходову процедуру об'єднання, що дозволяє зробити саме це.

Однак двовходове об'єднання використовується (щодо рідко) в обставинах, коли очікується, що і спостереження та змінні одночасно роблять внесок у виявлення осмислених кластерів.

Так, повертаючись до попереднього прикладу, можна припустити, що медичному досліднику потрібно виділити кластери пацієнтів, подібних до певних кластерів характеристик фізичного стану.

Труднощі з інтерпретацією отриманих результатів виникає внаслідок того, що подібності між різними кластерами можуть походити з (або бути причиною) деякої різниці підмножин змінних.

Тому кластери, що виходять, є за своєю природою неоднорідними. Можливо, це здається спочатку трохи туманним; насправді, у порівнянні з іншими описаними методами кластерного аналізу, двовходове об'єднання є найімовірніше найменш часто використовуваним методом.

Однак деякі дослідники вважають, що він пропонує потужний засіб розвідувального аналізу даних (за більш детальною інформацієюви можете звернутися до опису цього методу Хартіган (Hartigan, 1975)).

Метод K середніх

Цей метод кластеризації суттєво відрізняється від таких агломеративних методів, як Об'єднання (древоподібна кластеризація) та двовходове об'єднання. Припустимо, ви вже маєте гіпотези щодо кількості кластерів (за спостереженнями чи змінними).

Ви можете вказати системі утворити три кластери так, щоб вони були настільки різні, наскільки це можливо.

Це саме той тип завдань, що вирішує алгоритм методу K середніх. У випадку метод K середніх будує рівно K різних кластерів, розташованих на можливо великих відстанях друг від друга.

У прикладі з фізичним станом, медичний дослідник може мати «підозру» зі свого клінічного досвіду, що його пацієнти переважно потрапляють у три різні категорії.

Увага!

Якщо це так, то середні різні міри фізичних параметрів для кожного кластера будуть давати кількісний спосіб представлення гіпотез дослідника (наприклад, пацієнти в кластері 1 мають високий параметр 1, менший параметр 2 і т.д.).

З обчислювальної точки зору ви можете розглядати цей метод як дисперсійний аналіз «навпаки». Програма починає з K випадково вибраних кластерів, а потім змінює належність об'єктів до них, щоб:

  1. мінімізувати мінливість усередині кластерів,
  2. максимізувати мінливість між кластерами.

Даний спосіб аналогічний методу «дисперсійний аналіз (ANOVA) навпаки» у тому сенсі, що критерій значущості в дисперсійному аналізі порівнює міжгрупову мінливість із внутрішньогруповою під час перевірки гіпотези про те, що середні групи відрізняються один від одного.

У кластеризації методом K середня програма переміщає об'єкти (тобто спостереження) з одних груп (кластерів) в інші для того, щоб отримати найбільш значущий результат при проведенні дисперсійного аналізу (ANOVA).

Зазвичай, коли результати кластерного аналізу методом K середніх отримані, можна розрахувати середні кожного кластера з кожного виміру, щоб оцінити, наскільки кластери різняться друг від друга.

В ідеалі ви повинні отримати середні, що сильно відрізняються, для більшості, якщо не для всіх вимірювань, що використовуються в аналізі.

Джерело: http://www.biometrica.tomsk.ru/textbook/modules/stcluan.html

Класифікація об'єктів за ознаками, що їх характеризують

Кластерний аналіз (cluster analysis) – сукупність багатовимірних статистичних методів класифікації об'єктів за ознаками, що характеризують їх, поділ сукупності об'єктів на однорідні групи, близькі за визначальним критеріям, виділення об'єктів певної групи.

Кластер – це групи об'єктів, виділені у результаті кластерного аналізу з урахуванням заданої міри подібності чи відмінностей між об'єктами.

Об'єкт – це конкретні предмети дослідження, які потрібно класифікувати. Об'єктами при класифікації виступають, зазвичай, спостереження. Наприклад, споживачі продукції, країни чи регіони, товари тощо.

Хоча можна проводити кластерний аналіз і за змінними. Класифікація об'єктів у багатовимірному кластерному аналізі відбувається за кількома ознаками одночасно.

Це може бути як кількісні, і категоріальні змінні залежно від методу кластерного аналізу. Отже, основна мета кластерного аналізу – перебування груп подібних об'єктів у вибірці.

Сукупність багатовимірних статистичних методів кластерного аналізу можна поділити на ієрархічні методи (агломеративні та дивізімні) та неієрархічні (метод k-середніх, двоетапний кластерний аналіз).

Проте загальноприйнятої класифікації методів немає, і методам кластерного аналізу іноді відносять також методи побудови дерев рішень, нейронних мереж, дискримінантного аналізу, логістичної регресії.

Сфера використання кластерного аналізу, через його універсальність, дуже широка. Кластерний аналіз застосовують в економіці, маркетингу, археології, медицині, психології, хімії, біології, державному управлінні, філології, антропології, соціології та інших галузях.

Ось кілька прикладів застосування кластерного аналізу:

  • медицина - класифікація захворювань, їх симптомів, способів лікування; класифікація груп пацієнтів;
  • маркетинг – завдання оптимізації асортиментної лінійки компанії, сегментація ринку за групами товарів чи споживачів, визначення потенційного споживача;
  • соціологія – розбиття респондентів на однорідні групи;
  • психіатрія - коректна діагностика груп симптомів є вирішальною для успішної терапії;
  • біологія – класифікація організмів за групою;
  • економіка - класифікація суб'єктів РФ з інвестиційної привабливості.

Джерело: http://www.statmethods.ru/konsalting/statistics-metody/121-klasternyj-analiz.html

Загальні відомості про кластерний аналіз

Кластерний аналіз включає набір різних алгоритмів класифікації. Загальне питання, що задається дослідниками у багатьох галузях, полягає в тому, як організувати дані в наочні структури.

Наприклад, біологи ставлять за мету розбити тварин на різні види, щоб змістовно описати різницю між ними.

Завдання кластерного аналізу полягає у розбиття вихідної сукупності об'єктів групи схожих, близьких між собою об'єктів. Ці групи називають кластерами.

Іншими словами, кластерний аналіз - це один із способів класифікації об'єктів за їх ознаками. Бажано, щоб результати класифікації мали змістовну інтерпретацію.

Результати, отримані методами кластерного аналізу, застосовують у різних областях. У маркетингу – це сегментація конкурентів та споживачів.

У психіатрії для успішної терапії є вирішальною правильна діагностика симптомів, таких як параноя, шизофренія і т.д.

У менеджменті важлива класифікація постачальників, виявлення подібних виробничих ситуацій, у яких виникає шлюб. У соціології – розбиття респондентів на однорідні групи. У портфельному інвестуванні важливо згрупувати цінні папери за схожістю в тенденції прибутковості, щоб скласти на основі отриманих відомостей про фондовому ринкураціонального інвестиційного портфеля, що дозволяє максимізувати прибуток від вкладень при заданому ступені ризику.

Загалом, щоразу, коли необхідно класифікувати велику кількість інформації такого роду і представляти її у вигляді, придатному для подальшої обробки, кластерний аналіз виявляється дуже корисним та ефективним.

Кластерний аналіз дозволяє розглядати досить великий обсяг інформації та сильно стискати великі масиви соціально-економічної інформації, робити їх компактними та наочними.

Увага!

Велике значення кластерний аналіз має стосовно сукупності часових рядів, що характеризують економічний розвиток (наприклад, загальногосподарської та товарної кон'юнктури).

Тут можна виділяти періоди, коли значення відповідних показників були досить близькими, а також визначати групи часових рядів, динаміка яких схожа.

У завдання соціально-економічного прогнозування дуже перспективне поєднання кластерного аналізу з іншими кількісними методами (наприклад, з регресійним аналізом).

Переваги і недоліки

Кластерний аналіз дозволяє провести об'єктивну класифікацію будь-яких об'єктів, які охарактеризовані низкою ознак. З цього можна отримати низку переваг:

  1. Отримані кластери можна інтерпретувати, тобто описувати, які власне групи існують.
  2. Окремі кластери можна вибраковувати. Це корисно в тих випадках, коли при наборі даних допущені певні помилки, внаслідок яких значення показників окремих об'єктів різко відхиляються. При застосуванні кластерного аналізу такі об'єкти потрапляють до окремого кластеру.
  3. Для подальшого аналізу можуть бути обрані тільки ті кластери, які мають цікаві характеристики.

Як і будь-який інший метод, кластерний аналіз має певні недоліки та обмеження. Зокрема, склад і кількість кластерів залежить від обраних критеріїв розбиття.

При зведенні вихідного масиву даних до компактнішому виду можуть виникати певні спотворення, і навіть можуть губитися індивідуальні риси окремих об'єктів рахунок заміни їх характеристиками узагальнених значень параметрів кластера.

Методи

Нині відомо понад сотню різних алгоритмів кластеризації. Їхня різноманітність пояснюється не лише різними обчислювальними методами, а й різними концепціями, що лежать в основі кластеризації.

У пакеті Statistica реалізуються такі методи кластеризації.

  • Ієрархічні алгоритми – деревоподібна кластеризація. В основі ієрархічних алгоритмів лежить ідея послідовної кластеризації. На початковому етапі кожен об'єкт розглядається як окремий кластер. На наступному кроці деякі з найближчих кластерів будуть об'єднуватися в окремий кластер.
  • Метод К-середніх. Цей метод використовується найчастіше. Він належить до групи про еталонних методів кластерного аналізу. Число кластерів К задається користувачем.
  • Двохвхідне об'єднання. При використанні цього методу кластеризація проводиться одночасно як за змінними (стовпцями), так і за результатами спостережень (рядків).

Процедура двовходового об'єднання проводиться у випадках, коли очікується, що одночасна кластеризація по змінним і спостереженням дозволить отримати осмислені результати.

Результатами процедури є описові статистики щодо змінних та спостережень, а також двовимірна кольорова діаграма, на якій кольором відзначаються значення даних.

За розподілом кольору можна скласти уявлення про однорідні групи.

Нормування змінних

Розбиття вихідної сукупності об'єктів на кластери пов'язане з обчисленням відстаней між об'єктами та вибором об'єктів, відстань між якими найменша з усіх можливих.

Найчастіше використовується звична всім нам евклідова (геометрична) відстань. Ця метрика відповідає інтуїтивним уявленням про близькість об'єктів у просторі (начебто відстані між об'єктами виміряні рулеткою).

Але для даної метрики на відстань між об'єктами можуть сильно впливати зміни масштабів (одиниць виміру). Наприклад, якщо одна з ознак виміряна в міліметрах, а потім його значення переведені в сантиметри, евклідова відстань між об'єктами сильно зміниться. Це призведе до того, що результати кластерного аналізу значно відрізняються від попередніх.

Якщо змінні виміряні в різних одиницях виміру, то їх попереднє нормування, тобто перетворення вихідних даних, яке переводить їх у безрозмірні величини.

Нормування сильно спотворює геометрію вихідного простору, що може змінити результати кластеризації.

У пакеті Statistica нормування будь-якої змінної x виконується за формулою:

Для цього потрібно клацнути правою кнопкою миші на ім'я змінної і в меню вибрати послідовність команд: Fill / Standardize Block / Standardize Columns. Значення нормованої змінної стануть рівними нулю, а дисперсії – одиниці.

Метод К-середніх у програмі Statistica

Метод K-середніх (K-means) розбиває безліч об'єктів на задане число K різних кластерів, розташованих на можливо більших відстанях один від одного.

Зазвичай, коли результати кластерного аналізу методом K-середніх отримані, можна розрахувати середні кожного кластера з кожного виміру, щоб оцінити, наскільки кластери різняться друг від друга.

В ідеалі ви повинні отримати середні, що сильно відрізняються, для більшості вимірювань, що використовуються в аналізі.

Значення F-статистики, отримані для кожного вимірювання, є іншим індикатором того, наскільки відповідний вимір дискримінує кластери.

Як приклад розглянемо результати опитування 17-ти працівників підприємства із задоволеності показниками якості службової кар'єри. У таблиці дано відповіді питання анкети за десятибальною шкалою (1 – мінімальний бал, 10 – максимальний).

Імена змінних відповідають відповідям такі питання:

  1. СЛЦ – поєднання особистих цілей та цілей організації;
  2. ВЗГ - відчуття справедливості в оплаті праці;
  3. ТБД – територіальна близькість до будинку;
  4. ОЕБ – відчуття економічного добробуту;
  5. КР – кар'єрне зростання;
  6. ЖСР – бажання змінити роботу;
  7. ОСБ – відчуття соціального благополуччя.

Використовуючи ці дані, необхідно розділити співробітників на групи і кожної з них виділити найефективніші важелі управління.

При цьому різницю між групами мають бути очевидними, а всередині групи респонденти мають бути максимально схожими.

Сьогодні більшість соціологічних опитувань дає лише відсоткове співвідношення голосів: вважається більшість позитивно відповіли, чи відсоток незадоволених, але системно це питання не розглядають.

Найчастіше опитування не показує тенденцію зміни ситуації. У деяких випадках необхідно вважати не кількість людей, які «за» чи «проти», а відстань, або міру подібності, тобто визначати групи людей, які думають приблизно однаково.

Для виявлення на основі даних опитування деяких реальних взаємозв'язків ознак і породження на цій основі їх типології можна використовувати процедури кластерного аналізу.

Увага!

Наявність будь-яких апріорних гіпотез соціолога під час роботи процедур кластерного аналізу перестав бути необхідною умовою.

У програмі Statistica кластерний аналіз виконується в такий спосіб.

При виборі кількості кластерів керуйтеся таким: кількість кластерів, по можливості, не повинна бути занадто великою.

Відстань, на якій об'єднувалися об'єкти даного кластера, має бути, по можливості, набагато меншою за відстань, на якій до цього кластеру приєднується ще щось.

При виборі кількості кластерів найчастіше є кілька правильних рішень.

Нас цікавить, наприклад, як співвідносяться відповіді на запитання анкети у рядових співробітників та керівництва підприємства. Тому вибираємо K=2. Для подальшої сегментації можна збільшити кількість кластерів.

  1. вибрати спостереження з максимальною відстанню між центрами кластерів;
  2. розсортувати відстані та вибрати спостереження із постійними інтервалами (установка за замовчуванням);
  3. взяти перші спостереження за центри та приєднувати інші об'єкти до них.

Для наших цілей підходить варіант 1).

Багато алгоритмів кластеризації часто «нав'язують» даним не властиву їм структуру і дезорієнтують дослідника. Тому необхідно застосовувати кілька алгоритмів кластерного аналізу і робити висновки на підставі загальної оцінкирезультатів роботи алгоритмів

Результати аналізу можна подивитися в діалоговому вікні:

Якщо вибрати вкладку Graph of means, буде побудовано графік координат центрів кластерів:


Кожна ламана лінія цьому графіку відповідає одному з кластерів. Кожне розподіл горизонтальної осі графіка відповідає одній з змінних, включених до аналізу.

Вертикальна вісь відповідає середнім значенням змінних для об'єктів, що входять до кожного з кластерів.

Можна відзначити, що проглядаються суттєві відмінності щодо двох груп людей до службової кар'єри майже з усіх питань. Лише в одному питанні спостерігається повна одностайність - у відчутті соціального благополуччя (ОСБ), вірніше, відсутності такого (2,5 бали з 10).

Можна припустити, що кластер 1 відображає робочих, кластер 2 - керівництво. Керівники більше задоволені кар'єрним зростанням (КР), поєднанням особистих цілей та цілей організації (СЛЦ).

У них вищий рівень відчуття економічного добробуту (ОЕБ) та відчуття справедливості в оплаті праці (ОСВ).

Територіальна близькість до будинку (ТБД) хвилює їх менше, ніж робітників, ймовірно через менші проблеми з транспортом. Також у керівників менше бажання змінити роботу (ЖСР).

Незважаючи на те, що працівники поділяються на дві категорії, вони однаково відповідають на більшість питань. Іншими словами, якщо щось не влаштовує загальну групупрацівників, те саме не влаштовує і вище керівництво, і навпаки.

Узгодження графіків дозволяє зробити висновки у тому, що добробут однієї групи відбивається на добробуті інший.

Кластер 1 незадоволений територіальною близькістю до будинку. Даною групою є основна частина працівників, які здебільшого приходять на підприємство з різних боків міста.

Отже, можна запропонувати головному керівництву направити частину прибутку для будівництва житла для працівників підприємства.

Проглядаються суттєві відмінності щодо двох груп людей до службової кар'єри. Ті співробітники, яких влаштовує кар'єрне зростання, у яких високо збіг особистих цілей та цілей організації, не мають бажання змінити роботу та відчувають задоволеність результатами праці.

І навпаки, працівників, які бажають змінити роботу та незадоволених результатами праці, не влаштовують викладені показники. Вищому керівництву слід звернути особливу увагуна ситуацію, що склалася.

Результати дисперсійного аналізу за кожною ознакою виводяться натисканням кнопки Analysis of variance.

Виводяться суми квадратів відхилення об'єктів від центрів кластерів (SS Within) та суми квадратів відхилень між центрами кластерів (SS Between), значення F-статистики та рівні значимості р.

Увага!

Для нашого прикладу рівні значущості для двох змінних досить великі, що малою кількістю спостережень. У повному варіанті дослідження, з яким можна ознайомитися в роботі, гіпотези про рівність середніх центрів кластерів відхиляються на рівнях значимості менше 0,01.

Кнопка Save classifications and distances виводить номери об'єктів, що входять до кожного кластеру та відстані об'єктів до центру кожного кластера.

У таблиці показані номери спостережень (CASE_NO), складові кластери з номерами CLUSTER та відстані від центру кожного кластера (DISTANCE).

Інформація про належність об'єктів до кластерів може бути записана у файл та використовуватись у подальшому аналізі. У цьому прикладі порівняння отриманих результатів з анкетами показало, що кластер 1 складається, переважно, з рядових працівників, а кластер 2 – з менеджерів.

Таким чином, можна помітити, що при обробці результатів анкетування кластерний аналіз виявився потужним методом, що дозволяє зробити висновки, яких неможливо дійти, побудувавши гістограму середніх або врахувавши відсоткове співвідношення задоволених різними показниками якості трудового життя.

Деревоподібна кластеризація - це приклад ієрархічного алгоритму, принцип роботи якого полягає в послідовному об'єднанні в кластер спочатку найближчих, а потім і все більш віддалених один від одного елементів.

Більшість цих алгоритмів виходить з матриці подібності (відстаней), і кожен окремий елемент розглядається спочатку як окремий кластер.

Після завантаження модуля кластерного аналізу та вибору Joining (tree clustering), у вікні введення параметрів кластеризації можна змінити такі параметри:

  • Вихідні дані (Input). Вони можуть бути у вигляді матриці досліджуваних даних (Raw data) та у вигляді матриці відстаней (Distance matrix).
  • Кластеризацію (Cluster) спостережень (Cases (raw)) чи змінних (Variable (columns)), що описують стан об'єкта.
  • Заходи відстані (Distance measure). Тут можливий вибір наступних заходів: евклідова відстань (Euclidean distances), квадрат евклідова відстані (Squared Euclidean distances), відстань міських кварталів (манхеттенська відстань, City-block (Manhattan) distance), відстань Чебишева (Mech ...), Відсоток незгоди (Percent disagreement).
  • Метод кластеризації (Amalgamation (linkage) rule). Тут можливі наступні варіанти: одиночний зв'язок (метод найближчого сусіда) (Single Linkage), повний зв'язок (метод найвіддаленіших сусідів) (Complete Linkage), невважене попарне середнє (Unweighted pair-group average), зважене попарне середнє (Weighted pair-group average ), невважений центроїдний метод (Unweighted pair-group centroid), зважений центроїдний метод (медіана) (Weighted pair-group centroid (median)), метод Уорда (Ward's method).

Через війну кластеризації будується горизонтальна чи вертикальна дендрограмма – графік, у якому визначено відстані між об'єктами і кластерами за її послідовному об'єднанні.

Деревоподібна структура графіка дозволяє визначити кластери залежно від обраного порога – заданої відстані між кластерами.

Крім того, виводиться матриця відстаней між вихідними об'єктами (Distance matrix); середні та середньоквадратичні відхилення для кожного вихідного об'єкта (Distiptive statistics).

Для розглянутого прикладу проведемо кластерний аналіз змінних із установками за замовчуванням. Результуюча дендрограма зображена на малюнку.


На вертикальній осі дендрограми відкладаються відстані між об'єктами та між об'єктами та кластерами. Так, відстань між змінними ОЕБ та ВЗГ дорівнює п'яти. Ці змінні першому кроці об'єднуються в один кластер.

Горизонтальні відрізки дендрограми проводяться на рівнях, що відповідають граничним значенням відстаней, що вибираються для даного кроку кластеризації.

З графіка видно, що «бажання змінити роботу» (ЖСР) утворює окремий кластер. Взагалі, бажання звалити куди завгодно відвідує всіх однаково. Далі окремий кластер становить питання територіальної близькості до будинку (ТБД).

За ступенем важливості він стоїть на другому місці, що підтверджує висновок щодо необхідності будівництва житла, зроблений за результатами дослідження методом K-середніх.

Відчуття економічного добробуту (ОЕБ) та справедливості в оплаті праці (ОСВ) об'єднані – це блок економічних питань. Кар'єрне зростання (КР) та поєднання особистих цілей та цілей організації (СЛЦ) також об'єднані.

Інші методи кластеризації, а також вибір інших видів відстаней не призводить до суттєвої зміни дендрограми.

Результати:

  1. Кластерний аналіз є потужним засобом розвідувального аналізу даних та статистичних досліджень у будь-якій предметній галузі.
  2. У програмі Statistica реалізовані як ієрархічні, і структурні методи кластерного аналізу. Переваги цього статистичного пакета обумовлені їх графічними можливостями. Передбачено двовимірні та тривимірні графічні відображення отриманих кластерів у просторі досліджуваних змінних, а також результати роботи ієрархічної процедури групування об'єктів.
  3. Необхідно застосовувати кілька алгоритмів кластерного аналізу та робити висновки на підставі загальної оцінки результатів роботи алгоритмів.
  4. Кластерний аналіз можна вважати успішним, якщо він виконаний різними способами, проведено порівняння результатів та знайдено загальні закономірності, а також знайдено стабільні кластери незалежно від способу кластеризації.
  5. Кластерний аналіз дозволяє виявити проблемні ситуації та намітити шляхи їх вирішення. Отже, цей метод непараметричної статистики можна як складову частинусистемного аналізу

По суті, інтелектуальний аналіз даних – це обробка інформації та виявлення у ній моделей та тенденцій, які допомагають приймати рішення. Принципи інтелектуального аналізуданих відомі протягом багатьох років, але з появою великих данихвони набули ще більш широкого поширення.

Великі дані призвели до вибухового зростання популярності ширших методів інтелектуального аналізу даних, частково тому, що інформації стало набагато більше, і вона за своєю природою і змістом стає більш різноманітною і обширною. Працюючи з великими наборами даних недостатньо щодо простої і прямолінійної статистики. Маючи 30 або 40 мільйонів докладних записів про покупки, недостатньо знати, що два мільйони з них зроблено в тому самому місці. Щоб краще задовольнити потреби покупців, необхідно зрозуміти, чи ці два мільйони належать до певної віковій групіі знати їх середній заробіток.

Ці бізнес-вимоги призвели від простого пошуку та статистичного аналізу даних до складнішого інтелектуального аналізу даних. Для вирішення бізнес-завдань потрібен такий аналіз даних, який дозволяє побудувати модель для опису інформації і зрештою призводить до створення результуючого звіту. Цей процес ілюструє.

Рисунок 1. Схема процесу

Процес аналізу даних, пошуку та побудови моделі часто є ітеративним, тому що потрібно розшукати та виявити різні відомості, які можна отримати. Необхідно також розуміти, як зв'язати, перетворити та об'єднати їх з іншими даними для отримання результату. Після виявлення нових елементів та аспектів даних підхід до виявлення джерел та форматів даних з подальшим зіставленням цієї інформації із заданим результатом може змінитися.

Інструменти інтелектуального аналізу даних

Інтелектуальний аналіз даних - це не тільки використовувані інструменти або програмне забезпеченнябаз даних. Інтелектуальний аналіз даних можна виконати з відносно скромними системами баз даних та простими інструментами, включаючи створення власних, або з використанням готових пакетів програмного забезпечення. Складний інтелектуальний аналіз даних спирається на минулий досвід та алгоритми, визначені за допомогою існуючого програмного забезпечення та пакетів, причому з різноманітними методами асоціюються різні спеціалізовані інструменти.

Наприклад, IBM SPSS®, який сягає корінням у статистичний аналіз та опитування, дозволяє будувати ефективні прогностичні моделі за минулими тенденціями та давати точні прогнози. IBM InfoSphere® Warehouse забезпечує в одному пакеті пошук джерел даних, попередню обробку та інтелектуальний аналіз, дозволяючи витягувати інформацію з вихідної бази прямо до підсумкового звіту.

В Останнім часомстала можлива робота з дуже великими наборами даних та кластерна/великомасштабна обробка даних, що дозволяє робити ще складніші узагальнення результатів інтелектуального аналізу даних за групами та зіставленнями даних. Сьогодні доступний абсолютно новий спектр інструментів та систем, включаючи комбіновані системи зберігання та обробки даних.

Можна аналізувати різні набори даних, включаючи традиційні бази даних SQL, необроблені текстові дані, набори "ключ/значення" і документальні бази. Кластерні бази даних, такі як Hadoop, Cassandra, CouchDB та Couchbase Server, зберігають та надають доступ до даних такими способами, які не відповідають традиційній табличній структурі.

Зокрема, більш гнучкий формат зберігання бази документів надає обробці інформації нової спрямованості та ускладнює її. Бази даних SQL суворо регламентують структуру і жорстко дотримуються схеми, що спрощує запити до них та аналіз даних із відомими форматом та структурою.

Документальні бази даних, які відповідають стандартній структурі типу JSON, або файли з деякою машиночитаемой структурою теж легко обробляти, хоча справа може ускладнюватися різноманітною та мінливою структурою. Наприклад, у Hadoop, який обробляє абсолютно "сирі" дані, може бути важко виявити та витягти інформацію до початку її обробки та зіставлення.

Основні методи

Декілька основних методів, які використовуються для інтелектуального аналізу даних, описують тип аналізу та операцію з відновлення даних. На жаль, різні компанії та рішення не завжди використовують одні й ті ж терміни, що може посилити плутанину і складність.

Розглянемо деякі ключові методи та приклади того, як використовувати ті чи інші інструменти для інтелектуального аналізу даних.

Асоціація

Асоціація (або відношення), ймовірно, найбільш відомий, знайомий та простий метод інтелектуального аналізу даних. Для виявлення моделей робиться просте зіставлення двох або більше елементів, часто одного й того самого типу. Наприклад, відстежуючи звички покупки, можна помітити, що разом із полуницею зазвичай купують вершки.

Створити інструменти інтелектуального аналізу даних з урахуванням асоціацій чи відносин нетрудно. Наприклад, у InfoSphere Warehouse є майстер, який видає конфігурації інформаційних потоків для створення асоціацій, досліджуючи джерело вхідної інформації, базис прийняття рішень та вихідну інформацію. наведено відповідний приклад для зразка бази даних.

Рисунок 2. Інформаційний потік, який використовується при підході асоціації

Класифікація

Класифікацію можна використовуватиме отримання уявлення про тип покупців, товарів чи об'єктів, описуючи кілька атрибутів для ідентифікації певного класу. Наприклад, автомобілі легко класифікувати на кшталт (седан, позашляховик, кабріолет), визначивши різні атрибути (кількість місць, форма кузова, провідні колеса). Вивчаючи новий автомобіль, можна віднести його до певного класу, порівнюючи атрибути з певним визначенням. Ті ж принципи можна застосувати і до покупців, наприклад, класифікуючи їх за віком та соціальною групою.

Крім того, класифікацію можна використовувати як вхідні дані для інших методів. Наприклад, визначення класифікації можна застосовувати дерева прийняття рішень. Кластеризація дозволяє використовувати загальні атрибути різних класифікацій з метою виявлення кластерів.

Досліджуючи один або більше атрибутів або класів, можна згрупувати окремі елементи даних разом, отримуючи структурований висновок. На простому рівні при кластеризації використовується один або кілька атрибутів як основа визначення кластера подібних результатів. Кластеризація корисна при визначенні різної інформації, тому що вона корелюється з іншими прикладами, тому можна побачити, де подібності та діапазони узгоджуються між собою.

Метод кластеризації працює в обидві сторони. Можна припустити, що у певній точці є кластер, а потім використати свої критерії ідентифікації, щоб перевірити це. Графік, зображений на , демонструє наочний приклад. Тут вік покупця порівнюється із вартістю покупки. Розумно очікувати, що люди віком від двадцяти до тридцяти років (до одруження та появи дітей), а також у 50-60 років (коли діти залишили будинок) мають більш високий наявний дохід.

Рисунок 3. Кластеризація

У цьому прикладі видно два кластери, один у районі $2000/20-30 років та інший у районі $7000-8000/50-65 років. В даному випадку ми висунули гіпотезу і перевірили її на простому графіку, який можна побудувати за допомогою будь-якого відповідного програмного забезпечення для побудови графіків. Для більш складних комбінацій потрібен повний аналітичний пакет, особливо якщо потрібно автоматично засновувати рішення на інформації найближчому сусіді.

Така побудова кластерів є спрощеним прикладом так званого образу найближчого сусіда. Окремих покупців можна розрізняти за їхньою буквальною близькістю один до одного на графіку. Цілком імовірно, що покупці з того самого кластера поділяють й інші загальні атрибути, і це припущення можна використовувати для пошуку, класифікації та інших видів аналізу членів набору даних.

Метод кластеризації можна застосувати і у зворотний бік: з огляду на певні вхідні атрибути виявляти різні артефакти. Наприклад, недавнє дослідження чотиризначних PIN-кодів виявили кластери чисел у діапазонах 1-12 та 1-31 для першої та другої пар. Зобразивши ці пари на графіку, можна побачити кластери, пов'язані з датами (дні народження, ювілеї).

Прогнозування

Прогнозування ― це широка тема, яка тягнеться від передбачення відмов компонентів обладнання до виявлення шахрайства та навіть прогнозування прибутку компанії. У поєднанні з іншими методами інтелектуального аналізу даних прогнозування передбачає аналіз тенденцій, класифікацію, зіставлення з моделлю та відносини. Аналізуючи минулі події чи екземпляри, можна передбачати майбутнє.

Наприклад, використовуючи дані з авторизації кредитних карток, можна поєднати аналіз дерева рішень минулих транзакцій людини з класифікацією та зіставленням з історичними моделямиз метою виявлення шахрайських транзакцій. Якщо покупка авіаквитків до США збігається з транзакціями до США, то цілком імовірно, що ці транзакції справжні.

Послідовні моделі

Послідовні моделі, які часто використовуються для аналізу довгострокових даних, є корисним методом виявлення тенденцій, або регулярних повторень подібних подій. Наприклад, за даними про покупців можна визначити, що в різні пори року вони купують певні набори продуктів. За цією інформацією додаток прогнозування купівельного кошика, ґрунтуючись на частоті та історії покупок, може автоматично припустити, що до кошика будуть додані ті чи інші продукти.

Дерева рішень

Дерево рішень, пов'язане з більшістю інших методів (головним чином класифікації та прогнозування), можна використовувати або в рамках критеріїв відбору, або для підтримки вибору певних даних в рамках загальної структури. Дерево рішень починають з простого питаннящо має дві відповіді (іноді більше). Кожна відповідь призводить до наступного питання, допомагаючи класифікувати та ідентифікувати дані або робити прогнози.

Рисунок 5. Підготовка даних

Джерело даних, розташування та база даних впливають на те, як оброблятиметься та об'єднуватиметься інформація.

Опора на SQL

Найбільш простим із усіх підходів часто служить опора на бази даних SQL. SQL (і відповідна структура таблиці) добре зрозуміла, але структуру і формат інформації не можна ігнорувати повністю. Наприклад, при вивченні поведінки користувачів за даними про продаж у моделі даних SQL (і інтелектуального аналізу даних в цілому) існують два основні формати, які можна використовувати: транзакційний та поведінково-демографічний.

При роботі з InfoSphere Warehouse створення поведінково-демографічної моделі з метою аналізу даних про покупців для розуміння моделей їхньої поведінки передбачає використання вихідних даних SQL, заснованих на інформації про транзакції, та відомих параметрів покупців з організацією цієї інформації в наперед визначену табличну структуру. Потім InfoSphere Warehouse може використовувати цю інформацію для інтелектуального аналізу даних методом кластеризації та класифікації для отримання потрібного результату. Демографічні дані про покупців та дані про транзакції можна скомбінувати, а потім перетворити на формат, який допускає аналіз певних даних, як показано на .

Рисунок 6. Спеціальний формат аналізу даних

Наприклад, за даними продажу можна виявити тенденції продажів конкретних товарів. Вихідні дані про продажі окремих товарів можна перетворити на інформацію про транзакції, в якій ідентифікатори покупців зіставляються з даними транзакцій та кодами товарів. Використовуючи цю інформацію, легко виявити послідовності та відносини для окремих товарів та окремих покупців з часом. Це дозволяє InfoSphere Warehouse обчислювати послідовну інформацію, визначаючи, наприклад, коли покупець, швидше за все, знову придбає той самий товар.

З вихідних даних можна створювати нові точки аналізу даних. Наприклад, можна розгорнути (або доопрацювати) інформацію про товар шляхом зіставлення або класифікації окремих товарів у ширших групах, а потім проаналізувати дані для цих груп замість окремих покупців.

Малюнок 7. Структура MapReduce

У попередньому прикладі ми виконали обробку (в даному випадку за допомогою MapReduce) вихідних даних у документальній базі даних та перетворили її на табличний формат у базі даних SQL для цілей інтелектуального аналізу даних.

Для роботи з цією складною і навіть неструктурованою інформацією може знадобитися більш ретельна підготовка та обробка. Існують складні типи та структури даних, які не можна обробити та підготувати у потрібному вам вигляді за один крок. І тут можна направити вихід MapReduce чи для послідовногоперетворення та отримання необхідної структуриданих, як показано на , або для індивідуальноговиготовлення кількох таблиць вихідних даних.

Малюнок 8. Послідовний ланцюжок виведення результатів обробки MapReduce

Наприклад, за один прохід можна взяти вихідну інформацію з документальної бази даних та виконати операцію MapReduce для отримання короткого огляду цієї інформації щодо дат. Гарним прикладомпослідовного процесу є регенерування інформації та комбінування результатів з матрицею рішень (створюється на другому етапі обробки MapReduce) з подальшим додатковим спрощенням у послідовну структуру. На етапі обробки MapReduce потрібно, щоб весь набірданих підтримував окремі кроки обробки даних.

Незалежно від вихідних даних багато інструментів можуть використовувати неструктуровані файли, CSV або інші джерела даних. Наприклад, InfoSphere Warehouse, крім прямого зв'язку зі сховищем даних DB2, може аналізувати неструктуровані файли.

Висновок

Інтелектуальний аналіз даних - це виконання деяких складних запитів до даних, які у базі даних. Незалежно від того, використовуєте SQL, бази даних на основі документів, такі як Hadoop, або прості неструктуровані файли, необхідно працювати з даними, форматувати або реструктурувати їх. Потрібно визначити формат інформації, на якому буде ґрунтуватися ваш метод та аналіз. Потім, коли інформація знаходиться в потрібному форматі, можна застосовувати різні методи (окремо чи в сукупності), що не залежать від необхідної базової структури даних або набору даних.

Попри те що, що «процес аналізу інформації» - це скоріш технічний термін, та його наповнення на 90 % пов'язані з діяльністю людини.

Розуміння потреб у основі будь-якого завдання з аналізу інформації був із розумінням бізнесу компанії. Збір даних з відповідних джерел вимагає досвіду у їх доборі, незалежно від того, наскільки остаточний процес збору даних може бути автоматизований. Для перетворення зібраних даних на аналітичні висновки та ефективного застосування їх на практиці необхідні глибокі знання бізнес-процесів та наявність навичок консультування.

Процес аналізу інформації є циклічний потік подій, що починається з аналізу потреб у аналізованої області. Потім слідує збір інформації з вторинних та (або) первинних джерел, її аналіз та підготовка звіту для осіб, відповідальних за прийняття рішень, які будуть його використовувати, а також давати свої відгуки та готувати пропозиції.

На міжнародному рівні процес аналізу інформації характеризується так:

  • Спочатку в ключових бізнес-процесах визначаються етапи прийняття рішень, які порівнюються зі стандартними кінцевими результатами аналізу інформації.
  • Процес аналізу інформації починається з оцінки потреб на міжнародному рівні, тобто з визначення майбутніх потреб, пов'язаних із прийняттям рішень, та їх перевіркою.
  • Етап збору інформації автоматизований, що дозволяє виділити час та ресурси на первинний аналіз інформації та, відповідно, підвищити цінність вже наявної вторинної інформації.
  • Значна частина часу та ресурсів витрачається на аналіз інформації, висновки та інтерпретацію.
  • Отримана в результаті аналітична інформація доводиться до відома кожної особи, відповідальної за прийняття рішень, в індивідуальному порядку з відстеження процесу її подальшого використання.
  • У членів групи, що займається аналізом інформації, сформовано установку на безперервне вдосконалення.

Введення: цикл аналізу інформації

Термін "процес аналізу інформації" означає безперервний, циклічний процес, який починається з визначення інформаційних потреб людей, відповідальних за прийняття рішень, і закінчується наданням того обсягу інформації, що відповідає цим потребам. У цьому відношенні необхідно відразу ж провести різницю між обсягом інформації та процесом аналізу інформації. Визначення обсягу інформації спрямоване на виявлення цілей та потреб у інформаційних ресурсахдля всієї програми аналізу інформації, тоді як процес аналізу інформації починається з визначення потреб по одному, навіть незначному, кінцевому результату такого аналізу.

Процес аналізу інформації завжди має бути прив'язаний до існуючих у компанії процесів, тобто стратегічного планування, продажам, маркетингу чи управлінню виробництвом товару, у межах яких і використовуватиметься дана інформація. Насправді ж використання отриманої на виході інформації має бути безпосередньо пов'язане з ситуаціями прийняття рішень, або така інформація повинна сприяти підвищенню рівня інформованості організації за тими напрямами операційної діяльності, які стосуються різних бізнес-процесів.

На рис. 1 показані етапи циклічного процесу аналізу інформації (детальніше про це див. нижче). У свою чергу, у правій частині діаграми показані конкретні підсумки процесу аналізу інформації, коли рішення приймаються на основі загальних досліджень ринку, та підсумки процесу аналізу інформації, прямо пов'язаного з різними бізнес-процесами та проектами.

Клацніть мишею на зображення, щоб збільшити його

Цикл аналізу інформації складається із шести етапів. Їх докладний описнаведено нижче.

1. Аналіз потреб

Ретельна оцінка потреб дозволяє визначити цілі та обсяг завдання щодо аналізу інформації. Навіть якщо ті, хто вирішує таке завдання, вестиме збір інформації для власного використання, має сенс чітко позначити ключові напрямки у вирішенні цього завдання для концентрації ресурсів у найбільш відповідних областях. Однак у переважній більшості випадків ті, хто проводить дослідження, не є кінцевими користувачами його результатів. Тому вони повинні мати повне уявлення про те, для чого будуть використовуватися кінцеві результати, щоб виключити збирання та аналіз даних, які в кінцевому підсумку можуть виявитися неактуальними для користувачів. Для етапу аналізу потреб розроблені різні шаблони та анкети, що задають високу планку якості на початковій стадії вирішення задачі.

Однак найважливіше полягає в тому, що потреби організації в аналізі інформації повинні бути до кінця вивчені та трансформовані із зовнішніх у внутрішні для того, щоб програма аналізу інформації була певною цінністю. Самі собою шаблони і анкети що неспроможні забезпечити досягнення цієї мети. Вони, звичайно, можуть виявитися корисними, але траплялися випадки, коли відмінний аналіз потреб проводився просто на основі неофіційної бесіди з керівниками компанії. Це, своєю чергою, вимагає від групи з аналізу інформації підходу з позицій консультування чи, по крайнього заходу, уміння продуктивно вести Ділові перемовиниз тими, хто відповідає за ухвалення рішень.

2. Охоплення вторинних джерел інформації

В рамках циклу аналізу інформації ми окремо виділяємо збір інформації з вторинних та первинних джерел. Для цього є низка причин. По-перше, збір інформації із загальнодоступних джерел обходиться дешевше, ніж звернення безпосередньо до первинних джерел. По-друге, це простіше, при тому, зрозуміло, умови, що перед якими поставлено таке завдання, мають достатній досвід вивчення наявних вторинних джерел. Насправді управління джерелами інформації та пов'язана з цим оптимізація витрат самі по собі є окремою областю знань. По-третє, охоплення вторинних джерел інформації перед проведенням досліджень у формі інтерв'ю дасть тим, хто проводить такі дослідження, цінну базову інформацію загального характеру, яку можна перевірити та використати, надаючи її у відповідь на інформацію від тих, хто інтерв'ює. Крім того, якщо в ході вивчення вторинних джерел вдасться отримати відповіді на деякі питання, це знизить вартість етапу досліджень первинних джерел, а іноді зовсім виключить необхідність їх проведення.

3. Дослідження первинних джерел

Яким би великим не був обсяг наявної на сьогоднішній день загальнодоступної інформації, не до всіх відомостей можна отримати доступ через вивчення вторинних джерел. Після вивчення вторинних джерел прогалини у дослідженні можна заповнити, інтерв'юючи експертів, добре знайомих із темою дослідження. Цей етап може бути відносно дорогим порівняно з вивченням вторинних джерел, що, природно, залежить від масштабу поставленого завдання, а також від того, які ресурси задіяні: нерідко компанії залучають до участі у дослідженнях первинних джерел сторонніх виконавців.

4. Аналіз

Після збору інформації з різних джерел необхідно розібратися, що саме з цього необхідно для початкового аналізу потреб відповідно до поставленого завдання. Знову ж таки, залежно від обсягу поставленого завдання цей етап досліджень може виявитися досить витратним, тому що включає щонайменше тимчасові витрати внутрішніх, а іноді і зовнішніх ресурсів і, можливо, якусь додаткову перевіркуправильності результатів аналізів у вигляді подальших інтерв'ю.

5. Надання результатів

Формат надання результатів після виконання завдання аналізу інформації має для кінцевих користувачів важливе значення. Як правило, люди, відповідальні за прийняття рішень, не мають часу на пошук ключових результатів аналізу у великому обсязі отриманих ними даних. Основний зміст необхідно перевести у легкий сприйняття формат з урахуванням їх вимог. У той же час слід забезпечити зручний доступ до додаткових фонових даних для тих, хто зацікавиться та захоче «копнути глибше». Ці основні правила застосовуються незалежно від формату надання інформації, будь то програмне забезпечення з базою даних, інформаційний бюлетень, презентація PowerPoint, особиста зустріч чи семінар. Крім того, існує ще одна причина, через яку ми відокремили етап надання інформації від кінцевого використання, а також отримання відгуків та пропозицій щодо наданої аналітичної інформації. Іноді рішення прийматимуться у тій самій послідовності, в якій надаватиметься аналітична інформація. Проте набагато частіше базові, довідкові матеріали будуть надані до того, як виникне фактична ситуація ухвалення рішення, тому формат, канал та спосіб надання інформації впливають на те, як вона сприйматиметься.

6. Використання та надання коментарів/зауважень

Етап використання служить свого роду лакмусовим папірцем для оцінки успішності виконання завдання щодо аналізу інформації. Він дозволяє зрозуміти, чи відповідають отримані результати потребам, визначеним на початку процесу аналізу інформації. Незалежно від того, чи отримано відповіді на все спочатку задані питання, На етапі використання, як правило, виникають нові питання та необхідність у новому аналізі потреб, особливо якщо потреба в аналізі інформації носить постійний характер. Крім того, в результаті спільних зусиль зі створення інформаційних матеріалів кінцевими користувачами та фахівцями в галузі аналізу інформації до моменту переходу на етап її використання може виявитися, що кінцеві користувачі такої інформації вже зробили свій внесок у очікуваний кінцевий результат. З іншого боку, ті, хто переважно займався аналізом, можуть бути активно задіяні у процесі формування висновків та інтерпретації результатів, на підставі яких прийматимуться остаточні рішення. В ідеалі продумані зауваження та коментарі на етапі використання вже можна використовувати як основу для оцінки потреб у рамках наступного завдання аналізу інформації. Отже, цикл процесу аналізу інформації завершується.

Початок роботи: розробка процесу аналізу інформації

Визначення етапів прийняття рішень у бізнес-процесах, які вимагають проведення аналітичних досліджень ринку

Термін «аналіз інформації для етапу прийняття рішення» набуває все велику популярність, Оскільки компанії, у яких діє програма аналізу інформації, почали розглядати різні варіанти більш ефективної інтеграції цих програм у процеси прийняття рішень. Наскільки абстрактними, або навпаки конкретними, будуть заходи щодо «покращення зв'язку між кінцевими результатами аналізу інформації та бізнес-процесами», значною мірою залежатиме від того, чи були дані бізнес-процеси визначені формально, а також від того, чи є у групи з аналізу інформації розуміння конкретних інформаційних потреб, пов'язаних з етапами прийняття рішень у межах цих процесів.

Як ми згадували в розділі 1, методи та способи, які обговорюються в цій книзі, оптимально підходять для компаній, які вже мають структуровані бізнес-процеси, наприклад процес вироблення стратегії. Компаніям, управління якими не так чітко структуроване, можливо, доведеться проявити деяку креативність при використанні підходів методики проведення аналізу ринку міжнародного рівня з урахуванням схем управління, що діють у них. Проте основні принципи, які ми тут розглядаємо, підійдуть будь-якій компанії.

Оцінка потреб в аналізі інформації: чому це так важливо?

З урахуванням того, що розуміння ключових вимог до аналізу інформації на самому початку цього процесу надає більш сильний вплив на якість кінцевих результатів, ніж будь-який етап даного процесу, вражаюче, що етапу оцінки потреб нерідко приділяється занадто мало уваги. Незважаючи на потенційну обмеженість ресурсів на інших етапах процесу аналізу інформації, лише пильна увага до оцінки потреб у багатьох випадках дозволила б суттєво підвищити цінність і застосовність кінцевих результатів даного процесу, виправдовуючи таким чином витрати часу та ресурсів на виконання завдання з аналізу інформації. Нижче ми розглянемо конкретні способи покращення якості оцінки потреб.

Нерідко автоматично вважається, що керівництво знає, яка інформація потрібна компанії. Однак насправді вище керівництво, як правило, має уявлення лише про частину інформаційних потреб своєї організації і навіть у цьому випадку, можливо, знаходиться не в найкращому положенні, щоб точно визначити, яка інформація потрібна, не кажучи вже про те, де її можна знайти.

В результаті постійно повторюється ситуація, коли для виконання завдань з аналізу інформації немає чітко сформульованого уявлення про проблему, ні її бізнес-контексту. Ті, хто найкраще знайомий із джерелами інформації та методами аналізу, витрачають час на безладну, мабуть, обробку даних і не бачать картини в цілому, а також тих підходів, які мають найбільш істотне значення для компанії. Не дивно, що в результаті люди, відповідальні за ухвалення рішень, отримують набагато більше інформації, ніж їм потрібно, що в принципі контрпродуктивно, оскільки незабаром вони починають ігнорувати не лише марну, а й важливу інформацію. Їм потрібен не більший обсяг інформації, а якісніша та точніша інформація.

Водночас у людей, відповідальних за прийняття рішень, можуть бути нереалістичні очікування щодо доступності та точності інформації, оскільки перед постановкою завдання вони не проконсультувалися з фахівцями у галузі аналізу інформації. Отже, в ідеалі фахівці в галузі аналізу інформації та люди, відповідальні за прийняття рішень, повинні перебувати у постійному контакті один з одним та разом працювати над тим, щоб обидві сторони мали однакове уявлення про першочергові інформаційні потреби. Уміння керувати цим процесом вимагатиме від аналітиків, що працюють у цьому напрямку, цілого ряду навичок:

  • Аналітик повинен розуміти, як виявляти та визначати інформаційні потреби людей, відповідальних за прийняття рішень.
  • Аналітик має розвивати навички ефективного спілкування, проведення інтерв'ю та презентацій.
  • В ідеалі аналітик повинен розумітися на психологічних типах особистості, щоб враховувати різну спрямованістьлюдей, відповідальних прийняття рішень.
  • Аналітик має знати організаційну структуру, культуру та середовище, а також ключових опитуваних осіб.
  • Аналітик має зберігати об'єктивність.

Робота в рамках циклу аналізу інформації та усунення «вузьких місць» у процесі

На початкових етапах запровадження програми аналізу інформації цільова група щодо заходів, зазвичай, обмежена, як і кінцеві результати, які дає програма. Аналогічним чином при обробці кінцевих результатів часто виникають різні труднощі (так звані «вузькі місця»): навіть простий збір розрізнених даних з вторинних та первинних джерел може вимагати знань та досвіду, яких у компанії немає, а після завершення збору інформації може виявитися, що часу та ресурсів для проведення детального аналізу зібраних даних недостатньо, не кажучи вже про підготовку інформативних та ретельно опрацьованих презентацій, якими могли б скористатися люди, відповідальні за прийняття рішень. Більше того, на початкових етапах розробки програми аналізу інформації практично жодна компанія не має спеціальних інструментів зберігання та поширення результатів такого аналізу. Як правило, зрештою результати надаються цільовим групам у вигляді звичайних вкладень, що пересилаються електронною поштою.

Складнощі виконання аналітичної задачі в рамках циклу аналізу інформації можна описати, користуючись стандартним трикутником управління проектом, тобто необхідно виконати завдання та видати результат при трьох основних обмеженнях: бюджеті, термінах та обсязі робіт. У багатьох випадках ці три обмеження конкурують між собою: у стандартному завданні щодо аналізу інформації збільшення обсягу робіт потребує збільшення термінів та бюджету; жорстке обмеження за термінами, ймовірно, означатиме збільшення бюджету та одночасне скорочення обсягу робіт, а обмежений бюджет, швидше за все, означає як обмеження обсягу робіт, так і скорочення термінів на реалізацію проекту.

Виникнення у процесі аналізу інформації «вузьких місць» зазвичай призводить до істотним тертям під час виконання дослідницького завдання у межах циклу аналізу інформації на початкових етапах розробки програми такого аналізу. Оскільки ресурси обмежені, насамперед слід усунути найкритичніші «вузькі місця». Чи достатньо у групи з аналізу інформації можливостей щодо його проведення? Чи потрібне додаткове навчання? Або проблема скоріше полягає в тому, що аналітикам не вистачає цінної інформації, з якою можна працювати – тобто найбільш критичним «вузьким місцем» є збір інформації? А може, групі з аналізу інформації просто не вистачає часу, тобто група не може своєчасно реагувати на термінові запити?

Підвищити ефективність виконання аналітичної задачі в рамках циклу аналізу інформації можна у двох напрямках. «Продуктивність» циклу, т. е. ретельність, з якою група з аналізу інформації може обробляти аналітичні завдання кожному етапі, і швидкість відповіді питання. На рис. 2 показана різниця між цими підходами та в цілому різниця між завданнями зі стратегічного аналізу та запитами на проведення досліджень, що потребують оперативного реагування.

Хоча і той, і інший підхід передбачають проходження аналітичного завдання через усі етапи циклу аналізу інформації, група з аналізу інформації, перед якою поставлене завдання оперативно провести дослідження, працюватиме над вивченням вторинних та первинних джерел паралельно (іноді один телефонний дзвінок фахівцю може дати необхідні відповіді на запитання, поставлені у запиті на проведення досліджень). Крім того, у багатьох випадках аналіз та надання інформації об'єднані, наприклад, у короткому огляді, який аналітик передає керівнику, який запросив цю інформацію.

Продуктивність циклу аналізу інформації можна підвищити, додавши або внутрішні (найняті), або зовнішні (придбані) ресурси там, де вони необхідні, що дозволить досягти якісніших результатів і розширити можливості обслуговування всіх більшої кількостігруп користувачів у межах організації.

Той же принцип застосовний і до забезпечення швидкодії при реалізації послідовності операцій, тобто важливо те, наскільки швидко термінове завдання проведення досліджень проходить через різні етапициклу. За традицією компанії переважно концентруються на забезпеченні стабільної пропускної спроможності за допомогою довгострокових схем планування ресурсів і навчання персоналу. Однак у міру розвитку такого спеціалізованого напряму, як аналіз інформації, та підвищення доступності глобальних професійних ресурсів, що залучаються з боку, все більшого поширення набувають і тимчасові схеми, що реалізуються в кожному конкретному випадку та забезпечують необхідну гнучкість.

На рис. 3 показано два типи підсумкових результатів циклу аналізу інформації, тобто стратегічний аналіз та дослідження, що потребують оперативного реагування (див. графік кінцевих результатів аналізу інформації). Незважаючи на те, що завдання проведення досліджень, що потребують оперативного реагування, зазвичай пов'язані з бізнес-процесами, рівень їх аналізу не дуже високий через банальну нестачу часу для проведення такого аналізу. З іншого боку, завдання зі стратегічного аналізу, як правило, пов'язані з високим рівнем спільної творчості на етапі аналізу та надання інформації, що ставить їх практично на вершину трикутника, де здійснюється інтерпретація та застосування отриманої інформації.

Безперервний розвиток: прагнення міжнародного рівня аналізу інформації

Налагодженість процесу аналізу інформації можна наочно у вигляді графіка циклу рівномірної товщини (рис. 2), у тому сенсі, що зрілий процес аналізу інформації не має «слабких ланок» або істотних «вузьких місць» в організації послідовності операцій. Така рівномірність вимагає відповідного планування ресурсів кожному етапі, що, своєю чергою, досягається завдяки багаторазовому проходженню циклу з урахуванням всіх деталей. Наприклад, початкову оцінку потреб можна поступово покращити завдяки тому, що люди, відповідальні за прийняття рішень і користуються результатами роботи, помічатимуть недоліки та типові розбіжності на початковому етапі виконання завдань з аналітичних досліджень ринку. З тим самим успіхом можна з часом розвинути співпрацю між фахівцями з пошуку інформації та аналітиками (якщо ці дві функції розділені) завдяки тому, що питання, які раніше залишилися непоміченими та були підняті в ході аналізу, передаються фахівцям з пошуку інформації з метою збору додаткових даних. . Згодом досвід покаже, які ресурси потрібні для кожного з цих етапів, щоб досягти оптимальних результатів.

Які результати є «оптимальними», визначається тим, наскільки точно отримана на виході інформація відповідає потребам людей, відповідальних за прийняття рішень, у рамках бізнес-процесів. І це знову повертає нас до рівномірної товщини циклу аналізу інформації: процес аналізу інформації міжнародного рівня починається не з оцінки потреб як таких, а з чіткого визначення, де і як застосовуватиметься отримана на виході інформація. Насправді, спілкування між людьми, відповідальними за прийняття рішень, та фахівцями у галузі аналізу інформації в рамках усього аналітичного процесу міжнародного рівня має бути постійним, інформативним та спрямованим в обидві сторони.

Один із способів зміцнення зв'язків між прийняттям рішень та дослідженнями ринку – укласти угоди про рівень послуг із ключовими зацікавленими сторонами, які обслуговує програма аналітичних досліджень ринку. Погодження необхідного рівня послуг з досліджень ринку з керівниками вищої ланкизі стратегічного планування, продажу, маркетингу та НДДКР дозволить чітко визначити кінцеві результати проведення таких аналітичних досліджень та заходи щодо кожної групи зацікавлених осіб на найближчі 6–12 місяців, у тому числі бюджет на дослідження ринку, задіяних осіб, основні етапи та взаємодію протягом усього процесу.

Укладання угод про рівень послуг має низку переваг:

  • Потрібен час, щоб сісти та обговорити основні цілі та етапи прийняття рішень щодо відповідальних за ключові бізнес-процеси = група з досліджень ринку отримує більш повне уявлення про те, що важливо для керівництва, і водночас покращує особисті відносини.
  • Зменшується ризик непередбаченого надлишкового навантаження за спеціальними проектами завдяки виявленню напрямків для регулярного перегляду, стратегічного аналізу інформації тощо.
  • З'являється час для спільної творчості в процесі аналізу інформації: нерідко наради та семінари з аналітичних досліджень ринку за участю постійно зайнятих керівниківпотрібно планувати за кілька місяців.
  • Завдяки чіткій постановці цілей та оцінці результатів упорядковуються заходи щодо досліджень ринку, підвищується рівень аналітики.
  • Загалом зменшується замкнутість організації та так зване «варіння у власному соку», співпраця між керівниками та фахівцями з аналітичних досліджень ринку стає більш плідною.

Наведені наприкінці два приклади наочно показують, як завдяки налагодженому процесу аналізу інформації аналітична група може реагувати різні вимоги, які у задачі з аналізу інформації, залежно від географічного регіону, який аналізується у межах цього завдання. У «західному світі» із вторинних джерел можна отримати велику кількість достовірної інформації практично з будь-якої теми. Завдяки цьому завдання фахівців у галузі аналізу інформації зводиться до пошуків найкращих джерел для ефективного з погляду витрат збору інформації з метою подальшого аналізу та надання звітів.

З іншого боку, на ринках, що розвиваються, часто спостерігається нестача надійних вторинних джерел або відсутність необхідних даних на англійською. Отже, спеціалістам у галузі аналізу інформації потрібно швидко звернутися до первинних джерел та провести інтерв'ю, як правило, мовою даної країни. У цій ситуації важливо покладатися на досить багато джерел, щоб оцінити правильність результатів досліджень, перш ніж перейти до їх аналізу.

приклад.Вивчення бізнес-циклу для підприємства хімічної промисловості

Компанії, що працює в хімічній галузі, знадобився великий обсяг інформації про існуючі раніше, сучасні та майбутні бізнес-цикли за декількома напрямками виробництва товарів хімічної промисловостіринку Північної Америки. Дану інформаціюпередбачалося використовуватиме оцінки майбутнього зростання за певними напрямами виробництва хімічної продукції, і навіть для планування розвитку бізнесу з урахуванням розуміння бізнес-циклів у галузі.

Аналіз проводився з використанням статистичних методів, у тому числі регресійного та візуального аналізу. Аналіз бізнес-циклів проходив як у кількісному, так і якісному відношенні, з урахуванням думок галузевих експертів про довгострокове зростання. Під час виконання завдання використовувалися виключно вторинні джерела інформації, а проведення аналізу - статистичні методи, зокрема регресійний і візуальний аналіз. В результаті було представлено докладний аналітичний звіт з описом тривалості та характеру бізнес-циклів, а також оцінкою перспектив на майбутнє для ключових напрямків виробництва продукції компанії (етилен, поліетилен, стирол, аміак та бутилкаучук).

приклад.Оцінка ринку гідродифториду амонію та фтористоводневої кислоти в Росії та СНД

Перед одним із найбільших у світі ядерних центрівстояло завдання вивчення ринку для цих двох побічних продуктів його виробництва, а саме гідродифториду амонію і фтористоводневої кислоти, в Росії і СНД. За недостатньої ємності цього ринку їм довелося б інвестувати у будівництво об'єктів із утилізації зазначених продуктів.

Було проведено дослідження вторинних джерел як на рівні Росії та СНД, так і на глобальному рівні. У зв'язку з вузькоспеціалізованим характером ринку та високим внутрішнім споживанням побічних продуктів основний наголос робився на дослідження первинних джерел. Під час підготовки до подальшого аналізу було проведено 50 докладних інтерв'ю з потенційними клієнтами, конкурентами та фахівцями галузі.

В остаточному звіті була представлена ​​оцінка обсягу ринку без урахування внутрішнього споживання, аналіз сегментів, аналіз імпорту, аналіз ланцюжка створення вартості, аналіз заміщуючих технологій та продуктів по кожному промисловому сегменту, прогноз розвитку ринку, аналіз ціноутворення та, нарешті, оцінка потенційних можливостей ринку в Росії та СНД.

приклад.Ефективний процес аналізу інформації на основі оцінки переважаючих тенденцій для подання керівникам у вигляді звітів

Провідна енергетична та нафтохімічна компанія успішно удосконалила процес аналізу інформації, взявши за основу аналіз стратегічних сценаріїв для збирання, аналізу та надання інформації.

Завдяки інтеграції заходів щодо аналізу інформації до ключових бізнес-процесів на етапі планування, вдалося чітко визначити справжні стратегічні потребиорганізації та довести їх до аналітичної групи, яка відповідно зуміла організувати процес аналізу таким чином, щоб основна увага приділялася стратегії та діям. Процес аналізу інформації у компанії починається з вивчення переважаючих тенденцій та закінчується наочними прикладами реагування на ризики з рекомендаціями для керівництва.

Ключем до підвищення ефективності програми аналізу інформації стала успішна оцінка потреб із погляду стратегічних цілей компанії. У цьому відповідальні прийняття рішень люди брали участь у процесі аналізу інформації вже на початковому етапі (обговорення, наради, семінари). Це сприяло налагодженню двостороннього діалогу та повнішої інтеграції програми аналізу інформації до інших напрямів діяльності компанії.

приклад.Глобальна біотехнологічна компанія розробила цикл аналізу інформації для своєчасного надання аналітичних даних та запобіжного прийняття рішень.

Мета програми аналізу інформації полягала в наданні інформації з метою завчасного оповіщення та попередження, що дозволило б ввести в дію реалізовані та здійсненні стратегії на всіх ринках, де працює компанія. Було введено в дію цикл аналізу інформації, в якому на декількох етапах були задіяні особи, зацікавлені в аналізі інформації (як для введення, так і для виведення інформації), а також численні джерела інформації.

Особи, зацікавлені в аналізі інформації, представляли чотири ключові функції в компанії (група зі стратегії, маркетингу та продажу, фінанси, зв'язки з інвесторами та директорами). Найбільш активна діяльність велася на етапах планування та реалізації. Успішне впровадження циклу аналізу інформації, який об'єднав внутрішні зацікавлені сторони (з метою оцінки потреб) і численні джерела інформації у межах чітко визначеного процесу надання результатів аналізу, означало, що реалізована аналітична програма справила певний вплив розробку стратегії і попереджувальне прийняття рішень.

2. К р і ц м а н В. А., Р о з е н Б. Я., Д м і т р і е в І. С. До таємниць будови речовини. - Вища школа, 1983.

Революційні відкриття природознавства часто відбувалися під впливом результатів дослідів, поставлених талановитими експериментаторами. Великі експерименти у біології, хімії, фізиці сприяли зміні ставлення до світі, у якому живемо, будову речовини, механізми передачі спадковості. На підставі результатів великих експериментів відбувалися інші теоретичні та технологічні відкриття.

§ 9. Теоретичні методи дослідження

Урок-лекція

На світі є речі важливіші

найпрекрасніших відкриттів –

це знання методів, якими

вони були зроблені

Лейбніц

https://pandia.ru/text/78/355/images/image014_2.gif" alt="(!LANG:Підпис: !" align="left" width="42 height=41" height="41">Метод. Классификация. Систематизация. Систематика. Индукция. Дедукция.!}

Спостереження та опис фізичних явищ. фізичні закони. (Фізика, 7 – 9 кл.).

Що таке метод . методому науці називають спосіб побудови знання, форму практичного та теоретичного освоєння дійсності. Френсіс Бекон порівнював спосіб зі світильником, що висвітлює подорожньому в темряві: «Навіть кульгавий, що йде дорогою, випереджає того, хто йде без дороги». Правильно вибраний метод має бути ясним, логічним, вести до певної мети, давати результат. Вчення про систему методів називають методологією.

Методи пізнання, які використовують у науковій діяльності – це емпіричні (практичні, експериментальні) методи: спостереження, експерименті теоретичні (логічні, раціональні) методи: аналіз, синтез, порівняння, класифікація, систематизація, абстрагування, узагальнення, моделювання, індукція, дедукція. У реальному науковому пізнанні ці методи використовують у єдності. Наприклад, розробки експерименту потрібно попереднє теоретичне осмислення проблеми, формулювання гіпотези дослідження, а після проведення експерименту необхідна обробка результатів з допомогою математичних методів . Розглянемо особливості деяких теоретичних методів пізнання.

Класифікація та систематизація.Класифікація дозволяє впорядкувати досліджуваний матеріал шляхом групування множини (класу) об'єктів, що досліджуються, на підмножини (підкласи) відповідно до обраної ознаки.

Наприклад, всіх учнів школи можна розділити на підкласи – «дівчата» та «юнаки». Можна вибрати й іншу ознаку, наприклад зростання. І тут класифікацію можна проводити по-різному. Наприклад, виділити межу зростання 160 см і класифікувати учнів на підкласи «низькі» та «високі», або розбити шкалу зростання на відрізки 10 см, тоді класифікація буде більш детальною. Якщо порівняти результати такої класифікації за кількома роками, це дозволить емпіричним шляхом встановити тенденції у фізичному розвитку учнів. Отже, класифікація як метод може бути використана для отримання нових знань і навіть служити основою для побудови нових наукових теорій.

У науці зазвичай використовують класифікації тих самих об'єктів за різними ознаками залежно від цілей. Проте ознака (підстава для класифікації) вибирається завжди один. Наприклад, хіміки поділяють клас «кислоти» на підкласи і за ступенем дисоціації (сильні та слабкі), і за наявністю кисню (кисневмісні та безкисневі), і за фізичним властивостям(летючі – нелеткі; розчинні – нерозчинні) та за іншими ознаками.

Класифікація може змінюватися у розвитку науки.

У середині XX ст. Вивчення різних ядерних реакцій призвело до відкриття елементарних (що не діляться) частинок. Спочатку їх стали класифікувати за масою, так з'явилися лептони (дрібні), мезони (проміжні), баріони (великі) та гіперони (надвеликі). Подальший розвиток фізики показав, що класифікація за масою має мало фізичного сенсу, проте терміни збереглися, у результаті з'явилися лептони, значно масивніші, ніж баріони.

Класифікацію зручно відбивати як таблиць чи схем (графів). Наприклад, класифікація планет Сонячної системи, представлена ​​схемою – графом, може виглядати так:

ВЕЛИКІ ПЛАНЕТИ

СОНЯЧНОЇ СИСТЕМИ

ПЛАНЕТИ ЗЕМНОЇ ГРУПИ

ПЛАНЕТИ - ГІГАНТИ

ПЛУТОН

МЕРКУ-

ВІДЕНЬ-

МАРС

ЮПІТЕР

САТУРН

УРАН

Зверніть увагу на те, що планета Плутон у цій класифікації представляє окремий підклас, не належить ні до планет земної групи, ні до планет-гігантів. Вчені відзначають, що Плутон за властивостями схожий на астероїд, яких може бути багато на периферії Сонячної системи.

При вивченні складних систем природи класифікація служить фактично першим кроком до побудови природничо-наукової теорії. Наступним високим рівнем є систематизація (систематика). Систематизація складає основі класифікації досить великого обсягу матеріалу. При цьому виділяють найбільш суттєві ознаки, що дозволяють уявити накопичений матеріал як систему, в якій відображені всі взаємозв'язки між об'єктами. Вона необхідна в тих випадках, коли є різноманітність об'єктів і самі об'єкти є складними системами. Результатом систематизації наукових даних є систематикачи інакше – таксономія. Систематика як галузь науки розвивалася у таких галузях знання як біологія, геологія, мовознавство, етнографія.

Одиниця систематики називається таксоном. У біології таксони – це, наприклад, тип, клас, сімейство, рід, загін та інших. Вони об'єднані в єдину системутаксонів різного рангу за ієрархічним принципом Така система включає опис всіх існуючих і раніше вимерлих організмів, з'ясовує шляхи їхньої еволюції. Якщо вчені знаходять новий вид, то вони повинні підтвердити його місце у загальній системі. Можуть бути внесені зміни і в саму систему, що залишається динамічною. Систематика дозволяє легко орієнтуватися у всьому різноманітті організмів – лише тварин відомо близько 1,5 млн видів, а рослин – понад 500 тис. видів, крім інших груп організмів. Сучасна біологічна систематика відбиває закон Сент-Илера: «Все різноманіття форм життя формує природну таксономічну систему, що з ієрархічних груп таксонів різного рангу».

Індукція та дедукція.Шлях пізнання, у якому основі систематизації накопиченої інформації – від приватного до загального – роблять висновок про існуючої закономірності, називають індукцією. Цей метод як метод вивчення природи було розроблено англійським філософом Ф. Беконом. Він писав: «Треба брати якнайбільше випадків – як таких, де досліджуване явище є, так і таких, де воно відсутнє, але де його можна було б очікувати зустріти; потім треба розмістити їх методично... і дати найімовірніше пояснення; нарешті, спробувати перевірити це пояснення подальшим порівнянням із фактами».

Думка та образ

Портрети Ф. Бекона та Ш. Холмса

Чому портрети вченого та літературного героя розташовані поруч?

Індукція – не єдиний шлях здобуття наукового знання про світ. Якщо експериментальна фізика, хімія та біологія будувалися як науки в основному за рахунок індукції, то теоретична фізика, сучасна математика у своїй основі мали систему аксіом– несуперечливих, умоглядних, достовірних з погляду здорового глузду та рівня історичного розвиткунауки тверджень. Тоді знання можна побудувати на цих аксіомах шляхом виведення умов від загального до приватного, переходу від передумови до наслідків. Цей метод називають дедукцією. Його розвивав

Рене Декарт, французький філософ та вчений.

Яскравим прикладом отримання знання одного предметі різними шляхами є відкриття законів руху небесних тіл. І. Кеплер на основі великої кількостіданих спостережень за рухом планети Марс на початку XVII ст. відкрив методом індукції емпіричні закони руху планет у Сонячній системі. Наприкінці цього століття Ньютон вивів дедуктивним шляхом узагальнені закони руху небесних тіл з урахуванням закону всесвітнього тяжіння.

У реальній дослідницької діяльності методи наукових досліджень взаємопов'язані.

1. ○ Поясніть, що таке метод дослідження, методологія природничих наук?

Всі ці наближення слід обґрунтовувати і численно оцінювати похибки, які вносяться кожним із них.

Розвиток науки показує, що кожен природничо-науковий закон має межі свого застосування. Наприклад, закони Ньютона виявляються непридатними для дослідження процесів мікросвіту. Для опису цих процесів сформульовані закони квантової теорії, що стають еквівалентними законам Ньютона, якщо їх застосувати для опису руху макроскопічних тіл. З погляду моделювання це означає, що закони Ньютона є деякою моделлю, яка слідує при певних наближеннях з більш загальної теорії. Проте закони квантової теорії не абсолютні і мають обмеження в застосовності. Вже сформульовані загальні закони та отримані загальні рівняння, які, у свою чергу, також мають обмеження. І ланцюжку цьому не видно кінця. Поки що не отримані будь-які абсолютні закони, що описують все у природі, з яких можна було б вивести всі приватні закони. І незрозуміло, чи можна такі закони сформулювати. Але це означає, що кожен із природничо-наукових законів фактично є деякою моделлю. На відміну від тих моделей, які розглядалися в даному параграфі, полягає лише в тому, що природничо-наукові закони - це модель, яка застосовується для опису не одного конкретного явища, а для широкого класу явищ.

Головна > Лекція

Тема 7.КЛАСИФІКАЦІЙНИЙ АНАЛІЗ

Лекція №9

1. Розвідувальний аналіз даних. Шкали вимірювань

2. Дерева класифікації

3. Дискримінантний аналіз (класифікація з навчанням)

4. Кластерний аналіз (класифікація без навчання)

5. Канонічні кореляції

1. Розвідувальний аналіз даних. Шкали вимірювань

За наявності великої кількості змінних та відсутності інформації про зв'язки та закономірності одним з перших етапів аналізу наявних даних є так званий розвідувальний аналіз даних. Як правило, при розвідувальному аналізі враховується та порівнюється велика кількість змінних, а для пошуку здійснюється класифікація та шкалювання змінних. Змінні різняться тим, наскільки добре вони можуть бути виміряні, або, як багато вимірюваної інформації забезпечує шкала їх вимірювань. Іншим фактором, що визначає кількість інформації, є тип шкали, в якій проведено вимірювання. Зазвичай використовують такі типи шкал вимірювань: номінальна, порядкова, інтервальна та відносна. Номінальні зміннівикористовуються лише для якісної класифікації. Це означає, що ці змінні можуть бути виміряні лише в термінах приналежності до деяких істотно різних класів. Типовим прикладом номінальних змінних є фірма-виробник, тип товару, ознака його придатності тощо. Часто номінальні змінні називають категоріальними. Порядкові зміннідозволяють ранжувати об'єкти, якщо зазначено, які з них більшою чи меншою мірою мають якість, виражену даною змінною. Однак вони не дозволяють судити наскільки більше або наскільки менше цієї якості міститься в змінній. Типовий приклад - сортування товару: вищий, перший, другий, третій. Один і той же товар відрізняється якісно, ​​проте сказати, що різниця між ними 25% не можна. Категоріальні та порядкові змінні особливо часто виникають при анкетуванні, наприклад, змій і порівнювати відмінності між ними. Приклад – температура, виміряна в градусах, утворює інтервальну шкалу, оскільки можна оцінити різницю змінних вже у чисельної формі (40 градусів більше 30 на 10). Інтервальну шкалу можна легко перевести в порядкову, якщо прийняти деякі значення змінних як межі різних класів (приклад, тепло чи спекотно на вулиці протягом місяця, приймаючи кордон між класами «тепло» та «жарко» у значенні змінної, але їх особливістю є наявність певної точки абсолютного нуля, як правило, це безперервні змінні. 2. Дерева класифікації Дерева класифікації - це метод, що дозволяє передбачати належність спостережень чи об'єктів до того чи іншого класу категоріальної залежної змінної залежно від відповідних значень однієї чи кількох предикторних змінних. Побудова дерев класифікації- один із ієрархічного устрою сортування монет. Примусимо монети котитися вузьким жолобом, в якому прорізана щілина розміром з однокопійкову монету. Якщо монета провалилася в щілину, це 1 копійка; в іншому випадку вона продовжує котитися далі жолобом і натикається на щілину для двокопійкової монети; якщо вона туди провалиться, то це 2 копійки, якщо ні (означає це 3 або 5 копійок) - покотиться далі, і так далі. Таким чином, ми збудували дерево класифікації. Вирішальне правило, реалізоване у цьому дереві класифікації, дозволяє ефективно розсортувати жменю монет, а загальному випадку застосовно до широкого спектру завдань класифікації. Дерева класифікації ідеально пристосовані для графічного уявлення, і тому зроблені з їхньої основі висновки набагато легше інтерпретувати, ніж, якби вони були лише у числовій формі. Ієрархічна будова дерева класифікації- одне зПроцес побудови дерева класифікаціїскладається з чотирьох основних кроків:

    Вибір критерію точності прогнозу

    Вибір типу розгалуження

    Визначення моменту припинення розгалужень

    Визначення "відповідних" розмірів дерева

У кінцевому підсумку, мета аналізу з допомогою дерев класифікації у тому, щоб отримати максимально точний прогноз. Найбільш класифікацій.

3. Дискримінантний аналіз (класифікація з навчанням)

Дискримінантний аналіз використовується для прийняття рішення про те, до якого класу (групи) віднести той чи інший об'єкт (процес) на основі вивчення його параметрів або характеристик.) товару та завдання полягає в тому, щоб встановити, які з параметрів роблять свій внесок у відмінність (дискримінацію) між окремо групованими сукупностями (сортами) товарів, що утворюють генеральну сукупність. Після цього приймається рішення щодо належності цього товару до певної групи. Отже, цей вид статистичного аналізу є багатовимірним і основна ідея дискримінантного аналізу полягає в тому, щоб визначити, чи відрізняються сукупності по середньому будь-якого параметра (змінної), а потім використовувати цю змінну, щоб передбачити нових членів їх бластей. Кожна з областей відрізняється з іншою величиною певного параметра (а точніше значенням його середнього) або сукупностей параметрів, прийнятих за класифікаційну ознаку. Правило дискримінації вибирається відповідно до певного принципу оптимальності, наприклад, мінімум ймовірності хибної класифікації. У практичних розрахунках розрізнення переходять від вектора ознак до лінійної функції(дискримінантна функція), яка для двох груп (класів) має вигляд лінійного рівняння множинної регресії, в якому як залежні змінні виступають кодовані ознаки розрізнення на групи. Якщо є більше двох груп, то можна скласти більш ніж одну дискримінантну функцію. Наприклад, коли є три сукупності, то можна оцінити: (1) - функцію для дискримінації в сенсі дуже схожий на багатовимірний дисперсійний аналіз. Коли отримано дискримінантні функції, виникає питання про те, наскільки добре вони можуть. передбачатидо якої сукупності належить конкретний зразок? Для цього визначають показники класифікації або класифікаційні функції та чергове спостереження або конкретний зразок відносять до групи, для якої класифікаційна група має найбільше значення. 4. Кластерний аналіз (класифікація без навчання)Кластерний аналіз є статистичний метод, що включає набір різних алгоритмів, для розподілу об'єктів за кластерами (claster – гроно, скупчення). Розбиття об'єктів Н на ціле число кластерів До, так щоб кожен об'єкт належав одному і лише одному підмножини розбиття. При цьому об'єкти, що належать одному й тому кластеру, повинні бути подібними, а об'єкти, що належать різним кластерам – різнорідними. Вирішенням завдання кластерного аналізу є розбиття, що задовольняють критерію оптимальності. Цей критерій називають цільовою функцією, якою, можливо, наприклад, мінімум суми квадратів відхилень ознак об'єктів групи від середнього значення

min Σ(x i - x ср) 2

Подібність та різнорідність об'єктів у групах характеризуватиметься деякою величиною, яка отримала назви – функція відстані. Чим більшою є функція відстані між об'єктами, тим більше вони різнорідні. Зрозуміло, що якщо ця функція перевищує певну встановлену межу, то об'єкти слід співвідносити до різних груп (кластерів). Залежно від алгоритму кластеризації розрізняють такі функції відстані: - евклідова метрика (Σx i – xj) 2) 1/2 ; - манхеттенська відстань Σ|x i - x j |; - відстань Чебишева max | x i - x j |, та ін розглядаються як окремі кластери. Надалі на кожному кроці роботи алгоритму відбувається об'єднання двох найближчих кластерів, і, з урахуванням прийнятої функції відстані, за формулою перераховуються всі відстані. При досягненні цільової функції ітерації припиняються. 5. Канонічні кореляціїКласичний кореляційний аналіз дозволяє знайти статистичні залежності між двома змінними, так звані двома множинами змінних використовують методи канонічного аналізу. Канонічний аналіз будучи узагальненням множинної кореляції як міри зв'язку між однією випадковою величиною та безліччю інших випадкових величин, розглядає зв'язки між множинами випадкових величин. При цьому обмежується розглядом невеликої кількості найбільш кореляційних лінійних комбінацій з кожної множини. В основі аналізу канонічної кореляції лежить використання канонічних коренів або канонічних змінних, які розглядаються як «приховані» змінні, що характеризують явища, що спостерігаються. Число канонічних коренів дорівнює числу змінних у меншій множині. Практично щодо канонічної кореляції будується окрема матриця кореляцій, що є твір стандартних кореляційних матриць, характеризуючих залежності між двома окремими змінними. Потім обчислюється стільки власних значень отриманої матриці, скільки є канонічних коренів. Якщо витягти квадратний корінь із отриманих власних значень, отримаємо набір чисел, який можна проінтерпретувати як коефіцієнт кореляції. Оскільки вони відносяться до канонічних змінних, їх називають канонічними кореляціями. Роботу дискримінантного, кластерного та канонічного аналізу доцільно оцінювати за допомогою спеціальних статистичних пакетів, які реалізують ці алгоритми на ЕОМ.