Кластерний аналіз це

Доброго вам дня. Ось у мене є повага до людей, які є фанатами своєї справи.

Максим, мій друже, належить саме до цієї категорії. Постійно працює із цифрами, аналізує їх, робить відповідні звіти.

Вчора разом обідали, так майже півгодини розповідав мені про кластерний аналіз – що це і в яких випадках його застосування є обґрунтованим та доцільним. Ну, а я що?

Пам'ять у мене хороша, тому всі ці дані, до речі, про які я й так знала, надам вам у первозданному та максимально інформативному вигляді.

Кластерний аналіз призначений для розбиття сукупності об'єктів на однорідні групи (кластери чи класи). Це завдання багатовимірної класифікації даних.

Існує близько 100 різних алгоритмів кластеризації, проте найчастіше використовуються — ієрархічний кластерний аналіз та кластеризація методом k-середніх.

Де застосовується кластерний аналіз? У маркетингу це сегментація конкурентів та споживачів.

У менеджменті: розбиття персоналу різні за рівнем мотивації групи, класифікація постачальників, виявлення подібних виробничих ситуацій, у яких виникає брак.

У медицині – класифікація симптомів, пацієнтів, препаратів. У соціології – розбиття респондентів на однорідні групи. Насправді кластерний аналіз добре зарекомендував себе у всіх сферах життєдіяльності людини.

Принадність даного методу він працює навіть тоді, коли даних мало і не виконуються вимоги нормальності розподілів випадкових величин та інші вимоги класичних методів статистичного аналізу.

Пояснимо суть кластерного аналізу, не вдаючись до суворої термінології:
припустимо, Ви провели анкетування співробітників і хочете визначити, яким чином можна ефективно керувати персоналом.

Тобто Ви хочете розділити співробітників на групи і для кожної з них виділити найефективніші важелі управління. При цьому різницю між групами мають бути очевидними, а всередині групи респонденти мають бути максимально схожими.

Для вирішення задачі пропонується використати ієрархічний кластерний аналіз.

В результаті ми отримаємо дерево, дивлячись на яке ми повинні визначитися, на скільки класів (кластерів) ми хочемо розбити персонал.

Припустимо, що ми вирішили розбити персонал на три групи, тоді для вивчення респондентів, що потрапили в кожен кластер, отримаємо табличку приблизно наступного змісту:


Пояснимо, як сформовано наведену вище таблицю. У першому стовпці розташований номер кластера - групи, дані за якою відображені у рядку.

Наприклад, перший кластер на 80% становлять чоловіки. 90% першого кластера потрапляють до вікової категорії від 30 до 50 років, а 12% респондентів вважає, що пільги дуже важливі. І так далі.

Спробуємо скласти портрети респондентів кожного кластера:

  1. Перша група — переважно чоловіки зрілого віку, що посідають керівні позиції. Соцпакет (MED, LGOTI, TIME-вільний час) їх не цікавить. Вони вважають за краще отримувати хорошу зарплату, а не допомогу від роботодавця.
  2. Група два навпаки віддає перевагу соцпакету. Складається вона, здебільшого, із людей «у віці», які займають невисокі пости. Зарплата для них, безумовно, важлива, але є й інші пріоритети.
  3. Третя група наймолодша. На відміну від попередніх двох, очевидним є інтерес до можливостей навчання та професійного зростання. Ця категорія співробітників має хороший шанс незабаром поповнити першу групу.

Таким чином, плануючи кампанію запровадження ефективних методів управління персоналом, очевидно, що в нашій ситуації можна збільшити соцпакет у другої групи на шкоду, наприклад, зарплаті.

Якщо говорити про те, яких фахівців слід спрямовувати на навчання, можна однозначно рекомендувати звернути увагу на третю групу.

Джерело: http://www.nickart.spb.ru/analysis/cluster.php

Особливості кластерного аналізу

Кластер - це вартість активу у певний проміжок часу, у якому відбувалися угоди. Результуючий обсяг купівлі та продажу вказаний цифрою всередині кластера.

Бар будь-якого ТФ вміщує,як правило, кілька кластерів. Це дозволяє детально бачити обсяги покупок, продажів та їх баланс у кожному окремому барі, за кожним ціновим рівнем.


Зміна ціни одного активу неминуче тягне за собою ланцюжок цінових рухів та на інших інструментах.

Увага!

У більшості випадків розуміння трендового руху відбувається вже в той момент, коли воно бурхливо розвивається, і вхід у ринок по тренду чреватий попаданням у корекційну хвилю.

Для успішних угод необхідно розуміти поточну ситуацію та вміти передбачати майбутні цінові рухи. Цьому можна навчитися, аналізуючи графік кластерів.

За допомогою кластерного аналізу можна бачити активність учасників ринку всередині навіть найменшого цінового бару. Це найточніший і детальний аналіз, оскільки показує точковий розподіл обсягів угод за кожним ціновим рівнем активу.

На ринку постійно йде протистояння інтересів продавців та покупців. І кожен найменший рух ціни (тік), є тим ходом до компромісу – цінового рівня - який у Наразівлаштовує обидві сторони.

Але ринок динамічний, кількість продавців та покупців безперервно змінюється. Якщо в один момент часу на ринку домінували продавці, то наступного моменту, найімовірніше, будуть покупці.

Не однаковим виявляється і кількість вчинених угод на сусідніх цінових рівнях. І все ж таки спочатку ринкова ситуація відбивається на сумарних обсягах угод, а вже потім на ціні.

Якщо бачити дії домінуючих учасників ринку (продавців чи покупців), можна прогнозувати і саме рух ціни.

Для успішного застосування кластерного аналізу насамперед слід зрозуміти, що таке кластер та дельта.


Кластером називають ціновий рух, який розбитий на рівні, на яких відбувалися угоди з відомими обсягами. Дельта показує різницю між покупками та продажами, що відбуваються у кожному кластері.

Кожен кластер, або група дельт, дозволяє розібратися в тому, чи покупці або продавці переважають на ринку в даний момент часу.

Достатньо лише підрахувати загальну дельту, просумувавши продажі та покупки. Якщо дельта негативна, то ринок перепроданий, у ньому надлишковими є угоди продаж. Коли ж дельта є позитивною, то на ринку явно домінують покупці.

Сама дельта може набувати нормального або критичного значення. Значення обсягу дельти понад нормальний у кластері виділяють червоним кольором.

Якщо дельта помірна, це характеризує флетовий стан над ринком. При нормальному значенні дельти над ринком спостерігається трендове рух, тоді як критичне значення завжди є провісником розвороту ціни.

Торгівля на Форекс за допомогою КА

Для отримання максимального прибутку потрібно вміти визначити перехід дельти з помірного рівня нормальний. Адже в цьому випадку можна помітити початок переходу від флету до трендового руху і зуміти отримати найбільший прибуток.

Найбільш наочним є кластерний графік на ньому можна побачити значні рівні накопичення та розподілу обсягів, побудувати рівні підтримки та опору. Це дозволяє трейдеру знайти точний вхід до угоди.

Використовуючи дельту, можна судити про переважання ринку продажу чи покупок. Кластерний аналіз дозволяє спостерігати угоди та відстежувати їх обсяги всередині бару будь-якого ТФ.

Особливо це важливо при підході до значних рівнів підтримки чи опору. Судження щодо кластерів - ключ до розуміння ринку.

Джерело: http://orderflowtrading.ru/analitika-rynka/obemy/klasternyy-analiz/

Області та особливості застосування аналізу кластерів

Термін кластерний аналіз (вперше ввів Tryon, 1939) насправді включає набір різних алгоритмів класифікації.

Загальне питання, що задається дослідниками у багатьох галузях, у тому, як організувати спостережувані дані у наочні структури, тобто. розгорнути таксономії.

Відповідно до сучасною системою, прийнятої в біології, людина належить до приматів, ссавців, амніотів, хребетних та тварин.

Зауважте, що в цій класифікації чим вище рівень агрегації, тим менше подібності між членами у відповідному класі.

Людина має більше подібності з іншими приматами (тобто з мавпами), ніж із «віддаленими» членами сімейства ссавців (наприклад, собаками) тощо.

Зауважимо, що попередні міркування посилаються на алгоритми кластеризації, але нічого не згадують про перевірку статистичної значущості.

Фактично, кластерний аналіз є не так звичайним статистичним методом, як «набором» різних алгоритмів «розподілу об'єктів за кластерами».

Існує думка, що на відміну від багатьох інших статистичних процедур, методи кластерного аналізу використовуються в більшості випадків тоді, коли ви не маєте якихось апріорних гіпотез щодо класів, але все ще перебуваєте в описовій стадії дослідження.

Увага!

Слід розуміти, що кластерний аналіз визначає «найбільш можливе рішення».

Тому перевірка статистичної значимості насправді тут не застосовна, навіть у випадках, коли відомі p-рівні (як, наприклад, методу K середніх).

Техніка кластеризації застосовується у найрізноманітніших областях. Хартіган (Hartigan, 1975) дав чудовий огляд багатьох опублікованих досліджень, що містять результати, отримані методами кластерного аналізу.

Наприклад, в галузі медицини кластеризація захворювань, лікування захворювань або симптомів захворювань призводить до таксономій, що широко використовуються.

В області психіатрії правильна діагностика кластерів симптомів, таких як параноя, шизофренія тощо, є вирішальною для успішної терапії. В археології за допомогою кластерного аналізу дослідники намагаються встановити таксономію кам'яних знарядь, похоронних об'єктів тощо.

Відомі широкі застосування кластерного аналізу маркетингових дослідженнях. Загалом, щоразу, коли необхідно класифікувати «гори» інформації до придатним для подальшої обробки груп, кластерний аналіз виявляється дуже корисним та ефективним.

Деревоподібна кластеризація

Наведений розділ Основна мета приклад пояснює мета алгоритму об'єднання (древовидної кластеризації).

Призначення цього алгоритму полягає в об'єднанні об'єктів (наприклад, тварин) у досить великі кластери, використовуючи певну міру подібності або відстань між об'єктами. Типовим результатом такої кластеризації є ієрархічне дерево.

Розглянемо горизонтальну деревоподібну діаграму. Діаграма починається з кожного об'єкта у класі (у лівій частині діаграми).

Тепер уявімо, що поступово (дуже малими кроками) ви «послаблюєте» ваш критерій про те, які об'єкти є унікальними, а які ні.

Іншими словами, ви знижуєте поріг, що стосується рішення про об'єднання двох або більше об'єктів в один кластер.

В результаті, ви пов'язуєте разом все більше і більше об'єктів і агрегує (об'єднуєте) все більше і більше кластерів, що складаються з елементів, що все сильніше розрізняються.

Остаточно, на останньому етапі всі об'єкти об'єднуються разом. На цих діаграмах горизонтальні осі є відстанню об'єднання (у вертикальних деревоподібних діаграмах вертикальні осі представляють відстань об'єднання).

Так, для кожного вузла у графі (там де формується новий кластер) ви можете бачити величину відстані, для якої відповідні елементи зв'язуються в новий єдиний кластер.

Коли дані мають ясну «структуру» у термінах кластерів об'єктів, подібних між собою, тоді ця структура, швидше за все, має бути відображена в ієрархічному дереві різними гілками.

В результаті успішного аналізу методом об'єднання з'являється можливість виявити кластери (гілки) та інтерпретувати їх.

Об'єднання або метод деревоподібної кластеризації використовується для формування кластерів відмінності або відстані між об'єктами. Ці відстані можуть визначатися в одновимірному або багатовимірному просторі.

Наприклад, якщо ви повинні кластеризувати типи їжі в кафе, то можете взяти до уваги кількість калорій, що містяться в ній, ціну, суб'єктивну оцінку смаку і т.д.

Найбільш прямий шлях обчислення відстаней між об'єктами у багатовимірному просторі полягає у обчисленні евклідових відстаней.

Якщо ви маєте дво- або тривимірний простір, то цей захід є реальною геометричною відстанню між об'єктами в просторі (начебто відстані між об'єктами виміряні рулеткою).

Однак алгоритм об'єднання не «дбає» про те, чи є «надані» для цієї відстані справжніми або деякими іншими похідними заходами відстані, що є значущим для дослідника; і завдання дослідників є підібрати правильний метод для специфічних застосувань.

Євклідова відстань.Це, мабуть, найбільш загальний тип відстані. Воно просто є геометричною відстанню в багатовимірному просторі і обчислюється таким чином:

Зауважимо, що евклідова відстань (і його квадрат) обчислюється за вихідними, а не за стандартизованими даними.

Це звичайний спосіб обчислення, який має певні переваги (наприклад, відстань між двома об'єктами не змінюється при введенні в аналіз нового об'єкта, який може виявитися викидом).

Увага!

Тим не менш, на відстані можуть сильно впливати різницю між осями, за координатами яких обчислюються ці відстані. Наприклад, якщо одна з осей виміряна в сантиметрах, а ви потім переведете її в міліметри (помножуючи значення на 10), то остаточна відстань евкліда (або квадрат евклідова відстані), що обчислюється по координатах, сильно зміниться, і, як наслідок, результати кластерного аналізу можуть відрізнятися від попередніх.

Квадрат евклідова відстані.Іноді може виникнути бажання звести в квадрат стандартну евклідову відстань, щоб надати більших ваг більш віддаленим один від одного об'єктам.

Ця відстань обчислюється так:

Відстань міських кварталів (манхеттенська відстань).Ця відстань є просто середнім різницями по координатам.

Здебільшого цей захід відстані призводить до таких самих результатів, як і для звичайної відстані Евкліда.

Однак зазначимо, що для цього заходу вплив окремих великих різниць (викидів) зменшується (оскільки вони не зводяться у квадрат). Манхеттенська відстань обчислюється за такою формулою:

Відстань Чебишева.Ця відстань може виявитися корисною, коли бажають визначити два об'єкти як «різні», якщо вони відрізняються за якоюсь однією координатою (якимось одним виміром). Відстань Чебишева обчислюється за такою формулою:

Ступінна відстань.Іноді бажають прогресивно збільшити або зменшити вагу, що відноситься до розмірності, на яку відповідні об'єкти сильно відрізняються.

Це може бути досягнуто з використанням статечної відстані. Ступінна відстань обчислюється за формулою:

де r і p - Параметри, що визначаються користувачем. Декілька прикладів обчислень можуть показати, як «працює» цей захід.

Параметр p відповідає за поступове зважування різниць за окремими координатами, параметр r відповідальний за прогресивне зважування великих відстаней між об'єктами. Якщо обидва параметри - r і p, рівні двом, то ця відстань збігається з відстанню Евкліда.

Відсоток незгоди.Цей захід використовується в тих випадках, коли дані є категоріальними. Ця відстань обчислюється за такою формулою:

Правила об'єднання чи зв'язку

На першому кроці, коли кожен об'єкт є окремим кластером, відстані між цими об'єктами визначаються обраним заходом.

Однак, коли зв'язуються разом кілька об'єктів, виникає питання, як слід визначити відстані між кластерами?

Іншими словами, потрібне правило об'єднання або зв'язку для двох кластерів. Тут є різні можливості: наприклад, ви можете зв'язати два кластери разом, коли будь-які два об'єкти у двох кластерах ближче другдо друга, ніж відповідна відстань зв'язку.

Іншими словами, ви використовуєте "правило найближчого сусіда" для визначення відстані між кластерами; цей метод називається методом одиночного зв'язку.

Це будує «волокнисті» кластери, тобто. кластери, «зчеплені разом» лише окремими елементами, що випадково опинилися ближче за решту один до одного.

Як альтернативу ви можете використовувати сусідів у кластерах, які знаходяться далі за решту пар об'єктів один від одного. Цей метод називається метод повного зв'язку.

Існує також безліч інших методів об'єднання кластерів, подібних до тих, що були розглянуті.

Одиночний зв'язок (метод найближчого сусіда). Як було описано вище, у цьому методі відстань між двома кластерами визначається відстанню між двома найбільш близькими об'єктами (найближчими сусідами) у різних кластерах.

Це правило має, у певному сенсі, нанизувати об'єкти разом на формування кластерів, і результуючі кластери мають тенденцію бути представленими довгими «ланцюжками».

Повний зв'язок (метод найвіддаленіших сусідів).У цьому методі відстані між кластерами визначаються найбільшою відстанню між будь-якими двома об'єктами в різних кластерах (тобто найбільш віддаленими сусідами).

Незважене попарне середнє.У цьому методі відстань між двома різними кластерами обчислюється як середня відстань між усіма парами об'єктів у них.

Метод ефективний, коли об'єкти насправді формують різні «гаї», проте він працює однаково добре і у випадках протяжних («ланцюжкового» типу) кластерів.

Зазначимо, що у своїй книзі Сніт і Сокол (Sneath, Sokal, 1973) вводять абревіатуру UPGMA для посилання на цей метод як на метод невваженого попарного арифметичного середнього — unweighted pair-group method using arithmetic averages.

Зважене попарне середнє.Метод ідентичний методу невваженого попарного середнього, за винятком того, що при обчисленнях розмір відповідних кластерів (тобто кількість об'єктів, що містяться в них) використовується як ваговий коефіцієнт.

Тому запропонований метод може бути використаний (скоріше навіть, ніж попередній), коли передбачаються нерівні розміри кластерів.

У книзі Сніта і Сокела (Sneath, Sokal, 1973) вводиться абревіатура WPGMA для посилання на цей метод, як на метод зваженого арифметичного попарного середнього — weighted pair-group method using arithmetic averages.

Незважений центроїдний метод. У цьому методі відстань між двома кластерами визначається як відстань між їхніми центрами тяжкості.

Увага!

Сніт і Сокел (Sneath and Sokal (1973)) використовують абревіатуру UPGMC для посилання на цей метод, як на метод невваженого попарного центроїдного усереднення - unweighted pair-group method using the centroid average.

Виважений центроїдний метод (медіана). той метод ідентичний попередньому, крім те, що з обчислення використовуються ваги для обліку різниці між розмірами кластерів (тобто числами об'єктів у них).

Тому, якщо є (або підозрюються) значні відмінності в розмірах кластерів, цей метод виявляється кращим за попередній.

Сніт і Сокел (Sneath, Sokal 1973) використовували абревіатуру WPGMC для посилань на нього, як метод невиваженого попарного центроїдного усереднення - weighted pair-group method using the centroid average.

Спосіб Варда.Цей метод відрізняється від інших методів, оскільки він використовує методи дисперсійного аналізу для оцінки відстаней між кластерами.

Метод мінімізує суму квадратів (SS) для будь-яких двох (гіпотетичних) кластерів, які можуть бути сформовані на кожному кроці.

Подробиці можна знайти у роботі Варда (Ward, 1963). У цілому нині метод є дуже ефективним, але він прагне створювати кластери мінімального розміру.

Раніше цей метод обговорювався в термінах «об'єктів», які мають бути кластеризовані. У всіх інших видах аналізу цікавий дослідника питання зазвичай виявляється у термінах спостережень чи змінних.

Виявляється, що кластеризація як за спостереженнями, так і змінними може призвести до досить цікавих результатів.

Наприклад, уявіть, що медичний дослідник збирає дані про різні характеристики (змінні) станів пацієнтів (спостережень), що страждають на серцеві захворювання.

Дослідник може захотіти кластеризувати спостереження (пацієнтів) для визначення кластерів пацієнтів із подібними симптомами.

У той самий час дослідник може захотіти кластеризувати змінні визначення кластерів змінних, які пов'язані з подібним фізичним станом.

Після цього обговорення, що відноситься до того, кластеризувати спостереження або змінні, можна поставити запитання, а чому б не проводити кластеризацію в обох напрямках?

Кластерний аналіз містить ефективну двовходову процедуру об'єднання, що дозволяє зробити саме це.

Однак двовходове об'єднання використовується (щодо рідко) в обставинах, коли очікується, що і спостереження та змінні одночасно роблять внесок у виявлення осмислених кластерів.

Так, повертаючись до попереднього прикладу, можна припустити, що медичному досліднику потрібно виділити кластери пацієнтів, подібних до певних кластерів характеристик фізичного стану.

Труднощі з інтерпретацією отриманих результатів виникає внаслідок того, що подібності між різними кластерами можуть походити з (або бути причиною) деякої різниці підмножин змінних.

Тому кластери, що виходять, є за своєю природою неоднорідними. Можливо, це здається спочатку трохи туманним; насправді, у порівнянні з іншими описаними методами кластерного аналізу, двовходове об'єднання є найімовірніше найменш часто використовуваним методом.

Однак деякі дослідники вважають, що він пропонує потужний засіб розвідувального аналізу даних (за більш детальною інформацієюви можете звернутися до опису цього методу Хартіган (Hartigan, 1975)).

Метод K середніх

Цей метод кластеризації суттєво відрізняється від таких агломеративних методів, як Об'єднання (древоподібна кластеризація) та двовходове об'єднання. Припустимо, ви вже маєте гіпотези щодо кількості кластерів (за спостереженнями чи змінними).

Ви можете вказати системі утворити три кластери так, щоб вони були настільки різні, наскільки це можливо.

Це саме той тип завдань, що вирішує алгоритм методу K середніх. У випадку метод K середніх будує рівно K різних кластерів, розташованих на можливо великих відстанях друг від друга.

У прикладі з фізичним станом, медичний дослідник може мати «підозру» зі свого клінічного досвіду, Що його пацієнти в основному потрапляють у три різні категорії.

Увага!

Якщо це так, то середні різні міри фізичних параметрів для кожного кластера будуть давати кількісний спосіб представлення гіпотез дослідника (наприклад, пацієнти в кластері 1 мають високий параметр 1, менший параметр 2 і т.д.).

З обчислювальної точки зору ви можете розглядати цей метод як дисперсійний аналіз «навпаки». Програма починає з K випадково вибраних кластерів, а потім змінює належність об'єктів до них, щоб:

  1. мінімізувати мінливість усередині кластерів,
  2. максимізувати мінливість між кластерами.

Даний спосіб аналогічний методу «дисперсійний аналіз (ANOVA) навпаки» у тому сенсі, що критерій значущості в дисперсійному аналізі порівнює міжгрупову мінливість із внутрішньогруповою під час перевірки гіпотези про те, що середні групи відрізняються один від одного.

У кластеризації методом K середня програма переміщає об'єкти (тобто спостереження) з одних груп (кластерів) в інші для того, щоб отримати найбільш значущий результат при проведенні дисперсійного аналізу (ANOVA).

Зазвичай, коли результати кластерного аналізу методом K середніх отримані, можна розрахувати середні кожного кластера з кожного виміру, щоб оцінити, наскільки кластери різняться друг від друга.

В ідеалі ви повинні отримати середні, що сильно відрізняються, для більшості, якщо не для всіх вимірювань, що використовуються в аналізі.

Джерело: http://www.biometrica.tomsk.ru/textbook/modules/stcluan.html

Класифікація об'єктів за ознаками, що їх характеризують

Кластерний аналіз (cluster analysis) – сукупність багатовимірних статистичних методів класифікації об'єктів за ознаками, що характеризують їх, поділ сукупності об'єктів на однорідні групи, близькі за визначальним критеріям, виділення об'єктів певної групи.

Кластер – це групи об'єктів, виділені у результаті кластерного аналізу з урахуванням заданої міри подібності чи відмінностей між об'єктами.

Об'єкт – це конкретні предмети дослідження, які потрібно класифікувати. Об'єктами при класифікації виступають, зазвичай, спостереження. Наприклад, споживачі продукції, країни чи регіони, товари тощо.

Хоча можна проводити кластерний аналіз і за змінними. Класифікація об'єктів у багатовимірному кластерному аналізі відбувається за кількома ознаками одночасно.

Це може бути як кількісні, і категоріальні змінні залежно від методу кластерного аналізу. Отже, основна мета кластерного аналізу – перебування груп подібних об'єктів у вибірці.

Сукупність багатовимірних статистичних методів кластерного аналізу можна поділити на ієрархічні методи (агломеративні та дивізімні) та неієрархічні (метод k-середніх, двоетапний кластерний аналіз).

Проте загальноприйнятої класифікації методів немає, і методам кластерного аналізу іноді відносять також методи побудови дерев рішень, нейронних мереж, дискримінантного аналізу, логістичної регресії.

Сфера використання кластерного аналізу, через його універсальність, дуже широка. Кластерний аналіз застосовують в економіці, маркетингу, археології, медицині, психології, хімії, біології, державному управлінні, філології, антропології, соціології та інших галузях.

Ось кілька прикладів застосування кластерного аналізу:

  • медицина - класифікація захворювань, їх симптомів, способів лікування; класифікація груп пацієнтів;
  • маркетинг – завдання оптимізації асортиментної лінійки компанії, сегментація ринку за групами товарів чи споживачів, визначення потенційного споживача;
  • соціологія – розбиття респондентів на однорідні групи;
  • психіатрія - коректна діагностика груп симптомів є вирішальною для успішної терапії;
  • біологія – класифікація організмів за групою;
  • економіка - класифікація суб'єктів РФ з інвестиційної привабливості.

Джерело: http://www.statmethods.ru/konsalting/statistics-metody/121-klasternyj-analiz.html

Загальні відомості про кластерний аналіз

Кластерний аналіз включає набір різних алгоритмів класифікації. Загальне питання, що задається дослідниками у багатьох областях, полягає в тому, як організувати дані в наочні структури.

Наприклад, біологи ставлять за мету розбити тварин на різні види, щоб змістовно описати різницю між ними.

Завдання кластерного аналізу полягає у розбиття вихідної сукупності об'єктів групи схожих, близьких між собою об'єктів. Ці групи називають кластерами.

Іншими словами, кластерний аналіз - це один із способів класифікації об'єктів за їх ознаками. Бажано, щоб результати класифікації мали змістовну інтерпретацію.

Результати, отримані методами кластерного аналізу, застосовують у різних областях. У маркетингу – це сегментація конкурентів та споживачів.

У психіатрії для успішної терапії є вирішальною правильна діагностика симптомів, таких як параноя, шизофренія і т.д.

У менеджменті важлива класифікація постачальників, виявлення подібних виробничих ситуацій, у яких виникає шлюб. У соціології – розбиття респондентів на однорідні групи. У портфельному інвестуванні важливо згрупувати цінні папери за подібністю в тенденції прибутковості, щоб скласти на основі отриманих відомостей про фондовому ринкураціонального інвестиційного портфеля, що дозволяє максимізувати прибуток від вкладень при заданому ступені ризику.

Загалом, щоразу, коли необхідно класифікувати велику кількість інформації такого роду і представляти її у вигляді, придатному для подальшої обробки, кластерний аналіз виявляється дуже корисним та ефективним.

Кластерний аналіз дозволяє розглядати досить великий обсяг інформації та сильно стискати великі масиви соціально-економічної інформації, робити їх компактними та наочними.

Увага!

Велике значення кластерний аналіз має стосовно сукупностей часових рядів, що характеризують економічний розвиток(наприклад, загальногосподарської та товарної кон'юнктури).

Тут можна виділяти періоди, коли значення відповідних показників були досить близькими, а також визначати групи часових рядів, динаміка яких схожа.

У завдання соціально-економічного прогнозування дуже перспективне поєднання кластерного аналізу з іншими кількісними методами (наприклад, з регресійним аналізом).

Переваги і недоліки

Кластерний аналіз дозволяє провести об'єктивну класифікацію будь-яких об'єктів, які охарактеризовані низкою ознак. З цього можна отримати низку переваг:

  1. Отримані кластери можна інтерпретувати, тобто описувати, які власне групи існують.
  2. Окремі кластери можна вибраковувати. Це корисно в тих випадках, коли при наборі даних допущені певні помилки, внаслідок яких значення показників окремих об'єктів різко відхиляються. При застосуванні кластерного аналізу такі об'єкти потрапляють до окремого кластеру.
  3. Для подальшого аналізу можуть бути обрані тільки ті кластери, які мають цікаві характеристики.

Як і будь-який інший метод, кластерний аналіз має певні недоліки та обмеження. Зокрема, склад і кількість кластерів залежить від обраних критеріїв розбиття.

При зведенні вихідного масиву даних до компактнішому виду можуть виникати певні спотворення, і навіть можуть губитися індивідуальні риси окремих об'єктів рахунок заміни їх характеристиками узагальнених значень параметрів кластера.

Методи

Нині відомо понад сотню різних алгоритмів кластеризації. Їхня різноманітність пояснюється не лише різними обчислювальними методами, а й різними концепціями, що лежать в основі кластеризації.

У пакеті Statistica реалізуються такі методи кластеризації.

  • Ієрархічні алгоритми – деревоподібна кластеризація. В основі ієрархічних алгоритмів лежить ідея послідовної кластеризації. На початковому етапі кожен об'єкт розглядається як окремий кластер. На наступному кроці деякі з найближчих кластерів будуть об'єднуватися в окремий кластер.
  • Метод К-середніх. Цей метод використовується найчастіше. Він належить до групи про еталонних методів кластерного аналізу. Число кластерів К задається користувачем.
  • Двохвхідне об'єднання. При використанні цього методу кластеризація проводиться одночасно як за змінними (стовпцями), так і за результатами спостережень (рядків).

Процедура двовходового об'єднання проводиться у випадках, коли очікується, що одночасна кластеризація по змінним і спостереженням дозволить отримати осмислені результати.

Результатами процедури є описові статистики змінних і спостережень, а також двовимірна кольорова діаграма, на якій кольором відзначаються значення даних.

За розподілом кольору можна скласти уявлення про однорідні групи.

Нормування змінних

Розбиття вихідної сукупності об'єктів на кластери пов'язане з обчисленням відстаней між об'єктами та вибором об'єктів, відстань між якими найменша з усіх можливих.

Найчастіше використовується звична всім нам евклідова (геометрична) відстань. Ця метрика відповідає інтуїтивним уявленням про близькість об'єктів у просторі (начебто відстані між об'єктами виміряні рулеткою).

Але для даної метрики на відстань між об'єктами можуть сильно впливати зміни масштабів (одиниць виміру). Наприклад, якщо одна з ознак виміряна в міліметрах, а потім його значення переведені в сантиметри, евклідова відстань між об'єктами сильно зміниться. Це призведе до того, що результати кластерного аналізу значно відрізняються від попередніх.

Якщо змінні виміряні в різних одиницях виміру, то їх попереднє нормування, тобто перетворення вихідних даних, яке переводить їх у безрозмірні величини.

Нормування сильно спотворює геометрію вихідного простору, що може змінити результати кластеризації.

У пакеті Statistica нормування будь-якої змінної x виконується за формулою:

Для цього потрібно клацнути правою кнопкою миші на ім'я змінної і в меню вибрати послідовність команд: Fill / Standardize Block / Standardize Columns. Значення нормованої змінної стануть рівними нулю, а дисперсії – одиниці.

Метод К-середніх у програмі Statistica

Метод K-середніх (K-means) розбиває безліч об'єктів на задане число K різних кластерів, розташованих на можливо більших відстанях один від одного.

Зазвичай, коли результати кластерного аналізу методом K-середніх отримані, можна розрахувати середні кожного кластера по кожному виміру, щоб оцінити, наскільки кластери різняться друг від друга.

В ідеалі ви повинні отримати середні, що сильно відрізняються, для більшості вимірювань, що використовуються в аналізі.

Значення F-статистики, отримані для кожного виміру, є іншим індикатором того, наскільки відповідний вимір добре дискримінує кластери.

Як приклад розглянемо результати опитування 17-ти працівників підприємства із задоволеності показниками якості службової кар'єри. У таблиці дано відповіді питання анкети за десятибальною шкалою (1 – мінімальний бал, 10 – максимальний).

Імена змінних відповідають відповідям такі питання:

  1. СЛЦ – поєднання особистих цілей та цілей організації;
  2. ВЗГ - відчуття справедливості в оплаті праці;
  3. ТБД – територіальна близькість до будинку;
  4. ОЕБ – відчуття економічного добробуту;
  5. КР – кар'єрне зростання;
  6. ЖСР – бажання змінити роботу;
  7. ОСБ – відчуття соціального благополуччя.

Використовуючи ці дані, необхідно розділити співробітників на групи і кожної з них виділити найефективніші важелі управління.

При цьому різницю між групами мають бути очевидними, а всередині групи респонденти мають бути максимально схожими.

Сьогодні більшість соціологічних опитувань дає лише відсоткове співвідношення голосів: вважається більшість позитивно відповіли, чи відсоток незадоволених, але системно це питання не розглядають.

Найчастіше опитування не показує тенденцію зміни ситуації. У деяких випадках необхідно вважати не кількість людей, які «за» чи «проти», а відстань, або міру подібності, тобто визначати групи людей, які думають приблизно однаково.

Для виявлення на основі даних опитування деяких реальних взаємозв'язків ознак і породження на цій основі їх типології можна використовувати процедури кластерного аналізу.

Увага!

Наявність будь-яких апріорних гіпотез соціолога під час роботи процедур кластерного аналізу перестав бути необхідною умовою.

У програмі Statistica кластерний аналіз виконується в такий спосіб.

При виборі кількості кластерів керуйтеся таким: кількість кластерів, по можливості, не повинна бути занадто великою.

Відстань, на якій об'єднувалися об'єкти даного кластера, має бути, по можливості, набагато меншою за відстань, на якій до цього кластеру приєднується ще щось.

При виборі кількості кластерів найчастіше є кілька правильних рішень.

Нас цікавить, наприклад, як співвідносяться відповіді на запитання анкети у рядових співробітників та керівництва підприємства. Тому вибираємо K=2. Для подальшої сегментації можна збільшити кількість кластерів.

  1. вибрати спостереження з максимальною відстанню між центрами кластерів;
  2. розсортувати відстані та вибрати спостереження із постійними інтервалами (установка за замовчуванням);
  3. взяти перші спостереження за центри та приєднувати інші об'єкти до них.

Для наших цілей підходить варіант 1).

Багато алгоритмів кластеризації часто «нав'язують» даним не властиву їм структуру і дезорієнтують дослідника. Тому необхідно застосовувати кілька алгоритмів кластерного аналізу і робити висновки на підставі загальної оцінкирезультатів роботи алгоритмів

Результати аналізу можна подивитися в діалоговому вікні:

Якщо вибрати вкладку Graph of means, буде побудовано графік координат центрів кластерів:


Кожна ламана лінія цьому графіку відповідає одному з кластерів. Кожне розподіл горизонтальної осі графіка відповідає одній з змінних, включених до аналізу.

Вертикальна вісь відповідає середнім значенням змінних для об'єктів, що входять до кожного з кластерів.

Можна відзначити, що проглядаються суттєві відмінності щодо двох груп людей до службової кар'єри майже з усіх питань. Лише в одному питанні спостерігається повна одностайність - у відчутті соціального благополуччя (ОСБ), вірніше, відсутності такого (2,5 бали з 10).

Можна припустити, що кластер 1 відображає робочих, кластер 2 - керівництво. Керівники більше задоволені кар'єрним зростанням (КР), поєднанням особистих цілей та цілей організації (СЛЦ).

У них вищий рівень відчуття економічного добробуту (ОЕБ) та відчуття справедливості в оплаті праці (ОСВ).

Територіальна близькість до будинку (ТБД) хвилює їх менше, ніж робітників, ймовірно через менші проблеми з транспортом. Також у керівників менше бажання змінити роботу (ЖСР).

Незважаючи на те, що працівники поділяються на дві категорії, вони однаково відповідають на більшість питань. Іншими словами, якщо щось не влаштовує загальну групупрацівників, те саме не влаштовує і вище керівництво, і навпаки.

Узгодження графіків дозволяє зробити висновки у тому, що добробут однієї групи відбивається на добробуті інший.

Кластер 1 незадоволений територіальною близькістю до будинку. Даною групою є основна частина працівників, які здебільшого приходять на підприємство з різних боків міста.

Отже, можна запропонувати головному керівництву направити частину прибутку для будівництва житла для працівників підприємства.

Проглядаються суттєві відмінності щодо двох груп людей до службової кар'єри. Ті співробітники, яких влаштовує кар'єрне зростання, у яких високо збіг особистих цілей та цілей організації, не мають бажання змінити роботу та відчувають задоволеність результатами праці.

І навпаки, працівників, які бажають змінити роботу та незадоволених результатами праці, не влаштовують викладені показники. Вищому керівництву слід звернути особливу увагуна ситуацію, що склалася.

Результати дисперсійного аналізу за кожною ознакою виводяться натисканням кнопки Analysis of variance.

Виводяться суми квадратів відхилення об'єктів від центрів кластерів (SS Within) та суми квадратів відхилень між центрами кластерів (SS Between), значення F-статистики та рівні значимості р.

Увага!

Для нашого прикладу рівні значущості для двох змінних досить великі, що малою кількістю спостережень. У повному варіанті дослідження, з яким можна ознайомитися в роботі, гіпотези про рівність середніх центрів кластерів відхиляються на рівнях значимості менше 0,01.

Кнопка Save classifications and distances виводить номери об'єктів, що входять до кожного кластеру та відстані об'єктів до центру кожного кластера.

У таблиці показані номери спостережень (CASE_NO), складові кластери з номерами CLUSTER та відстані від центру кожного кластера (DISTANCE).

Інформація про належність об'єктів до кластерів може бути записана у файл та використовуватись у подальшому аналізі. У цьому прикладі порівняння отриманих результатів з анкетами показало, що кластер 1 складається, переважно, із рядових працівників, а кластер 2 – з менеджерів.

Таким чином, можна помітити, що при обробці результатів анкетування кластерний аналіз виявився потужним методом, що дозволяє зробити висновки, яких неможливо дійти, побудувавши гістограму середніх або врахувавши відсоткове співвідношення задоволених різними показниками якості трудового життя.

Деревоподібна кластеризація - це приклад ієрархічного алгоритму, принцип роботи якого полягає в послідовному об'єднанні в кластер спочатку найближчих, а потім і все більш віддалених один від одного елементів.

Більшість цих алгоритмів виходить з матриці подібності (відстаней), і кожен окремий елемент розглядається спочатку як окремий кластер.

Після завантаження модуля кластерного аналізу та вибору Joining (tree clustering), у вікні введення параметрів кластеризації можна змінити такі параметри:

  • Вихідні дані (Input). Вони можуть бути у вигляді матриці досліджуваних даних (Raw data) та у вигляді матриці відстаней (Distance matrix).
  • Кластеризацію (Cluster) спостережень (Cases (raw)) чи змінних (Variable (columns)), що описують стан об'єкта.
  • Заходи відстані (Distance measure). Тут можливий вибір наступних заходів: евклідова відстань (Euclidean distances), квадрат евклідова відстані (Squared Euclidean distances), відстань міських кварталів (манхеттенська відстань, City-block (Manhattan) distance), відстань Чебишева (Mech ...), Відсоток незгоди (Percent disagreement).
  • Метод кластеризації (Amalgamation (linkage) rule). Тут можливі наступні варіанти: одиночний зв'язок (метод найближчого сусіда) (Single Linkage), повний зв'язок (метод найвіддаленіших сусідів) (Complete Linkage), невважене попарне середнє (Unweighted pair-group average), зважене попарне середнє (Weighted pair-group average ), невважений центроїдний метод (Unweighted pair-group centroid), зважений центроїдний метод (медіана) (Weighted pair-group centroid (median)), метод Уорда (Ward's method).

Через війну кластеризації будується горизонтальна чи вертикальна дендрограмма – графік, у якому визначено відстані між об'єктами і кластерами за її послідовному об'єднанні.

Деревоподібна структура графіка дозволяє визначити кластери залежно від обраного порога – заданої відстані між кластерами.

Крім того, виводиться матриця відстаней між вихідними об'єктами (Distance matrix); середні та середньоквадратичні відхилення для кожного вихідного об'єкта (Distiptive statistics).

Для розглянутого прикладу проведемо кластерний аналіз змінних із установками за замовчуванням. Результуюча дендрограма зображена на малюнку.


На вертикальній осі дендрограми відкладаються відстані між об'єктами та між об'єктами та кластерами. Так, відстань між змінними ОЕБ та ВЗГ дорівнює п'яти. Ці змінні першому кроці об'єднуються в один кластер.

Горизонтальні відрізки дендрограми проводяться на рівнях, що відповідають граничним значенням відстаней, що вибираються для даного кроку кластеризації.

З графіка видно, що «бажання змінити роботу» (ЖСР) утворює окремий кластер. Взагалі, бажання звалити куди завгодно відвідує всіх однаково. Далі окремий кластер становить питання територіальної близькості до будинку (ТБД).

За ступенем важливості він стоїть на другому місці, що підтверджує висновок щодо необхідності будівництва житла, зроблений за результатами дослідження методом K-середніх.

Відчуття економічного добробуту (ОЕБ) та справедливості в оплаті праці (ОСВ) об'єднані – це блок економічних питань. Кар'єрне зростання (КР) та поєднання особистих цілей та цілей організації (СЛЦ) також об'єднані.

Інші методи кластеризації, а також вибір інших видів відстаней не призводить до суттєвою зміноюдендрограми.

Результати:

  1. Кластерний аналіз є потужним засобом розвідувального аналізу даних та статистичних досліджень у будь-якій предметній галузі.
  2. У програмі Statistica реалізовані як ієрархічні, і структурні методи кластерного аналізу. Переваги цього статистичного пакета обумовлені їх графічними можливостями. Передбачено двовимірні та тривимірні графічні відображення отриманих кластерів у просторі досліджуваних змінних, а також результати роботи ієрархічної процедури групування об'єктів.
  3. Необхідно застосовувати кілька алгоритмів кластерного аналізу та робити висновки на підставі загальної оцінки результатів роботи алгоритмів.
  4. Кластерний аналіз можна вважати успішним, якщо він виконаний різними способами, проведено порівняння результатів та знайдено загальні закономірності, а також знайдено стабільні кластери незалежно від способу кластеризації.
  5. Кластерний аналіз дозволяє виявити проблемні ситуації та намітити шляхи їх вирішення. Отже, цей метод непараметричної статистики можна як складову частину системного аналізу.

Положення, отримані з чисто
логічних засобів, при порівнянні
з дійсністю виявляються
абсолютно порожніми.
А. Ейнштейн

Як правильно провести аналіз та класифікацію даних? Навіщо потрібні графіки та діаграми?

Урок-практикум

Мета роботи. Навчитися проводити класифікацію та аналізувати дані, отримані з тексту.

План роботи. 1. Проаналізувати текст із визначення суттєвих властивостей предмета, про який говориться. 2. Структурувати зміст тексту з виділення класів об'єктів, про які йдеться. 3. Зрозуміти роль логічних схем, графіків, діаграм для осмислення матеріалу, що вивчається, встановлення логічних зв'язків, систематизації.

Проаналізуйте текст. Для цього вам потрібно подумки визначити у тексті предмет – суттєве. Виділити, розчленувати його на складові, щоб знайти окремі елементи, ознаки, сторони цього предмета.

Іван Крамський. Д. І. Менделєєв

Чиїми портретами вчених-систематизаторів ви доповнили б цей ряд?

Портрет кульової блискавки. «Портрет загадкового феномену природи – кульової блискавки виконали спеціалісти головної геофізичної обсерваторії ім. А. І. Воєйкова, скориставшись послугами ЕОМ і., методами криміналістики. «Фоторобот» таємничої незнайомки було складено на основі даних, опублікованих у пресі за три сторіччя, підсумків дослідницьких опитувань та повідомлень очевидців різних країн.

Які ж зі своїх секретів повідомив вченим ширяючий потік енергії?

Помічають його здебільшогопід час гроз. За всіх часів зустрічалися чотири форми кульової блискавки: сфера, овал, диск, стрижень. Народження атмосферної електрики, звісно, ​​переважно виникало повітря. Однак, за даними американських опитувань, з рівною частотою блискавку можна побачити і осіла на різних предметах - телеграфних стовпах, деревах, будинках. Розміри дивовижної супутниці гроз від 15 до 40 см. Колір? Три чверті очевидців стежили за блискучими кулями червоного, жовтого та рожевого кольору.

Життя згустку електричної плазми по істині метеликова, як правило, в межах п'яти секунд. Довше за цей термін, але не більше 30 с, її бачило до 36 % очевидців. Майже завжди і кончина її була однаковою - вона мимоволі вибухала, іноді натикаючись на різні перешкоди. «Колективні портрети», зроблені спостерігачами різних часів та народів, збіглися».

Якщо ви, прочитавши текст, зуміли відповісти на питання, про що йдеться в тексті, які є основні ознаки, елементи, сторони, властивості предмета міркувань, значить, ви провели його аналіз. В даному випадку предметом, основним змістом тексту є уявлення про кульову блискавку. Властивості кульової блискавки - її зовнішній вигляд: розмір, форма, колір, а також час життя, особливості поведінки

На основі аналізу тексту визначте його логічну структуру. Запропонуйте форми роботи з цим текстом для його засвоєння, запам'ятовування, використання його як цікавого, незвичайного матеріалу у вашій подальшій навчальної роботи- у дискусіях, виступах.

ПІДКАЗКА. Можна скласти план цього тексту, його конспект, тези (узагальнення та висновки, які ви вважаєте головними думками тексту). Корисно виділити те, що є для вас новим, незнайомим у матеріалі. Можна скласти логічну схему матеріалу. Для цього, проаналізувавши текст, виділіть значущу вам інформацію, спробуйте об'єднати її в групи, показати зв'язки між цими групами.

Використання таблиць, графіків, діаграм допомагає проводити систематизацію щодо природничо-наукових предметів. Нехай у нашому розпорядженні є дані про середньомісячні денні температури за рік для Санкт-Петербурга і Сочі. Потрібно з метою виявлення будь-яких закономірностей проаналізувати та систематизувати цей матеріал.

Подаємо розрізнений набір даних у вигляді таблиці, потім у вигляді графіка та діаграми (рис. 5, 6). Знайдіть закономірності у розподілі температури. Дайте відповідь на питання:

  1. Які особливості розподілу температур по місяцях у різних містах? Чим відрізняються ці розподіли?
  2. У чому причина процесів, що призводять до такого розподілу?
  3. Чи допомогла виконати завдання систематизація матеріалу за допомогою графіка, діаграми?

Середньомісячні денні температури за один рік для Санкт-Петербурга та Сочі

Рис. 5. Графік перебігу середньомісячних денних температур протягом року для Санкт-Петербурга і Сочі

Рис. 6. Діаграма: середньомісячні денні температури за один рік у містах Санкт-Петербург та Сочі

Важливими щаблями до оволодіння методами наукового пізнання є:

  1. Логічний аналіз тексту.
  2. Упорядкування плану, схем, виділення структури матеріалу.
  3. Конспектування тексту чи написання тез.
  4. Виділення нового знання та його використання у дискусіях, виступах, у вирішенні нових завдань, проблем.

Література для додаткового читання

  1. Ейнштейн А. Без формул/А. Ейнштейн; сост. К. Кедров; пров. з англ. - М: Думка. 2003.
  2. Методологія науки та науковий прогрес. - Новосибірськ: Наука. 1981.
  3. Фейрабенд П. Вибрані праціз методології науки/П. Фейрабенд. - М: Прогрес, 1986

10.2. Інтелектуальний аналіз даних ( Data Mining )

Сфера закономірностей відрізняється від двох попередніх тим, що в ній накопичені відомості автоматично узагальнюються до інформації, яка може бути охарактеризована ЯК ЗНАННЯ.

Технологія data mining (DM) зайняла свої позиції останнім десятиліттям, отримавши центральну роль у багатьох сферах бізнесу.

    Всі ми є об'єктами застосування Data Mining десятки разів на день - починаючи від отримання поштових розсилок, конкурси в магазинах, безкоштовні газетина вулиціта закінчуючи застосуванням алгоритмів виявлення шахрайства,аналізують будь-яку покупку за кредитною карткою .

    Причина поширення методів data mining: вони дають добрі результати.Технологія дозволяє суттєво підвищити можливості організації у досягненні цілей.

    Її популярність зростає, оскільки інструменти вдосконалюються, набувають широкого застосування, дешевшають і стають простішими у використанні.

Існує два терміни, що перекладаються як інтелектуальний аналіз даних (ІАД) – це Knowledge Discovery in Databases (KDD) та Data Mining (DM).

Інтелектуальний аналіз даних– це процес пошуку в сирих даних 1) кореляцій, тенденцій, взаємозв'язків, асоціацій та закономірностей за допомогою різних 2) математичних та статистичних алгоритмів.

    Більшість методів ІАД було спочатку розроблено в рамках теорії штучного інтелекту у 1970-1080-х роках. Але вони набули поширення лише в 1990-і роки, коли проблема інтелектуалізації обробки великих і швидко зростаючих обсягів корпоративних даних зажадала їх використання як надбудови над сховищами даних.

Мета цього пошуку(стадії ІАД) -

        1) Підготувати дані у вигляді, що чітко відображає бізнес-процеси.

        2) Побудувати моделі, з яких можна прогнозувати процеси, критичні для планування бізнесу:

        • (2a) виконати перевірку та оцінку моделей;

        3) Проводити історичний аналіз даних прийняття рішень:

        • (3а) вибір та застосування моделі;

          (3б) корекція та оновлення моделей.

Класифікація задач ІАД за типами видобутої інформації

В більшості випадків класифікацію задач ІАД проводять за типами виробленої інформації. Задачі (моделі) Data Mining поділяються на 2 класи:

    (1) прогнозуючі моделіза їх допомогою здійснюється прогноз числових значень атрибутів.

    (2) описові (дескриптивні) моделі, які описують загальні закономірностіпредметної галузі.

Найяскравіший представник першого класу – завдання класифікації.

1. Класифікація- Це виявлення ознак, набору правил, що характеризують групу.

Найбільш поширене завдання ІАД. Вона дозволяє виявити ознаки, що характеризують однотипні групи об'єктів(класи), щоб за відомими значеннями цих характеристик можна було віднести новий об'єктдо одного класу.

    Типовий приклад використання класифікації - конкурентна боротьба між постачальниками товарів та послуг за певні групи клієнтів. Класифікація здатна допомогти визначити характеристики нестійких клієнтів, схильних перейти до іншого постачальника, що дозволяє знайти оптимальну стратегію їх утримання від цього кроку.за допомогою надання знижок, пільг або навіть за допомогою індивідуальної роботиз представниками "груп ризику" ).

За допомогою класифікаційної моделі вирішуються такі завдання:

    чи належить новий клієнт одного з набору існуючих класів;

    чи підходить пацієнту певний курс лікування;

    виявлення груп ненадійних клієнтів;

    визначення груп клієнтів, яким слід розсилати каталог із новою продукцією.

Як методи вирішення завдання класифікації можуть використовуватися:

      алгоритми типу Lazy-Learning, у тому числі відомі алгоритми найближчого сусіда (Nearest Neighbor) та k-найближчого сусіда (k-Nearest Neighbor),

      байєсівські мережі (Bayesian Networks) або нейронні мережі.

      класифікація за допомогою дерев розв'язків;

      класифікація методом опорних векторів;

      статистичні методи, зокрема лінійна регресія;

      класифікація CBR-методом;

      класифікація за допомогою генетичних алгоритмів

Для проведення класифікації за допомогою математичних методівнеобхідно мати формальний опис об'єкту, Яким можна оперувати, використовуючи математичний апарат класифікації Таким описом зазвичай виступає база даних. Кожен об'єкт (запис бази даних) несе інформацію про деяку властивість об'єкта. Набір вихідних даних розбивають на дві множини: навчальне та тестове.

        Навчальна множина (trainingset) - безліч, що включає дані, що використовуються для навчання (конструювання) моделі.

        Тестове (testset) безлічвикористовується для перевірки працездатності моделі.

Поділ на навчальну та тестову множини здійснюється шляхом поділу вибірки у певній пропорції, наприклад навчальна множина - дві третини даних та тестове - одна третина даних. Цей спосіб слід використовувати для вибірок з великою кількістюприкладів. Якщо ж вибірка має малі обсяги, рекомендується застосовувати спеціальні методи, при використанні яких навчальна та тестова вибірки можуть частково перетинатися

Процес класифікації складається з двох етапів: конструювання моделі та її використання.

    Конструювання моделі: опис множини зумовлених класів.

Кожен приклад набору даних відноситься до одного наперед визначеного класу.

На цьому етапі використовується навчальна множина, на ньому відбувається конструювання моделі. Отримана модель представлена ​​класифікаційними правилами, деревом рішень або математичною формулою.

    Використання моделі: класифікація нових чи невідомих значень.

Оцінка правильності (точності) моделі.

        А) Відомі значення тестового прикладу порівнюються з результатами використання отриманої моделі.

        Б) Рівень точності – відсоток правильно класифікованих прикладів у тестовій множині.

        В) Тестове безліч, тобто. безліч, на якому тестується побудована модель, не повинно залежати від навчальної множини.

Якщо отримана точність моделі допустима, використання моделі для класифікації нових прикладів, клас яких невідомий.

Точність класифікації: оцінка рівня помилок

Оцінка точності класифікації може проводитись за допомогою крос-перевірки. Крос-перевірка (Cross-validation)- це процедура оцінки точності класифікації на даних із тестової множини, яку також називають крос-перевірною множиною. Точність класифікації тестової множини порівнюється з точністю класифікації навчальної множини. Якщо класифікація тестової множини дає приблизно такі ж результати за точністю, як і класифікація навчальної множини, вважається, що дана модель пройшла крос-перевірку.

Найяскравіші представники другого класу – завдання кластеризації, асоціації, послідовності тощо.

Рис. Порівняння задач класифікації та кластеризації

2. Кластеризація– цевиділення однорідних груп даних.

Логічно продовжує ідею класифікації на складніший випадок, коли самі класи не зумовлені.Результатом використання методу, що виконує кластеризацію, є визначення (за допомогою вільного пошуку) властивого досліджуваним даним розбиття на групи.

    У наведеному вище прикладі"групи ризику" - категорії клієнтів, які готові піти до іншого постачальника - засобами кластеризації можуть бути визначені на початок процесу догляду, що дозволить проводити профілактику проблеми, а не екстрене виправлення положення.

Як використовувані методи -навчання "без вчителя" особливого виду нейронних мереж - мереж Кохонена, а також індукцію правил .

Кластеризація призначена для розбиття сукупності об'єктів на однорідні групи (кластери чи класи). Якщо дані вибірки подати як точки у ознаковому просторі, то завдання кластеризації зводиться до визначення "згущень точок".

Мета кластеризації – пошук існуючих структур. Кластеризація є описовою процедурою, вона не робить жодних статистичних висновків, але дає можливість провести розвідувальний аналіз та вивчити "структуру даних".

Саме поняття "кластер" визначено неоднозначно: у кожному дослідженні "кластери". Перекладається поняття кластер (cluster) як "скупчення", "гроно".

Кластер можна охарактеризувати як групу об'єктів, які мають спільні властивості.

Характеристиками кластеру можна назвати дві ознаки:

        внутрішня однорідність;

        зовнішня ізольованість.

Кластери можуть бути непересічними, або ексклюзивними (non-overlapping, exclusive), та пересічними (overlapping).

Оцінка якості кластеризації може бути проведена на основі таких процедур:

    ручна перевірка;

    встановлення контрольних точок та перевірка на отриманих кластерах;

    визначення стабільності кластеризації шляхом додавання до моделі нових змінних;

    створення та порівняння кластерів з використанням різних методів. Різні методи кластеризації можуть створювати різні кластери, і це є нормальним явищем. Проте створення подібних кластерів у різний спосіб вказує на правильність кластеризації.

Кластерний аналіз у маркетингових дослідженнях

У маркетингових дослідженнях кластерний аналіз застосовується досить широко - як і теоретичних дослідженнях, і практикуючими маркетологами, вирішальними проблеми угруповання різних об'єктів. У цьому вирішуються питання груп клієнтів, товарів тощо.

Одним з найважливіших завдань при застосуванні кластерного аналізу в маркетингових дослідженнях є аналіз поведінки споживача, а саме:

    угруповання споживачів у однорідні класи щоб одержати якнайповнішого уявлення про поведінку клієнта з кожної групи та про фактори, що впливають на його поведінку.

Важливим завданням, що може вирішити кластерний аналіз, є позиціонування, тобто. визначення ніші, у якій слід позиціонувати новий продукт, що пропонується на ринку. Внаслідок застосування кластерного аналізу будується карта, за якою можна визначити рівень конкуренції у різних сегментах ринкута відповідні характеристики товару для можливості влучення в цей сегмент. За допомогою аналізу такої картки можливо визначення нових, незайнятих ніш на ринку, В яких можна пропонувати існуючі товари або розробляти нові.

Кластерний аналіз також може бути зручним, наприклад, для аналізу клієнтів компанії. Для цього всі клієнти групуються в кластери і для кожного кластера виробляється індивідуальна політика. Такий підхід дозволяє суттєво скоротити об'єкти аналізу, та водночас індивідуально підійти до кожної групи клієнтів.

3. Асоціативні правила- Пошук пов'язаних один з одним подій.

Асоціація визначається не на основі значень властивостей одного об'єкта чи події, а має місце між двома або декількома одночасно наступаючими подіями. При цьому вироблені правила вказують на те, що при настанні однієї події з тим чи іншим ступенем ймовірності настає інше. Кількісно сила асоціації визначається кількома величинами; наприклад, можливе використання наступних трьох характеристик:

    а) передбачуваність (predictability) визначає, як часто події Х та Y трапляються разом, у вигляді частки від загальної кількості подій X;

Так, у разі покупки телевізора (X) одночасно купується відеомагнітофон у 65% випадків (Y);

    б) поширеність (prevalence)показує, як часто відбувається одночасне настання подій Х і Y щодо загальної кількості моментів зафіксованих подій;

Іншими словами, наскільки часто проводиться одночасне придбання телевізора та відеомагнітофона серед усіх покупок;

    в) очікувана передбачуваність (expected predictability)показує передбачуваність, яка б склалася за відсутності взаємозв'язку між подіями;

Наприклад, як часто купувався відеомагнітофон безвідносно до того, чи купувався телевізор.

4. Виявлення послідовностей- Пошук ланцюжків, пов'язаних у часі подій.

Подібно до асоціацій, послідовності мають місце між подіями, але наступаючими не одночасно, а з деяким розривом у часі. Таким чином, асоціація є окремим випадком послідовності з нульовим тимчасовим лагом.

Якщо відеомагнітофон не був куплений разом із телевізором, то протягом місяця після покупки нового телевізора покупка відеомагнітофона проводиться у 51% випадків.

5. Прогнозування– спроба знайти шаблони, адекватно відбивають динаміку поведінки системи, тобто. прогнозування поведінки системи в майбутньому на основі історичної інформації .

Форма передбачення, яка з урахуванням особливостей поведінки поточних та історичних даних оцінює майбутні значення певних чисельних показників.

У задачах подібного типу найчастіше використовуються традиційні методи математичної статистики, а також нейронні мережі.

Прогнозування (від грецької Prognosis),у широкому розумінні цього слова визначається як випереджаюче відображення майбутнього. Метою прогнозування є передбачення майбутніх подій.

Розв'язання задач прогнозування зводиться до вирішення таких підзадач:

    вибір моделі прогнозування;

    аналіз адекватності та точності побудованого прогнозу.

Завдання класифікації та прогнозування - подібності та відмінності.

Так у чому ж схожість завдань прогнозування та класифікації?

При вирішенні обох завдань використовується двоетапний процес побудови моделі на основі навчального набору та її використання для передбачення невідомих значень залежною змінною.

Відмінність завдань класифікації та прогнозуванняполягає в тому, що в першому завданні передбачається клас залежної змінної, а в другому - числові значення залежної змінної, пропущені або невідомі (що стосуються майбутнього).

Наприклад, розглядаючи туристичну агенцію, визначення класу клієнта є вирішенням задачі класифікації, а прогнозування доходу, який принесе цей клієнт наступного року, буде вирішенням задачі прогнозування.

Основою для прогнозування служить історична інформація, що зберігається у базі даних як тимчасових рядів.

Дві принципові відмінності часового ряду від простої послідовності спостережень:

    Члени тимчасового ряду, на відміну елементів випадкової вибірки, не є статистично незалежними.

    Члени тимчасового ряду не є однаково розподіленими.

Тренд, сезонність та цикл

Основними складовими тимчасового ряду є тренд та сезонна компонента.

Тренд є систематичною компонентою часового ряду, яка може змінюватись у часі. Трендом називають невипадкову функціюяка формується під дією загальних або довготривалих тенденцій, що впливають на тимчасовий ряд.

Сезонна складова часового ряду є періодично повторюваною компонентою часового ряду. Властивість сезонності означає, Через приблизно рівні проміжки часу форма кривої, яка описує поведінку залежної змінної, повторює свої характерні обриси.

Властивість сезонності важлива щодо кількості ретроспективних даних, які будуть використовуватися для прогнозування.

Важливо не плутати поняття сезонної компоненти ряду та сезонів природи. Незважаючи на близькість їхнього звучання, ці поняття різняться. Так, наприклад, обсяги продажу морозива влітку набагато більші, ніж в інші сезони, однак це є тенденцією попиту на даний товар!

Фрагмент часового ряду за сезонний період

Фрагмент часового ряду за 12 сезонних періодів

Період прогнозування- основна одиниця часу, яку робиться прогноз.

    Наприклад, ми хочемо дізнатися про доход компанії через місяць. Період прогнозування для цього завдання – місяць.

Горизонт прогнозування- це кількість періодів у майбутньому, що покриває прогноз.

    Якщо прогноз на 12 місяців уперед, з даними по кожному місяцю, то період прогнозування у цьому завданні – місяць, горизонт прогнозування – 12 місяців.

Інтервал прогнозування- Частота, з якої робиться новий прогноз.

    Інтервал прогнозування може збігатися із періодом прогнозування.

Точність прогнозу характеризується помилкою прогнозу.

Найбільш поширені види помилок:

    Середня помилка (ЗІ).Вона обчислюється простим усереднення помилок на кожному кроці. Недолік цього виду помилки - позитивні та негативні помилки анулюють одна одну.

    Середня абсолютна помилка (САТ).Вона розраховується як середня абсолютна помилка. Якщо вона дорівнює нулю, ми маємо досконалий прогноз. У порівнянні із середньою квадратичною помилкою, цей захід "не надає надто великого значення" викидам.

    Сума квадратів помилок (SSE), середньоквадратична помилка. Вона обчислюється як сума (або середня) квадратів помилок. Це найчастіше використовувана оцінка точності прогнозу.

    Відносна помилка (ГО).Попередні заходи використовували дійсні значення помилок. Відносна помилка виражає якість припасування в термінах відносних помилок.

6. Аномалії- Виявлення аномальних значень у даних.

Їх виявлення дозволяє виявити – 1) помилки у даних, 2) появі нової раніше невідомої закономірності або 3) уточнення відомих закономірностей.

2. К р і ц м а н В. А., Р о з е н Б. Я., Д м і т р і е в І. С. До таємниць будови речовини. - Вища школа, 1983.

Революційні відкриття природознавства часто відбувалися під впливом результатів дослідів, поставлених талановитими експериментаторами. Великі експерименти у біології, хімії, фізиці сприяли зміні ставлення до світі, у якому живемо, будову речовини, механізми передачі спадковості. На підставі результатів великих експериментів відбувалися інші теоретичні та технологічні відкриття.

§ 9. Теоретичні методи дослідження

Урок-лекція

На світі є речі важливіші

найпрекрасніших відкриттів –

це знання методів, якими

вони були зроблені

Лейбніц

https://pandia.ru/text/78/355/images/image014_2.gif" alt="(!LANG:Підпис: !" align="left" width="42 height=41" height="41">Метод. Классификация. Систематизация. Систематика. Индукция. Дедукция.!}

Спостереження та опис фізичних явищ. фізичні закони. (Фізика, 7 – 9 кл.).

Що таке метод . методому науці називають спосіб побудови знання, форму практичного та теоретичного освоєння дійсності. Френсіс Бекон порівнював спосіб зі світильником, що висвітлює подорожньому в темряві: «Навіть кульгавий, що йде дорогою, випереджає того, хто йде без дороги». Правильно вибраний метод має бути ясним, логічним, вести до певної мети, давати результат. Вчення про систему методів називають методологією.

Методи пізнання, які використовують у науковій діяльності – це емпіричні (практичні, експериментальні) методи: спостереження, експерименті теоретичні (логічні, раціональні) методи: аналіз, синтез, порівняння, класифікація, систематизація, абстрагування, узагальнення, моделювання, індукція, дедукція. У реальному науковому пізнанні ці методи використовують у єдності. Наприклад, розробки експерименту потрібно попереднє теоретичне осмислення проблеми, формулювання гіпотези дослідження, а після проведення експерименту необхідна обробка результатів з допомогою математичних методів . Розглянемо особливості деяких теоретичних методів пізнання.

Класифікація та систематизація.Класифікація дозволяє впорядкувати досліджуваний матеріал шляхом групування множини (класу) досліджуваних об'єктів на підмножини (підкласи) відповідно до обраної ознаки.

Наприклад, всіх учнів школи можна розділити на підкласи – «дівчата» та «юнаки». Можна вибрати й іншу ознаку, наприклад зростання. І тут класифікацію можна проводити по-різному. Наприклад, виділити межу зростання 160 см і класифікувати учнів на підкласи «низькі» та «високі», або розбити шкалу зростання на відрізки 10 см, тоді класифікація буде більш детальною. Якщо порівняти результати такої класифікації за кількома роками, це дозволить емпіричним шляхом встановити тенденції у фізичному розвитку учнів. Отже, класифікація як метод може бути використана для отримання нових знань і навіть служити основою для побудови нових наукових теорій.

У науці зазвичай використовують класифікації тих самих об'єктів за різними ознаками залежно від цілей. Проте ознака (підстава для класифікації) вибирається завжди один. Наприклад, хіміки поділяють клас «кислоти» на підкласи і за ступенем дисоціації (сильні та слабкі), і за наявністю кисню (кисневмісні та безкисневі), і за фізичним властивостям(летючі – нелеткі; розчинні – нерозчинні) та за іншими ознаками.

Класифікація може змінюватися у розвитку науки.

У середині XX ст. Вивчення різних ядерних реакцій призвело до відкриття елементарних (що не діляться) частинок. Спочатку їх стали класифікувати за масою, так з'явилися лептони (дрібні), мезони (проміжні), баріони (великі) та гіперони (надвеликі). Подальший розвитокфізики показало, що класифікація за масою має мало фізичного сенсу, проте терміни збереглися, у результаті з'явилися лептони, значно масивніші, ніж баріони.

Класифікацію зручно відбивати як таблиць чи схем (графів). Наприклад, класифікація планет Сонячної системи, представлена ​​схемою – графом, може виглядати так:

ВЕЛИКІ ПЛАНЕТИ

СОНЯЧНОЇ СИСТЕМИ

ПЛАНЕТИ ЗЕМНОЇ ГРУПИ

ПЛАНЕТИ - ГІГАНТИ

ПЛУТОН

МЕРКУ-

ВІДЕНЬ-

МАРС

ЮПІТЕР

САТУРН

УРАН

Зверніть увагу на те, що планета Плутон у цій класифікації представляє окремий підклас, не належить ні до планет земної групи, ні до планет-гігантів. Вчені відзначають, що Плутон за властивостями схожий на астероїд, яких може бути багато на периферії Сонячної системи.

При вивченні складних систем природи класифікація служить фактично першим кроком до побудови природничо-наукової теорії. Наступним високим рівнем є систематизація (систематика). Систематизація складає основі класифікації досить великого обсягу матеріалу. При цьому виділяють найбільш суттєві ознаки, що дозволяють уявити накопичений матеріал як систему, в якій відображені всі взаємозв'язки між об'єктами. Вона необхідна в тих випадках, коли є різноманітність об'єктів і самі об'єкти є складними системами. Результатом систематизації наукових даних є систематикачи інакше – таксономія. Систематика як галузь науки розвивалася у таких галузях знання як біологія, геологія, мовознавство, етнографія.

Одиниця систематики називається таксоном. У біології таксони – це, наприклад, тип, клас, сімейство, рід, загін та інших. Вони об'єднані в єдину системутаксонів різного рангу за ієрархічним принципом Така система включає опис всіх існуючих і раніше вимерлих організмів, з'ясовує шляхи їхньої еволюції. Якщо вчені знаходять новий вид, то вони повинні підтвердити його місце в загальної системи. Можуть бути внесені зміни і в саму систему, що залишається динамічною. Систематика дозволяє легко орієнтуватися у всьому різноманітті організмів – лише тварин відомо близько 1,5 млн видів, а рослин – понад 500 тис. видів, крім інших груп організмів. Сучасна біологічна систематика відбиває закон Сент-Илера: «Все різноманіття форм життя формує природну таксономічну систему, що з ієрархічних груп таксонів різного рангу».

Індукція та дедукція.Шлях пізнання, у якому основі систематизації накопиченої інформації – від приватного до загального – роблять висновок про існуючої закономірності, називають індукцією. Цей метод як метод вивчення природи було розроблено англійським філософом Ф. Беконом. Він писав: «Треба брати якнайбільше випадків – як таких, де досліджуване явище є, так і таких, де воно відсутнє, але де його можна було б очікувати зустріти; потім треба розмістити їх методично... і дати найімовірніше пояснення; нарешті, спробувати перевірити це пояснення подальшим порівнянням із фактами».

Думка та образ

Портрети Ф. Бекона та Ш. Холмса

Чому портрети вченого та літературного героя розташовані поруч?

Індукція – не єдиний шлях здобуття наукового знання про світ. Якщо експериментальна фізика, хімія та біологія будувалися як науки в основному за рахунок індукції, то теоретична фізика, сучасна математика у своїй основі мали систему аксіом– несуперечливих, умоглядних, достовірних з погляду здорового глузду та рівня історичного розвитку науки тверджень. Тоді знання можна побудувати на цих аксіомах шляхом виведення умов від загального до приватного, переходу від передумови до наслідків. Цей метод називають дедукцією. Його розвивав

Рене Декарт, французький філософ та вчений.

Яскравим прикладом отримання знання одного предметі різними шляхами є відкриття законів руху небесних тіл. І. Кеплер на основі великої кількостіданих спостережень за рухом планети Марс на початку XVII ст. відкрив методом індукції емпіричні закони руху планет у Сонячній системі. Наприкінці цього століття Ньютон вивів дедуктивним шляхом узагальнені закони руху небесних тіл з урахуванням закону всесвітнього тяжіння.

У реальній дослідницької діяльності методи наукових досліджень взаємопов'язані.

1. ○ Поясніть, що таке метод дослідження, методологія природничих наук?

Всі ці наближення слід обґрунтовувати і численно оцінювати похибки, які вносяться кожним із них.

Розвиток науки показує, що кожен природничо-науковий закон має межі свого застосування. Наприклад, закони Ньютона виявляються непридатними для дослідження процесів мікросвіту. Для опису цих процесів сформульовані закони квантової теорії, що стають еквівалентними законам Ньютона, якщо їх застосувати для опису руху макроскопічних тіл. З погляду моделювання це означає, що закони Ньютона є деякою моделлю, яка слідує при певних наближеннях з більш загальної теорії. Проте закони квантової теорії не абсолютні і мають обмеження в застосовності. Вже сформульовані загальні закони та отримані загальні рівняння, які, у свою чергу, також мають обмеження. І ланцюжку цьому не видно кінця. Поки що не отримані будь-які абсолютні закони, що описують все у природі, з яких можна було б вивести всі приватні закони. І незрозуміло, чи можна такі закони сформулювати. Але це означає, що кожен із природничо-наукових законів фактично є деякою моделлю. На відміну від тих моделей, які розглядалися в даному параграфі, полягає лише в тому, що природничо-наукові закони - це модель, яка застосовується для опису не одного конкретного явища, а для широкого класу явищ.

Застосування сучасних практичних методів аналізу даних та розпізнавання затребуване в технічних та гуманітарних галузях, у науці та виробництві, бізнесі та фінансах. У цьому описі представлена ​​основна алгоритмічна суть, розуміння якої є корисним для ефективнішого використання методів розпізнавання та класифікації при аналізі даних.

1. Завдання розпізнавання (класифікації з учителем) та сучасний стану галузі практичних методів для її вирішення. Основні етапи у розвитку теорії та практики розпізнавання: створення евристичних алгоритмів, моделі розпізнавання та оптимізація моделей, алгебраїчний підхід до корекції моделей. Основні підходи - засновані на побудові розділяючих поверхонь, потенційні функції, статистичні та нейромережеві моделі, вирішальні дерева та інші.

Докладніше описані основні підходи та алгоритми комбінаторно-логічних методів розпізнавання (моделі обчислення оцінок або алгоритми, що ґрунтуються на принципі часткової прецедентності), розроблені у ВЦ РАН ім. А.А. Дородніцина. В основі даних моделей лежить ідея пошуку важливих часткових прецедентів у ознакових описах вихідних даних (інформативних фрагментів значень ознак або представницьких наборів). Для речових ознак знаходяться оптимальні околиці інформативних фрагментів. В іншій термінології дані часткові прецеденти називають знаннями або логічними закономірностями, що пов'язують значення вихідних ознак з величиною, що розпізнається або прогнозується. Знайдені знання є важливою інформацієюпро досліджувані класи (образи) об'єктів. Вони безпосередньо використовуються при вирішенні завдань розпізнавання або прогнозу, дають наочне уявлення про існуючі в цих взаємозалежностях, що має самостійну цінність для дослідників і може бути основою при подальшому створенні точних моделей об'єктів, ситуацій, явищ або процесів. За знайденою сукупністю знань обчислюються також значення таких корисних величин, як ступінь важливості (інформативності) ознак та об'єктів, логічні кореляції ознак та логічні описи класів об'єктів, та вирішується завдання мінімізації ознакового простору.

2. Методи вирішення основного завдання кластерного аналізу (класифікації без вчителя) – знаходження угруповань об'єктів (кластерів) у заданій вибірці багатовимірних даних. Наведено короткий огляд основних підходів для вирішення задач кластерного аналізу та опис комітетного методу синтезу колективних рішень.

3. Програмна система інтелектуального аналізу даних, розпізнавання та прогнозу РОЗІЗНАННЯ. В основу вимог до системи покладено ідеї універсальності та інтелектуальності. Під універсальністю системи розуміється можливість її застосування до максимально широкого кола завдань (за розмірностями, за типом, якістю та структурою даних, за обчислюваними величинами). Під інтелектуальністю розуміється наявність елементів самоналаштування та можливості успішного автоматичного вирішення завдань некваліфікованим користувачем. В рамках Системи РОЗІЗНАННЯ розроблено бібліотеку програм, що реалізують лінійні, комбінаторно-логічні, статистичні, нейромережеві, гібридні методи прогнозу, класифікації та отримання знань з прецедентів, а також колективні методи прогнозу та класифікації.


1. Алгоритми розпізнавання, що базуються на обчисленні оцінок.Розпізнавання здійснюється на основі порівняння розпізнаваного об'єкта з еталонними за різними наборами ознак та використання процедур голосування. Оптимальні параметри вирішального правила та процедури голосування знаходяться з вирішення задачі оптимізації моделі розпізнавання - визначаються такі значення параметрів, при яких точність розпізнавання (число правильних відповідей на вибірці) є максимальною.

2. Алгоритми голосування з тупикових тестів.Порівняння об'єкта, що розпізнається, з еталонними здійснюється за різними «інформативними» підмножинами ознак. Як подібні підсистеми ознак використовуються тупикові тести (або аналоги тупикових тестів для речовиннозначних ознак) різних випадкових підтаблиць вихідної таблиці еталонів.

По навчальній вибірці обчислюються безлічі логічних закономірностей кожного класу - набори ознак та інтервали їх значень, властиві кожному класу. При розпізнаванні нового об'єкта обчислюється число логічних закономірностей кожного класу, що виконуються на об'єкті, що розпізнається. Кожне окреме виконання вважається «голосом» на користь відповідного класу. Об'єкт відноситься до того класу, нормована сума «голосів» за який є максимальною. Цей метод дозволяє оцінювати ваги ознак, логічні кореляції ознак, будувати логічні описи класів, знаходити мінімальні ознакові підпростори.

4. Алгоритми статистичного виваженого голосування.

За даними навчальної вибірки перебувають статистично обгрунтовані логічні закономірності класів. При розпізнаванні нових об'єктів обчислюється оцінка ймовірності приналежності об'єкта кожному із класів, що є виваженою сумою «голосів».

5. Лінійна машина.

Для кожного класу об'єктів є певна лінійна функція. Розпізнаваний об'єкт відноситься до того класу, функція якого набуває максимального значення на даному об'єкті. Оптимальні лінійні функціїкласів перебувають у результаті розв'язання завдання пошуку максимальної спільної підсистеми системи лінійних нерівностей, що формується за навчальною вибіркою. В результаті знаходиться спеціальна шматково-лінійна поверхня, що правильно розділяє максимальну кількість елементів навчальної вибірки.

6. Лінійний дискримінант Фішера.

Класичний статистичний методпобудови шматково-лінійних поверхонь, що розділяють класи. Сприятливими умовами застосування лінійного дискримінанта Фішера є виконання наступних факторів: лінійна відокремлення класів, дихотомія, «проста структура» класів, невиродженість матриць підступів, відсутність викидів. Створена модифікація лінійного дискримінанта Фішера дозволяє успішно використати його й у «несприятливих» випадках.

7. Метод до-найближчих сусідів.

Класичний статистичний метод. Розпізнаваний об'єкт відноситься до того класу, з якого він має максимальну кількість сусідів. Оптимальне число сусідів та апріорні ймовірності класів оцінюються за навчальною вибіркою.

8. Нейросітева модель розпізнавання зі зворотним розповсюдженням

Створено модифікацію відомого методу навчання нейронної мережі розпізнавання образів (метод зворотного поширення помилки). Як критерій якості поточних параметрів нейронної мережі використовується гібридний критерій, що враховує як суму квадратів відхилень значень вихідних сигналів від необхідних, так і кількість помилкових класифікацій на вибірці.

9.Спосіб опорних векторів.

Метод побудови нелінійної поверхні, що розділяє, за допомогою опорних векторів. У новому ознаковому просторі (спрямовуючому просторі) будується поверхня, що розділяє, близька до лінійної. Побудова цієї поверхні зводиться вирішення завдання квадратичного програмування.

10. Алгоритми вирішення завдань розпізнавання колективами різних алгоритмів, що розпізнають.

Завдання розпізнавання вирішується у два етапи. Спочатку застосовуються незалежно різні алгоритми Системи. Далі знаходиться автоматично оптимальне колективне рішення за допомогою спеціальних методів-коректорів. Як коригувальні методи використовуються різні підходи.

11. Методи кластерного аналізу (автоматичної класифікації чи навчання без учителя).

Використовуються такі відомі підходи:

Алгоритми ієрархічного угруповання;

Кластеризація з критерієм мінімізації суми квадратів відхилень;

Метод до-середніх.

Можливе вирішення задачі класифікації як за заданої, так і невідомої кількості класів.

12. Алгоритм побудови колективних розв'язків задачі класифікації.

Завдання класифікації вирішується у два етапи. Спочатку знаходиться набір різних рішень (у вигляді покриттів або розбиття) при фіксованій кількості класів за допомогою різних алгоритмів Системи. Далі є оптимальна колективна класифікація в результаті вирішення спеціальної дискретної оптимізаційної задачі.