Кластерний аналіз: його метод і сфера застосування

Кластерний аналіз: його метод і сфера застосування

Багато з нас чули словосполучення "кластерний аналіз", але ось що воно означає, представляють далеко не всі. До того ж звучить воно більш ніж загадково! Насправді це лише назва методу розбиття вибірки даних на категорії елементів за певними критеріями. Наприклад, кластерний аналіз дозволяє розділити людей на групи з високою, середньою і низькою самооцінкою. Простіше кажучи, кластер - це тип об 'єктів, схожих за певною ознакою.

Кластерний аналіз: проблеми у використанні

Вирішивши застосувати в своєму дослідженні даний метод, потрібно пам 'ятати, що виділені в його ході кластери можуть бути нестійкими. Тому, як і у випадку з факторним аналізом, потрібно перевірити результати на іншій групі об 'єктів або через певний проміжок часу обчислити похибку вимірювання. Більш того, найкраще використовувати кластерний аналіз на великих вибірках, підібраних методом рандомізації або стратифікації, адже тільки так можна зробити науковий висновок, застосовуючи індукцію. Найкраще він показав себе в перевірці гіпотез, а не в їх створенні на порожньому місці.

Ієрархічний кластерний аналіз

Якщо вам потрібно класифікувати випадкові елементи швидко, то почати можна з розгляду кожного з них на початковому етапі як окремого кластеру. У цьому і полягає суть одного з найпростіших для розуміння видів кластерного аналізу. Використовуючи його, дослідник на другому етапі утворює пари елементів, які є схожими за потрібною ознакою, а потім з 'єднує їх між собою необхідну кількість разів. Кластери, що знаходяться на мінімальній відстані між собою, визначаються за допомогою інтегративної процедури. Повторюється вона доти, доки не буде досягнуто відповідності одному з таких критеріїв:

  • отримання заздалегідь запланованої кількості кластерів;
  • кожен з кластерів містить необхідну кількість елементів;
  • кожна група володіє потрібним співвідношенням різнорідності і однорідності всередині неї.

Для того щоб правильно обчислити відстань між кластерами, найчастіше використовують такі прийоми:

  • одиночного і повного зв 'язку;
  • середнього взаємозв 'язку Кінга;
  • центроїдний метод;
  • прийом групових середніх.

Для оцінки результатів кластеризації застосовують такі критерії:

  • індекс чіткості;
  • коефіцієнт розбиття;
  • звичайна, нормалізована і модифікована ентропія;
  • другий і третій функціонал Рубенса.

Методи кластерного аналізу

Найчастіше при аналізі вибірки об 'єктів застосовують метод мінімальної відстані. Він полягає в тому, що в кластер об 'єднують елементи з коефіцієнтом схожості, який більше порогового значення. При використанні методу локальної відстані виділяються два кластери: відстань між точками першого з них максимальна, а другого - мінімальна. Центроїдний спосіб кластеризації передбачає обчислення відстаней між середніми значеннями показників у групах. А метод Ворда найраціональніше застосовувати для угруповання близьких за досліджуваним параметром кластерів.