Як знайти центроїд в кластерному аналізі

Posted on
Автор: Judy Howell
Дата Створення: 1 Липня 2021
Дата Оновлення: 15 Листопад 2024
Anonim
Анализ данных в STATISTICA
Відеоролик: Анализ данных в STATISTICA

Зміст

Кластерний аналіз - це метод організації даних у репрезентативні групи на основі подібних характеристик. Кожен член кластера має більше спільного з іншими членами цього ж кластеру, ніж з членами інших груп. Найбільш репрезентативна точка всередині групи називається центроїд. Зазвичай це середнє значення значень точок даних кластеру.

    Впорядкувати дані. Якщо дані складаються з однієї змінної, гістограма може бути доречною. Якщо задіяні дві змінні, графік даних на координатній площині. Наприклад, якщо ви дивилися на зріст та вагу школярів у класі, побудуйте на графіку точки даних для кожної дитини, при цьому вага має горизонтальну вісь, а висота - вертикальна вісь. Якщо задіяно більше двох змінних, для відображення даних можуть знадобитися матриці.

    Згрупуйте дані в кластери. Кожен кластер повинен складатися з точок найближчих до нього даних. На прикладі висоти та ваги згрупуйте будь-які точки даних, які, здається, є близькими. Кількість кластерів і те, чи повинна кожна точка даних бути в кластері, може залежати від цілей дослідження.

    Для кожного кластеру додайте значення всіх членів.Наприклад, якби кластер даних складався з точок (80, 56), (75, 53), (60, 50) та (68,54), сума значень була б (283, 213).

    Розділіть загальну кількість на кількість членів кластеру. У наведеному вище прикладі 283, поділене на чотири - 70,75, а 213, поділене на чотири, - 53,25, тому центроїд кластера дорівнює (70,75, 53,25).

    Накресліть центроїди кластера та визначте, чи будь-які точки ближче до центроїду іншого кластера, ніж вони до центрального центру їх власного кластеру. Якщо якісь точки ближче до іншого центру, перерозподіліть їх у кластер, що містить найближчий центроїд.

    Повторіть кроки 3, 4 і 5, поки всі точки даних не опиняться в кластері, що містить центроїд, до якого вони найближчі.

    Поради