Зміст
Ділова, державна та академічна діяльність майже завжди потребує збору та аналізу даних. Один із способів представлення числових даних - це графіки, гістограми та діаграми. Ці методи візуалізації дозволяють людям краще розуміти проблеми та розробляти рішення. Розриви, кластери та інші структури - це характеристики наборів даних, які впливають на математичний аналіз і легко помітні на візуальних уявленнях.
Отвори в даних
Пропуски відносяться до відсутніх областей у наборі даних. Наприклад, якщо науковий експеримент збирає дані про температуру в діапазоні від 50 градусів за Фаренгейтом до 100 градусів за Фаренгейтом, але нічого між 70 і 80 градусами, це означало б розрив у наборі даних. Діапазон ліній цього набору даних матиме позначення "х" для температур між 50 і 70 і знову між 80 і 100, але між 70 і 80 нічого не буде. Дослідники можуть копати глибше і досліджувати, чому певні точки даних не з'являються у зібраному зразку.
Ізольовані групи
Кластери - це окремі групи точок даних. Діаграми ліній, які є одним із способів подання наборів даних, - це рядки з позначками "х", розміщені над певними числами для відображення їх частоти зустрічальності в наборі даних. Кластер зображується як сукупність цих знаків "х" у невеликому інтервалі або підмножиною даних. Наприклад, якщо бали для іспитів для учнів 10 класів становлять 74, 75, 80, 72, 74, 75, 76, 86, 88 і 73, то найбільш "х" балів на лінійній графіці буде в 72- інтервал балів до 76 Це буде представляти собою кластер даних. Зауважте, частота для 74 та 75 - дві, але для всіх інших балів - одна.
У крайнощах
Аутлієри - це крайні значення - точки даних, які суттєво лежать поза іншими значеннями в наборі даних. Зовнішній вигляд повинен бути значно меншим або більшим, ніж більшість номерів у наборі даних. Визначення "крайнього" залежить від обставин та консенсусу аналітиків, які беруть участь у дослідженні. У людей, що переживають люди, можуть бути погані точки даних, також відомі як шум, або вони можуть містити цінну інформацію про досліджуване явище та саму методологію збору даних. Наприклад, якщо бали класів здебільшого знаходяться в діапазоні від 70 до 80, але пара балів у низьких 50-х, вони можуть бути представниками інших груп.
Поставивши все разом
Розриви, викиди та кластери в наборах даних можуть впливати на результати математичного аналізу. Пропуски та кластери можуть представляти помилки в методології збору даних. Наприклад, якщо в телефонному опитуванні опитуються лише певні коди районів, наприклад, житлові комплекси з низьким рівнем доходу або приміські житлові райони високого класу, а не широкий переріз населення, є ймовірність, що в даних будуть прогалини та кластери. . Отримані люди можуть перекосити середнє або середнє значення набору даних. Наприклад, середнє або середнє значення набору даних, що складається з чотирьох чисел - 50, 55, 65 і 90 - дорівнює 65. Проте, без іншого 90, середнє значення становить приблизно 57.