Зміст
У статистиці гауссова або нормальна дистрибуція використовується для характеристики складних систем з багатьма факторами. Як описано в "Історії статистики" Стівена Стіглера, Авраам Де Моївр винайшов розподіл, який носить ім'я Карла Фредріка Гауса. Вклад Гауса полягав у тому, що він застосовував розподіл підходу до найменших квадратів, щоб мінімізувати помилки при встановленні даних найкращим чином. Таким чином, він зробив це найважливішим розподілом помилок у статистиці.
Мотивація
Який розподіл вибірки даних? Що робити, якщо ви не знаєте базового розподілу даних? Чи є можливість перевірити гіпотези щодо даних, не знаючи основного розподілу? Завдяки теоремі про граничну границю відповідь - так.
Твердження теореми
У ньому йдеться про те, що середнє значення вибірки від нескінченної сукупності є приблизно нормальним, або гауссовим, із середнім значенням, рівним основній популяції, та дисперсією, що дорівнює дисперсії популяції, поділеній на кількість вибірки. Наближення покращується, коли розмір вибірки стає більшим.
Затвердження наближення іноді неправильно визначається як висновок про конвергенцію до нормального розподілу. Оскільки наближення нормального розподілу змінюється зі збільшенням розміру вибірки, таке твердження вводить в оману.
Теорему розробив П'єр Саймон Лаплас.
Чому його скрізь
Нормальні розподіли є всюдисущими. Причина виходить із теореми про центральну межу. Часто, коли вимірюється значення, це сумарний ефект багатьох незалежних змінних. Тому величина, яка вимірюється сама, має для неї вибіркову середню якість. Наприклад, розподіл виступів спортсменів може мати дзвіницю внаслідок відмінностей у харчуванні, тренуванні, генетиці, коучінгу та психології. Навіть чоловіча висота має нормальний розподіл, будучи функцією багатьох біологічних факторів.
Гауссові копули
Те, що називається "функцією копули" з розподілом Гаусса, з'явилося в новинах в 2009 році через його використання в оцінці ризику інвестування в заставні облігації. Неправильне використання цієї функції сприяло фінансовій кризі 2008-2009 років. Незважаючи на те, що було багато причин кризи, в огляді Гауссова розподіл, швидше за все, не повинен був використовуватися. Функція з більш товстим хвостом призвела б до більшої ймовірності несприятливих подій.
Виведення
Теорема центрального ліміту може бути доведена у багатьох рядках, проаналізувавши функцію, що генерує момент (mgf) (середнє значення вибірки - середнє значення сукупності) /? (Дисперсія населення / розмір вибірки) як функцію mgf базової сукупності. Частину апроксимації теореми вводять шляхом розширення mgf основної сукупності як силового ряду, потім показ більшості термінів є незначним, оскільки розмір вибірки збільшується.
Це можна довести в набагато менших рядках, використовуючи розширення Тейлора на характерному рівнянні тієї самої функції та зробивши розмір вибірки великим.
Зручність у обчисленні
Деякі статистичні моделі припускають, що помилки є гауссовими. Це дає можливість розподілу функцій нормальних змінних, таких як розподіл chi-квадрата та F, використовувати при тестуванні гіпотез. Зокрема, у F-тесті F-статистика складається із співвідношення розподілів чи-квадратів, які самі є функціями нормального параметра дисперсії. Співвідношення обох викликає відмінність дисперсії, що дозволяє перевірити гіпотези без знання дисперсій, окрім їх нормальності та сталості.