Введення в статистику h2>
Елементарні поняття статистики h2>
Ми
обрали теми, які ілюструють основні припущення більшості
статистичних методів, призначених для розуміння "чисельної
природи "дійсності (Nisbett, et al., 1987). Ми зосереджуємо
основну увагу на "функціональних" аспектах обговорюваних понять,
прекрасно розуміючи, що пропоноване опис є коротким і не може
вичерпати всього предмету обговорення. Більш детальну інформацію можна знайти в
вступних розділах і розділах прикладів керівництва користувача системи
STATISTICA, а також у підручниках з статистикою. Ми рекомендуємо наступні
підручники: Kachigan (1986) і Runyon and Haber (1976); для поглибленого
обговорення елементарної теорії та основних понять статистики див класичну
книгу Kendall and Stuart (1979) (переклад: М. Кендалл та А. Стьюарт "Теорія
розподілів "(том 1)," Статистичні висновки та зв'язку "(том 2),
"Багатомірний статистичний аналіз" (том 3)). Російською мовою см.,
наприклад, книгу: Боровиков В.П. "Популярне введення в програму
STATISTICA ", Комп'ютер Прес 1998, в якій дається популярне опис
основних статистичних понять. p>
Що таке змінні?
Змінні - це те, що можна вимірювати, контролювати або що можна змінювати
у дослідженнях. Змінні відрізняються багатьма аспектами, особливо тією роллю,
яку вони відіграють у дослідженнях, шкалою виміру і т.д. p>
Дослідження
залежностей в порівнянні з експериментальними дослідженнями. Більшість
емпіричних досліджень даних можна віднести до одного з названих типів. У
дослідженні кореляцій (залежностей, зв'язків ...) ви не впливаєте (або, за
Принаймні, намагаєтеся не впливати) на змінні, а тільки вимірюєте їх і
хочете знайти залежності (кореляції) між деякими вимірювання змінного,
наприклад, між кров'яним тиском і рівнем холестерину. В експериментальних
дослідженнях, навпроти, ви варьіруете деякі змінні і вимірюєте
впливу цих змін на інші змінні. Наприклад, дослідник може
штучно збільшувати кров'яний тиск, а потім на певних рівнях
тиску виміряти рівень холестерину. Аналіз даних в експериментальному
дослідженні також приходить до обчислення "кореляцій" (залежностей)
між змінними, а саме, між змінними, на які впливають, і
змінними, на які впливає цей вплив. Тим не менше, експериментальні
дані потенційно забезпечують нас більш якісною інформацією. Тільки
експериментально можна переконливо довести причинний зв'язок між змінними.
Наприклад, якщо виявлено, що кожного разу, коли змінюється мінлива A,
змінюється і мінлива B, то можна зробити висновок - "мінлива A
впливає на змінну B ", тобто між змінними А і В є
причинний залежність. Результати кореляційного дослідження можуть бути
проінтерпретовані в каузальних (причинних) термінах на основі деякої
теорії, але самі по собі не можуть виразно довести причинність. p>
Залежні
і незалежні змінні. Незалежними змінними називаються змінні,
які варіюються дослідником, тоді як залежні перемінні - це
змінні, які вимірюються або реєструються. Може здатися, що
проведення цієї відмінності створює плутанину в термінології, оскільки як
говорять деякі студенти "всі змінні залежать від чого-небудь".
Тим не менше, одного разу чітко провівши цю відмінність, ви зрозумієте його
необхідність. Терміни залежна і незалежна мінлива застосовуються в
основному в експериментальному дослідженні, де експериментатор маніпулює
деякими змінними, і в цьому сенсі вони "незалежні" від реакцій,
властивостей, намірів і т.д. притаманних об'єктам дослідження. Деякі інші
змінні, як передбачається, повинні "залежати" від дій
експериментатора або від експериментальних умов. Іншими словами, залежність
проявляється у відповідь реакції досліджуваного об'єкта на надіслане на нього
вплив. Почасти в суперечності з даними розмежуванням понять знаходиться
використання їх у дослідженнях, де ви не варьіруете незалежні змінні, що
а тільки приписуєте об'єкти до "експериментальним групам",
грунтуючись на деяких їх апріорних властивості. Наприклад, якщо в експерименті
чоловіки порівнюються з жінками щодо числа лейкоцитів (WCC),
що містяться в крові, то Підлогу можна назвати незалежної змінної, а WCC
залежною змінною. p>
Шкали
вимірювань. Змінні розрізняються також тим "наскільки добре" вони
можуть бути виміряні або, іншими словами, як багато вимірюваної інформації
забезпечує шкала їх вимірів. Очевидно, в кожному вимірі присутня
деяка помилка, яка визначає межі "кількості інформації",
яку можна отримати в цьому вимірі. Іншим фактором, що визначає
кількість інформації, що міститься в змінної, є тип шкали, в якій
проведено вимірювання. Розрізняють такі типи шкал: (a) номінальна, (b)
порядкова (ордінальная), (c) інтервальна (d) відносна (шкала відносини).
Відповідно, маємо чотири типи змінних: (a) номінальна, (b) порядкова
(ордінальная), (c) інтервальна і (d) відносна. p>
Номінальні
змінні використовуються тільки для якісної класифікації. Це означає,
що дані змінні можуть бути виміряні тільки в термінах приналежності до
деяким, істотно різних класів, при цьому ви не зможете визначити
кількість або впорядкувати ці класи. Наприклад, ви зможете сказати, що 2
індивідуума помітні в термінах змінної А (наприклад, індивідууми
належать до різних національностей). Типові приклади номінальних змінних
- Стать, національність, колір, місто і т.д. Часто номінальні змінні називають
категоріальним. p>
Порядкові
змінні дозволяють ранжувати (порядок) об'єкти, вказавши які з них в
більшою чи меншою мірою мають якість, вираженим даної змінної.
Однак вони не дозволяють сказати "на скільки більше" або "на
скільки менше ". Порядкові змінні іноді також називають ордінальнимі.
Типовий приклад порядкової змінної - соціоекономічні статус родини. Ми
розуміємо, що верхній середній рівень вище середнього рівня, однак сказати, що
різниця між ними дорівнює, скажімо, 18% ми не зможемо. Саме розташування шкал в
наступному порядку: номінальна, порядкова, інтервальна є гарним
прикладом порядкової шкали. p>
Інтервальні
змінні дозволяють не тільки впорядковувати об'єкти вимірювання, але й чисельно
висловити і порівняти відмінності між ними. Наприклад, температура, виміряна в
градусах Фаренгейта або Цельсія, утворює інтервальних шкалу. Ви можете не
тільки сказати, що температура 40 градусів вище, ніж температура 30 градусів,
але і що збільшення температури з 20 до 40 градусів вдвічі більше збільшення
температури від 30 до 40 градусів. p>
Відносні
змінні дуже схожі на інтервальні змінні. На додаток до всіх
властивостям змінних, виміряних у інтервального шкалою, їх характерною рисою
є наявність певної точки абсолютного нуля, таким чином, для цих
змінних є обгрунтованими пропозиції типу: x в два рази більше, ніж y.
Типовими прикладами шкал відносин є вимірювання часу або простору.
Наприклад, температура за Кельвіном утворює шкалу відносини, і ви можете не
тільки стверджувати, що температура 200 градусів вище, ніж 100 градусів, а й
що вона вдвічі вище. Інтервальні шкали (наприклад, шкала Цельсія) не володіють
даними властивістю шкали відносини. Зауважимо, що в більшості статистичних
процедур не робиться розходження між властивостями інтервальних шкал і шкал
відносини. p>
Зв'язки
між змінними. Незалежно від типу, два або більше змінних пов'язані
(залежні) між собою, якщо спостерігаються значення цих змінних розподілені
узгодженим чином. Іншими словами, ми говоримо, що змінні залежні,
якщо їх значення систематичним чином узгоджені один з одним у наявних
у нас спостереженнях. Наприклад, змінні Пол і WCC (число лейкоцитів) могли б
розглядатися як залежні, якщо б більшість чоловіків мало високий рівень
WCC, а більшість жінок - низький WCC, або навпаки. Зростання пов'язане з Весом,
тому що зазвичай високі індивіди важче низьких; IQ (коефіцієнт інтелекту)
пов'язаний з Кількістю помилок у тесті, тому що люди високим значенням IQ роблять
менше помилок і т.д. p>
Чому
залежності між змінними є важливими. Взагалі кажучи, кінцева мета
всякого дослідження або наукового аналізу полягає в знаходження зв'язків
(залежностей) між перемінними. Філософія науки вчить, що не існує іншого
способу представлення знання, крім як у термінах залежностей між кількостями
або якостями, вираженими якими-небудь змінними. Таким чином, розвиток
науки завжди полягає в знаходженні нових зв'язків між змінними.
Дослідження кореляцій по суті полягає у вимірі таких залежностей
безпосереднім чином. Тим не менше, експериментальне дослідження не
є в цьому сенсі чимось відмінним. Наприклад, зазначене вище
експериментальне порівняння WCC у чоловіків і жінок може бути описано як пошук
зв'язку між змінними: Пол і WCC. Призначення статистики полягає в тому, щоб
допомогти об'єктивно оцінити залежності між змінними. Справді, всі
сотні описаних у цьому посібнику процедур можуть бути проінтерпретовані в
термінах оцінки різних типів взаємозв'язків між змінними. p>
Дві
основні риси будь-якої залежності між змінними. Можна відзначити дві найбільш
простих властивості залежності між змінними: (a) величина залежності і (b)
надійність залежності. p>
Величина.
Величину залежності легше зрозуміти і виміряти, ніж надійність. Наприклад, якщо
будь-який чоловік у вашій вибіркою мав значення WCC вище ніж будь-яка жінка, то ви
можете сказати, що залежність між двома змінними (Пол і WCC) дуже
висока. Іншими словами, ви могли б передбачити значення однієї змінної по
значень іншої. p>
Надійність
( "істинність"). Надійність взаємозалежності - менш наочне
поняття, ніж величина залежності, проте надзвичайно важливе. Надійність
залежності безпосередньо пов'язана з репрезентативністю певної вибірки,
на основі якої будуються висновки. Іншими словами, надійність говорить нам про
те, наскільки ймовірно, що залежність, подібна знайденої вами, буде знову
виявлена (іншими словами, підтвердиться) на даних іншої вибірки, витягнутої
з тієї ж самої популяції. Слід пам'ятати, що кінцевою метою майже ніколи не
є вивчення даної конкретної вибірки; вибірка представляє інтерес лише
остільки, оскільки вона дає інформацію про всю популяції. Якщо ваше
дослідження задовольняє деяким спеціальним критеріями (про це буде
сказано пізніше), то надійність знайдених залежностей між змінними вашої
вибірки можна кількісно оцінити і представити за допомогою стандартної
статистичної заходи (званої p-рівень або статистичний рівень
значущості, докладніше див в наступному розділі). p>
Що
таке статистична значимість (p-рівень)? Статистична значущість
результату є оцінену міру впевненості в його
"істинності" (у сенсі "репрезентативності вибірки").
Висловлюючись більш технічно, p-рівень (цей термін був вперше використаний в
роботі Brownlee, 1960) це показник, що знаходиться в порядку спадання В залежності від
надійності результату. Більш високий p-рівень відповідає більш низькому
рівнем довіри до знайденої у вибірці залежності між змінними. Саме,
p-рівень являє собою імовірність помилки, пов'язаної з поширенням
спостережуваного результату на всю популяцію. Наприклад, p-рівень = .05 (тобто
1/20) показує, що є 5% ймовірність, що знайдена у вибірці зв'язок
між змінними є лише випадковою особливістю даної вибірки. Іншими
словами, якщо дана залежність у популяції відсутня, а ви багато разів
проводили б подібні експерименти, то приблизно в одному з двадцяти повторень
експерименту можна було б очікувати такої ж або більш сильної залежності між
змінними. (Зазначимо, що це не те ж саме, що стверджувати про явному
наявності залежності між змінними, яка в середньому може бути
відтворена в 5% або 95% випадків; коли між змінними популяції
існує залежність, імовірність повторення результатів дослідження,
що показують наявність цієї залежності називається статистичної потужністю
плану. Докладніше про це див Аналіз потужності). У багатьох
дослідженнях p-рівень .05 розглядається як "прийнятна межа"
рівня помилки. p>
Як
визначити, чи є результат дійсно значущим. Не існує
ніякого способу уникнути свавілля при прийнятті рішення про те, який рівень
значимості слід дійсно вважати "значимим". Вибір
певного рівня значущості, вище якого результати відкидаються як
помилкові, є досить довільним. На практиці остаточне рішення
звичайно залежить від того, чи був результат передбачений апріорі (тобто до проведення
досвіду) або виявлено апостеріорного в результаті багатьох аналізів і порівнянь,
виконаних з безліччю даних, а також на традиції, що є в даній
області досліджень. Зазвичай у багатьох областях результат p .05 є
прийнятною кордоном статистичної значущості, проте слід пам'ятати, що цей
рівень все ще включає досить велику ймовірність помилки (5%). Результати,
значущі на рівні p .01 зазвичай розглядаються як статистично
значимі, а результати з рівнем p .005 або p. 001 як
високо значущі. Однак варто розуміти, що дана класифікація рівнів
значущості досить довільна і є всього лише неформальним
угодою, прийнятим на основі практичного досвіду в тій чи іншій області
дослідження. p>
Статистична
значимість і кількість виконаних аналізів. Зрозуміло, що чим більше число
аналізів ви проведете з сукупністю зібраних даних, тим більше число
значущих (на обраному рівні) результатів буде виявлено чисто випадково.
Наприклад, якщо ви обчислює кореляції між 10 змінними (маєте 45
різних коефіцієнтів кореляції), то можна очікувати, що приблизно два
коефіцієнта кореляції (одна на кожні 20) чисто випадково виявляться значущими
на рівні p .05, навіть якщо змінні абсолютно випадкові
і некорреліровани в популяції. Деякі статистичні методи, що включають
багато порівнянь, і, таким чином, що мають хороший шанс повторити такого роду
помилки, роблять спеціальну коригування або поправку на загальне число
порівнянь. Тим не менш, багато статистичні методи (особливо прості методи
розвідувального аналізу даних) не пропонують будь-якого способу розв'язання даної
проблеми. Тому дослідник повинен з обережністю оцінювати надійність несподіваних
результатів. p>
Величина
залежності між змінними у порівнянні з надійністю залежності. Як було
вже сказано, величина залежності і надійність представляють дві різні
характеристики залежностей між змінними. Тим не менше, не можна сказати,
що вони абсолютно незалежні. Говорячи спільною мовою, чим більше величина
залежності (зв'язку) між змінними у вибірці звичайного обсягу, тим більше вона
надійна (див. наступний розділ). p>
Чому
сильніші залежності між змінними є більш значущими. Якщо
припускати відсутність залежності між відповідними змінними в
популяції, то найбільш ймовірно очікувати, що в досліджуваній вибірці зв'язок між
цими змінними також буде відсутній. Таким чином, чим сильніша
залежність виявлена у вибірці, тим менш імовірно, що цієї залежності немає
в популяції, з якої вона вилучено. Як ви бачите, величина залежності і
значимість тісно пов'язані між собою, і можна було б спробувати вивести
значущість з величини залежності і навпаки. Однак зазначена зв'язок між
залежністю і значимістю має місце тільки при фіксованому обсязі вибірки,
оскільки при різних обсягах вибірки одна й та ж залежність може
виявитися як високо значущою, так і незначущої зовсім (див. наступний розділ) p>
Чому
обсяг вибірки впливає на значущість залежності. Якщо спостережень мало, то
відповідно є мало можливих комбінацій значень цих змінних і
таким чином, ймовірність випадкового виявлення комбінації значень,
що показують сильну залежність, відносно велика. Наведемо
приклад. Якщо ви досліджуєте залежність двох переменних (Пол: чоловік/жінка і
WCC: високий/низький) і маєте лише 4 суб'єкта у вибірці (2 чоловіки та 2
жінки), то ймовірність того, що чисто випадково ви знайдете 100% залежність
між двома змінними дорівнює 1/8. Більш точно, ймовірність того, що обидва
чоловіки мають високий WCC, а обидві жінки - низький WCC, або навпаки, - дорівнює
1/8. Тепер розглянемо ймовірність такого збігу для 100 суб'єктів; легко
бачити, що ця ймовірність дорівнює практично нулю. Розглянемо більш загальний
приклад. Уявімо популяцію, в якій середнє значення WCC чоловіків і жінок
одне і теж. Якщо ви будете повторювати експеримент, який полягає в отриманні пари
випадкових вибірок (одна вибірка - чоловіки, інша вибірка - жінки), а потім
обчисліть різниці вибіркових середніх WCC для кожної пари вибірок, то в
більшості експериментів результат буде близький до 0. Однак час від часу,
зустрічатимуться пари вибірок, в яких різниця між середньою кількістю
лейкоцитів у чоловіків і жінок буде істотно відрізнятися від 0. Як часто це
буде відбуватися? Очевидно, чим менше обсяг вибірки в кожному експерименті,
тим більш вірогідна поява таких помилкових результатів, які показують
існування залежності між підлогою та WCC в даних, отриманих з популяції,
де така залежність насправді відсутній. p>
Приклад:
"відношення числа новонароджених хлопчиків до числа новонароджених
дівчаток "Розглянемо наступний приклад, запозичений з Nisbett, et al.,
1987. Є 2 лікарні. Припустимо, що в першому з них щодня народжується
120 дітей, у другому тільки 12. У середньому відношення числа хлопчиків,
народжуються в кожній лікарні, до числа дівчаток 50/50. Одного разу дівчаток народилося
вдвічі більше, ніж хлопчиків. Питається, для якої лікарні дану подію
більш вірогідно? Відповідь очевидна для статистика, однак, він не настільки очевидний
недосвідченому. Звичайно, така подія набагато більш імовірно для маленької
лікарні. Пояснення цього факту полягає в тому, що ймовірність випадкового
відхилення (від середнього) зростає зі зменшенням обсягу вибірки. p>
Чому
слабкі зв'язки можуть бути значимо доведені тільки на великих вибірках. Приклад з
попереднього розділу показує, що якщо зв'язок між змінними "об'єктивно"
слабка (тобто властивості вибірки близькі до властивостей популяції), то не існує
іншого способу перевірити таку залежність окрім як досліджувати вибірку
досить великого обсягу. Навіть якщо вибірка, що знаходиться у вашому
розпорядженні, зовсім репрезентативна, ефект не буде статистично
значущим, якщо вибірка мала. Аналогічно, якщо залежність
"об'єктивно" (в популяції) дуже сильна, тоді вона може бути
виявлена з високим ступенем значущості навіть на дуже маленькій вибірці. Розглянемо
приклад. Уявіть, що ви кидаєте монету. Якщо монета злегка несиметрична,
і при підкиданні орел випадає частіше Решко (наприклад, у 60% підкидань
випадає орел, а в 40% решка), то 10 підкидань монети було б не
достатньо, щоб переконати кого б то не було, що монета асиметрична, навіть
якщо був би отриманий, здавалося, абсолютно репрезентативний результат: 6 орлів і
4 Решко. Чи не варто звідси, що 10 підкидань взагалі не можуть довести
що-небудь? Ні, не варто, тому що якщо ефект, в принципі, дуже сильний,
то 10 підкидань може виявитися цілком достатньо для його докази.
Уявіть, що монета настільки несиметрична, що кожного разу, коли ви її
кидаєте, випадає орел. Якщо ви кидаєте таку монету 10 разів, і щоразу
випадає орел, більшість людей вважатимуть це переконливим доказом того,
що з монетою щось не те. Іншими словами, це стало б переконливим
доказом того, що в популяції, що складається з нескінченного числа
підкидань цієї монети орел буде зустрічатися частіше, ніж решка. У результаті цих
міркувань ми приходимо до висновку: якщо залежність сильна, вона може бути
виявлена з високим рівнем значущості навіть на малій вибірці. p>
Можна
чи відсутність зв'язків розглядати як значущий результат? Чим слабкіше
залежність між змінними, тим більшого обсягу потрібно вибірка, щоб
значимо її виявити. Уявіть, як багато кидків монети необхідно
зробити, щоб довести, що відхилення від рівної імовірності випадання орла і
решка становить тільки .000001%! Необхідний мінімальний розмір вибірки
зростає, коли ступінь ефекту, який потрібно довести, зменшується. Коли
ефект близький до 0, необхідний обсяг вибірки для його виразного докази
наближається до нескінченності. Іншими словами, якщо залежність між
змінними майже відсутня, обсяг вибірки, необхідний для значущого
виявлення залежності, майже дорівнює обсягу всієї популяції, який
передбачається нескінченним. Статистична значимість представляє ймовірність
того, що подібний результат був би отриманий при перевірці всієї популяції в
цілому. Таким чином, все, що отримано після тестування всієї популяції було
б, за визначенням, значимим на найвищому, можливому рівні і це відноситься до
всім результатами типу "немає залежності". p>
Як
виміряти величину залежності між змінними. Статистики розробити багато
різних заходів взаємозв'язку між змінними. Вибір певної міри в
конкретному дослідженні залежить від числа змінних, використовуваних шкал
вимірювання, природи залежностей і т.д. Більшість цих заходів, тим не менше,
підкоряються загальному принципу: вони намагаються оцінити що спостерігається залежність,
порівнюючи її з "максимальної мислимій залежністю" між
розглядаються змінними. Говорячи технічно, звичайний спосіб виконати такі
оцінки полягає в тому, щоб подивитися як варіюються значення змінних
і потім підрахувати, яку частину всієї наявної варіації можна пояснити
наявністю "загальної" ( "спільною") варіації двох (або більше)
змінних. Говорячи менш технічною мовою, ви порівнюєте то "що є
спільного в цих змінних ", з тим" що потенційно було б у них
спільного, якщо б змінні були абсолютно залежні ". Розглянемо простий
приклад. Нехай у вашій вибіркою, середній показник (кількість лейкоцитів) WCC дорівнює
100 для чоловіків і 102 для жінок. Отже, ви могли б сказати, що
відхилення кожного індивідуального значення від загальної середньої (101) містить
компоненту пов'язану з підлогою суб'єкта і середня величина її дорівнює 1. Це
значення, таким чином, представляє деяку міру зв'язку між змінними
Пол і WCC. Звичайно, це дуже бідна міра залежності, так як вона не дає
ніякої інформації про те, наскільки велика ця зв'язок, скажімо щодо
загальної зміни значень WCC. Розглянемо крайні можливості: p>
Якщо
всі значення WCC у чоловіків були б точно рівні 100, а у жінок 102, то все
відхилення значень від загальної середньої у вибірці цілком пояснювалися б підлогою
індивідуума. Тому ви могли б сказати, що стать абсолютно корелював
(пов'язаний) з WCC, іншими словами, 100% спостережуваних відмінностей між суб'єктами в
значеннях WCC пояснюються підлогою суб'єктів. p>
Якщо
ж значення WCC лежать в межах 0-1000, то та ж різниця (2) між середніми
значеннями WCC чоловіків і жінок, виявлена в експерименті, становила б
настільки малу частку загальної варіації, що отримане відмінність (2) вважалося б
пренебрежимо малим. Розгляд ще одного суб'єкта могло б змінити різниця
або навіть змінити її знак. Тому будь-яка гарна міра залежності повинна
брати до уваги повну мінливість індивідуальних значень у вибірці і
оцінювати залежність по тому, наскільки ця мінливість пояснюється що вивчається
залежністю. p>
Загальна
конструкція більшості статистичних критеріїв. Так як кінцева мета
більшості статистичних критеріїв (тестів) полягає в оцінюванні залежності
між змінними, більшість статистичних тестів слідують загальному принципу,
поясненнями в попередньому розділі. Говорячи технічною мовою, ці тести
являють собою відношення мінливості, загальною для розглянутих змінних,
до повної мінливості. Наприклад, такий тест може являти собою відношення
тій частині мінливості WCC, яка визначається підлогою, до повної мінливості
WCC (обчисленої для об'єднаної вибірки чоловіків і жінок). Це відношення
зазвичай називається відношенням пояснене варіації до повної варіації. У
статистиці термін пояснення варіація не обов'язково означає, що ви даєте їй
"теоретичне пояснення". Він використовується тільки для позначення
загальної варіації розглянутих змінних, іншими словами, для вказівки на те,
що частина варіації однієї змінної "пояснюється" певними
значеннями іншої змінної і навпаки. p>
Як
обчислюється рівень статистичної значущості. Припустимо, ви вже вирахували
міру залежності між двома змінними (як пояснювалося вище). Наступний
питання, що стоїть перед вами: "наскільки значима ця залежність?"
Наприклад, чи є 40% пояснене дисперсії між двома змінними
достатнім, щоб вважати залежність значущою? Відповідь: "залежно від
обставин ". Саме, значущість залежить в основному від об'єму вибірки.
Як вже пояснювалося, в дуже великих вибірках навіть дуже слабкі залежності
між змінними будуть значимими, у той час як у малих вибірках навіть дуже
сильні залежності не є надійними. Таким чином, для того щоб
визначити рівень статистичної значущості, вам потрібна функція, яка
була б залежність між "величиною" і
"значущістю" залежності між змінними для кожного обсягу
вибірки. Ця функція вказала б вам точно "наскільки ймовірно отримати
залежність даної величини (або більше) у вибірці даного обсягу, в
припущенні, що в популяції такої залежності немає ". Іншими словами,
ця функція давала б рівень значущості (p-рівень), і, отже,
ймовірність помилково відхилити припущення про відсутність даної залежності в
популяції. Ця "альтернативна" гіпотеза (яка полягає в тому, що немає
залежності в популяції) зазвичай називається нульовою гіпотезою. Було б ідеально,
якби функція, що обчислює ймовірність помилки, була лінійною і мала тільки
різні нахили для різних обсягів вибірки. На жаль, ця функція
істотно більш складна і не завжди точно одна й та ж. Тим не менш, у
більшості випадків її форма відома, і її можна використовувати для визначення рівнів
значущості при дослідженні вибірок заданого розміру. Більшість цих функцій
пов'язане з дуже важливим класом розподілів, який називають нормальним. p>
Чому
важливо Нормальний розподіл. Нормальний розподіл важливо з багатьох
причин. У більшості випадків воно є гарним наближенням функцій,
визначених у попередньому розділі (більш докладний опис див Всі
Чи статистики критеріїв нормально розподілені?). Розподіл багатьох
статистик є нормальним або може бути отримано з нормальних з допомогою
деяких перетворень. Розмірковуючи філософськи, можна сказати, що нормальне
розподіл являє собою одну з емпірично перевірених істин
щодо загальної природи дійсності і його положення може розглядатися
як один з фундаментальних законів природи. Точна форма нормального
розподілу (характерна "колоколообразний крива") визначається
тільки двома параметрами: середнім і стандартним відхиленням. p>
Характерне
властивість нормального розподілу полягає в тому, що 68% всіх його спостережень
лежать в діапазоні ± 1 стандартне відхилення від середнього, а діапазон ± 2
стандартних відхилення містить 95% значень. Іншими словами, при нормальному
розподілі, стандартизовані спостереження, менші -2 або великі 2, мають
відносну частоту менше 5% (стандартизоване спостереження означає, що з
вихідного значення відняті середнє і результат поділений на стандартне
відхилення (корінь з дисперсії)). Якщо ви маєте доступ до пакету
STATISTICA, Ви можете вирахувати точні значення ймовірностей, пов'язаних з
різними значеннями нормального розподілу, використовуючи Імовірнісний
калькулятор; наприклад, якщо задати z-значення (тобто значення випадкової
величини, що має стандартний нормальний розподіл) рівним 4, відповідний
імовірнісний рівень, обчислений STATISTICA буде менше .0001, оскільки при
нормальному розподілі практично всі спостереження (тобто більш 99.99%) потраплять
в діапазон ± 4 стандартних відхилення. p>
p>
Ілюстрація
того, як нормальний розподіл використовується в статистичних міркуваннях
(індукція). Нагадаємо приклад, який обговорювався вище, коли пари вибірок чоловіків і
жінок вибиралися із сукупності, в якій середнє значення WCC для чоловіків і
жінок було в точності одне й те саме. Хоча найбільш ймовірний результат таких
експериментів (одна пара вибірок на експеримент) полягає в тому, що різниця
між середніми WCC для чоловіків і жінок для кожної пари близька до 0, час від
час з'являються пари вибірок, в яких ця різниця суттєво відрізняється від
0. Як часто це відбувається? Якщо обсяг вибірок досить великий, то різниці
"нормально розподілені" і знаючи форму нормальної кривої, ви можете
точно розрахувати ймовірність випадкового отримання результатів, що представляють
різні рівні відхилення середнього від 0 - значення гіпотетичного для всієї
популяції. Якщо обчислена імовірність настільки мала, що задовольняє прийнятим
заздалегідь рівнем значущості, то можна зробити лише один висновок: ваш результат
краще описує властивості популяції, ніж "нульова гіпотеза". Слід
пам'ятати, що нульова гіпотеза розглядається тільки за технічними
міркувань як початкова точка, з якої зіставляються емпіричні
результати. Відзначимо, що все це міркування грунтується на припущенні про
нормальності розподілу цих повторних вибірок (тобто нормальності
вибіркового розподілу). Це припущення обговорюється в наступному розділі. p>
Всі
Чи статистики критеріїв нормально розподілені? Не всі, але більшість з них
або мають нормальний розподіл, або мають розподіл, пов'язане з
нормальним і обчислюється на основі нормального, таке як t, F або хі-квадрат.
Зазвичай ці критеріальні статистики вимагають, щоб аналізовані перемінні
самі були нормально розподілені в сукупності. Багато які спостерігаються змінні
дійсно нормально розподілені, що є ще одним аргументом на
користь того, що нормальний розподіл представляє "фундаментальний
закон ". Проблема може виникнути, коли намагаються застосувати тести,
засновані на припущенні нормальності, до даних, які не є нормальними
(дивись критерії нормальності в розділах непараметрична статистика і розподілу
або Дисперсійний аналіз). У цих випадках ви можете вибрати одну з двох.
По-перше, ви можете використовувати альтернативні "непараметричних"
тести (так звані "вільно розподілені критерії", див
Непараметрична статистика і розподілу). Однак це часто незручно,
тому що зазвичай ці критерії мають меншу потужність і мають меншу
гнучкістю. Як альтернативу, у багатьох випадках ви можете все ж використовувати
тести, засновані на припущенні нормальності, якщо впевнені, що обсяг вибірки
досить великий. Остання можливість заснована на надзвичайно важливому
принципі, що дозволяє зрозуміти популярність тестів, заснованих на нормальності. А
саме, при зростанні обсягу вибірки, форма вибіркового розподілу (тобто
розподіл вибіркової статистики критерію, цей термін був вперше
використаний в роботі Фішера, Fisher 1928a) наближається до нормального, навіть якщо
розподіл досліджуваних змінних не є нормальним. Цей принцип
ілюструється наступним анімаційним роликом, що показує послідовність
вибіркових розподілів (отриманих для послідовності вибірок
зростаючого розміру: 2, 5, 10, 15 і 30), відповідних змінним з явно
вираженим відхиленням від нормальності, тобто що мають помітну асиметричність
розподілу. p>
p>
Однак
в міру збільшення розміру вибірки, яка використовується для отримання розподілу
вибіркового середнього, цей розподіл наближається до нормального. Відзначимо,
що при розмірі вибірки n = 30, вибіркове розподіл "майже"
нормально (див. на близькість лінії підгонки). Цей принцип називається центральній
граничною теоремою (вперше цей термін був використаний в роботі Polya, 1920;
по-німецьки "Zentraler Grenzwertsatz"). p>
Як
дізнатися наслідки порушень припущень нормальності? Хоча багато
затвердження інших розділів Елементарних понять статистики можна довести
математично, деякі з них не мають теоретіческог?? обгрунтування і можуть
бути продемонстровані лише емпірично, з допомогою так званих
експериментів Moнте-Кaрло. У цих експериментах велику кількість вибірок
генерується на комп'ютері, а результати отримані з цих вибірок,
аналізуються за допомогою різних тестів. Цим способом можна емпірично
оцінити тип і величину помилок або зсувів, які ви отримуєте, коли
порушуються певні теоретичні припущення тестів, які використовуються вами.
Дослідження за допомогою методів Монте-Карло інтенсивно використовувалися для того,
щоб оцінити, наскільки тести, засновані на припущенні нормальності,
чутливі до різних порушень припущень нормальності. Загальний висновок
цих досліджень полягає в тому, що наслідки порушення припущення
нормальності менш фатальні, ніж спочатку передбачалося. Хоча ці висновки
не означають, що припущення нормальності можна ігнорувати, вони збільшили
загальну популярність тестів, заснованих на нормальному розподілі. p>
Список літератури h2>
Для
підготовки даної роботи були використані матеріали з сайту http://www.marketing.spb.ru/
p>