Пример за разпределение на чи квадрат. Класически методи на статистика: хи-квадрат. Критични точки на разпределение χ2

Разпределение. Разпределение на Пиърсън Плътност на вероятността ... Уикипедия

разпределение хи-квадрат- разпределение "хи квадрат" - Теми информационна сигурност EN хи квадрат разпределение ... Наръчник за технически преводач

разпределение хи-квадрат- Вероятностно разпределение на непрекъсната случайна променлива със стойности от 0 до, чиято плътност се дава по формулата, където 0 с параметър =1,2,...; е гама функцията. Примери. 1) Сумата от квадратите на независими нормализирани нормални случайни ... ... Речник на социологическата статистика

РАЗПРЕДЕЛЕНИЕ ХИ-КВАДРАТ (хи2)- Разпределение на случайната променлива chi2. ако произволни проби от размер 1 са взети от нормално разпределение със средна стойност (и дисперсия q2, тогава chi2 = (X1 u)2/q2, където X е стойността на извадката. Ако размерът на извадката се увеличи произволно до N, тогава chi2 = … …

Плътност на вероятността ... Уикипедия

- (Разпределение Snedecor) Плътност на вероятността ... Wikipedia

Разпределение на Фишър Плътност на вероятността Функция на разпределение Параметри на броя с ... Wikipedia

Една от основните концепции на теорията на вероятностите и математическата статистика. Със съвременния подход като математически. модел на изследваното случайно явление, се взема съответното вероятностно пространство (W, S, P), където W е множеството от елементарни ... Математическа енциклопедия

Гама разпределение Плътност на вероятността Функция на разпределение Параметри ... Wikipedia

F РАЗПРОСТРАНЕНИЕ- Теоретично вероятностно разпределение на случайна променлива F. Ако произволни извадки с размер N са избрани независимо от нормална популация, всяка от тях генерира разпределение хи-квадрат със степен на свобода = N. Съотношението на две такива ... . .. Речникв психологията

Книги

  • Теория на вероятностите и математическа статистика в задачите. Повече от 360 задачи и упражнения, Borzykh D.A. Предлаганото ръководство съдържа задачи с различни нива на сложност. Фокусът обаче е върху задачите средна трудност. Това се прави умишлено, за да се насърчат учениците да...

Разпределението хи-квадрат е едно от най-широко използваните в статистиката за тестване на статистически хипотези. На базата на разпределението "хи-квадрат" е конструиран един от най-мощните тестове за добро съответствие, "хи-квадрат" тестът на Пиърсън.

Тестът за съответствие е критерий за проверка на хипотезата за предложения закон на неизвестното разпределение.

Тестът χ2 („хи-квадрат“) се използва за проверка на хипотезата различни разпределения. Това е негова заслуга.

Формулата за изчисление на критерия е равна на

където m и m' са съответно емпиричните и теоретичните честоти

разглеждано разпределение;

n е броят на степените на свобода.

За проверка трябва да сравним емпирични (наблюдавани) и теоретични (изчислени при предположението за нормално разпределение) честоти.

Ако емпиричните честоти напълно съвпадат с изчислените или очакваните честоти, S (E - T) = 0 и критерият χ2 също ще бъде равен на нула. Ако S (E - T) не е равно на нула, това ще означава несъответствие между изчислените честоти и емпиричните честоти на серията. В такива случаи е необходимо да се оцени значимостта на критерия χ2, който теоретично може да варира от нула до безкрайност. Това се прави чрез сравняване на действително получената стойност на χ2ph с неговата критична стойност (χ2st).Нулевата хипотеза, т.е. предположението, че несъответствието между емпиричните и теоретичните или очакваните честоти е случайно, се опровергава, ако χ2ph е по-голямо или равно на до χ2st за приетото ниво на значимост (a) и брой степени на свобода (n).

Разпределението на вероятните стойности на случайната променлива χ2 е непрекъснато и асиметрично. Зависи от броя на степените на свобода (n) и се доближава до нормално разпределение с увеличаване на броя на наблюденията. Следователно прилагането на критерия χ2 за оценка на дискретни разпределения е свързано с някои грешки, които влияят на неговата стойност, особено за малки проби. За да се получат по-точни оценки, извадката, разпределена в вариационна серия, трябва да има поне 50 опции. Правилното прилагане на критерия χ2 също изисква честотите на вариантите в екстремните класове да не са по-малки от 5; ако има по-малко от 5, тогава те се комбинират с честотите на съседни класове, така че общият им брой да е по-голям или равен на 5. Според комбинацията от честоти броят на класовете (N) също намалява. Броят на степените на свобода се определя според вторичния брой класове, като се вземе предвид броят на ограниченията на свободата на вариация.



Тъй като точността на определяне на критерия χ2 до голяма степен зависи от точността на изчисляване на теоретичните честоти (T), трябва да се използват незакръглени теоретични честоти, за да се получи разликата между емпиричните и изчислените честоти.

Като пример вземете проучване, публикувано на уебсайт, посветен на приложението статистически методив хуманитарните науки.

Хи-квадрат тестът позволява сравнение на честотните разпределения, независимо дали те са нормално разпределени или не.

Честотата се отнася до броя на случванията на дадено събитие. Обикновено честотата на възникване на дадено събитие се разглежда, когато променливите се измерват в скалата на имената и другите им характеристики, с изключение на честотата, са невъзможни или проблематични за избор. С други думи, когато променливата има качествени характеристики. Освен това много изследователи са склонни да превеждат резултатите от тестовете в нива (високо, средно, ниско) и да съставят таблици с разпределение на резултатите, за да открият броя на хората на тези нива. За да се докаже, че в едно от нивата (в една от категориите) броят на хората наистина е повече (по-малко), се използва и коефициентът Хи-квадрат.

Нека да разгледаме най-простия пример.

Беше проведен тест за самочувствие сред по-младите юноши. Резултатите от теста бяха преведени на три нива: високо, средно и ниско. Разпределени честоти по следния начин:

Висок (H) 27 перс.

Среден (C) 12 души

Ниска (H) 11 чол.

Очевидно е, че по-голямата част от децата са с високо самочувствие, но това трябва да се докаже статистически. За целта използваме теста Хи-квадрат.

Нашата задача е да проверим дали получените емпирични данни се различават от теоретично еднакво вероятните. За да направите това, трябва да намерите теоретичните честоти. В нашия случай теоретичните честоти са равновероятни честоти, които се намират чрез добавяне на всички честоти и разделяне на броя на категориите.

В нашия случай:

(B + C + H) / 3 \u003d (27 + 12 + 11) / 3 \u003d 16,6

Формулата за изчисляване на хи-квадрат теста е:

χ2 = ∑(E - T)І / T

Изграждаме маса:

Намерете сумата от последната колона:

Сега трябва да намерите критичната стойност на критерия според таблицата с критични стойности (Таблица 1 в Приложението). За да направим това, имаме нужда от броя на степените на свобода (n).

n = (R - 1) * (C - 1)

където R е броят на редовете в таблицата, C е броят на колоните.

В нашия случай има само една колона (което означава оригиналните емпирични честоти) и три реда (категории), така че формулата се променя - изключваме колоните.

n = (R - 1) = 3-1 = 2

За вероятността за грешка p≤0,05 и n = 2, критичната стойност χ2 = 5,99.

Получената емпирична стойност е по-голяма от критичната стойност – честотните разлики са значими (χ2= 9.64; p≤0.05).

Както можете да видите, изчисляването на критерия е много просто и не отнема много време. Практическата стойност на хи-квадрат теста е огромна. Този метод е най-ценен при анализа на отговорите на въпросниците.


Да вземем по-сложен пример.

Например, един психолог иска да знае дали е вярно, че учителите са по-предубедени към момчетата, отколкото към момичетата. Тези. по-вероятно е да хвали момичета. За да направи това, психологът анализира характеристиките на учениците, написани от учителите, за честотата на срещане на три думи: „активен“, „усърден“, „дисциплиниран“, като синонимите на думите също бяха преброени. Данните за честотата на срещане на думите бяха въведени в таблицата:

За обработка на получените данни използваме теста хи-квадрат.

За да направим това, изграждаме таблица на разпределението на емпиричните честоти, т.е. честотите, които наблюдаваме:

Теоретично очакваме честотите да бъдат разпределени равномерно, т.е. честотата ще бъде разпределена пропорционално между момчета и момичета. Нека изградим таблица с теоретични честоти. За да направите това, умножете сумата на реда по сумата на колоната и разделете полученото число на общата сума (s).

Получената таблица за изчисления ще изглежда така:

χ2 = ∑(E - T)І / T

n = (R - 1), където R е броят на редовете в таблицата.

В нашия случай хи-квадрат = 4,21; n = 2.

Според таблицата на критичните стойности на критерия намираме: при n = 2 и ниво на грешка от 0,05, критичната стойност χ2 = 5,99.

Получената стойност е по-малка от критичната стойност, което означава, че нулевата хипотеза се приема.

Извод: учителите не отдават значение на пола на детето, когато пишат неговите характеристики.


Заключение.

К. Пиърсън има значителен принос за развитието на математическата статистика (голям брой фундаментални понятия). Основната философска позиция на Пиърсън е формулирана по следния начин: понятията на науката са изкуствени конструкции, средства за описание и подреждане на сетивния опит; правилата за свързването им в научни предложения се отделят от граматиката на науката, която е философията на науката. Свързването на разнородни понятия и явления позволява една универсална дисциплина - приложната статистика, въпреки че според Пиърсън тя също е субективна.

Много конструкции на К. Пиърсън са пряко свързани или разработени с помощта на антропологични материали. Той разработи множество методи за числена класификация и статистически критерии, използвани във всички области на науката.


Литература.

1. А. Н. Боголюбов, Математика. Механика. Биографичен справочник. - Киев: Наукова думка, 1983.

2. Колмогоров А. Н., Юшкевич А. П. (ред.). Математиката на 19 век. - М.: Наука. - Т.И.

3. 3. Боровков А.А. Математическа статистика. Москва: Наука, 1994.

4. 8. Фелер В. Въведение в теорията на вероятностите и нейните приложения. - М .: Мир, Т.2, 1984 г.

5. 9. Харман Г., Съвременен факторен анализ. - М.: Статистика, 1972.

Тестът \(\chi^2\) ("хи-квадрат", също "тест за съответствие на Пиърсън") има изключително широко приложение в статистиката. IN общ изгледможем да кажем, че се използва за тестване на нулевата хипотеза за подчинението на наблюдавана случайна променлива на определен теоретичен закон за разпределение (за повече подробности вижте например). Конкретната формулировка на тестваната хипотеза ще варира в зависимост от случая.

В тази публикация ще опиша как работи тестът \(\chi^2\), използвайки (хипотетичен) пример от имунологията. Представете си, че сме извършили експеримент, за да определим ефективността на потискане на развитието на микробно заболяване, когато съответните антитела бъдат въведени в тялото. Общо 111 мишки бяха включени в експеримента, които разделихме на две групи, включващи съответно 57 и 54 животни. Първата група мишки беше инжектирана с патогенни бактерии, последвано от въвеждане на кръвен серум, съдържащ антитела срещу тези бактерии. Животните от втората група послужиха за контрола - те получиха само бактериални инжекции. След известно време на инкубация се оказа, че 38 мишки са умрели, а 73 са оцелели. От загиналите 13 са от първата група, а 25 са от втората (контролната). Нулевата хипотеза, тествана в този експеримент, може да бъде формулирана по следния начин: прилагането на серум с антитела няма ефект върху оцеляването на мишките. С други думи, ние твърдим, че наблюдаваните разлики в преживяемостта на мишки (77,2% в първата група срещу 53,7% във втората група) са напълно случайни и не са свързани с действието на антителата.

Получените в експеримента данни могат да бъдат представени под формата на таблица:

Обща сума

Бактерии + серум

Само бактерии

Обща сума

Таблици като тази се наричат ​​таблици за непредвидени случаи. В този пример таблицата е с размери 2x2: има два класа обекти („Бактерии + серум“ и „Само бактерии“), които се изследват според два критерия („Мъртви“ и „Оцелели“). Това най-простият случайтаблици за непредвидени обстоятелства: разбира се, както броят на изучаваните класове, така и броят на характеристиките може да бъде по-голям.

За да тестваме формулираната по-горе нулева хипотеза, трябва да знаем каква би била ситуацията, ако антителата наистина нямаха никакъв ефект върху оцеляването на мишките. С други думи, трябва да изчислите очаквани честотиза съответните клетки от таблицата за непредвидени обстоятелства. Как да го направим? В експеримента са загинали общо 38 мишки, което е 34,2% от общ бройучастващи животни. Ако въвеждането на антитела не повлияе на оцеляването на мишките, и в двете експериментални групитрябва да се наблюдава същият процент на смъртност, а именно 34,2%. Изчислявайки колко е 34,2% от 57 и 54, получаваме 19,5 и 18,5. Това са очакваните нива на смъртност в нашите експериментални групи. Очакваните нива на оцеляване се изчисляват по подобен начин: тъй като са оцелели общо 73 мишки или 65,8% от общия им брой, очакваните нива на оцеляване са 37,5 и 35,5. Нека направим нова таблица за непредвидени обстоятелства, сега с очакваните честоти:

мъртъв

Оцелели

Обща сума

Бактерии + серум

Само бактерии

Обща сума

Както можете да видите, очакваните честоти са доста различни от наблюдаваните, т.е. прилагането на антитела изглежда има ефект върху оцеляването на мишки, заразени с патогена. Можем да определим количествено това впечатление с помощта на теста за съответствие на Pearson \(\chi^2\):

\[\chi^2 = \sum_()\frac((f_o - f_e)^2)(f_e),\]


където \(f_o\) и \(f_e\) са съответно наблюдаваните и очакваните честоти. Сумирането се извършва по всички клетки на таблицата. И така, за разглеждания пример имаме

\[\chi^2 = (13 – 19,5)^2/19,5 + (44 – 37,5)^2/37,5 + (25 – 18,5)^2/18,5 + (29 – 35,5)^2/35,5 = \]

\(\chi^2\) достатъчно голям ли е, за да отхвърли нулевата хипотеза? За да се отговори на този въпрос, е необходимо да се намери съответната критична стойност на критерия. Броят на степените на свобода за \(\chi^2\) се изчислява като \(df = (R - 1)(C - 1)\), където \(R\) и \(C\) са числото на редове и колони в конюгацията на таблицата. В нашия случай \(df = (2 -1)(2 - 1) = 1\). Като знаем броя на степените на свобода, сега можем лесно да намерим критичната стойност \(\chi^2\), като използваме стандартната R-функция qchisq() :


Така за една степен на свобода стойността на критерия \(\chi^2\) надвишава 3,841 само в 5% от случаите. Стойността, която получихме, 6,79, значително надвишава тази критична стойност, което ни дава право да отхвърлим нулевата хипотеза, че няма връзка между прилагането на антитела и оцеляването на заразените мишки. Отхвърляйки тази хипотеза, рискуваме да сгрешим с вероятност по-малка от 5%.

Трябва да се отбележи, че горната формула за критерия \(\chi^2\) дава донякъде надценени стойности при работа с таблици за непредвидени обстоятелства с размер 2x2. Причината е, че самото разпределение на \(\chi^2\) критерия е непрекъснато, докато честотите на двоичните характеристики ("умрял" / "оцелял") са дискретни по дефиниция. В тази връзка при изчисляване на критерия е прието да се въвежда т.нар. корекция на непрекъснатостта, или Поправката на Йейтс :

\[\chi^2_Y = \sum_()\frac((|f_o - f_e| - 0,5)^2)(f_e).\]

Пиърсън "s Хи-квадрат тест с Йейтс"данни за корекция на непрекъснатостта: мишки X-квадрат = 5,7923, df = 1, p-стойност = 0,0161


Както можете да видите, R автоматично прилага корекцията на Йейтс за непрекъснатост ( Хи-квадрат тест на Пиърсън с корекция за непрекъснатост на Йейтс). Стойността \(\chi^2\), изчислена от програмата, беше 5,79213. Можем да отхвърлим нулевата хипотеза за липса на ефект на антитяло с риск да сгрешим с вероятност от малко над 1% (p-стойност = 0,0161).

Министерство на образованието и науката на Руската федерация

Федерална агенция за образование на град Иркутск

Байкал Държавен университетикономика и право

Катедра "Информатика и кибернетика".

Хи-квадрат разпределение и неговото приложение

Колмикова Анна Андреевна

Студент 2-ра година

група ИС-09-1

За обработка на получените данни използваме теста хи-квадрат.

За да направим това, изграждаме таблица на разпределението на емпиричните честоти, т.е. честотите, които наблюдаваме:

Теоретично очакваме честотите да бъдат разпределени равномерно, т.е. честотата ще бъде разпределена пропорционално между момчета и момичета. Нека изградим таблица с теоретични честоти. За да направите това, умножете сумата на реда по сумата на колоната и разделете полученото число на общата сума (s).


Получената таблица за изчисления ще изглежда така:

χ2 \u003d ∑ (E - T)² / T

n = (R - 1), където R е броят на редовете в таблицата.

В нашия случай хи-квадрат = 4,21; n = 2.

Според таблицата на критичните стойности на критерия намираме: при n = 2 и ниво на грешка от 0,05, критичната стойност χ2 = 5,99.

Получената стойност е по-малка от критичната стойност, което означава, че нулевата хипотеза се приема.

Извод: учителите не отдават значение на пола на детето, когато пишат неговите характеристики.

Приложение

Критични точки на разпределение χ2

маса 1

Заключение

Студентите от почти всички специалности се обучават в края на курса висша математикараздел "теория на вероятностите и математическа статистика", реално те се запознават само с някои основни понятия и резултати, които явно не са достатъчни за практическа работа. Студентите се запознават с някои математически методи на изследване в специални курсове (например като "Прогнозиране и планиране на осъществимостта", "Технико-икономически анализ", "Контрол на качеството на продуктите", "Маркетинг", "Контролинг", " Математически методиПрогнозиране", "Статистика" и др. - при студентите по икономически специалности), но изложението в повечето случаи е много съкратено и рецептурно. В резултат на това специалистите по приложна статистика нямат достатъчно познания.

Ето защо голямо значениеима курс "Приложна статистика" в технически университети, а в икономическите университети - курсът "Иконометрия", тъй като иконометрията, както знаете, е статистически анализ на конкретни икономически данни.

Теорията на вероятностите и математическата статистика предоставят фундаментални знания за приложна статистика и иконометрия.

Те са необходими на специалистите за практическа работа.

Разгледах непрекъснат вероятностен модел и се опитах да покажа неговата използваемост с примери.

Библиография

1. Орлов А.И. Приложна статистика. М.: Издателство "Изпит", 2004 г.

2. Гмурман В.Е. Теория на вероятностите и математическа статистика. М.: висше училище, 1999. - 479с.

3. Айвозян С.А. Теория на вероятностите и приложна статистика, т.1. М .: Единство, 2001. - 656s.

4. Хамитов Г.П., Ведерникова Т.И. Вероятности и статистики. Иркутск: BSUEP, 2006 - 272 с.

5. Ежова Л.Н. Иконометрия. Иркутск: BSUEP, 2002. - 314с.

6. Мостелер Ф. Петдесет забавни вероятностни задачи с решения. М.: Наука, 1975. - 111с.

7. Мостелер Ф. Вероятност. М. : Мир, 1969. - 428s.

8. Яглом А.М. Вероятност и информация. М.: Наука, 1973. - 511с.

9. Чистяков В.П. Вероятностен курс. М.: Наука, 1982. - 256 с.

10. Кремер Н.Ш. Теория на вероятностите и математическа статистика. М .: UNITI, 2000. - 543 с.

11. Математическа енциклопедия, т.1. М.: Съветска енциклопедия, 1976. - 655с.

12. http://psystat.at.ua/ - Статистика в психологията и педагогиката. Статия Хи-квадрат тест.

Преди края на XIXвек нормална дистрибуциясе счита за универсален закон за промяна на данните. К. Пиърсън обаче забеляза, че емпиричните честоти могат да се различават значително от нормалното разпределение. Въпросът беше как да го докажа. Изискваше се не само графично сравнение, което е субективно, но и строга количествена обосновка.

Така е изобретен критерият χ 2(хи квадрат), който тества значимостта на несъответствието между емпирични (наблюдавани) и теоретични (очаквани) честоти. Това се случи още през 1900 г., но критерият се използва и днес. Освен това той е адаптиран за решаване на широк кръг от задачи. На първо място, това е анализ на категорични данни, т.е. такива, които се изразяват не чрез количество, а чрез принадлежност към категория. Например класа на автомобила, пола на участника в експеримента, вида на растението и др. Математически операции като събиране и умножение не могат да бъдат приложени към такива данни, само честотите могат да бъдат изчислени за тях.

Означаваме наблюдаваните честоти О (забелязано), очакван - E (очаква се). Като пример, нека вземем резултата от хвърляне на зар 60 пъти. Ако е симетрична и еднаква, вероятността всяка страна да се появи е 1/6 и следователно очакваният брой на всяка страна да се появи е 10 (1/6∙60). Записваме наблюдаваните и очакваните честоти в таблица и чертаем хистограма.

Нулевата хипотеза е, че честотите са последователни, тоест действителните данни не противоречат на очакваното. Алтернативна хипотеза е, че отклоненията в честотите надхвърлят случайните флуктуации, несъответствията са статистически значими. За да направим строго заключение, имаме нужда.

  1. Обобщена мярка за несъответствието между наблюдаваните и очакваните честоти.
  2. Разпределението на тази мярка при валидност на хипотезата, че няма разлики.

Да започнем с разстоянието между честотите. Ако вземем само разликата О - Д, тогава такава мярка ще зависи от мащаба на данните (честотите). Например 20 - 5 \u003d 15 и 1020 - 1005 \u003d 15. И в двата случая разликата е 15. Но в първия случай очакваните честоти са 3 пъти по-малки от наблюдаваните, а във втория случай - само 1,5%. Нуждаем се от относителна мярка, която не зависи от мащаба.

Нека обърнем внимание на следните факти. Като цяло, броят на категориите, в които се измерват честотите, може да бъде много по-голям, така че вероятността едно наблюдение да попадне в една или друга категория е доста малка. Ако е така, тогава разпределението на такава случайна променлива ще се подчинява на закона за редките събития, известен като Закон на Поасон. В закона на Поасон, както е известно, стойността математическо очакванеи отклоненията са еднакви (параметър λ ). Следователно, очакваната честота за някаква категория номинална променлива E iще бъде едновременното и неговото разпръскване. Освен това законът на Поасон с голям брой наблюдения клони към нормалното. Комбинирайки тези два факта, получаваме, че ако хипотезата за съответствието между наблюдаваните и очакваните честоти е вярна, тогава, с голям брой наблюдения, израз

Важно е да запомните, че нормалното ще се появи само при достатъчно високи честоти. В статистиката е общоприето, че общият брой наблюдения (сумата от честотите) трябва да бъде най-малко 50 и очакваната честота във всяка градация трябва да бъде най-малко 5. Само в този случай стойността, показана по-горе, има стандартна норма разпространение. Да приемем, че това условие е изпълнено.

Стандартното нормално разпределение има почти всички стойности в рамките на ±3 (правило на трите сигми). Така сме получили относителна разлика в честотите за една градация. Имаме нужда от обобщена мярка. Не можете просто да съберете всички отклонения - получаваме 0 (познайте защо). Пиърсън предложи да се добавят квадратите на тези отклонения.

Това са знаците Хи-квадрат тест Пиърсън. Ако честотите наистина отговарят на очакваните, тогава стойността на критерия ще бъде относително малка (защото повечето от отклоненията са близки до нулата). Но ако критерият се окаже голям, то това свидетелства в полза на значителни разлики между честотите.

Критерият на Pearson става „голям“, когато възникването на такава или дори по-голяма стойност стане малко вероятно. И за да се изчисли такава вероятност, е необходимо да се знае разпределението на критерия, когато експериментът се повтаря многократно, когато хипотезата за съответствие на честотата е вярна.

Както можете да видите, стойността на хи-квадрат също зависи от броя на членовете. Колкото повече от тях, толкова по-голяма трябва да бъде стойността на критерия, тъй като всеки член ще допринася за общата сума. Следователно за всяко количество независимаусловия, ще има собствено разпространение. Оказва се, че χ 2е цяло семейство от дистрибуции.

И тук стигаме до един щекотлив момент. Какво е число независимаусловия? Изглежда, че всеки термин (т.е. отклонение) е независим. К. Пиърсън също мислеше така, но се оказа, че греши. Всъщност броят на независимите членове ще бъде с един по-малък от броя на градациите на номиналната променлива н. Защо? Защото, ако имаме извадка, за която сумата от честотите вече е изчислена, тогава една от честотите винаги може да бъде определена като разликата между общото число и сумата от всички останали. Следователно вариацията ще бъде малко по-малка. Роналд Фишър забеляза този факт 20 години след като Пиърсън разработи своя критерий. Дори масите трябваше да бъдат преправени.

По този повод Фишър въвежда нова концепция в статистиката - степен на свобода(степени на свобода), което е броят на независимите членове в сумата. Концепцията за степените на свобода има математическо обяснение и се появява само в разпределения, свързани с нормалното (Студент, Фишер-Снедекор и самото хи-квадрат).

За да разберем по-добре значението на степените на свобода, нека се обърнем към физическия аналог. Представете си точка, която се движи свободно в пространството. Има 3 степени на свобода, т.к може да се движи във всяка посока на триизмерното пространство. Ако една точка се движи по някаква повърхност, тогава тя вече има две степени на свобода (напред-назад, надясно-наляво), въпреки че продължава да бъде в триизмерното пространство. Точката, движеща се по пружината, отново е в триизмерното пространство, но има само една степен на свобода, т.к може да се движи напред или назад. Както можете да видите, пространството, където се намира обектът, не винаги отговаря на реалната свобода на движение.

Приблизително също разпределението на статистически критерий може да зависи от по-малък брой елементи от необходимите условия за неговото изчисляване. В общия случай броят на степените на свобода е по-малък от броя на наблюденията с броя на наличните зависимости.

Така че разпределението е чи на квадрат ( χ 2) е семейство от разпределения, всяко от които зависи от параметър от степени на свобода. А формалната дефиниция на теста хи-квадрат е следната. Разпределение χ 2(хи-квадрат) с кстепени на свобода е разпределението на сумата от квадрати кнезависим стандарт нормален случайни променливи.

След това бихме могли да преминем към самата формула, според която се изчислява функцията на разпределение хи-квадрат, но, за щастие, всичко отдавна е изчислено за нас. За да получите вероятността от интерес, можете да използвате или съответната статистическа таблица, или готова функция в Excel.

Интересно е да се види как формата на разпределението хи-квадрат се променя в зависимост от броя на степените на свобода.

С нарастването на степените на свобода разпределението хи-квадрат има тенденция да бъде нормално. Това се обяснява с действието на централната пределна теорема, според която сумата Голям бройнезависимите случайни променливи имат нормално разпределение. Не пише нищо за квадратите.

Тест на хипотезата на Хи-квадрат на Пиърсън

Така стигаме до тестване на хипотези с помощта на метода хи-квадрат. Като цяло техниката остава. Изложена е нулева хипотеза, че наблюдаваните честоти съответстват на очакваните (т.е. няма разлика между тях, тъй като са взети от една и съща генерална популация). Ако случаят е такъв, тогава спредът ще бъде относително малък, в границите на случайни колебания. Мярката за разпространение се определя чрез теста хи-квадрат. След това или самият критерий се сравнява с критичната стойност (за съответното ниво на значимост и степени на свобода), или, по-правилно, се изчислява наблюдаваната p-стойност, т.е. вероятността за получаване на такава или дори по-голяма стойност на критерия при валидността на нулевата хипотеза.

защото Тъй като се интересуваме от съответствието на честотите, тогава хипотезата ще бъде отхвърлена, когато критерият е по-голям от критичното ниво. Тези. критерият е едностранен. Въпреки това, понякога (понякога) се изисква да се тества лявата хипотеза. Например, когато емпиричните данни са много много подобни на теоретичните. Тогава критерият може да попадне в малко вероятен регион, но вече отляво. Факт е, че в естествени условия е малко вероятно да се получат честоти, които практически съвпадат с теоретичните. Винаги има някаква случайност, която дава грешка. Но ако няма такава грешка, тогава може би данните са фалшифицирани. Но все пак хипотезата за дясната ръка обикновено се тества.

Да се ​​върнем на проблема със заровете. Изчислете стойността на теста хи-квадрат според наличните данни.

Сега нека намерим критичната стойност при 5 степени на свобода ( к) и ниво на значимост 0,05 ( α ) според таблицата на критичните стойности на разпределението хи-квадрат.

Това е квантил от 0,05 чи квадрат разпределение (дясна опашка) с 5 степени на свобода χ2 0,05; 5 = 11,1.

Нека сравним действителната и табличната стойност. 3.4( χ 2) < 11,1 (χ2 0,05; 5). Изчисленият критерий се оказва по-малък, което означава, че не се отхвърля хипотезата за равенство (съгласие) на честотите. На фигурата ситуацията изглежда така.

Ако изчислената стойност попадне в критичната област, тогава нулевата хипотеза ще бъде отхвърлена.

Би било по-правилно да се изчисли и p-стойността. За да направите това, трябва да намерите най-близката стойност в таблицата за даден брой степени на свобода и да видите съответното ниво на значимост. Но това е миналия век. Ще използваме компютър, по-специално MS Excel. Excel има няколко функции, свързани с хи-квадрат.

По-долу е дадено кратко описание за тях.

XI2.ОБРе критичната стойност на критерия при дадена вероятностляво (както в статистическите таблици)

chi2.ex.phе критичната стойност на критерия за дадена вероятност отдясно. Функцията по същество дублира предишната. Но тук можете веднага да посочите нивото α , вместо да го извадите от 1. Това е по-удобно, защото в повечето случаи е необходима дясната опашка на разпределението.

CH2.DIST– p-стойност отляво (плътността може да се изчисли).

HI2.DIST.PH– p-стойност вдясно.

HI2.ТЕСТ– извършва хи-квадрат тест на два честотни диапазона едновременно. Броят на степените на свобода се взема с една по-малък от броя на честотите в колоната (както трябва да бъде), като се връща p-стойност.

Засега нека изчислим за нашия експеримент критичната (таблична) стойност за 5 степени на свобода и алфа 0,05. Формула на Excelще изглежда така:

CH2.OBR(0,95;5)

chi2.inv.rx(0,05;5)

Резултатът ще бъде същият - 11.0705. Именно тази стойност виждаме в таблицата (закръглена до 1 знак след десетичната запетая).

Накрая изчисляваме p-стойността за 5 степени на свобода на критерия χ 2= 3,4. Имаме нужда от вероятността отдясно, така че вземаме функцията с добавяне на RH (дясна опашка)

CH2.DIST.RH(3,4;5) = 0,63857

И така, с 5 степени на свобода, вероятността за получаване на стойността на критерия χ 2= 3,4 и повече е равно на почти 64%. Естествено, хипотезата не се отхвърля (p-стойността е по-голяма от 5%), честотите се съгласуват много добре.

Сега нека тестваме хипотезата за съгласуване на честотата с помощта на теста хи-квадрат и Функции на Excel HI2.ТЕСТ.

Без таблици, без тромави изчисления. Посочвайки колони с наблюдавани и очаквани честоти като аргументи на функцията, веднага получаваме p-стойност. красота.

Представете си сега, че играете на зарове с подозрителен тип. Разпределението на точките от 1 до 5 остава същото, но той хвърля 26 шестици (броят на всички хвърляния става 78).

p-стойността в този случай се оказва 0,003, което е много по-малко от 0,05. Има сериозни причини да се съмнявате в правилността на заровете. Ето как изглежда тази вероятност на диаграма на разпределение хи-квадрат.

Самият критерий хи-квадрат тук се оказва 17,8, което естествено е повече от табличния (11,1).

Надявам се, че успях да обясня какъв е критерият за съответствие. χ 2(хи-квадрат) Pearson и как статистическите хипотези се тестват с него.

И накрая, още веднъж за важно условие! Тестът хи-квадрат работи правилно само когато броят на всички честоти надвишава 50 и минималната очаквана стойност за всяка градация е не по-малка от 5. Ако в която и да е категория очакваната честота е по-малка от 5, но сумата от всички честоти надвишава 50, тогава тази категория се комбинира с най-близката, така че тяхната обща честота да надвишава 5. Ако това не е възможно или сумата от честотите е по-малка от 50, тогава трябва да се използват по-точни методи за тестване на хипотези. За тях ще говорим друг път.

По-долу има видеоклип за това как да тествате хипотеза с помощта на теста хи-квадрат в Excel.