Exemplu de distribuție chi pătrat. Metode clasice de statistică: testul chi-pătrat. Puncte critice de distribuție χ2

Distributie. Distribuția Pearson Densitatea probabilității ... Wikipedia

distribuția chi-pătrat- distribuție "chi pătrat" ​​- Subiecte securitatea informațiilor EN chi pătrat distribuție ... Manualul Traducătorului Tehnic

distribuția chi-pătrat- Distribuția probabilității unei variabile aleatoare continue cu valori de la 0 la, a cărei densitate este dată de formula, unde 0 cu parametrul =1,2,...; este funcția gamma. Exemple. 1) Suma pătratelor aleatoarelor normale normalizate independente ... ... Dicţionar de statistică sociologică

DISTRIBUȚIE CHI-SQUARE (chi2)- Distribuția variabilei aleatoare chi2.dacă eșantioane aleatoare de dimensiunea 1 sunt luate dintr-o distribuție normală cu medie (și varianță q2, atunci chi2 = (X1 u)2/q2, unde X este valoarea eșantionată. Dacă dimensiunea eșantionului crește arbitrar până la N, apoi chi2 = … …

Densitatea probabilității... Wikipedia

- (distribuția Snedecor) Densitatea probabilității ... Wikipedia

Distribuția Fisher Densitatea probabilității Funcția de distribuție Număr parametri cu ... Wikipedia

Unul dintre conceptele de bază ale teoriei probabilităților și statisticii matematice. Cu abordarea modernă ca matematică. modelul fenomenului aleator studiat, se ia spațiul de probabilitate corespunzător (W, S, P), unde W este mulțimea elementare... Enciclopedie matematică

Distribuție gamma Densitate de probabilitate Funcție de distribuție Parametri ... Wikipedia

F DISTRIBUȚIE- Distribuția teoretică a probabilității unei variabile aleatoare F. Dacă eșantioane aleatoare de mărimea N sunt selectate independent dintr-o populație normală, fiecare dintre ele generează o distribuție chi-pătrat cu un grad de libertate = N. Raportul a două astfel ... . .. Dicţionarîn psihologie

Cărți

  • Teoria probabilității și statistică matematică în probleme. Peste 360 ​​de sarcini și exerciții, Borzykh D.A. Manualul propus conține sarcini de diferite niveluri de complexitate. Cu toate acestea, accentul se pune pe sarcini dificultate medie. Acest lucru este făcut în mod intenționat pentru a încuraja elevii să...

Distribuția chi-pătrat este una dintre cele mai utilizate în statistică pentru testarea ipotezelor statistice. Pe baza distribuției „chi-pătrat”, a fost construit unul dintre cele mai puternice teste de bunătate de potrivire, testul „chi-pătrat” al lui Pearson.

Testul de bunătate a potrivirii este un criteriu de testare a ipotezei despre legea propusă a distribuției necunoscute.

Testul χ2 ("chi-pătrat") este utilizat pentru a testa ipoteza distribuții diferite. Acesta este meritul lui.

Formula de calcul a criteriului este egală cu

unde m și m' sunt frecvențele empirice și, respectiv, teoretice

distribuția luată în considerare;

n este numărul de grade de libertate.

Pentru verificare, trebuie să comparăm frecvențele empirice (observate) și teoretice (calculate în ipoteza unei distribuții normale).

Dacă frecvențele empirice coincid complet cu frecvențele calculate sau așteptate, S (E - T) = 0 și criteriul χ2 va fi, de asemenea, egal cu zero. Dacă S (E - T) nu este egal cu zero, aceasta va indica o discrepanță între frecvențele calculate și frecvențele empirice ale seriei. În astfel de cazuri, este necesar să se evalueze semnificația criteriului χ2, care teoretic poate varia de la zero la infinit. Acest lucru se realizează prin compararea valorii efectiv obținute a lui χ2ph cu valoarea sa critică (χ2st).Ipoteza nulă, adică ipoteza că discrepanța dintre frecvențele empirice și teoretice sau așteptate este aleatorie, este infirmată dacă χ2ph este mai mare sau egal. la χ2st pentru nivelul de semnificație acceptat (a) și numărul de grade de libertate (n).

Distribuția valorilor probabile ale variabilei aleatoare χ2 este continuă și asimetrică. Depinde de numărul de grade de libertate (n) și se apropie de o distribuție normală pe măsură ce crește numărul de observații. Prin urmare, aplicarea criteriului χ2 la estimare distribuții discrete este asociat cu unele erori care îi afectează valoarea, în special pentru eșantioanele mici. Pentru a obține estimări mai precise, eșantionul a distribuit în serie de variații, trebuie să aibă cel puțin 50 de opțiuni. Aplicarea corectă a criteriului χ2 necesită, de asemenea, ca frecvențele variantelor din clasele extreme să nu fie mai mici de 5; dacă sunt mai puțin de 5, atunci acestea se combină cu frecvențele claselor învecinate, astfel încât suma lor totală să fie mai mare sau egală cu 5. În funcție de combinația de frecvențe, scade și numărul de clase (N). Numărul de grade de libertate se stabilește în funcție de numărul secundar de clase, ținând cont de numărul de restricții privind libertatea de variație.



Deoarece acuratețea determinării criteriului χ2 depinde în mare măsură de acuratețea calculării frecvențelor teoretice (T), frecvențele teoretice nerotunjite ar trebui utilizate pentru a obține diferența dintre frecvențele empirice și cele calculate.

Ca exemplu, luați un studiu publicat pe un site web dedicat aplicației metode statisticeîn ştiinţele umaniste.

Testul Chi-pătrat permite compararea distribuțiilor de frecvență, indiferent dacă acestea sunt distribuite normal sau nu.

Frecvența se referă la numărul de apariții ale unui eveniment. De obicei, frecvența de apariție a unui eveniment este tratată atunci când variabilele sunt măsurate în scara numelor și celelalte caracteristici ale acestora, cu excepția frecvenței, sunt imposibil sau problematic de selectat. Cu alte cuvinte, atunci când variabila are caracteristici calitative. De asemenea, mulți cercetători tind să traducă scorurile testelor în niveluri (înalt, mediu, scăzut) și să construiască tabele de distribuție a scorurilor pentru a afla numărul de persoane la aceste niveluri. Pentru a demonstra că într-unul dintre niveluri (într-una dintre categorii) numărul de persoane este într-adevăr mai mare (mai puțin), se folosește și coeficientul Chi pătrat.

Să aruncăm o privire la cel mai simplu exemplu.

Un test de stima de sine a fost efectuat în rândul adolescenților mai tineri. Scorurile testelor au fost traduse în trei niveluri: mare, mediu, scăzut. Frecvențe distribuite în felul următor:

Înalt (H) 27 pers.

Mediu (C) 12 persoane

Scăzut (H) 11 pers.

Este evident că majoritatea copiilor cu stima de sine ridicată, totuși, acest lucru trebuie dovedit statistic. Pentru a face acest lucru, folosim testul Chi-pătrat.

Sarcina noastră este să verificăm dacă datele empirice obţinute diferă de cele la fel de probabile teoretic. Pentru a face acest lucru, este necesar să găsiți frecvențele teoretice. În cazul nostru, frecvențele teoretice sunt frecvențe echiprobabile care se găsesc adunând toate frecvențele și împărțind la numărul de categorii.

În cazul nostru:

(B + C + H) / 3 \u003d (27 + 12 + 11) / 3 \u003d 16,6

Formula de calcul a testului chi-pătrat este:

χ2 = ∑(E - T)І / T

Construim un tabel:

Aflați suma ultimei coloane:

Acum trebuie să găsiți valoarea critică a criteriului conform tabelului cu valori critice (Tabelul 1 din Anexă). Pentru a face acest lucru, avem nevoie de numărul de grade de libertate (n).

n = (R - 1) * (C - 1)

unde R este numărul de rânduri din tabel, C este numărul de coloane.

În cazul nostru, există o singură coloană (adică frecvențele empirice originale) și trei rânduri (categorii), așa că formula se schimbă - excludem coloanele.

n = (R - 1) = 3-1 = 2

Pentru probabilitatea de eroare p≤0,05 și n = 2, valoarea critică χ2 = 5,99.

Valoarea empirică obținută este mai mare decât valoarea critică - diferențele de frecvență sunt semnificative (χ2= 9,64; p≤0,05).

După cum puteți vedea, calculul criteriului este foarte simplu și nu necesită mult timp. Valoarea practică a testului chi-pătrat este enormă. Această metodă este cea mai valoroasă în analiza răspunsurilor la chestionare.


Să luăm un exemplu mai complex.

De exemplu, un psiholog vrea să știe dacă este adevărat că profesorii sunt mai părtinitori față de băieți decât față de fete. Acestea. mai probabil să laude fetele. Pentru aceasta, psihologul a analizat caracteristicile elevilor scrise de profesori pentru frecvența de apariție a trei cuvinte: „activ”, „sârguincios”, „disciplinat”, au fost numărate și sinonimele cuvintelor. Datele privind frecvența de apariție a cuvintelor au fost introduse în tabel:

Pentru a procesa datele obținute, folosim testul chi-pătrat.

Pentru a face acest lucru, construim un tabel de distribuție a frecvențelor empirice, adică frecvențele pe care le observăm:

Teoretic, ne așteptăm ca frecvențele să fie distribuite în mod egal, adică frecvența va fi distribuită proporțional între băieți și fete. Să construim un tabel de frecvențe teoretice. Pentru a face acest lucru, înmulțiți suma rândurilor cu suma coloanei și împărțiți numărul rezultat la suma totală (e).

Tabelul rezultat pentru calcule va arăta astfel:

χ2 = ∑(E - T)І / T

n = (R - 1), unde R este numărul de rânduri din tabel.

În cazul nostru, chi-pătrat = 4,21; n = 2.

Conform tabelului de valori critice ale criteriului, găsim: la n = 2 și un nivel de eroare de 0,05, valoarea critică χ2 = 5,99.

Valoarea rezultată este mai mică decât valoarea critică, ceea ce înseamnă că ipoteza nulă este acceptată.

Concluzie: profesorii nu acordă importanță genului copilului atunci când scriu caracteristicile acestuia.


Concluzie.

K. Pearson a adus o contribuție semnificativă la dezvoltarea statisticii matematice (un număr mare de concepte fundamentale). Poziția filosofică principală a lui Pearson este formulată astfel: conceptele științei sunt construcții artificiale, mijloace de descriere și ordonare a experienței senzoriale; regulile pentru legarea lor în propuneri științifice sunt evidențiate de gramatica științei, care este filosofia științei. Conectarea conceptelor și fenomenelor eterogene permite o disciplină universală - statistica aplicată, deși după Pearson este și subiectivă.

Multe construcții ale lui K. Pearson sunt direct legate sau dezvoltate folosind materiale antropologice. A dezvoltat numeroase metode de clasificare numerică și criterii statistice utilizate în toate domeniile științei.


Literatură.

1. A. N. Bogolyubov, Matematică. Mecanica. Ghid biografic. - Kiev: Naukova Dumka, 1983.

2. Kolmogorov A. N., Iuşkevici A. P. (ed.). Matematica secolului al XIX-lea. - M.: Știință. - T.I.

3. 3. Borovkov A.A. Statistici matematice. Moscova: Nauka, 1994.

4. 8. Feller V. Introducere în teoria probabilității și aplicațiile acesteia. - M.: Mir, T.2, 1984.

5. 9. Harman G., Analiza factorială modernă. - M.: Statistică, 1972.

Testul \(\chi^2\) („chi-pătrat”, de asemenea „testul de bunătate a potrivirii lui Pearson”) are o aplicație extrem de largă în statistică. ÎN vedere generala putem spune că este folosit pentru a testa ipoteza nulă despre supunerea unei variabile aleatoare observate față de o anumită lege teoretică de distribuție (pentru mai multe detalii, vezi, de exemplu,). Formularea specifică a ipotezei testate va varia de la caz la caz.

În această postare, voi descrie cum funcționează testul \(\chi^2\) folosind un exemplu (ipotetic) din imunologie. Imaginați-vă că am efectuat un experiment pentru a determina eficiența suprimării dezvoltării unei boli microbiene atunci când anticorpii corespunzători sunt introduși în organism. În total, 111 șoareci au fost implicați în experiment, pe care i-am împărțit în două grupuri, inclusiv 57 și, respectiv, 54 de animale. Primul grup de șoareci a fost injectat cu bacterii patogene, urmat de introducerea serului sanguin care conține anticorpi împotriva acestor bacterii. Animalele din al doilea grup au servit drept martori - au primit doar injecții bacteriene. După un timp de incubație, s-a dovedit că 38 de șoareci au murit și 73 au supraviețuit. Dintre morți, 13 aparțineau primului grup, iar 25 aparțineau celui de-al doilea (control). Ipoteza nulă testată în acest experiment poate fi formulată astfel: administrarea de ser cu anticorpi nu are efect asupra supraviețuirii șoarecilor. Cu alte cuvinte, susținem că diferențele observate în supraviețuirea șoarecilor (77,2% în primul grup față de 53,7% în al doilea grup) sunt complet aleatorii și nu sunt asociate cu acțiunea anticorpilor.

Datele obținute în experiment pot fi prezentate sub forma unui tabel:

Total

Bacterii + ser

Doar bacterii

Total

Tabelele ca acesta se numesc tabele de contingență. În acest exemplu, tabelul are o dimensiune de 2x2: există două clase de obiecte („Bacterii + ser” și „Numai bacterii”), care sunt examinate în funcție de două criterii („Mort” și „Supraviețuit”). Acest cel mai simplu caz tabele de contingență: desigur, atât numărul de clase studiate, cât și numărul de caracteristici pot fi mai mari.

Pentru a testa ipoteza nulă formulată mai sus, trebuie să știm care ar fi situația dacă anticorpii nu ar avea cu adevărat niciun efect asupra supraviețuirii șoarecilor. Cu alte cuvinte, trebuie să calculezi frecvențele așteptate pentru celulele corespunzătoare din tabelul de contingență. Cum să o facă? În experiment, un total de 38 de șoareci au murit, ceea ce reprezintă 34,2% din numărul total animalele implicate. Dacă introducerea de anticorpi nu afectează supraviețuirea șoarecilor, la ambele grupuri experimentale trebuie observat același procent de mortalitate și anume 34,2%. Calculând cât este 34,2% din 57 și 54, obținem 19,5 și 18,5. Acestea sunt ratele de mortalitate așteptate în grupurile noastre experimentale. Ratele de supraviețuire așteptate sunt calculate într-un mod similar: deoarece 73 de șoareci au supraviețuit în total, sau 65,8% din numărul lor total, ratele de supraviețuire așteptate sunt 37,5 și 35,5. Să facem un nou tabel de contingență, acum cu frecvențele așteptate:

mort

Supraviețuitori

Total

Bacterii + ser

Doar bacterii

Total

După cum puteți vedea, frecvențele așteptate sunt destul de diferite de cele observate, adică. administrarea de anticorpi pare să aibă un efect asupra supraviețuirii șoarecilor infectați cu agentul patogen. Putem cuantifica această impresie folosind testul de bunăstare a potrivirii lui Pearson \(\chi^2\):

\[\chi^2 = \sum_()\frac((f_o - f_e)^2)(f_e),\]


unde \(f_o\) și \(f_e\) sunt frecvențele observate și respectiv așteptate. Însumarea se efectuează pe toate celulele tabelului. Deci, pentru exemplul luat în considerare, avem

\[\chi^2 = (13 – 19,5)^2/19,5 + (44 – 37,5)^2/37,5 + (25 – 18,5)^2/18,5 + (29 – 35,5)^2/35,5 = \]

Este \(\chi^2\) suficient de mare pentru a respinge ipoteza nulă? Pentru a răspunde la această întrebare, este necesar să găsim valoarea critică corespunzătoare a criteriului. Numărul de grade de libertate pentru \(\chi^2\) este calculat ca \(df = (R - 1)(C - 1)\), unde \(R\) și \(C\) sunt numărul de rânduri și coloane în conjugarea tabelului. În cazul nostru \(df = (2 -1)(2 - 1) = 1\). Cunoscând numărul de grade de libertate, acum putem afla cu ușurință valoarea critică \(\chi^2\) folosind funcția R standard qchisq() :


Astfel, pentru un grad de libertate, valoarea criteriului \(\chi^2\) depășește 3,841 doar în 5% din cazuri. Valoarea pe care am obținut-o, 6,79, depășește semnificativ această valoare critică, ceea ce ne dă dreptul de a respinge ipoteza nulă că nu există nicio relație între administrarea de anticorpi și supraviețuirea șoarecilor infectați. Respingând această ipoteză, riscăm să greșim cu o probabilitate mai mică de 5%.

Trebuie remarcat faptul că formula de mai sus pentru criteriul \(\chi^2\) oferă valori oarecum supraestimate atunci când se lucrează cu tabele de contingență de dimensiunea 2x2. Motivul este că distribuția criteriului \(\chi^2\) în sine este continuă, în timp ce frecvențele caracteristicilor binare („a murit” / „a supraviețuit”) sunt discrete prin definiție. În acest sens, la calcularea criteriului, se obișnuiește să se introducă așa-numitul. corectarea continuitatii, sau amendamentul Yates :

\[\chi^2_Y = \sum_()\frac((|f_o - f_e| - 0,5)^2)(f_e).\]

Pearson „Testul chi-pătrat cu Yates” date de corecție a continuității: șoareci X-pătrat = 5,7923, df = 1, valoare p = 0,0161


După cum puteți vedea, R aplică automat corecția Yates pentru continuitate ( Testul Chi-pătrat al lui Pearson cu corecția de continuitate a lui Yates). Valoarea \(\chi^2\) calculată de program a fost 5,79213. Putem respinge ipoteza nulă a lipsei efectului de anticorpi cu riscul de a greși cu o probabilitate de puțin peste 1% (valoarea p = 0,0161).

Ministerul Educației și Științei al Federației Ruse

Agenția Federală pentru Educație a orașului Irkutsk

Baikal Universitate de stat economie si drept

Departamentul de Informatică și Cibernetică

Distribuția chi-pătrat și aplicarea acesteia

Kolmykova Anna Andreevna

student anul 2

grupa IS-09-1

Pentru a procesa datele obținute, folosim testul chi-pătrat.

Pentru a face acest lucru, construim un tabel de distribuție a frecvențelor empirice, adică frecvențele pe care le observăm:

Teoretic, ne așteptăm ca frecvențele să fie distribuite în mod egal, adică frecvența va fi distribuită proporțional între băieți și fete. Să construim un tabel de frecvențe teoretice. Pentru a face acest lucru, înmulțiți suma rândurilor cu suma coloanei și împărțiți numărul rezultat la suma totală (e).


Tabelul rezultat pentru calcule va arăta astfel:

χ2 \u003d ∑ (E - T)² / T

n = (R - 1), unde R este numărul de rânduri din tabel.

În cazul nostru, chi-pătrat = 4,21; n = 2.

Conform tabelului de valori critice ale criteriului, găsim: la n = 2 și un nivel de eroare de 0,05, valoarea critică χ2 = 5,99.

Valoarea rezultată este mai mică decât valoarea critică, ceea ce înseamnă că ipoteza nulă este acceptată.

Concluzie: profesorii nu acordă importanță genului copilului atunci când scriu caracteristicile acestuia.

Aplicație

Puncte critice de distribuție χ2

tabelul 1

Concluzie

Studenții de aproape toate specialitățile învață la sfârșitul cursului matematică superioară secțiunea „teoria probabilității și statistica matematică”, în realitate se familiarizează doar cu unele concepte și rezultate de bază, care în mod clar nu sunt suficiente pentru munca practica. Elevii se întâlnesc cu unele metode matematice de cercetare în cadrul unor cursuri speciale (de exemplu, „Prognoză și planificare de fezabilitate”, „Analiza tehnică și economică”, „Controlul calității produselor”, „Marketing”, „Control”, „ Metode matematice Prognoza”, „Statistică” etc. – în cazul studenților specialităților economice), însă, prezentarea în majoritatea cazurilor este foarte prescurtată și de natură prescriptivă. Ca urmare, specialiștii în statistică aplicată nu au cunoștințe suficiente.

De aceea mare importanță are un curs „Statistică aplicată” în universități tehnice, iar în universitățile economice - cursul „Econometrie”, deoarece econometria este, după cum știți, o analiză statistică a unor date economice specifice.

Teoria probabilității și statistica matematică oferă cunoștințe fundamentale pentru statistica aplicată și econometrie.

Sunt necesare specialiștilor pentru lucrări practice.

Am considerat un model probabilistic continuu și am încercat să-i arăt utilitatea cu exemple.

Bibliografie

1. Orlov A.I. Statistici aplicate. M.: Editura „Examen”, 2004.

2. Gmurman V.E. Teoria Probabilității și Statistica Matematică. M.: facultate, 1999. - 479p.

3. Ayvozyan S.A. Teoria probabilității și statistică aplicată, v.1. M.: Unitate, 2001. - 656s.

4. Khamitov G.P., Vedernikova T.I. Probabilități și statistici. Irkutsk: BSUEP, 2006 - 272p.

5. Ezhova L.N. Econometrie. Irkutsk: BSUEP, 2002. - 314p.

6. Mosteller F. Cincizeci de probleme probabilistice distractive cu soluții. M. : Nauka, 1975. - 111p.

7. Mosteller F. Probabilitate. M. : Mir, 1969. - 428s.

8. Yaglom A.M. Probabilitate și informație. M. : Nauka, 1973. - 511p.

9. Chistiakov V.P. Curs de probabilitate. M.: Nauka, 1982. - 256 p.

10. Kremer N.Sh. Teoria Probabilității și Statistica Matematică. M.: UNITI, 2000. - 543 p.

11. Enciclopedie matematică, v.1. M.: Enciclopedia Sovietică, 1976. - 655p.

12. http://psystat.at.ua/ - Statistică în psihologie și pedagogie. Articolul Testul chi-pătrat.

Inainte de sfârşitul XIX-lea secol distributie normala considerată a fi legea universală a variației datelor. Cu toate acestea, K. Pearson a observat că frecvențele empirice pot diferi foarte mult de distribuția normală. Întrebarea era cum să demonstrez asta. A necesitat nu doar o comparație grafică, care este subiectivă, ci și o justificare cantitativă strictă.

Astfel a fost inventat criteriul χ 2(chi pătrat), care testează semnificația discrepanței dintre frecvențele empirice (observate) și teoretice (așteptate). Acest lucru s-a întâmplat în 1900, dar criteriul este încă în uz astăzi. Mai mult, a fost adaptat pentru a rezolva o gamă largă de sarcini. În primul rând, aceasta este analiza datelor categorice, adică. cele care se exprimă nu prin cantitate, ci prin apartenența la o categorie. De exemplu, clasa mașinii, sexul participantului la experiment, tipul de plantă etc. Operațiunile matematice precum adunarea și înmulțirea nu pot fi aplicate unor astfel de date, ci doar frecvențele pot fi calculate pentru ele.

Notăm frecvențele observate Oh (observat), așteptat - E (așteptată). Ca exemplu, să luăm rezultatul aruncării unui zar de 60 de ori. Dacă este simetrică și uniformă, probabilitatea ca orice latură să iasă în sus este 1/6 și, prin urmare, numărul așteptat al fiecărei părți să iasă în sus este 10 (1/6∙60). Scriem frecvențele observate și așteptate într-un tabel și desenăm o histogramă.

Ipoteza nulă este că frecvențele sunt consistente, adică datele reale nu contrazic cele așteptate. O ipoteză alternativă este că abaterile frecvențelor depășesc fluctuațiile aleatoare, discrepanțele sunt semnificative statistic. Pentru a trage o concluzie riguroasă, avem nevoie.

  1. O măsură generalizată a discrepanței dintre frecvențele observate și cele așteptate.
  2. Distribuția acestei măsuri în temeiul validității ipotezei că nu există diferențe.

Să începem cu distanța dintre frecvențe. Dacă luăm doar diferența O - E, atunci o astfel de măsură va depinde de scara datelor (frecvențe). De exemplu, 20 - 5 = 15 și 1020 - 1005 = 15. În ambele cazuri, diferența este de 15. Dar, în primul caz, frecvențele așteptate sunt de 3 ori mai mici decât cele observate, iar în al doilea caz, doar 1,5 %. Avem nevoie de o măsură relativă care să nu depindă de scară.

Să fim atenți la următoarele fapte. În general, numărul de categorii în care se măsoară frecvențele poate fi mult mai mare, astfel încât probabilitatea ca o singură observație să se încadreze într-o categorie sau alta este destul de mică. Dacă da, atunci distribuția unei astfel de variabile aleatoare se va supune legii evenimentelor rare, cunoscută ca legea lui Poisson. În legea lui Poisson, după cum se știe, valoarea așteptări matematice iar variațiile sunt aceleași (parametrul λ ). Prin urmare, frecvența așteptată pentru o anumită categorie de variabilă nominală Ei va fi simultana si dispersia ei. Mai mult, legea lui Poisson cu un număr mare de observații tinde spre normal. Combinând aceste două fapte, obținem că, dacă ipoteza despre acordul dintre frecvențele observate și cele așteptate este adevărată, atunci, cu un numar mare de observatii, expresie

Este important să ne amintim că normalitatea va apărea doar la frecvențe suficient de înalte. În statistică, se acceptă în general că numărul total de observații (suma frecvențelor) ar trebui să fie de cel puțin 50 și frecvența așteptată în fiecare gradație să fie de cel puțin 5. Numai în acest caz, valoarea afișată mai sus are o normală standard. distributie. Să presupunem că această condiție este îndeplinită.

Distribuția normală standard are aproape toate valorile în ±3 (regula trei sigma). Astfel, am primit o diferență relativă de frecvențe pentru o gradație. Avem nevoie de o măsură generalizată. Nu puteți doar să adăugați toate abaterile - obținem 0 (ghiciți de ce). Pearson a sugerat adăugarea pătratelor acestor abateri.

Acestea sunt semnele Testul chi-pătrat Pearson. Dacă frecvențele corespund într-adevăr cu cele așteptate, atunci valoarea criteriului va fi relativ mică (deoarece majoritatea abaterilor sunt aproape de zero). Dar dacă criteriul se dovedește a fi mare, atunci aceasta mărturisește în favoarea diferențelor semnificative între frecvențe.

Criteriul Pearson devine „mare” atunci când apariția unei astfel de valori sau chiar mai mari devine puțin probabilă. Iar pentru a calcula o astfel de probabilitate este necesar să se cunoască distribuția criteriului atunci când experimentul se repetă de mai multe ori, când ipoteza acordului de frecvență este corectă.

După cum puteți vedea, valoarea chi-pătratului depinde și de numărul de termeni. Cu cât sunt mai multe, cu atât valoarea criteriului ar trebui să fie mai mare, deoarece fiecare termen va contribui la suma totală. Prin urmare, pentru fiecare cantitate independent termeni, va avea propria sa distribuție. Se pare că χ 2 este o întreagă familie de distribuții.

Și iată că ajungem la un moment gâdilat. Ce este un număr independent termeni? Se pare că orice termen (adică abaterea) este independent. A crezut și K. Pearson, dar s-a dovedit a fi greșit. De fapt, numărul de termeni independenți va fi cu unul mai mic decât numărul de gradații ale variabilei nominale n. De ce? Pentru că dacă avem un eșantion pentru care suma frecvențelor a fost deja calculată, atunci una dintre frecvențe poate fi întotdeauna definită ca diferența dintre numărul total și suma tuturor celorlalte. Prin urmare, variația va fi ceva mai mică. Ronald Fisher a observat acest fapt la 20 de ani după ce Pearson și-a dezvoltat criteriul. Până și mesele trebuiau refăcute.

Cu această ocazie, Fisher a introdus un nou concept în statistici - grad de libertate(grade de libertate), care este numărul de termeni independenți din sumă. Conceptul de grade de libertate are o explicație matematică și apare doar în distribuțiile asociate cu normalul (Student, Fisher-Snedekor și chi-pătratul însuși).

Pentru a înțelege mai bine semnificația gradelor de libertate, să ne întoarcem la analogul fizic. Imaginați-vă un punct care se mișcă liber în spațiu. Are 3 grade de libertate, pentru că se poate deplasa în orice direcție a spațiului tridimensional. Dacă un punct se mișcă de-a lungul oricărei suprafețe, atunci are deja două grade de libertate (înainte-înapoi, dreapta-stânga), deși continuă să fie în spațiul tridimensional. Punctul care se mișcă de-a lungul arcului este din nou în spațiul tridimensional, dar are un singur grad de libertate, deoarece se poate deplasa fie înainte, fie înapoi. După cum puteți vedea, spațiul în care se află obiectul nu corespunde întotdeauna libertății reale de mișcare.

Aproximativ și distribuția unui criteriu statistic poate depinde de un număr mai mic de elemente decât termenii necesari pentru calculul acestuia. În cazul general, numărul de grade de libertate este mai mic decât numărul de observații cu numărul de dependențe disponibile.

Deci distribuția este chi pătrat ( χ 2) este o familie de distribuții, fiecare dintre ele depinde de un parametru de grade de libertate. Și definiția formală a testului chi-pătrat este următoarea. Distributie χ 2(chi pătrat) cu k gradele de libertate este distribuția sumei pătratelor k variabile aleatoare normale standard independente.

În continuare, am putea trece la formula în sine, conform căreia se calculează funcția de distribuție chi-pătrat, dar, din fericire, totul a fost calculat de mult pentru noi. Pentru a obține probabilitatea de interes, puteți utiliza fie tabelul statistic corespunzător, fie o funcție gata făcută în Excel.

Este interesant de văzut cum se modifică forma distribuției chi-pătrat în funcție de numărul de grade de libertate.

Pe măsură ce gradele de libertate cresc, distribuția chi-pătrat tinde să fie normală. Acest lucru se explică prin acțiunea teoremei limitei centrale, conform căreia suma un numar mare variabile aleatoare independente au o distribuție normală. Nu spune nimic despre pătrate.

Testul ipotezei Chi-pătrat al lui Pearson

Așa că ajungem la testarea ipotezelor folosind metoda chi-pătrat. În general, tehnica rămâne. Se propune o ipoteză nulă că frecvențele observate corespund cu cele așteptate (adică nu există nicio diferență între ele, deoarece sunt luate din aceeași populație generală). Dacă acesta este cazul, atunci spread-ul va fi relativ mic, în limitele fluctuațiilor aleatorii. Măsura răspândirii este determinată de testul chi-pătrat. În continuare, fie criteriul în sine este comparat cu valoarea critică (pentru nivelul corespunzător de semnificație și grade de libertate), fie, mai corect, se calculează valoarea p observată, i.e. probabilitatea de a obține o astfel de valoare sau chiar mai mare a criteriului sub valabilitatea ipotezei nule.

Deoarece Deoarece suntem interesați de acordul frecvențelor, atunci ipoteza va fi respinsă atunci când criteriul este mai mare decât nivelul critic. Acestea. criteriul este unilateral. Cu toate acestea, uneori (uneori) este necesară testarea ipotezei stângaci. De exemplu, când datele empirice sunt atât de mult asemănătoare cu cele teoretice. Atunci criteriul poate cădea într-o regiune improbabilă, dar deja în stânga. Cert este că, în condiții naturale, este puțin probabil să se obțină frecvențe care să coincidă practic cu cele teoretice. Există întotdeauna ceva aleatoriu care dă o eroare. Dar dacă nu există o astfel de eroare, atunci poate că datele au fost falsificate. Dar totuși, ipoteza dreptacilor este de obicei testată.

Să revenim la problema cu zarurile. Calculați valoarea testului chi-pătrat în funcție de datele disponibile.

Acum să găsim valoarea critică la 5 grade de libertate ( k) și un nivel de semnificație de 0,05 ( α ) conform tabelului de valori critice ale distribuției chi-pătrat.

Adică o cuantilă de distribuție chi pătrat de 0,05 (coada dreaptă) cu 5 grade de libertate χ2 0,05; 5 = 11,1.

Să comparăm valoarea reală și cea tabelară. 3.4( χ 2) < 11,1 (χ2 0,05; 5). Criteriul calculat s-a dovedit a fi mai mic, ceea ce înseamnă că ipoteza egalității (consimțământului) frecvențelor nu este respinsă. În figură, situația arată așa.

Dacă valoarea calculată a scăzut în regiunea critică, atunci ipoteza nulă ar fi respinsă.

Ar fi mai corect să se calculeze și valoarea p. Pentru a face acest lucru, trebuie să găsiți cea mai apropiată valoare în tabel pentru un anumit număr de grade de libertate și să vedeți nivelul de semnificație corespunzător. Dar acesta este ultimul secol. Vom folosi un computer, în special MS Excel. Excel are mai multe funcții legate de chi-pătrat.

Mai jos este o scurtă descriere a acestora.

XI2.OBR este valoarea critică a criteriului la probabilitate dată stânga (ca în tabelele statistice)

chi2.ex.ph este valoarea critică a criteriului pentru o probabilitate dată din dreapta. Funcția o dublează în esență pe cea anterioară. Dar aici puteți indica imediat nivelul α , în loc să-l scădem din 1. Acest lucru este mai convenabil, deoarece în cele mai multe cazuri, este nevoie de coada dreaptă a distribuției.

CH2.DIST– valoarea p în stânga (densitatea poate fi calculată).

HI2.DIST.PH– valoarea p în dreapta.

HI2.TEST– efectuează un test chi-pătrat pe două game de frecvență simultan. Numărul de grade de libertate este luat cu unul mai puțin decât numărul de frecvențe din coloană (cum ar trebui să fie), returnând o valoare p.

Deocamdată, să calculăm pentru experimentul nostru valoarea critică (tabelară) pentru 5 grade de libertate și alfa 0,05. Formula Excel va arata asa:

CH2.OBR(0,95;5)

chi2.inv.rx(0,05;5)

Rezultatul va fi același - 11.0705. Aceasta este valoarea pe care o vedem în tabel (rotunjită la 1 zecimală).

În final, calculăm valoarea p pentru 5 grade de libertate a criteriului χ 2= 3,4. Avem nevoie de probabilitatea din dreapta, așa că luăm funcția cu adăugarea lui RH (coada dreaptă)

CH2.DIST.RH(3,4;5) = 0,63857

Deci, cu 5 grade de libertate, probabilitatea de a obține valoarea criteriului χ 2= 3,4 și mai mult este egal cu aproape 64%. Desigur, ipoteza nu este respinsă (valoarea p este mai mare de 5%), frecvențele concordă foarte bine.

Acum să testăm ipoteza acordului de frecvență folosind testul chi-pătrat și Funcții Excel HI2.TEST.

Fără tabele, fără calcule greoaie. Specificând coloanele cu frecvențe observate și așteptate ca argumente ale funcției, obținem imediat valoarea p. Frumuseţe.

Imaginați-vă acum că jucați zaruri cu un tip suspect. Distribuția punctelor de la 1 la 5 rămâne aceeași, dar el face 26 de șase (numărul tuturor aruncărilor devine 78).

Valoarea p în acest caz se dovedește a fi 0,003, care este mult mai mică decât 0,05. Există motive serioase pentru a ne îndoi de corectitudinea zarurilor. Iată cum arată probabilitatea pe o diagramă de distribuție chi-pătrat.

Criteriul chi-pătrat însuși aici se dovedește a fi 17,8, care, desigur, este mai mult decât cel tabelar (11,1).

Sper că am putut să explic care este criteriul de bunăstare a potrivirii. χ 2(chi pătrat) Pearson și modul în care sunt testate ipotezele statistice cu acesta.

În sfârșit, încă o dată despre o condiție importantă! Testul chi-pătrat funcționează corect numai atunci când numărul tuturor frecvențelor depășește 50, iar valoarea minimă așteptată pentru fiecare gradație nu este mai mică de 5. Dacă în orice categorie frecvența așteptată este mai mică de 5, dar suma tuturor frecvențelor depășește 50, atunci aceasta categorie este combinată cu cea mai apropiată, astfel încât frecvența lor totală să depășească 5. Dacă acest lucru nu este posibil, sau suma frecvențelor este mai mică de 50, atunci ar trebui utilizate metode mai precise de testare a ipotezelor. Despre ele vom vorbi altădată.

Mai jos este un clip video despre cum să testați o ipoteză folosind testul chi-pătrat în Excel.