Se numește frecvența variantelor seriei variaționale. Rânduri de distribuție și grupare. Istoricul dezvoltării testului t

Condiție:

Există date despre componența pe vârstă a lucrătorilor (ani): 18, 38, 28, 29, 26, 38, 34, 22, 28, 30, 22, 23, 35, 33, 27, 24, 30, 32, 28 , 25, 29, 26, 31, 24, 29, 27, 32, 25, 29, 29.

    1. Construiți o serie de distribuție pe intervale.
    2. Construiți o reprezentare grafică a seriei.
    3. Determinați grafic modul și mediana.

Soluţie:

1) Conform formulei Sturgess, populația trebuie împărțită în 1 + 3.322 lg 30 = 6 grupe.

Vârsta maximă este de 38 de ani, iar cea minimă de 18 ani.

Lățimea intervalului Deoarece capetele intervalelor trebuie să fie numere întregi, vom împărți populația în 5 grupuri. Lățimea intervalului - 4.

Pentru a facilita calculele, să aranjam datele în ordine crescătoare: 18, 22, 22, 23, 24, 24, 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29, 29, 29, 29, 30, 30, 31, 32, 32, 33, 34, 35, 38, 38.

Distribuția pe vârstă a lucrătorilor

Grafic, o serie poate fi afișată ca histogramă sau poligon. Histograma - diagramă cu bare. Baza coloanei este lățimea intervalului. Înălțimea barei este egală cu frecvența.

Un poligon (sau poligon de distribuție) este un grafic al frecvențelor. Pentru a o construi conform histogramei, conectăm punctele de mijloc ale laturilor superioare ale dreptunghiurilor. Închidem poligonul pe axa x la distanțe egale cu jumătate din intervalul de la valorile x extreme.

Modul (Mo) este valoarea trăsăturii studiate, care apare cel mai frecvent într-o anumită populație.

Pentru a determina modul din histogramă, trebuie să selectați cel mai înalt dreptunghi, să trageți o linie de la vârful din dreapta al acestui dreptunghi până la colțul din dreapta sus al dreptunghiului anterior și să trageți o linie de la vârful din stânga al dreptunghiului modal până la vârful stâng al următorului dreptunghi. Din punctul de intersecție al acestor drepte, trageți o perpendiculară pe axa x. Abscisa va fi la modă. Mo ≈ 27,5. Aceasta înseamnă că cea mai frecventă vârstă la această populație este 27-28 de ani.

Mediana (Me) este valoarea trăsăturii studiate, care se află la mijlocul unei serii de variații ordonate.

Găsim mediana prin cumulat. Cumulate - grafic al frecvențelor acumulate. Abscisele sunt variante ale unei serii. Ordonatele sunt frecvențele acumulate.

Pentru a determina mediana pentru cumulat, găsim de-a lungul axei ordonatelor un punct corespunzător la 50% din frecvențele acumulate (în cazul nostru, 15), trasăm o linie dreaptă prin el, paralelă cu axa Ox și trasăm o perpendiculară pe axa x din punctul de intersecție cu cumulul. Abscisa este mediana. Eu ≈ 25,9. Aceasta înseamnă că jumătate dintre lucrătorii acestei populații au sub 26 de ani.

Ca urmare a stăpânirii acestui capitol, studentul trebuie să: stiu

  • indicatori de variație și relația lor;
  • legile de bază ale distribuției caracteristicilor;
  • esența criteriilor de consimțământ; a fi capabil să
  • calculați ratele de variație și bunătatea potrivirii;
  • determinați caracteristicile distribuțiilor;
  • evaluează principalul caracteristici numerice serii de distribuție statistică;

proprii

  • metode de analiză statistică a seriilor de distribuție;
  • elementele de bază ale analizei dispersiei;
  • metode de verificare a seriilor de distribuţie statistică pentru respectarea legilor de bază ale distribuţiei.

Indicatori de variație

În studiul statistic al caracteristicilor diferitelor populații statistice, este de mare interes să se studieze variația caracteristicii unităților statistice individuale ale populației, precum și natura distribuției unităților în funcție de această caracteristică. Variație - acestea sunt diferențele dintre valorile individuale ale trăsăturii între unitățile populației studiate. Studiul variației are o mare valoare practică. După gradul de variație, se pot judeca limitele variației trăsăturii, omogenitatea populației pentru această trăsătură, tipicitatea mediei, relația factorilor care determină variația. Indicatorii de variație sunt utilizați pentru a caracteriza și ordona populațiile statistice.

Rezultatele rezumatului și grupării materialelor observatie statistica, concepute sub forma unor serii de distribuție statistică, reprezintă o distribuție ordonată a unităților populației studiate în grupuri în funcție de un atribut (variabil) de grupare. Dacă o trăsătură calitativă este luată ca bază pentru grupare, atunci se numește o astfel de serie de distribuție atributiv(distribuirea pe profesie, gen, culoare etc.). Dacă seria de distribuție este construită pe o bază cantitativă, atunci se numește o astfel de serie variațională(distribuția după înălțime, greutate, mărime salariile etc.). A construi o serie variațională înseamnă a ordona distribuția cantitativă a unităților de populație în funcție de valorile atributului, a număra numărul de unități de populație cu aceste valori (frecvență), a aranja rezultatele într-un tabel.

În locul frecvenței unei variante, este posibil să se folosească raportul acesteia la volumul total de observații, care se numește frecvență (frecvență relativă).

Există două tipuri de serie de variații: discrete și interval. Serii discrete- aceasta este o astfel de serie variațională, a cărei construcție se bazează pe semne cu schimbare discontinuă (semne discrete). Acestea din urmă includ numărul de angajați din întreprindere, categoria salarială, numărul de copii din familie etc. O serie variațională discretă este un tabel care constă din două coloane. Prima coloană indică sens specific caracteristică, iar în al doilea - numărul de unități de populație cu o anumită valoare a caracteristicii. Dacă un semn are o schimbare continuă (valoarea venitului, vechimea în muncă, costul activelor fixe ale unei întreprinderi etc., care în anumite limite poate lua orice valoare), atunci pentru acest semn este posibil să se construiască serie de variații de interval. Tabelul când se construiește o serie de variații de interval are și două coloane. Primul indică valoarea caracteristicii în intervalul „de la - la” (opțiuni), al doilea - numărul de unități incluse în interval (frecvență). Frecvență (frecvența de repetare) - numărul de repetări ale unei anumite variante a valorilor atributelor. Intervalele pot fi închise și deschise. Intervalele închise sunt limitate pe ambele părți, adică au o margine atât inferioară („de la”), cât și superioară („la”). Intervalele deschise au orice margine: fie superioară, fie inferioară. Dacă opțiunile sunt aranjate în ordine crescătoare sau descrescătoare, atunci rândurile sunt apelate clasat.

Pentru seriile variaționale, există două tipuri de opțiuni de răspuns în frecvență: frecvența cumulată și frecvența cumulativă. Frecvența cumulativă arată câte observații a luat valoarea caracteristicii la valori mai mici decât valoarea specificată. Frecvența cumulativă este determinată prin însumarea valorilor frecvenței caracteristice pentru un grup dat cu toate frecvențele grupurilor anterioare. Frecvenţa acumulată caracterizează gravitație specifică unități de observație, în care valorile atributului nu depășesc limita superioară a grupului dat. Astfel, frecvența acumulată arată ponderea specifică a variantei în agregat, care au o valoare nu mai mare decât cea dată. Frecvența, frecvența, densitățile absolute și relative, frecvența cumulativă și frecvența sunt caracteristici ale mărimii variantei.

Variațiile semnului unităților statistice ale populației, precum și natura distribuției, sunt studiate folosind indicatori și caracteristici ale seriei de variații, care includ nivel mediu serie, abatere liniară medie, abatere standard, varianță, coeficienți de oscilație, variații, asimetrii, curtoză etc.

Valorile medii sunt folosite pentru a caracteriza centrul de distribuție. Media este o caracteristică statistică generalizantă, în care se cuantifică nivelul tipic al unei trăsături deținute de membrii populației studiate. Cu toate acestea, pot exista cazuri în care mediile aritmetice coincid cu o natură diferită a distribuției, prin urmare, ca caracteristici statistice ale seriei de variații, sunt calculate așa-numitele medii structurale - mod, mediană, precum și cuantile care împart distribuția. serie în părți egale (cuartile, decile, percentile etc.).

Modă - aceasta este valoarea caracteristicii care apare mai frecvent în seria de distribuție decât celelalte valori ale acesteia. Pentru seriile discrete, aceasta este varianta cu cea mai mare frecvență. În serii variaționale de interval, pentru a determina modul, este necesar în primul rând să se determine intervalul în care se află, așa-numitul interval modal. Într-o serie variațională cu intervale egale, intervalul modal este determinat de cea mai mare frecvență, în seria cu intervale inegale - dar de cea mai mare densitate de distribuție. Apoi, pentru a determina modul în rânduri cu intervale egale, aplicați formula

unde Mo este valoarea modei; x Mo - limita inferioară a intervalului modal; h- lățimea intervalului modal; / Mo - frecvența intervalului modal; / Mo j - frecvența intervalului pre-modal; / Mo+1 este frecvența intervalului post-modal, iar pentru o serie cu intervale inegale în această formulă de calcul, în locul frecvențelor / Mo, / Mo, / Mo trebuie folosite densitățile de distribuție. Minte 0 _| , Minte 0> UMO+"

Dacă există un singur mod, atunci distribuția de probabilitate a variabilei aleatoare se numește unimodală; dacă există mai multe moduri, se numește multimodal (polimodal, multimodal), în cazul a două moduri - bimodal. De regulă, multimodalitatea indică faptul că distribuția studiată nu respectă legea distribuției normale. Populațiile omogene, de regulă, sunt caracterizate prin distribuții unimodale. Multivertixul indică, de asemenea, eterogenitatea populației studiate. Apariția a două sau mai multe vârfuri face necesară regruparea datelor pentru a izola grupuri mai omogene.

Într-o serie de variații de interval, modul poate fi determinat grafic folosind o histogramă. Pentru a face acest lucru, două linii care se intersectează sunt trasate de la punctele superioare ale celei mai înalte coloane a histogramei până la punctele superioare ale două coloane adiacente. Apoi, din punctul de intersecție a acestora, o perpendiculară este coborâtă pe axa absciselor. Valoarea caracteristică de pe abscisă corespunzătoare perpendicularei este modul. În multe cazuri, când se caracterizează populația ca indicator generalizat, se acordă preferință modului, mai degrabă decât mediei aritmetice.

Mediana - aceasta este valoarea centrală a caracteristicii; este deținută de membrul central al seriei de distribuție clasificată. În seria discretă, pentru a găsi valoarea medianei, se determină mai întâi numărul de serie al acesteia. Pentru aceasta, cu nr număr par unități, unul se adaugă la suma tuturor frecvențelor, numărul este împărțit la doi. Dacă există un număr par de 1, vor exista 2 1 mediani în serie, deci în acest caz mediana este definită ca media valorilor celor 2 1 mediani. Astfel, mediana într-o serie de variații discrete este valoarea care împarte seria în două părți care conțin același număr de opțiuni.

În seria de intervale, după determinarea numărului ordinal al medianei, intervalul median este găsit de frecvențele (frecvențele) acumulate și apoi, folosind formula de calcul a mediei, se determină valoarea medianei în sine:

unde Me este valoarea medianei; x eu - limita inferioară a intervalului median; h- lățimea mediană a intervalului; - suma frecventelor seriei de distributie; /D - frecvența acumulată a intervalului pre-median; / Me - frecvența intervalului median.

Mediana poate fi găsită grafic folosind cumulat. Pentru a face acest lucru, pe scara frecvențelor (frecvențelor) acumulate ale cumulatului, din punctul corespunzător numărului ordinal al medianei, se trasează o dreaptă paralelă cu axa absciselor până se intersectează cu cumulul. În plus, din punctul de intersecție a dreptei indicate cu cumulul, o perpendiculară este coborâtă pe axa absciselor. Valoarea caracteristicii de pe axa x corespunzătoare ordonatei desenate (perpendiculară) este mediana.

Mediana este caracterizată de următoarele proprietăți.

  • 1. Nu depinde de acele valori de atribut care sunt situate pe ambele părți ale acestuia.
  • 2. Are proprietatea de minimalitate, ceea ce înseamnă că suma abaterilor absolute ale valorilor atributelor de la mediană este valoarea minimă în comparație cu abaterea valorilor atributelor de la orice altă valoare.
  • 3. Când se combină două distribuții cu mediane cunoscute, este imposibil să se prezică în avans valoarea mediană a noii distribuții.

Aceste proprietăți ale medianei sunt utilizate pe scară largă în proiectarea locației punctelor de serviciu public - școli, clinici, benzinării, pompe de apă etc. De exemplu, dacă se plănuiește construirea unei policlinici într-un anumit cartier al orașului, atunci este mai oportun să o amplasăm într-un punct al cartierului care nu traversează lungimea cartierului, ci numărul de locuitori.

Raportul dintre mod, mediană și medie aritmetică indică natura distribuției trăsăturii în agregat, vă permite să evaluați simetria distribuției. Dacă x Me atunci există o asimetrie dreapta a seriei. Cu o distribuție normală X - Notificare.

K. Pearson, pe baza alinierii diferitelor tipuri de curbe, a determinat că pentru distribuțiile moderat asimetrice sunt valabile următoarele relații aproximative între media aritmetică, mediană și mod:

unde Me este valoarea medianei; Mo - valoarea modei; x aritmetică - valoarea mediei aritmetice.

Dacă este nevoie de a studia mai detaliat structura seriei de variații, atunci se calculează valorile caracteristice, similare cu mediana. Astfel de valori caracteristice împart toate unitățile de distribuție în numere egale, ele se numesc cuantile sau gradienți. Quantilele sunt împărțite în quartile, decile, percentile etc.

Quartilele împart populația în patru părți egale. Prima cuartilă este calculată în mod similar cu mediana folosind formula de calcul a primei cuartile, după ce a determinat în prealabil primul interval trimestrial:

unde Qi este valoarea primei quartile; xQ^- limita inferioară a primului interval de quartile; h- lăţimea primului interval trimestrial; /, - frecvențele seriei de intervale;

Frecvența acumulată în intervalul care precede primul interval de quartile; Jq ( - frecvența primului interval de quartile.

Prima quartila arată că 25% din unitățile populației sunt mai mici decât valoarea sa, iar 75% sunt mai multe. A doua cuartilă este egală cu mediana, adică. Q2 = Pe mine.

Prin analogie, se calculează a treia cuartilă, după ce a fost găsit anterior al treilea interval trimestrial:

unde este limita inferioară a intervalului al treilea quartil; h- lăţimea intervalului al treilea quartil; /, - frecvențele seriei de intervale; /X"- frecventa acumulata in intervalul precedent

G

intervalul al treilea quartila; Jq - frecvența intervalului al treilea quartil.

A treia quartila arată că 75% din unitățile populației sunt mai mici decât valoarea sa, iar 25% sunt mai multe.

Diferența dintre al treilea și primul quartile este intervalul intercuartil:

unde Aq este valoarea intervalului intercuartil; Q 3 - valoarea celui de-al treilea quartile; Q, - valoarea primei quartile.

Decilele împart populația în 10 părți egale. Un decil este o valoare a unei caracteristici dintr-o serie de distribuție care corespunde unor zecimi din populație. Prin analogie cu quartilele, prima decilă arată că 10% din unitățile populației sunt mai mici decât valoarea sa, iar 90% sunt mai multe, iar a noua decilă arată că 90% din unitățile populației sunt mai mici decât valoarea sa, iar 10% sunt Mai mult. Raportul dintre al nouălea și primul decil, adică coeficientul decil, utilizat pe scară largă în studiul diferențierii veniturilor pentru a măsura raportul dintre nivelurile de venit a 10% din populația cea mai bogată și 10% din populația cea mai puțin bogată. Percentilele împart populația clasată în 100 de părți egale. Calculul, semnificația și utilizarea percentilelor sunt similare cu decilele.

Quartilele, decilele și alte caracteristici structurale pot fi determinate grafic prin analogie cu mediana folosind cumulat.

Pentru a măsura mărimea variației, se folosesc următorii indicatori: intervalul de variație, abaterea liniară medie, abaterea standard și varianța. Mărimea intervalului de variație depinde în întregime de aleatorietatea distribuției membrilor extremi ai seriei. Acest indicator este de interes în cazurile în care este important să știți care este amplitudinea fluctuațiilor valorilor atributului:

Unde R- valoarea intervalului de variație; x max - valoarea maximă a caracteristicii; x tt - valoarea minimă a caracteristicii.

La calcularea intervalului de variație nu se ia în considerare valoarea marii majorități a membrilor seriei, în timp ce variația este asociată cu fiecare valoare a membrului seriei. Acest neajuns este lipsit de indicatori care sunt medii obținute din abaterile valorilor individuale ale unei trăsături de la valoarea lor medie: abaterea liniară medie și abaterea standard. Există o relație directă între abaterile individuale de la medie și fluctuația unei anumite trăsături. Cu cât volatilitatea este mai puternică, cu atât dimensiunea absolută a abaterilor de la medie este mai mare.

Abaterea liniară medie este media aritmetică a valorilor absolute ale abaterilor opțiunilor individuale de la valoarea lor medie.

Abaterea liniară medie pentru date negrupate

unde / pr - valoarea abaterii liniare medii; x, - - valoarea caracteristicii; X - P - numărul de unități de populație.

Seria grupată Abaterea liniară medie

unde / vz - valoarea abaterii liniare medii; x, - valoarea caracteristicii; X - valoarea medie a trăsăturii pentru populația studiată; / - numărul de unități de populație dintr-o grupă separată.

Semnele de abatere sunt ignorate în acest caz, în caz contrar, suma tuturor abaterilor va fi egală cu zero. Abaterea liniară medie în funcție de gruparea datelor analizate se calculează prin diverse formule: pentru date grupate și negrupate. Abaterea liniară medie, datorită condiționalității sale, separat de alți indicatori de variație, este utilizată relativ rar în practică (în special, pentru a caracteriza îndeplinirea obligațiilor contractuale în ceea ce privește uniformitatea ofertei; în analiza cifrei de afaceri din comerțul exterior, compoziția angajaților, ritmul producției, calitatea produsului, ținând cont de caracteristicile tehnologice ale producției etc.).

Abaterea standard caracterizează cât de mult se abate valorile individuale ale trăsăturii studiate în medie de la valoarea medie a populației și este exprimată în unități ale trăsăturii studiate. Abaterea standard, fiind una dintre principalele măsuri de variație, este utilizată pe scară largă în aprecierea limitelor variației unei trăsături într-o populație omogenă, în determinarea valorilor ordonatelor curbei de distribuție normală, precum și în calcule legate de organizarea observării eșantionului și stabilirea acurateței caracteristicilor eșantionului. Abaterea standard pentru datele negrupate se calculează conform următorului algoritm: fiecare abatere de la medie este pătrată, toate pătratele sunt însumate, după care suma pătratelor este împărțită la numărul de termeni din serie și rădăcina pătrată este luată din coeficientul:

unde a Iip - valoarea abaterii standard; Xj- valoarea caracteristicii; X- valoarea medie a atributului pentru populaţia studiată; P - numărul de unități de populație.

Pentru datele analizate grupate, abaterea standard a datelor este calculată folosind formula ponderată

Unde - valoarea abaterii standard; Xj- valoarea caracteristicii; X - valoarea medie a trăsăturii pentru populația studiată; fx- numărul de unități de populație dintr-un anumit grup.

Expresia de sub rădăcină în ambele cazuri se numește varianță. Astfel, varianța este calculată ca pătratul mediu al abaterilor valorilor trăsăturilor de la valoarea lor medie. Pentru valorile neponderate (simple) ale unei caracteristici, se determină varianța în felul următor:

Pentru valorile caracteristice ponderate

Există, de asemenea, o modalitate simplificată specială de a calcula varianța: în termeni generali

pentru valorile caracteristice neponderate (simple). pentru valorile caracteristice ponderate
folosind metoda numărării de la zero condiționat

unde a 2 - valoarea dispersiei; x, - - valoarea caracteristicii; X - valoarea medie a caracteristicii, h- valoarea intervalului de grup, t 1 - greutate (A =

Dispersia are o expresie independentă în statistică și este unul dintre cei mai importanți indicatori ai variației. Se măsoară în unități corespunzătoare pătratului unităților de măsură ale trăsăturii studiate.

Dispersia are următoarele proprietăți.

  • 1. Dispersia unei valori constante este zero.
  • 2. Reducerea tuturor valorilor caracteristicii cu aceeași valoare a lui A nu modifică valoarea varianței. Aceasta înseamnă că pătratul mediu al abaterilor poate fi calculat nu din valorile date ale atributului, ci din abaterile acestora de la un număr constant.
  • 3. Scăderea tuturor valorilor caracteristicii în k ori reduce dispersia în k de 2 ori, iar abaterea standard - in k ori, adica toate valorile atributelor pot fi împărțite la un număr constant (să zicem, la valoarea intervalului serie), abaterea standard poate fi calculată și apoi înmulțită cu un număr constant.
  • 4. Dacă calculăm pătratul mediu al abaterilor de la orice valoare Și la diferă într-o oarecare măsură de media aritmetică, atunci aceasta va fi întotdeauna mai mare decât pătratul mediu al abaterilor calculate de la media aritmetică. În acest caz, pătratul mediu al abaterilor va fi mai mare cu o valoare bine definită - cu pătratul diferenței dintre medie și această valoare luată condiționat.

Variația unei trăsături alternative este prezența sau absența proprietății studiate în unitățile populației. Cantitativ, variația unui atribut alternativ se exprimă prin două valori: prezența proprietății studiate într-o unitate se notează cu unu (1), iar absența acestuia se notează cu zero (0). Proporția unităților care au proprietatea în studiu se notează cu P, iar proporția unităților care nu au această proprietate se notează cu G. Astfel, varianța unui atribut alternativ este egală cu produsul dintre proporția de unități care au o proprietate dată (P) cu proporția de unități care nu au această proprietate (G). Cea mai mare variație a populației se realizează în cazurile în care o parte a populației, care reprezintă 50% din volumul total al populației, are o caracteristică, iar cealaltă parte a populației, tot egală cu 50%, nu are această caracteristică, în timp ce varianța atinge o valoare maximă de 0,25, m .e. P = 0,5, G= 1 - P \u003d 1 - 0,5 \u003d 0,5 și o 2 \u003d 0,5 0,5 \u003d 0,25. Limita inferioară a acestui indicator este egală cu zero, ceea ce corespunde unei situații în care nu există variații în agregat. Aplicația practică a varianței unei caracteristici alternative este de a construi intervale de încredere atunci când se efectuează o observație eșantion.

Cu cât varianța și abaterea standard sunt mai mici, cu atât populația este mai omogenă și media va fi mai tipică. În practica statisticii, devine adesea necesară compararea variațiilor diferitelor caracteristici. De exemplu, este interesant de comparat variațiile vârstei lucrătorilor și calificărilor acestora, vechimea în muncă și salariile, costul și profitul, vechimea în muncă și productivitatea muncii etc. Pentru astfel de comparații, indicatorii variabilității absolute a caracteristicilor sunt nepotriviți: este imposibil să se compare variabilitatea experienței de muncă, exprimată în ani, cu variația salariilor, exprimată în ruble. Pentru a efectua astfel de comparații, precum și comparații ale fluctuației aceluiași atribut în mai multe populații cu medii aritmetice diferite, se folosesc indicatori de variație - coeficientul de oscilație, coeficientul liniar de variație și coeficientul de variație, care arată măsura de fluctuații ale valorilor extreme în jurul mediei.

Factorul de oscilație:

Unde V R - valoarea coeficientului de oscilație; R- valoarea intervalului de variație; X -

Coeficientul liniar de variație”.

Unde vj- valoarea coeficientului liniar de variație; eu- valoarea abaterii liniare medii; X - valoarea medie a trăsăturii pentru populaţia studiată.

Coeficientul de variație:

Unde va- valoarea coeficientului de variație; a - valoarea abaterii standard; X - valoarea medie a trăsăturii pentru populaţia studiată.

Coeficientul de oscilație este procentul dintre intervalul de variație față de valoarea medie a trăsăturii studiate, iar coeficientul liniar de variație este raportul dintre deviația liniară medie și valoarea medie a trăsăturii studiate, exprimat ca procent. Coeficientul de variație este procentul abaterii standard față de valoarea medie a trăsăturii studiate. Ca valoare relativă, exprimată în procente, coeficientul de variație este utilizat pentru a compara gradul de variație a diferitelor trăsături. Folosind coeficientul de variație se estimează omogenitatea populaţia statistică. Dacă coeficientul de variație este mai mic de 33%, atunci populația studiată este omogenă, iar variația este slabă. Dacă coeficientul de variație este mai mare de 33%, atunci populația studiată este eterogenă, variația este puternică, iar valoarea medie este atipică și nu poate fi folosită ca indicator generalizator al acestei populații. În plus, coeficienții de variație sunt utilizați pentru a compara fluctuația unei trăsături în diferite populații. De exemplu, pentru a evalua variația vechimii în muncă a lucrătorilor la două întreprinderi. Cu cât valoarea coeficientului este mai mare, cu atât variația caracteristicii este mai semnificativă.

Pe baza quartilelor calculate, este de asemenea posibil să se calculeze indicatorul relativ al variației trimestriale folosind formula

unde Q 2 Și

Intervalul intercuartil este determinat de formula

Abaterea quartilei este utilizată în locul intervalului de variație pentru a evita dezavantajele asociate utilizării valorilor extreme:

Pentru seriile variaționale cu intervale inegale, se calculează și densitatea distribuției. Este definit ca câtul dintre frecvența sau frecvența corespunzătoare împărțit la valoarea intervalului. În serii de intervale inegale se utilizează densitățile de distribuție absolute și relative. Densitatea de distribuție absolută este frecvența pe unitatea de lungime a intervalului. Densitatea de distribuție relativă - frecvența pe unitatea de lungime a intervalului.

Toate cele de mai sus sunt valabile pentru seriile de distribuție a căror lege de distribuție este bine descrisă de legea distribuției normale sau este apropiată de aceasta.

gruparea- aceasta este împărțirea populației în grupuri omogene într-un fel.

Atribuirea serviciului. Cu calculatorul online puteți:

  • construiți o serie de variații, construiți o histogramă și un poligon;
  • găsiți indicatori de variație (medie, mod (inclusiv și grafic), mediană, interval de variație, quartile, decile, coeficient de diferențiere cuartil, coeficient de variație și alți indicatori);

Instruire. Pentru a grupa o serie, trebuie să selectați tipul seriei de variații rezultate (discretă sau interval) și să specificați cantitatea de date (numărul de rânduri). Soluția rezultată este salvată într-un fișier Word (vezi exemplul de grupare a datelor statistice).

Dacă gruparea a fost deja făcută și serie de variații discrete sau serie de intervale, atunci trebuie să utilizați calculatorul online Indicatori de variație. Testarea ipotezei despre tipul de distribuție produs folosind serviciul Studiul formei de distributie.

Tipuri de grupări statistice

Seria de variații. În cazul observațiilor unei variabile aleatoare discrete, aceeași valoare poate fi întâlnită de mai multe ori. Astfel de valori ale unei variabile aleatoare x i sunt înregistrate indicând n i de câte ori apare în n observații, aceasta este frecvența acestei valori.
În cazul unei variabile aleatoare continue, gruparea este utilizată în practică.
  1. Gruparea tipologică- este împărțirea populației eterogene calitativ studiate în clase, tipuri socio-economice, grupuri omogene de unități. Pentru a construi această grupare, utilizați parametrul Serie variațională discretă.
  2. Se numește grupare structurală, în care o populație omogenă este împărțită în grupuri care îi caracterizează structura în funcție de anumite caracteristici diferite. Pentru a construi această grupare, utilizați parametrul Interval series.
  3. Se numește o grupare care relevă relația dintre fenomenele studiate și trăsăturile lor grup analitic(vezi gruparea analitică a serii).

Exemplul #1. Conform tabelului 2, construiți seria de distribuție pentru 40 de bănci comerciale ale Federației Ruse. În funcție de seria de distribuție obținută, determinați: profitul mediu pe o bancă comercială, investițiile creditare în medie pe o bancă comercială, valoarea modală și mediană a profitului; quartile, decile, intervalul de variație, deviația liniară medie, abaterea standard, coeficientul de variație.

Soluţie:
În capitolul „Tipul seriei statistice” alege Discrete Series. Faceți clic pe Lipire din Excel. Număr de grupe: conform formulei Sturgess

Principii de construire a grupărilor statistice

O serie de observații ordonate în ordine crescătoare se numește serie de variații. semn de grupare este semnul prin care populația este împărțită în grupuri separate. Se numește baza grupului. Gruparea se poate baza atât pe caracteristici cantitative, cât și calitative.
După stabilirea bazei grupării, trebuie decisă problema numărului de grupuri în care ar trebui să fie împărțită populația de studiu.

Atunci când se utilizează computere personale pentru prelucrarea datelor statistice, gruparea unităților unui obiect se realizează folosind proceduri standard.
O astfel de procedură se bazează pe utilizarea formulei Sturgess pentru a determina numărul optim de grupuri:

k = 1+3,322*lg(N)

Unde k este numărul de grupuri, N este numărul de unități de populație.

Lungimea intervalelor parțiale se calculează ca h=(x max -x min)/k

Apoi numărați numărul de accesări ale observațiilor din aceste intervale, care sunt luate ca frecvențe n i . Puține frecvențe, ale căror valori sunt mai mici de 5 (n i< 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
Punctele medii ale intervalelor x i =(c i-1 +c i)/2 sunt luate ca valori noi.

Exemplul #3. Ca rezultat al unui eșantion auto-aleatoriu de 5%, s-a obținut următoarea distribuție a produselor după conținutul de umiditate. Calculați: 1) procentul mediu de umiditate; 2) indicatori care caracterizează variaţia umidităţii.
Soluția a fost obținută folosind un calculator: Exemplul nr. 1

Construiți o serie de variații. Pe baza seriei găsite, construiți un poligon de distribuție, o histogramă și un cumulat. Determinați modul și mediana.
Descărcați soluția

Exemplu. Conform rezultatelor observării selective (anexa eșantionului A):
a) faceți o serie de variații;
b) calculați frecvențele relative și frecvențele relative acumulate;
c) construiți un poligon;
d) alcătuiește o funcție de distribuție empirică;
e) reprezentaţi grafic funcţia de distribuţie empirică;
f) calculați caracteristicile numerice: medie aritmetică, varianță, abatere standard. Soluţie

Pe baza datelor prezentate în Tabelul 4 (Anexa 1) și corespunzătoare opțiunii dvs., efectuați:

  1. Pe baza grupării structurale, construiți o serie de frecvență variațională și distribuție cumulativă folosind intervale închise egale, presupunând că numărul de grupuri este 6. Prezentați rezultatele într-un tabel și grafic.
  2. Analizați seria de distribuție variațională calculând:
    • valoarea medie aritmetică a caracteristicii;
    • mod, mediană, 1-a cuartilă, 1-a și 9-a decilă;
    • deviație standard;
    • coeficientul de variație.
  3. A trage concluzii.

Necesar: pentru a clasifica seria, construiți o serie de distribuție pe intervale, calculați media, varianța medie, modul și mediana pentru seria interval și interval.

Pe baza datelor inițiale, construiți o serie variațională discretă; prezentați-l sub forma unui tabel statistic și grafice statistice. 2). Pe baza datelor inițiale, construiți o serie de variații de interval cu intervale egale. Alegeți singur numărul de intervale și explicați această alegere. Prezentați seria de variații rezultată sub forma unui tabel statistic și grafice statistice. Indicați tipurile de tabele și grafice utilizate.

Pentru a determina durata medie a serviciului clienți într-un fond de pensii, al cărui număr de clienți este foarte mare, a fost efectuat un sondaj pe 100 de clienți conform schemei de eșantionare auto-aleatorie nerepetitivă. Rezultatele sondajului sunt prezentate în tabel. Găsi:
a) limitele în care, cu o probabilitate de 0,9946, se încheie timpul mediu de serviciu pentru toți clienții fondului de pensii;
b) probabilitatea ca ponderea tuturor clienților fondului cu o durată de serviciu mai mică de 6 minute să difere de ponderea acestor clienți în eșantion cu cel mult 10% (în valoare absolută);
c) volumul de reeșantionare, la care cu o probabilitate de 0,9907 se poate argumenta că ponderea tuturor clienților fondului cu o durată de serviciu mai mică de 6 minute diferă de ponderea acestor clienți în eșantion cu cel mult 10% (în valoare absolută).
2. Conform sarcinii 1, folosind testul Pearson X 2, la nivelul de semnificație α = 0,05, se testează ipoteza că variabila aleatoare X - timpul de servire a clienților - este distribuită conform legii normale. Construiți pe un desen o histogramă a distribuției empirice și a curbei normale corespunzătoare.
Descărcați soluția

Dat un eșantion de 100 de articole. Necesar:

  1. Construiți o serie variațională clasificată;
  2. Găsiți termenii maximi și minimi ai seriei;
  3. Găsiți intervalul de variație și numărul de intervale optime pentru construirea unei serii de intervale. Aflați lungimea intervalului seriei de intervale;
  4. Construiți o serie de intervale. Aflați frecvențele elementelor eșantionului care se încadrează în intervalele compuse. Găsiți punctele de mijloc ale fiecărui interval;
  5. Construiți o histogramă și un poligon de frecvențe. Compara cu distributie normala(analitic și grafic);
  6. Reprezentați grafic funcția de distribuție empirică;
  7. Calculați caracteristicile numerice ale eșantionului: media eșantionului și momentul central al eșantionului;
  8. Calculați valorile aproximative ale abaterii standard, asimetriei și curtozei (folosind pachetul de analiză MS Excel). Comparați valorile calculate aproximative cu cele exacte (calculate folosind formule MS Excel);
  9. Comparați caracteristicile grafice selectate cu cele teoretice corespunzătoare.
Descărcați soluția

Avem următoarele date eșantion (eșantion de 10%, mecanic) privind producția și valoarea profitului, milioane de ruble. Conform datelor originale:
Sarcina 13.1.
13.1.1. Construi serii statistice repartizarea întreprinderilor după valoarea profitului, formând cinci grupuri la intervale egale. Serii de distribuție a parcelelor.
13.1.2. Calculați caracteristicile numerice ale unei serii de distribuție a întreprinderilor după valoarea profitului: medie aritmetică, abatere standard, varianță, coeficient de variație V. Trageți concluzii.
Sarcina 13.2.
13.2.1. Determinați limitele în care, cu o probabilitate de 0,997, se încheie valoarea profitului unei întreprinderi din populația generală.
13.2.2. Folosind criteriul x2 al lui Pearson, la un nivel de semnificație α, testați ipoteza că variabila aleatoare X - valoarea profitului - este distribuită conform legii normale.
Sarcina 13.3.
13.3.1. Determinați coeficienții ecuației de regresie a probei.
13.3.2. Stabiliți prezența și natura corelației dintre costul produselor fabricate (X) și valoarea profitului pe întreprindere (Y). Trasează un grafic de dispersie și o dreaptă de regresie.
13.3.3. Calculați coeficientul de corelație liniară. Utilizând testul t al lui Student, verificați semnificația coeficientului de corelație. Trageți o concluzie despre apropierea relației dintre factorii X și Y folosind scala Chaddock.
Instrucțiuni . Sarcina 13.3 este efectuată utilizând acest serviciu.
Descărcați soluția

Sarcină. Următoarele date reprezintă timpul petrecut de clienți în încheierea contractelor. Construiți o serie de variații de interval a datelor prezentate, o histogramă, găsiți o estimare imparțială așteptări matematice, estimarea părtinitoare și nepărtinitoare a varianței.

Exemplu. Conform tabelului 2:
1) Construiți serii de distribuție pentru 40 de bănci comerciale din Federația Rusă:
a) cu valoarea profitului;
B) prin valoarea investiţiilor creditare.
2) În funcție de seria de distribuție obținută, determinați:
A) profitul mediu pe bancă comercială;
B) investiții creditare în medie pe bancă comercială;
C) valoarea modală și mediană a profitului; quartile, decile;
D) valoarea modală și mediană a investițiilor creditare.
3) Conform seriei de distribuție obținute la paragraful 1, se calculează:
a) interval de variație;
b) abaterea liniară medie;
c) abaterea standard;
d) coeficientul de variaţie.
Înregistrați calculele necesare în formă tabelară. Analizați rezultatele. Trageți propriile concluzii.
Trasează seria de distribuție rezultată. Determinați grafic modul și mediana.

Soluţie:
Pentru a construi o grupare cu intervale egale, vom folosi serviciul Grupare de date statistice.

Figura 1 - Introducerea parametrilor

Descrierea parametrilor
Numărul de linii: cantitatea de date brute. Dacă dimensiunea seriei este mică, indicați numărul acesteia. Dacă selecția este suficient de mare, atunci faceți clic pe butonul Lipire din Excel.
Numărul de grupuri: 0 - numărul de grupe va fi determinat de formula Sturgess.
Dacă este specificat un anumit număr de grupuri, specificați-l (de exemplu, 5).
Tipul de rând: Serii discrete.
Nivel de semnificație: de exemplu, 0,954 . Acest parametru este setat pentru a defini intervalul de încredere pentru medie.
Probă: De exemplu, se face eșantionare mecanică de 10%. Specificați numărul 10. Pentru datele noastre, precizăm 100 .

Metoda de grupare vă permite, de asemenea, să măsurați variație(variabilitate, fluctuație) semnelor. Cu un număr relativ mic de unități de populație, variația se măsoară pe baza unei serii ordonate de unități care alcătuiesc populația. Rândul este numit clasat dacă unitățile sunt aranjate în caracteristică ascendentă (descrescătoare).

Cu toate acestea, seriile clasate sunt mai degrabă orientative atunci când este necesar Caracteristici comparative variatii. În plus, în multe cazuri se are de-a face cu agregate statistice formate dintr-un număr mare de unități, care sunt practic greu de reprezentat sub forma unei serii specifice. În acest sens, pentru familiarizarea generală inițială cu datele statistice și mai ales pentru a facilita studiul variației semnelor, fenomenele și procesele studiate sunt de obicei combinate în grupuri, iar rezultatele grupării sunt întocmite sub formă de tabele de grup. .

Dacă în tabelul de grupuri sunt doar două coloane - grupuri în funcție de caracteristica selectată (opțiuni) și numărul de grupuri (frecvențe sau frecvențe), se numește aproape de distribuție.

Interval de distribuție - cel mai simplu tip de grupare structurală în funcție de un atribut, afișat într-un tabel de grup cu două coloane care conțin variante și frecvențe ale atributului. În multe cazuri, cu o astfel de grupare structurală, i.e. odata cu alcatuirea seriilor de distributie incepe studiul materialului statistic initial.

Gruparea structurală sub forma unei serii de distribuție poate fi transformată într-o adevărată grupare structurală dacă grupurile selectate sunt caracterizate nu numai prin frecvențe, ci și prin alți indicatori statistici. Scopul principal al seriei de distribuție este de a studia variația caracteristicilor. Teoria distribuției seriilor este dezvoltată în detaliu prin statistici matematice.

Serii de distribuție sunt împărțite în atributiv(gruparea după caracteristici atributive, de exemplu, împărțirea populației pe sex, naționalitate, stare civilă etc.) și variațională(gruparea după caracteristici cantitative).

Seria de variații este un tabel de grup care conține două coloane: o grupare de unități în funcție de un atribut cantitativ și numărul de unități din fiecare grup. Intervalele din seria de variații sunt de obicei formate egale și închise. Seria de variații este următoarea grupare a populației ruse în termeni de venit mediu în numerar pe cap de locuitor (Tabelul 3.10).

Tabelul 3.10

Distribuția populației Rusiei în funcție de venitul mediu pe cap de locuitor în perioada 2004-2009

Grupuri de populație după venitul mediu pe cap de locuitor, rub./lună

Populația din grup, în % din total

8 000,1-10 000,0

10 000,1-15 000,0

15 000,1-25 000,0

Peste 25.000,0

Toată populația

Serii variaționale, la rândul lor, sunt împărțite în discrete și interval. Discret serii de variații combină variante de caracteristici discrete care variază în limite înguste. Un exemplu de serie variațională discretă este distribuția familiilor rusești în funcție de numărul de copii pe care îi au.

Interval seria variațională combină variante fie ale caracteristicilor continue, fie ale caracteristicilor discrete care se schimbă într-o gamă largă. Seria de intervale este seria variațională a distribuției populației ruse în ceea ce privește venitul în numerar mediu pe cap de locuitor.

Serii variaționale discrete nu sunt folosite foarte des în practică. Între timp, compilarea lor nu este dificilă, întrucât componența grupurilor este determinată de variantele specifice pe care le posedă de fapt caracteristicile grupării studiate.

Serii variaționale de intervale sunt mai răspândite. La compilarea lor, se pune problema dificilă a numărului de grupuri, precum și a mărimii intervalelor care ar trebui stabilite.

Principiile pentru rezolvarea acestei probleme sunt expuse în capitolul privind metodologia de construire a grupărilor statistice (vezi paragraful 3.3).

Seriile de variații sunt un mijloc de colaps sau comprimare a diverselor informații într-o formă compactă; ele pot fi folosite pentru a face o judecată destul de clară asupra naturii variației, pentru a studia diferențele de semne ale fenomenelor incluse în setul studiat. Dar esenţial seria de variații este aceea că pe baza lor se calculează caracteristici generalizate speciale ale variației (vezi capitolul 7).

Să numim diferite valori ale eșantionului Opțiuni o serie de valori și notăm: X 1 , X 2,…. În primul rând, să facem variind opțiuni, adică aranjați-le în ordine crescătoare sau descrescătoare. Pentru fiecare opțiune este indicată propria sa greutate, adică un număr care caracterizează contribuţia acestei opţiuni la populaţia totală. Frecvențele sau frecvențele acționează ca greutăți.

Frecvență n i opțiune x i numit un număr care arată de câte ori apare această opțiune în populația eșantion considerată.

Frecvența sau frecvența relativă w i opțiune x i se numește un număr egal cu raportul dintre frecvența unei variante și suma frecvențelor tuturor variantelor. Frecvența arată ce parte din unitățile populației eșantionului are o variantă dată.

Secvența de opțiuni cu ponderile lor corespunzătoare (frecvențe sau frecvențe), scrise în ordine crescătoare (sau descrescătoare), se numește serie variațională.

Serii variaționale sunt discrete și interval.

Pentru o serie variațională discretă, valorile punctuale ale atributului sunt specificate, pentru seria de intervale, valorile atributului sunt specificate sub formă de intervale. Serii de variații pot arăta distribuția frecvențelor sau a frecvențelor relative (frecvențe), în funcție de ce valoare este indicată pentru fiecare opțiune - frecvență sau frecvență.

Serii de variații discrete ale distribuției de frecvență se pare ca:

Frecvențele se găsesc prin formula , i = 1, 2, …, m.

w 1 +w 2 + … + w m = 1.

Exemplu 4.1. Pentru un anumit set de numere

4, 6, 6, 3, 4, 9, 6, 4, 6, 6

construiți serii variaționale discrete de distribuții de frecvență și frecvență.

Soluţie . Volumul populaţiei este n= 10. Seria de distribuție a frecvenței discrete are forma

Seriile cu intervale au o formă similară de înregistrare.

Seria de variație a intervalului de distribuție a frecvenței se scrie ca:

Suma tuturor frecvențelor este egală cu numărul total de observații, adică volum total: n = n 1 +n 2 + … + n m .

Seria de variație a intervalului de distribuție a frecvențelor relative (frecvențe) se pare ca:

Frecvența se găsește prin formula , i = 1, 2, …, m.

Suma tuturor frecvențelor este egală cu unu: w 1 +w 2 + … + w m = 1.

Cel mai adesea, în practică, se folosesc serii de intervale. Dacă există o mulțime de date statistice de eșantion și valorile lor diferă unele de altele printr-o cantitate arbitrar de mică, atunci seria discretă pentru aceste date va fi destul de greoaie și incomodă pentru cercetări ulterioare. În acest caz, se utilizează gruparea datelor, adică intervalul care conține toate valorile atributului este împărțit în mai multe intervale parțiale și, după ce s-a calculat frecvența pentru fiecare interval, se obține o serie de intervale. Să scriem mai detaliat schema de construire a unei serii de intervale, presupunând că lungimile intervalelor parțiale vor fi aceleași.

2.2 Construirea unei serii de intervale

Pentru a construi o serie de intervale, aveți nevoie de:

Determinați numărul de intervale;

Determinați lungimea intervalelor;

Determinați locația intervalelor pe axă.

Pentru determinare numărul de intervale k Există o formulă Sturges, conform căreia

,

Unde n- volumul totalitatii.

De exemplu, dacă există 100 de valori caracteristice (variantă), atunci se recomandă să luați numărul de intervale egal cu intervalele pentru a construi o serie de intervale.

Totuși, de foarte multe ori, în practică, numărul de intervale este ales chiar de cercetător, având în vedere că acest număr nu trebuie să fie foarte mare pentru ca seria să nu fie greoaie, dar nici foarte mică, pentru a nu pierde unele proprietăți ale distributia.

Lungimea intervalului h este determinată de următoarea formulă:

,

Unde X max si X min este cea mai mare și cea mai mare valoare mică Opțiuni.

valoarea numit la scară mare rând.

Pentru a construi intervalele în sine, ele procedează în moduri diferite. Una dintre cele mai moduri simple este după cum urmează. Valoarea este luată drept începutul primului interval
. Apoi restul limitelor intervalelor se găsesc prin formula . Evident, sfârșitul ultimului interval A m+1 trebuie să îndeplinească condiția

După ce sunt găsite toate limitele intervalelor, se determină frecvențele (sau frecvențele) acestor intervale. Pentru a rezolva această problemă, ei analizează toate opțiunile și determină numărul de opțiuni care se încadrează într-un anumit interval. Vom lua în considerare construcția completă a unei serii de interval folosind un exemplu.

Exemplu 4.2. Pentru următoarele statistici, scrise în ordine crescătoare, construiți o serie de intervale cu numărul de intervale egal cu 5:

11, 12, 12, 14, 14, 15, 21, 21, 22, 23, 25, 38, 38, 39, 42, 42, 44, 45, 50, 50, 55, 56, 58, 60, 62, 63, 65, 68, 68, 68, 70, 75, 78, 78, 78, 78, 80, 80, 86, 88, 90, 91, 91, 91, 91, 91, 93, 93, 95, 96.

Soluţie. Total n=50 de valori ale variantei.

Numărul de intervale este specificat în starea problemei, adică. k=5.

Lungimea intervalelor este
.

Să definim limitele intervalelor:

A 1 = 11 − 8,5 = 2,5; A 2 = 2,5 + 17 = 19,5; A 3 = 19,5 + 17 = 36,5;

A 4 = 36,5 + 17 = 53,5; A 5 = 53,5 + 17 = 70,5; A 6 = 70,5 + 17 = 87,5;

A 7 = 87,5 +17 = 104,5.

Pentru a determina frecvența intervalelor, numărăm numărul de opțiuni care se încadrează în acest interval. De exemplu, opțiunile 11, 12, 12, 14, 14, 15 se încadrează în primul interval de la 2,5 la 19,5. Numărul lor este 6, prin urmare, frecvența primului interval este n 1=6. Frecvența primului interval este . Variantele 21, 21, 22, 23, 25, al căror număr este 5, se încadrează în al doilea interval de la 19,5 la 36,5. Prin urmare, frecvența celui de-al doilea interval este n 2 =5 și frecvența . După ce am găsit în mod similar frecvențele și frecvențele pentru toate intervalele, obținem următoarea serie de intervale.

Seria de intervale a distribuției de frecvență are forma:

Suma frecvențelor este 6+5+9+11+8+11=50.

Seria de intervale a distribuției de frecvență are forma:

Suma frecvențelor este 0,12+0,1+0,18+0,22+0,16+0,22=1. ■

La construirea serii de intervale, în funcție de condițiile specifice ale problemei luate în considerare, se pot aplica și alte reguli și anume

1. Serii de variații de intervale pot consta din intervale parțiale de lungimi diferite. Lungimile inegale ale intervalelor fac posibilă evidențierea proprietăților unei populații statistice cu o distribuție neuniformă a unei caracteristici. De exemplu, dacă limitele intervalelor determină numărul de locuitori din orașe, atunci este recomandabil în această problemă să se folosească intervale care sunt inegale ca lungime. Evident, pentru orașele mici este importantă și o mică diferență a numărului de locuitori, iar pentru orașele mari, o diferență de zeci și sute de locuitori nu este semnificativă. Serii de intervale cu lungimi inegale ale intervalelor parțiale sunt studiate în principal în teorie generală statisticile și luarea în considerare a acestora depășește domeniul de aplicare al acestui manual.

2. În statistici matematice uneori sunt luate în considerare serii de intervale, pentru care se presupune că limita stângă a primului interval este egală cu –∞, iar limita dreaptă a ultimului interval este +∞. Acest lucru se face pentru a apropia distribuția statistică de cea teoretică.

3. La construirea serii de intervale, se poate dovedi că valoarea unei variante coincide exact cu limita intervalului. Cel mai bun lucru de făcut în acest caz este următorul. Dacă există o singură astfel de coincidență, atunci considerați că varianta luată în considerare cu frecvența sa a căzut în intervalul situat mai aproape de mijlocul seriei de intervale, dacă există mai multe astfel de variante, atunci fie toate sunt atribuite intervalelor la dreapta acestor variante, sau toate la stânga.

4. După determinarea numărului de intervale și a lungimii acestora, localizarea intervalelor se poate face în alt mod. Găsiți media aritmetică a tuturor valorilor considerate ale opțiunilor X cf. și construiți primul interval în așa fel încât această medie a eșantionului să fie în interiorul unui interval. Astfel, obținem intervalul de la X cf. – 0,5 h inainte de X medie + 0,5 h. Apoi la stânga și la dreapta, adăugând lungimea intervalului, construim intervalele rămase până la X min și X max nu se va încadra în primul și, respectiv, ultimul interval.

5. Serii de intervale pentru numere mari Este convenabil să scrieți intervalele pe verticală, de exemplu. înregistrați intervalele nu în prima linie, ci în prima coloană, iar frecvențele (sau frecvențele) în a doua coloană.

Datele eșantionului pot fi considerate ca valori ale unei variabile aleatorii X. O variabilă aleatorie are propria sa lege de distribuție. Din teoria probabilității se știe că legea de distribuție a unei variabile aleatoare discrete poate fi specificată ca o serie de distribuție, iar pentru una continuă, folosind funcția densității distribuției. Cu toate acestea, există o lege de distribuție universală care este valabilă atât pentru discretă, cât și pentru continuă variabile aleatoare. Această lege de distribuție este dată ca funcție de distribuție F(X) = P(X<X). Pentru datele eșantionului, puteți specifica un analog al funcției de distribuție - funcția de distribuție empirică.