Predmet matematickej štatistiky. Základy pravdepodobnostno-štatistických metód popisu neistôt Predmet a metódy matematickej štatistiky

Matematická štatistika sa chápe ako „časť matematiky venovaná matematickým metódam zberu, systematizácie, spracovania a interpretácie štatistických údajov, ako aj ich využívania na vedecké alebo praktické závery. Pravidlá a postupy matematickej štatistiky sú založené na teórii pravdepodobnosti, ktorá umožňuje na základe dostupných informácií vyhodnotiť presnosť a spoľahlivosť záverov získaných v každom probléme. štatistický materiál» . Štatistickými údajmi sa zároveň rozumie informácia o počte objektov v ľubovoľnej viac či menej rozsiahlej kolekcii, ktoré majú určité charakteristiky.

Podľa typu riešených problémov sa matematická štatistika zvyčajne delí na tri časti: popis údajov, odhad a testovanie hypotéz.

Podľa druhu spracovávaných štatistických údajov je matematická štatistika rozdelená do štyroch oblastí:

- jednorozmerná štatistika (štatistika náhodných veličín), v ktorej je popísaný výsledok pozorovania Reálne číslo;

- viacrozmerná štatistická analýza, kde výsledok pozorovania objektu je opísaný niekoľkými číslami (vektorom);

- štatistika náhodné procesy a časové rady, kde výsledkom pozorovania je funkcia;

— štatistika objektov nenumerického charakteru, v ktorej má výsledok pozorovania nenumerický charakter, napríklad súbor ( geometrický obrazec), objednané alebo získané ako výsledok merania na kvalitatívnom základe.

Historicky sa ako prvé objavili niektoré oblasti štatistiky objektov nenumerického charakteru (najmä problémy s odhadovaním percenta chybných výrobkov a testovanie hypotéz o nich) a jednorozmerné štatistiky. Matematický aparát je pre nich jednoduchší, preto na svojom príklade zvyčajne demonštrujú hlavné myšlienky matematickej štatistiky.

Len tie spôsoby spracovania údajov, tzn. matematické štatistiky sú založené na dôkazoch, ktoré sú založené na pravdepodobnostných modeloch relevantných reálnych javov a procesov. Hovoríme o modeloch spotrebiteľského správania, výskyte rizík, fungovaní technologických zariadení, získavaní výsledkov experimentu, priebehu choroby a pod. Pravdepodobný model reálneho javu by sa mal považovať za zostavený, ak sú uvažované veličiny a vzťahy medzi nimi vyjadrené v teórii pravdepodobnosti.

Korešpondencia s pravdepodobnostným modelom reality, t.j. jeho primeranosť je podložená najmä pomocou štatistických metód na testovanie hypotéz.

Neuveriteľné metódy spracovania údajov sú prieskumné, možno ich použiť len pri predbežnej analýze údajov, pretože neumožňujú posúdiť presnosť a spoľahlivosť záverov získaných na základe obmedzeného štatistického materiálu.

Pravdepodobné a štatistické metódy sú použiteľné všade tam, kde je možné zostrojiť a zdôvodniť pravdepodobnostný model javu alebo procesu. Ich použitie je povinné, keď sa závery vyvodené zo vzoriek údajov prenášajú na celú populáciu (napríklad zo vzorky na celú šaržu produktov).

V špecifických oblastiach použitia sa využívajú ako pravdepodobnostno-štatistické metódy širokého použitia, tak aj špecifické. Napríklad v časti riadenia výroby venovanej štatistickým metódam riadenia kvality výrobkov sa využíva aplikovaná matematická štatistika (vrátane navrhovania experimentov). Pomocou jej metód sa vykonáva štatistická analýza presnosti a stability technologických procesov a štatistické hodnotenie kvality. Medzi špecifické metódy patria metódy štatistickej preberacej kontroly kvality výrobkov, štatistickej regulácie technologických procesov, posudzovania a kontroly spoľahlivosti a pod.

Široko používané sú aplikované pravdepodobnostno-štatistické disciplíny ako teória spoľahlivosti a teória radenia. Obsah prvej z nich je zrejmý už z názvu, druhá sa zaoberá štúdiom systémov ako je telefónna ústredňa, ktorá prijíma hovory v náhodných časoch – požiadavkami účastníkov vytáčajúcich čísla na svojich telefónoch. Doba trvania služby týchto požiadaviek, t.j. trvanie rozhovorov je tiež modelované náhodnými premennými. Veľký príspevok k rozvoju týchto disciplín urobil člen korešpondenta Akadémie vied ZSSR A.Ya. Khinchin (1894-1959), akademik Akadémie vied Ukrajinskej SSR B.V. Gnedenko (1912-1995) a ďalší domáci vedci.

Každé skúmanie v oblasti náhodných javov je vždy zakorenené v experimente, v experimentálnych údajoch. Číselné údaje, ktoré sa zhromažďujú pri štúdiu akejkoľvek funkcie nejakého objektu, sa nazývajú štatistické. Štatistické údaje sú východiskovým materiálom štúdie. Aby mali vedeckú alebo praktickú hodnotu, musia byť spracované metódami matematickej štatistiky.

Matematické štatistiky- Toto vedeckej disciplíne, ktorej predmetom je vývoj metód na zaznamenávanie, popis a analýzu štatistických experimentálnych údajov získaných ako výsledok pozorovania hromadných náhodných javov.

Hlavné úlohy matematickej štatistiky sú:

    určenie zákona o rozdelení náhodnej veličiny alebo sústavy náhodných veličín;

    testovanie hodnovernosti hypotéz;

    stanovenie neznámych distribučných parametrov.

Všetky metódy matematickej štatistiky sú založené na teórii pravdepodobnosti. Vzhľadom na špecifickosť riešených problémov je však matematická štatistika oddelená od teórie pravdepodobnosti do samostatného odboru. Ak sa v teórii pravdepodobnosti model javu považuje za daný a vypočíta sa možný reálny priebeh tohto javu (obr. 1), tak v matematickej štatistike sa na základe štatistických údajov zvolí vhodný pravdepodobnostný model (obr. 2). ).

Obr.1. Všeobecný problém teórie pravdepodobnosti

Obr.2. Všeobecný problém matematickej štatistiky

Ako vedná disciplína sa matematická štatistika rozvíjala spolu s teóriou pravdepodobnosti. Matematický aparát tejto vedy bol vybudovaný v druhej polovici 19. storočia.

2. Všeobecná populácia a vzorka.

Na štúdium štatistických metód sa zavádzajú pojmy všeobecných a výberových populácií. Vo všeobecnosti pod všeobecná populácia sa chápe ako náhodná veličina X s distribučnou funkciou
. Súbor vzoriek alebo vzorka objemu n pre danú náhodnú premennú X je množina
nezávislé pozorovania tejto veličiny, kde sa nazýva vzorová hodnota alebo implementácia náhodnej premennej X. teda možno považovať za čísla (ak sa experiment uskutočnil a vzorka bola odobratá) a za náhodné premenné (pred experimentom), pretože sa líšia od vzorky k vzorke.

Príklad 1. Na zistenie závislosti hrúbky kmeňa stromu od jeho výšky bolo vybraných 200 stromov. V tomto prípade je veľkosť vzorky n=200.

Príklad 2 V dôsledku rezania drevotrieskových dosiek na kotúčovej píle sa získalo 15 hodnôt špecifickej reznej práce. V tomto prípade n=15.

D
Aby sme mohli s istotou posúdiť črtu všeobecnej populácie, ktorá nás zaujíma podľa údajov vzorky, musia ju objekty vzorky správne reprezentovať, to znamená, že vzorka musí byť reprezentatívny(reprezentatívny). Reprezentatívnosť vzorky sa zvyčajne dosahuje náhodným výberom objektov: každý objekt všeobecnej populácie má rovnakú pravdepodobnosť, že bude zahrnutý do vzorky ako všetky ostatné.

Obr.3. Preukázanie reprezentatívnosti vzorky


Obsah.

1. Úvod:
- Ako sa používa pravdepodobnosť a matematická štatistika? - strana 2
- Čo je to "matematická štatistika"? - strana 3
2) Príklady aplikácie teórie pravdepodobnosti a matematickej štatistiky:
- Výber. - strana 4
- Hodnotiace úlohy. – strana 6
- Pravdepodobnostno-štatistické metódy a optimalizácia. – strana 7
3) Záver.

Úvod.

Ako sa používa pravdepodobnosť a matematická štatistika? Tieto disciplíny sú základom pravdepodobnostno-štatistických metód rozhodovania. Na využitie ich matematického aparátu je potrebné vyjadrovať rozhodovacie problémy z hľadiska pravdepodobnostno-štatistických modelov. Aplikácia konkrétnej pravdepodobnostno-štatistickej metódy rozhodovania pozostáva z troch etáp:
- prechod od ekonomickej, manažérskej, technologickej reality k abstraktnej matematickej a štatistickej schéme, t.j. budovanie pravdepodobnostného modelu riadiaceho systému, technologického postupu, rozhodovacieho postupu najmä na základe výsledkov štatistickej kontroly a pod.
- vykonávanie výpočtov a získavanie záverov čisto matematickými prostriedkami v rámci pravdepodobnostného modelu;
- interpretácia matematických a štatistických záverov vo vzťahu k reálnej situácii a prijatie vhodného rozhodnutia (napríklad o zhode alebo nesúlade kvality výrobku so stanovenými požiadavkami, potrebe úpravy technologického postupu a pod.), najmä , závery (o podiele chybných jednotiek výrobkov v dávke, o konkrétnej podobe zákonitostí rozdelenia riadených parametrov technologického procesu a pod.).

Matematická štatistika využíva pojmy, metódy a výsledky teórie pravdepodobnosti. Uvažujme o hlavných otázkach budovania pravdepodobnostných modelov rozhodovania v ekonomických, manažérskych, technologických a iných situáciách. Pre aktívne a správne používanie normatívno-technických a poučno-metodických dokumentov o pravdepodobnostno-štatistických metódach rozhodovania sú potrebné predbežné znalosti. Je teda potrebné vedieť, za akých podmienok sa má ten či onen dokument aplikovať, aké prvotné informácie je potrebné mať na jeho výber a aplikáciu, aké rozhodnutia by sa mali robiť na základe výsledkov spracovania údajov atď.

Čo je to „matematická štatistika“? Matematická štatistika sa chápe ako „časť matematiky venovaná matematickým metódam zberu, systematizácie, spracovania a interpretácie štatistických údajov, ako aj ich využívania na vedecké alebo praktické závery. Pravidlá a postupy matematickej štatistiky sú založené na teórii pravdepodobnosti, ktorá umožňuje na základe dostupného štatistického materiálu vyhodnotiť presnosť a spoľahlivosť záverov získaných v každom probléme. Štatistickými údajmi sa zároveň rozumie informácia o počte objektov v ľubovoľnej viac či menej rozsiahlej kolekcii, ktoré majú určité charakteristiky.

Podľa typu riešených problémov sa matematická štatistika zvyčajne delí na tri časti: popis údajov, odhad a testovanie hypotéz.

Podľa druhu spracovávaných štatistických údajov je matematická štatistika rozdelená do štyroch oblastí:

Jednorozmerná štatistika (štatistika náhodných premenných), v ktorej je výsledok pozorovania opísaný reálnym číslom;

Viacrozmerná štatistická analýza, kde výsledok pozorovania objektu je opísaný niekoľkými číslami (vektorom);

Štatistika náhodných procesov a časových radov, kde výsledkom pozorovania je funkcia;

Štatistika objektov nenumerického charakteru, v ktorých je výsledok pozorovania nenumerického charakteru, napríklad je to množina (geometrický útvar), usporiadanie alebo získané ako výsledok merania kvalitatívny atribút.

Príklady aplikácie teórie pravdepodobnosti a matematickej štatistiky.
Uveďme niekoľko príkladov, kde sú pravdepodobnostno-štatistické modely dobrým nástrojom na riešenie manažérskych, priemyselných, ekonomických a národohospodárskych problémov. Čiže napríklad minca, ktorá sa použije ako žreb, musí byť „symetrická“, t.j. keď je hodený, v priemere v polovici prípadov by mal erb vypadnúť av polovici prípadov - mriežka (chvosty, číslo). Čo však znamená „priemerný“? Ak strávite veľa sérií 10 hodov v každej sérii, potom sa často vyskytnú série, v ktorých minca vypadne 4-krát s erbom. Pri symetrickej minci sa to stane v 20,5 % série. A ak je na 100 000 hodov 40 000 erbov, možno mincu považovať za symetrickú? Postup rozhodovania je založený na teórii pravdepodobnosti a matematickej štatistike.

Uvažovaný príklad sa nemusí zdať dosť vážny. Avšak nie je. Žreb má široké využitie pri organizovaní experimentov priemyselnej realizovateľnosti, napríklad pri spracovaní výsledkov merania indexu kvality (trecieho momentu) ložísk v závislosti od rôznych technologických faktorov (vplyv konzervačného prostredia, metódy prípravy ložísk pred meraním, vplyv zaťaženia ložiska v procese merania a pod.).P.). Predpokladajme, že je potrebné porovnať kvalitu ložísk v závislosti od výsledkov ich skladovania v rôznych konzervačných olejoch, t.j. v olejoch zloženia A a B. Pri plánovaní takéhoto experimentu vyvstáva otázka, ktoré ložiská by mali byť umiestnené v zložení oleja A a ktoré - v oleji zloženia B, ale tak, aby sa predišlo subjektivite a zabezpečila objektivita rozhodnutie.

Ukážka
Odpoveď na túto otázku možno získať žrebovaním. Podobný príklad možno uviesť s kontrolou kvality akéhokoľvek produktu. Na rozhodnutie, či kontrolovaná šarža výrobkov spĺňa stanovené požiadavky, sa z nej odoberie vzorka. Na základe výsledkov kontroly vzorky sa urobí záver o celej šarži. V tomto prípade je veľmi dôležité vyhnúť sa subjektivite pri tvorbe vzorky, t. j. je potrebné, aby každá jednotka produktu v kontrolovanej sérii mala rovnakú pravdepodobnosť, že bude vybraná do vzorky. Vo výrobných podmienkach sa výber výrobných jednotiek vo vzorke zvyčajne neuskutočňuje žrebovaním, ale pomocou špeciálnych tabuliek náhodných čísel alebo pomocou počítačových generátorov náhodných čísel.
Podobné problémy zabezpečenia objektivity porovnávania vznikajú pri porovnávaní rôznych schém organizácie výroby, odmeňovania, pri realizácii výberových konaní a súťaží, výbere kandidátov na voľné miesta a pod. Všade potrebujete lotériu alebo podobné postupy. Vysvetlime na príklade identifikácie najsilnejšieho a druhého najsilnejšieho tímu pri organizovaní turnaja podľa olympijského systému (porazený je vyradený). Nech vždy vyhrá silnejší tím nad slabším. Je jasné, že majstrom sa určite stane najsilnejší tím. Druhý najsilnejší tím sa dostane do finále vtedy a len vtedy, ak pred finále neodohrá žiadne zápasy s budúcim šampiónom. Ak je takáto hra plánovaná, tak druhý najsilnejší tím sa do finále nedostane. Ten, kto turnaj plánuje, môže buď „vyradiť“ druhý najsilnejší tím z turnaja v predstihu, zosadiť ho na prvom stretnutí s lídrom, alebo mu zabezpečiť druhé miesto, čím si zabezpečí stretnutia so slabšími tímami až do finále. Aby ste sa vyhli subjektivite, žrebujte. Pri turnaji s 8 tímami je pravdepodobnosť, že sa vo finále stretnú dva najsilnejšie tímy, 4/7. V súlade s tým, s pravdepodobnosťou 3/7, druhý najsilnejší tím opustí turnaj v predstihu.
Pri akomkoľvek meraní jednotiek produktu (pomocou posuvného meradla, mikrometra, ampérmetra atď.) sa vyskytujú chyby. Ak chcete zistiť, či existujú systematické chyby, je potrebné vykonať opakované merania jednotky výroby, ktorej charakteristiky sú známe (napríklad štandardná vzorka). Malo by sa pamätať na to, že okrem systematickej chyby existuje aj náhodná chyba.

Preto vzniká otázka, ako z výsledkov meraní zistiť, či nejde o systematickú chybu. Ak si všimneme iba to, či je chyba získaná počas nasledujúceho merania kladná alebo záporná, potom je možné tento problém zredukovať na predchádzajúci. Ozaj, porovnajme meranie s hodom mince, kladná chyba - so stratou erbu, negatívna - s mriežkou (nulová chyba pri dostatočnom počte dielikov stupnice sa takmer nikdy nevyskytuje). Potom kontrola neprítomnosti systematickej chyby je ekvivalentná kontrole symetrie mince.

Účelom týchto úvah je zredukovať problém kontroly absencie systematickej chyby na problém kontroly symetrie mince. Vyššie uvedené úvahy vedú k takzvanému „kritériu znakov“ v matematickej štatistike.
„Znakový test“ – štatistický test, ktorý vám umožňuje testovať nulovú hypotézu, že vzorka sa riadi binomickým rozdelením s parametrom p=1/2 . Znamenkový test možno použiť ako neparametrický štatistický test na testovanie hypotézy, že medián sa rovná danej hodnote (najmä nule), ako aj absenciu posunu (žiadny efekt spracovania) v dvoch spojených vzorkách. Umožňuje tiež testovať hypotézu distribučnej symetrie, existujú však na to silnejšie kritériá - jednovzorkový Wilcoxonov test a jeho modifikácie.

V štatistickej regulácii technologických procesov na báze metód matematickej štatistiky sa vypracúvajú pravidlá a plány štatistického riadenia procesov, zamerané na včasné zistenie poruchy technologických procesov a prijatie opatrení na ich úpravu a zamedzenie úniku produktov, ktoré nespĺňajú stanovené požiadavky. Tieto opatrenia sú zamerané na zníženie výrobných nákladov a strát z dodávok nekvalitných výrobkov. So štatistickou akceptačnou kontrolou založenou na metódach matematickej štatistiky sa vytvárajú plány kontroly kvality analýzou vzoriek z produktových šarží. Náročnosť spočíva v schopnosti správne zostaviť pravdepodobnostno-štatistické modely rozhodovania, na základe ktorých je možné odpovedať na vyššie položené otázky. V matematickej štatistike boli na to vyvinuté pravdepodobnostné modely a metódy na testovanie hypotéz, najmä hypotézy, že podiel chybných jednotiek výroby sa rovná určitému číslu p0, napríklad p0 = 0,23.

Hodnotiace úlohy.
V rade manažérskych, priemyselných, ekonomických, národohospodárskych situácií vznikajú problémy rôzneho typu - problémy odhadovania charakteristík a parametrov rozdelenia pravdepodobnosti.

Zvážte príklad. Nech príde dávka N elektrických lámp do ovládania. Z tejto šarže bola náhodne vybraná vzorka n elektrických lámp. Vzniká množstvo prirodzených otázok. Ako možno z výsledkov testovania prvkov vzorky určiť priemernú životnosť elektrických lámp a s akou presnosťou možno túto charakteristiku odhadnúť? Ako sa zmení presnosť, ak sa odoberie väčšia vzorka? Pri akom počte hodín T je možné zaručiť, že aspoň 90 % elektrických lámp vydrží T alebo viac hodín?

Predpokladajme, že pri testovaní vzorky n elektrických lámp sa X elektrických lámp ukázalo ako chybných. Potom vyvstávajú nasledujúce otázky. Aké limity možno určiť pre počet D chybných elektrických žiaroviek v sérii, pre úroveň defektnosti D/N atď.?

Alebo pri štatistickom rozbore presnosti a stability technologických procesov je potrebné vyhodnotiť také ukazovatele kvality, ako je priemerná hodnota kontrolovaného parametra a stupeň jeho rozšírenia v posudzovanom procese. Podľa teórie pravdepodobnosti je vhodné ju použiť ako priemernú hodnotu náhodnej premennej očakávaná hodnota a ako štatistická charakteristika rozpätia - disperzia, smerodajná odchýlka alebo variačný koeficient. To vyvoláva otázku: ako odhadnúť tieto štatistické charakteristiky zo vzorových údajov as akou presnosťou to možno urobiť? Podobných príkladov je veľa. Tu bolo dôležité ukázať, ako sa dá využiť teória pravdepodobnosti a matematická štatistika v riadení výroby pri rozhodovaní v oblasti štatistického riadenia kvality produktov.

Pravdepodobnostno-štatistické metódy a optimalizácia. Myšlienka optimalizácie preniká do modernej aplikovanej matematickej štatistiky a iných štatistických metód. Konkrétne ide o metódy plánovania experimentov, štatistickú akceptačnú kontrolu, štatistickú kontrolu technologických procesov atď. Na druhej strane optimalizačné formulácie v teórii rozhodovania, napríklad aplikovaná teória optimalizácie kvality produktov a štandardných požiadaviek, umožňujú široké využitie pravdepodobnostno-štatistické metódy, predovšetkým aplikovaná matematická štatistika.

Pri riadení výroby, najmä pri optimalizácii kvality produktov a štandardných požiadaviek, je obzvlášť dôležité aplikovať štatistické metódy na počiatočná fázaživotný cyklus produktu, t.j. v štádiu prípravy výskumu experimentálneho konštrukčného vývoja (vývoj sľubných požiadaviek na produkty, predbežný návrh, zadávacie podmienky pre vývoj experimentálneho dizajnu). Je to spôsobené obmedzenými informáciami dostupnými v počiatočnej fáze životného cyklu produktu a potrebou predpovedať technické možnosti a ekonomickú situáciu do budúcnosti. Štatistické metódy by sa mali používať vo všetkých fázach riešenia optimalizačného problému - pri škálovaní premenných, vývoji matematických modelov pre fungovanie produktov a systémov, vykonávaní technických a ekonomických experimentov atď.

Pri optimalizačných problémoch, vrátane optimalizácie kvality produktov a štandardných požiadaviek, sa využívajú všetky oblasti štatistiky. Konkrétne ide o štatistiku náhodných veličín, viacrozmernú štatistickú analýzu, štatistiku náhodných procesov a časových radov, štatistiku objektov nenumerického charakteru. Výber štatistickej metódy na analýzu špecifických údajov by sa mal vykonať podľa odporúčaní.

Záver.
IN
atď.................

Teória pravdepodobnosti a matematická štatistika sú základom pravdepodobnostno-štatistických metód spracovania údajov. A údaje spracovávame a analyzujeme predovšetkým na účely rozhodovania. Pre využitie moderného matematického aparátu je potrebné vyjadrovať uvažované problémy v podmienkach pravdepodobnostno-štatistických modelov.

Aplikácia špecifickej pravdepodobnostno-štatistickej metódy pozostáva z troch etáp:

Prechod od ekonomickej, manažérskej, technologickej reality k abstraktnej matematickej a štatistickej schéme, t.j. budovanie pravdepodobnostného modelu riadiaceho systému, technologického postupu, rozhodovacieho postupu najmä na základe výsledkov štatistickej kontroly a pod.

Vykonávanie výpočtov a získavanie záverov čisto matematickými prostriedkami v rámci pravdepodobnostného modelu;

Interpretácia matematických a štatistických záverov vo vzťahu k reálnej situácii a prijatie vhodného rozhodnutia (napríklad o zhode alebo nesúlade kvality výrobku so stanovenými požiadavkami, potrebe úpravy technologického postupu a pod.), najmä, závery (o podiele chybných jednotiek výrobkov v dávke, o konkrétnej forme zákonitostí rozdelenia riadených parametrov technologického procesu a pod.).

Matematická štatistika využíva pojmy, metódy a výsledky teórie pravdepodobnosti. Ďalej uvažujeme o hlavných otázkach budovania pravdepodobnostných modelov v ekonomických, manažérskych, technologických a iných situáciách. Zdôrazňujeme, že na aktívne a správne používanie normatívno-technických a poučno-metodických dokumentov o pravdepodobnostno-štatistických metódach sú potrebné predbežné znalosti. Je teda potrebné vedieť, za akých podmienok sa má ten či onen dokument aplikovať, aké prvotné informácie je potrebné mať na jeho výber a aplikáciu, aké rozhodnutia by sa mali robiť na základe výsledkov spracovania údajov atď.

Príklady aplikácií teória pravdepodobnosti a matematická štatistika. Uveďme niekoľko príkladov, kedy sú pravdepodobnostno-štatistické modely dobrým nástrojom na riešenie manažérskych, priemyselných, ekonomických a národohospodárskych problémov. Takže napríklad v románe A.N. Tolstého „Prechádzka mukami“ (1. diel) sa píše: „dielňa dáva dvadsaťtri percent manželstva, vy sa držte tohto čísla,“ povedal Strukov Ivanovi Iľjičovi.

Ako chápať tieto slová v rozhovore manažérov tovární? Jedna výrobná jednotka nemôže byť chybná o 23 %. Môže byť dobrý alebo chybný. Strukov možno myslel, že veľká dávka obsahuje približne 23 % chybných jednotiek. Potom vyvstáva otázka, čo znamená „asi“? Nech sa ukáže 30 zo 100 testovaných kusov výrobkov ako chybných, alebo z 1 000 - 300, alebo zo 100 000 - 30 000 atď., má byť Strukov obvinený z klamstva?

Alebo iný príklad. Minca, ktorá sa použije ako lot, musí byť „symetrická“. Keď je hodený, v priemere v polovici prípadov by mal vypadnúť erb (orol) av polovici prípadov - mriežka (chvosty, číslo). Čo však znamená „priemerný“? Ak strávite veľa sérií 10 hodov v každej sérii, potom sa často vyskytnú série, v ktorých minca vypadne 4-krát s erbom. Pri symetrickej minci sa to stane v 20,5 % série. A ak je na 100 000 hodov 40 000 erbov, možno mincu považovať za symetrickú? Postup rozhodovania je založený na teórii pravdepodobnosti a matematickej štatistike.

Príklad sa nemusí zdať dosť vážny. Avšak nie je. Žrebovanie sa široko používa pri organizovaní experimentov priemyselnej realizovateľnosti. Napríklad pri spracovaní výsledkov merania indexu kvality (trecieho momentu) ložísk v závislosti od rôznych technologických faktorov (vplyv konzervačného prostredia, spôsoby prípravy ložísk pred meraním, vplyv zaťaženia ložísk v procese merania a pod. .). Predpokladajme, že je potrebné porovnať kvalitu ložísk v závislosti od výsledkov ich skladovania v rôznych konzervačných olejoch, t.j. v zložených olejoch A A IN. Pri plánovaní takéhoto experimentu vzniká otázka, ktoré ložiská by sa mali umiestniť do zloženia oleja A, a ktoré - v zložení olej IN, ale tak, aby sa predišlo subjektivite a zabezpečila objektívnosť rozhodnutia. Odpoveď na túto otázku možno získať žrebovaním.

Podobný príklad možno uviesť s kontrolou kvality akéhokoľvek produktu. Na rozhodnutie, či kontrolovaná šarža výrobkov spĺňa stanovené požiadavky, sa z nej odoberie vzorka. Na základe výsledkov kontroly vzorky sa urobí záver o celej šarži. V tomto prípade je veľmi dôležité vyhnúť sa subjektivite pri tvorbe vzorky, t.j. je potrebné, aby každá jednotka výrobku v kontrolovanej sérii mala rovnakú pravdepodobnosť, že bude vybraná do vzorky. Vo výrobných podmienkach sa výber výrobných jednotiek vo vzorke zvyčajne neuskutočňuje žrebovaním, ale pomocou špeciálnych tabuliek náhodných čísel alebo pomocou počítačových generátorov náhodných čísel.

Podobné problémy zabezpečenia objektivity porovnávania vznikajú pri porovnávaní rôznych schém organizácie výroby, odmeňovania, pri realizácii výberových konaní a súťaží, výbere kandidátov na voľné miesta a pod. Všade potrebujete lotériu alebo podobné postupy.

Nech je potrebné identifikovať najsilnejší a druhý najsilnejší tím pri organizovaní turnaja podľa olympijského systému (porazený je vyradený). Povedzme, že silnejší tím vždy porazí slabší. Je jasné, že majstrom sa určite stane najsilnejší tím. Druhý najsilnejší tím sa dostane do finále vtedy a len vtedy, ak pred finále neodohrá žiadne zápasy s budúcim šampiónom. Ak je takáto hra plánovaná, tak druhý najsilnejší tím sa do finále nedostane. Ten, kto turnaj plánuje, môže buď „vyradiť“ druhý najsilnejší tím z turnaja v predstihu, zosadiť ho na prvom stretnutí s lídrom, alebo mu zabezpečiť druhé miesto, čím si zabezpečí stretnutia so slabšími tímami až do finále. Aby ste sa vyhli subjektivite, žrebujte. Pri turnaji s 8 tímami je pravdepodobnosť, že sa vo finále stretnú dva najsilnejšie tímy, 4/7. V súlade s tým, s pravdepodobnosťou 3/7, druhý najsilnejší tím opustí turnaj v predstihu.

Pri akomkoľvek meraní jednotiek produktu (pomocou posuvného meradla, mikrometra, ampérmetra atď.) sa vyskytujú chyby. Ak chcete zistiť, či existujú systematické chyby, je potrebné vykonať opakované merania jednotky výroby, ktorej charakteristiky sú známe (napríklad štandardná vzorka). Malo by sa pamätať na to, že okrem systematickej chyby existuje aj náhodná chyba.

Preto vzniká otázka, ako z výsledkov meraní zistiť, či nejde o systematickú chybu. Ak si všimneme iba to, či je chyba získaná počas nasledujúceho merania pozitívna alebo negatívna, potom sa tento problém môže zredukovať na ten, ktorý už bol uvažovaný. Ozaj, porovnajme meranie s hodom mince, kladná chyba - so stratou erbu, negatívna - s mriežkou (nulová chyba pri dostatočnom počte dielikov stupnice sa takmer nikdy nevyskytuje). Potom kontrola neprítomnosti systematickej chyby je ekvivalentná kontrole symetrie mince.

Takže problém kontroly neprítomnosti systematickej chyby sa redukuje na problém kontroly symetrie mince. Vyššie uvedené úvahy vedú k takzvanému „kritériu znakov“ v matematickej štatistike.

V štatistickej regulácii technologických procesov na báze metód matematickej štatistiky sa vypracúvajú pravidlá a plány štatistického riadenia procesov, zamerané na včasné zistenie poruchy technologických procesov a prijatie opatrení na ich úpravu a zamedzenie úniku produktov, ktoré nespĺňajú stanovené požiadavky. Tieto opatrenia sú zamerané na zníženie výrobných nákladov a strát z dodávok nekvalitných výrobkov. So štatistickou akceptačnou kontrolou založenou na metódach matematickej štatistiky sa vytvárajú plány kontroly kvality analýzou vzoriek z produktových šarží. Problém spočíva v schopnosti správne zostaviť pravdepodobnostno-štatistické modely rozhodovania. V matematickej štatistike boli na to vyvinuté pravdepodobnostné modely a metódy na testovanie hypotéz, najmä hypotézy, že podiel chybných jednotiek výroby sa rovná určitému počtu R 0 , Napríklad, R 0 = 0,23 (pamätajte na slová Strukova z románu A.N. Tolstého).

Hodnotiace úlohy. V rade manažérskych, priemyselných, ekonomických, národohospodárskych situácií vznikajú problémy rôzneho typu - problémy odhadovania charakteristík a parametrov rozdelenia pravdepodobnosti.

Zvážte príklad. Nechajte párty od N elektrické lampy Z tejto partie, ukážka n elektrické lampy Vzniká množstvo prirodzených otázok. Ako určiť priemernú životnosť elektrických lámp na základe výsledkov testovania prvkov vzorky, s akou presnosťou možno túto charakteristiku odhadnúť? Ako sa zmení presnosť, ak sa odoberie väčšia vzorka? V akom počte hodín T je možné zaručiť, že minimálne 90 % elektrických lámp vydrží T alebo viac hodín?

Predpokladajme, že pri testovaní vzorky s objemom nžiarovky sú chybné X elektrické lampy Aké limity je možné určiť pre číslo D chybné elektrické žiarovky v sérii, pre úroveň defektov D/ N a tak ďalej.?

Alebo pri štatistickom rozbore presnosti a stability technologických procesov je potrebné vyhodnotiť také ukazovatele kvality, ako je priemerná hodnota kontrolovaného parametra a stupeň jeho rozšírenia v posudzovanom procese. Podľa teórie pravdepodobnosti je vhodné použiť jej matematické očakávanie ako strednú hodnotu náhodnej premennej a rozptyl, smerodajnú odchýlku alebo variačný koeficient ako štatistickú charakteristiku spreadu. Vznikajú otázky: ako vyhodnotiť tieto štatistické charakteristiky zo vzorových údajov, s akou presnosťou sa to dá urobiť?

Podobných príkladov je veľa. Tu bolo dôležité ukázať, ako sa dá využiť teória pravdepodobnosti a matematická štatistika v inžinierskych a manažérskych problémoch.

Moderné poňatie matematickej štatistiky. Matematická štatistika sa chápe ako „časť matematiky venovaná matematickým metódam zberu, systematizácie, spracovania a interpretácie štatistických údajov, ako aj ich využívania na vedecké alebo praktické závery. Pravidlá a postupy matematickej štatistiky sú založené na teórii pravdepodobnosti, ktorá umožňuje na základe dostupného štatistického materiálu vyhodnotiť presnosť a spoľahlivosť záverov získaných v každom probléme. Štatistickými údajmi sa zároveň rozumie informácia o počte objektov v ľubovoľnej viac či menej rozsiahlej kolekcii, ktoré majú určité charakteristiky.

Podľa typu riešených problémov sa matematická štatistika zvyčajne delí na tri časti: popis údajov, odhad a testovanie hypotéz.

Podľa druhu spracovávaných štatistických údajov je matematická štatistika rozdelená do štyroch oblastí:

Jednorozmerná štatistika (štatistika náhodných premenných), v ktorej je výsledok pozorovania opísaný reálnym číslom;

Viacrozmerná štatistická analýza, kde výsledok pozorovania objektu je opísaný niekoľkými číslami (vektorom);

Štatistika náhodných procesov a časových radov, kde výsledkom pozorovania je funkcia;

Štatistika objektov nenumerického charakteru, v ktorých je výsledok pozorovania nenumerického charakteru, napríklad je to množina (geometrický útvar), usporiadanie alebo získané ako výsledok merania kvalitatívny atribút.

Historicky sa ako prvé objavili niektoré oblasti štatistiky objektov nenumerického charakteru (najmä problémy s odhadovaním percenta chybných výrobkov a testovanie hypotéz o nich) a jednorozmerné štatistiky. Matematický aparát je pre nich jednoduchší, preto na svojom príklade zvyčajne demonštrujú hlavné myšlienky matematickej štatistiky.

Len tie spôsoby spracovania údajov, tzn. matematické štatistiky sú založené na dôkazoch, ktoré sú založené na pravdepodobnostných modeloch relevantných reálnych javov a procesov. Hovoríme o modeloch spotrebiteľského správania, výskyte rizík, fungovaní technologických zariadení, získavaní výsledkov experimentu, priebehu choroby a pod. Pravdepodobný model reálneho javu by sa mal považovať za zostavený, ak sú uvažované veličiny a vzťahy medzi nimi vyjadrené v teórii pravdepodobnosti. Korešpondencia s pravdepodobnostným modelom reality, t.j. jeho primeranosť je podložená najmä pomocou štatistických metód na testovanie hypotéz.

Neuveriteľné metódy spracovania údajov sú prieskumné, možno ich použiť len pri predbežnej analýze údajov, pretože neumožňujú posúdiť presnosť a spoľahlivosť záverov získaných na základe obmedzeného štatistického materiálu.

Pravdepodobnostné a štatistické metódy sú použiteľné všade tam, kde je možné zostrojiť a zdôvodniť pravdepodobnostný model javu alebo procesu. Ich použitie je povinné, keď sa závery vyvodené zo vzoriek údajov prenášajú na celú populáciu (napríklad zo vzorky na celú šaržu produktov).

V špecifických oblastiach použitia sa využívajú ako pravdepodobnostno-štatistické metódy širokého použitia, tak aj špecifické. Napríklad v časti riadenia výroby venovanej štatistickým metódam riadenia kvality výrobkov sa využíva aplikovaná matematická štatistika (vrátane navrhovania experimentov). Pomocou jej metód sa vykonáva štatistická analýza presnosti a stability technologických procesov a štatistické hodnotenie kvality. Medzi špecifické metódy patria metódy štatistickej preberacej kontroly kvality výrobkov, štatistickej regulácie technologických procesov, posudzovania a kontroly spoľahlivosti a pod.

Široko používané sú aplikované pravdepodobnostno-štatistické disciplíny ako teória spoľahlivosti a teória radenia. Obsah prvej z nich je zrejmý už z názvu, druhá sa zaoberá štúdiom systémov ako je telefónna ústredňa, ktorá prijíma hovory v náhodných časoch – požiadavkami účastníkov vytáčajúcich čísla na svojich telefónoch. Doba trvania služby týchto požiadaviek, t.j. trvanie rozhovorov je tiež modelované náhodnými premennými. Veľký príspevok k rozvoju týchto disciplín urobil člen korešpondenta Akadémie vied ZSSR A.Ya. Khinchin (1894-1959), akademik Akadémie vied Ukrajinskej SSR B.V. Gnedenko (1912-1995) a ďalší domáci vedci.

Stručne o histórii matematickej štatistiky. Matematická štatistika ako veda začína prácami slávneho nemeckého matematika Carla Friedricha Gaussa (1777-1855), ktorý na základe teórie pravdepodobnosti skúmal a zdôvodnil metódu najmenších štvorcov, ktorú vytvoril v roku 1795 a aplikoval ju na spracovanie astronomických údajov (s cieľom objasniť obežnú dráhu malej planéty Ceres). Jedno z najpopulárnejších rozdelení pravdepodobnosti, normálne, je často pomenované po ňom a v teórii náhodných procesov sú hlavným predmetom štúdia Gaussove procesy.

Na konci XIX storočia. - začiatok dvadsiateho storočia. veľký príspevok k matematickej štatistike mali anglickí výskumníci, predovšetkým K. Pearson (1857-1936) a R.A. Fisher (1890-1962). Najmä Pearson vyvinul chí-kvadrát test na testovanie štatistických hypotéz a Fisher vyvinul analýzu rozptylu, teóriu návrhu experimentu a metódu maximálnej pravdepodobnosti na odhad parametrov.

V 30. rokoch dvadsiateho storočia. Poliak Jerzy Neumann (1894-1977) a Angličan E. Pearson vypracovali všeobecnú teóriu testovania štatistických hypotéz a sovietski matematici akademik A.N. Kolmogorov (1903-1987) a člen korešpondenta Akadémie vied ZSSR N.V. Smirnov (1900-1966) položili základy neparametrickej štatistiky. V štyridsiatych rokoch dvadsiateho storočia. Rumun A. Wald (1902-1950) vybudoval teóriu konzistentnej štatistickej analýzy.

Matematická štatistika sa v súčasnosti rýchlo rozvíja. Takže za posledných 40 rokov možno rozlíšiť štyri zásadne nové oblasti výskumu:

Vývoj a implementácia matematických metód na plánovanie experimentov;

Rozvoj štatistiky objektov nenumerického charakteru ako samostatného smeru v aplikovanej matematickej štatistike;

Vývoj štatistických metód odolných voči malým odchýlkam od použitého pravdepodobnostného modelu;

Široký rozvoj prác na tvorbe počítačových softvérových balíkov určených na štatistickú analýzu údajov.

Pravdepodobnostno-štatistické metódy a optimalizácia. Myšlienka optimalizácie preniká do modernej aplikovanej matematickej štatistiky a iných štatistických metód. Konkrétne ide o metódy plánovania experimentov, štatistickú akceptačnú kontrolu, štatistickú kontrolu technologických procesov atď. Na druhej strane optimalizačné formulácie v teórii rozhodovania, napríklad aplikovaná teória optimalizácie kvality produktov a štandardných požiadaviek, umožňujú široké využitie pravdepodobnostno-štatistické metódy, predovšetkým aplikovaná matematická štatistika.

V riadení výroby, najmä pri optimalizácii kvality výrobkov a štandardných požiadaviek, je obzvlášť dôležité aplikovať štatistické metódy v počiatočnej fáze životného cyklu výrobku, t.j. v štádiu prípravy výskumu experimentálneho konštrukčného vývoja (vývoj sľubných požiadaviek na produkty, predbežný návrh, zadávacie podmienky pre vývoj experimentálneho dizajnu). Je to spôsobené obmedzenými informáciami dostupnými v počiatočnej fáze životného cyklu produktu a potrebou predpovedať technické možnosti a ekonomickú situáciu do budúcnosti. Štatistické metódy by sa mali používať vo všetkých fázach riešenia optimalizačného problému - pri škálovaní premenných, vývoji matematických modelov pre fungovanie produktov a systémov, vykonávaní technických a ekonomických experimentov atď.

Pri optimalizačných problémoch, vrátane optimalizácie kvality produktov a štandardných požiadaviek, sa využívajú všetky oblasti štatistiky. Konkrétne ide o štatistiku náhodných veličín, viacrozmernú štatistickú analýzu, štatistiku náhodných procesov a časových radov, štatistiku objektov nenumerického charakteru. Boli vypracované odporúčania pre výber štatistickej metódy na analýzu špecifických údajov.

Úvod

2. Základné pojmy matematickej štatistiky

2.1 Základné pojmy odberu vzoriek

2.2 Odber vzoriek

2.3 Empirická distribučná funkcia, histogram

Záver

Bibliografia

Úvod

Matematická štatistika je veda o matematických metódach systematizácie a využívania štatistických údajov na vedecké a praktické závery. V mnohých svojich odvetviach je matematická štatistika založená na teórii pravdepodobnosti, ktorá umožňuje posúdiť spoľahlivosť a presnosť záverov vyvodených z obmedzeného štatistického materiálu (napríklad odhadnúť požadovanú veľkosť vzorky na získanie výsledkov s požadovanou presnosťou). vo výberovom prieskume).

V teórii pravdepodobnosti sa náhodné premenné zvažujú s danej distribúcii alebo náhodné experimenty, ktorých vlastnosti sú plne známe. Predmetom teórie pravdepodobnosti sú vlastnosti a vzťahy týchto veličín (rozdelení).

Často je však experiment čiernou skrinkou, ktorá poskytuje len niektoré výsledky, podľa ktorých je potrebné vyvodiť záver o vlastnostiach samotného experimentu. Pozorovateľ má k dispozícii súbor numerických (alebo môžu byť numerických) výsledkov získaných opakovaním rovnakého náhodného experimentu za rovnakých podmienok.

V tomto prípade vyvstávajú napríklad tieto otázky: Ak pozorujeme jednu náhodnú premennú, ako môžeme zo súboru jej hodnôt v niekoľkých experimentoch vyvodiť čo najpresnejší záver o jej rozdelení?

Príkladom takejto série experimentov je sociologický prieskum, súbor ekonomických ukazovateľov alebo napokon sled erbov a chvostov počas tisícnásobného hodu mincou.

Všetky vyššie uvedené faktory vedú k relevantnosť a dôležitosť témy práce v súčasnej etape, zameranej na hlboké a komplexné štúdium základných pojmov matematickej štatistiky.

V tomto smere je účelom tejto práce systematizovať, zhromažďovať a upevňovať poznatky o pojmoch matematickej štatistiky.

1. Predmet a metódy matematickej štatistiky

Matematická štatistika je veda o matematických metódach analýzy údajov získaných pri hromadných pozorovaniach (merania, experimenty). V závislosti od matematického charakteru konkrétnych výsledkov pozorovaní sa matematická štatistika delí na štatistiku čísel, viacrozmernú štatistickú analýzu, analýzu funkcií (procesov) a časových radov a štatistiku nenumerických objektov. Značná časť matematickej štatistiky je založená na pravdepodobnostných modeloch. Prideliť spoločné úlohy popisu údajov, odhadu a testovania hypotéz. Zvažujú aj špecifickejšie úlohy súvisiace s vykonávaním výberových zisťovaní, obnovou závislostí, budovaním a používaním klasifikácií (typológií) atď.

Na popis údajov sa vytvárajú tabuľky, grafy a iné vizuálne znázornenia, napríklad korelačné polia. Pravdepodobnostné modely sa zvyčajne nepoužívajú. Niektoré metódy opisu údajov sa spoliehajú na pokročilú teóriu a možnosti moderných počítačov. Ide najmä o zhlukovú analýzu zameranú na identifikáciu skupín navzájom podobných objektov a viacrozmerné škálovanie, ktoré umožňuje vizualizovať objekty v rovine, pričom vzdialenosti medzi nimi skresľuje v najmenšej miere.

Metódy odhadovania a testovania hypotéz sa opierajú o pravdepodobnostné modely generovania údajov. Tieto modely sa delia na parametrické a neparametrické. V parametrických modeloch sa predpokladá, že skúmané objekty sú opísané distribučnými funkciami, ktoré závisia od malého počtu (1-4) numerických parametrov. V neparametrických modeloch sa predpokladá, že distribučné funkcie sú ľubovoľne spojité. V matematickej štatistike sú parametre a charakteristiky rozdelenia (matematické očakávania, medián, rozptyl, kvantily atď.), hustoty a distribučné funkcie, závislosti medzi premennými (na základe lineárnych a neparametrických korelačných koeficientov, ako aj parametrických alebo neparametrických). vyhodnocujú sa parametrické odhady funkcií vyjadrujúcich závislosti) atď. Využite bodové a intervalové (udávajúce hranice pre skutočné hodnoty) odhady.

V matematickej štatistike, tam všeobecná teória testovanie hypotéz a veľké číslo metódy venované testovaniu konkrétnych hypotéz. Uvažujú sa hypotézy o hodnotách parametrov a charakteristík, o kontrole homogenity (to znamená o zhode charakteristík alebo distribučných funkcií v dvoch vzorkách), o zhode empirickej distribučnej funkcie s danou distribučnou funkciou alebo s parametrickou rodine takýchto funkcií, o symetrii rozdelenia atď.

Veľký význam má sekcia matematickej štatistiky spojená s vykonávaním výberových zisťovaní, s vlastnosťami rôznych výberových schém a konštrukciou adekvátnych metód na odhadovanie a testovanie hypotéz.

Problémy obnovy závislosti sa aktívne skúmajú už viac ako 200 rokov, odkedy K. Gauss v roku 1794 vyvinul metódu najmenších štvorcov. V súčasnosti sú najrelevantnejšie metódy vyhľadávania informatívnej podmnožiny premenných a neparametrické metódy.

Vývoj metód na aproximáciu údajov a redukciu rozmerov popisu sa začal pred viac ako 100 rokmi, keď K. Pearson vytvoril metódu hlavných komponentov. Neskôr bola vyvinutá faktorová analýza a početné nelineárne zovšeobecnenia.

Rôzne metódy konštrukcie (zhluková analýza), analýza a použitie (diskriminačná analýza) klasifikácií (typológie) sa nazývajú aj metódy rozpoznávania vzorov (s učiteľom a bez neho), automatická klasifikácia atď.

Matematické metódy v štatistike sú založené buď na použití súčtov (na základe Centrálnej limitnej vety teórie pravdepodobnosti) alebo diferenčných ukazovateľov (vzdialenosti, metriky), ako v štatistike nečíselných objektov. Zvyčajne sú dôsledne podložené iba asymptotické výsledky. V súčasnosti hrajú počítače veľkú úlohu v matematických štatistikách. Používajú sa tak na výpočty, ako aj na simulačné modelovanie (najmä pri metódach odberu vzoriek a pri štúdiu vhodnosti asymptotických výsledkov).

Základné pojmy matematickej štatistiky

2.1 Základné pojmy metódy odberu vzoriek

Nech je náhodná premenná pozorovaná v náhodnom experimente. Predpokladá sa, že priestor pravdepodobnosti je daný (a nebude nás zaujímať).

Budeme predpokladať, že po vykonaní tohto experimentu raz za rovnakých podmienok sme získali čísla , , , - hodnoty tejto náhodnej premennej v prvej, druhej atď. experimenty. Náhodná premenná má určité rozdelenie, ktoré je nám čiastočne alebo úplne neznáme.

Pozrime sa bližšie na súpravu s názvom sample.

V sérii už vykonaných experimentov je vzorka súborom čísel. Ale ak sa táto séria experimentov zopakuje, potom namiesto tejto množiny dostaneme novú množinu čísel. Namiesto čísla sa objaví iné číslo - jedna z hodnôt náhodnej premennej. To je (a , a , atď.) - premenlivý, ktorá môže nadobúdať rovnaké hodnoty ako náhodná premenná a rovnako často (s rovnakými pravdepodobnosťami). Preto pred experimentom - náhodná premenná rovnomerne rozdelená s a po experimente - číslo, ktoré pozorujeme v tomto prvom experimente, t.j. jedna z možných hodnôt náhodnej premennej .

Vzorka objemu je súbor nezávislých a identicky rozdelených náhodných premenných („kópií“), ktoré majú distribúciu ako a .

Čo znamená „vyvodiť záver o distribúcii zo vzorky“? Rozdelenie je charakterizované distribučnou funkciou, hustotou alebo tabuľkou, množinou číselné charakteristiky- , , atď. Na základe vzorky musíme byť schopní zostaviť aproximácie pre všetky tieto charakteristiky.

.2 Odber vzoriek

Zvážte implementáciu vzorky na jednom základnom výsledku - súbore čísel , , . Na vhodnom pravdepodobnostnom priestore zavedieme náhodnú premennú s hodnotami , , s pravdepodobnosťami v (ak sa niektoré hodnoty zhodujú, pravdepodobnosti sčítame zodpovedajúci počet krát). Tabuľka rozdelenia pravdepodobnosti a funkcia rozdelenia náhodných premenných vyzerajú takto:

Rozdelenie veličiny sa nazýva empirické alebo výberové rozdelenie. Vypočítajme matematické očakávanie a rozptyl veličiny a zavedieme označenie pre tieto veličiny:

Rovnakým spôsobom vypočítame moment objednávky

Vo všeobecnom prípade označujeme množstvom

Ak pri konštrukcii všetkých nami zavedených charakteristík považujeme vzorku , , za súbor náhodných premenných, potom sa tieto charakteristiky samy osebe - , , , , - stanú náhodnými premennými. Tieto charakteristiky distribúcie vzorky sa používajú na odhad (aproximáciu) zodpovedajúcich neznámych charakteristík skutočnej distribúcie.

Dôvodom použitia charakteristík rozdelenia na odhadovanie charakteristík skutočného rozdelenia (alebo ) je blízkosť týchto rozdelení pre veľké .

Zvážte napríklad hádzanie obyčajnou kockou. Nechaj - počet bodov, ktoré padli pri -tom hode, . Predpokladajme, že jeden sa vo vzorke vyskytne raz, dva razy atď. Potom náhodná premenná nadobudne hodnoty 1 , , 6 s pravdepodobnosťami , , resp. Ale tieto proporcie s rastom sa približujú podľa zákona veľké čísla. To znamená, že rozdelenie magnitúdy sa v určitom zmysle približuje skutočnému rozdeleniu počtu bodov, ktoré vypadnú pri hode správnou kockou.

Nebudeme špecifikovať, čo sa myslí blízkosťou vzorky a skutočnými distribúciami. V nasledujúcich odstavcoch sa bližšie pozrieme na každú z vyššie predstavených charakteristík a preskúmame jej vlastnosti, vrátane jej správania s rastúcou veľkosťou vzorky.

.3 Empirická distribučná funkcia, histogram

Keďže neznáme rozdelenie možno opísať napríklad jeho distribučnou funkciou , zo vzorky zostrojíme „odhad“ pre túto funkciu.

Definícia 1.

Empirická distribučná funkcia postavená na vzorke objemu sa nazýva náhodná funkcia , pre každú sa rovná

Pripomienka: náhodná funkcia

nazývaný indikátor udalosti. Pre každú je to náhodná premenná s Bernoulliho distribúciou s parametrom . prečo?

Inými slovami, pre akúkoľvek hodnotu rovnajúcu sa skutočnej pravdepodobnosti, že náhodná premenná je menšia ako , je podiel prvkov vzorky menší, ako sa odhaduje.

Ak sú prvky vzorky zoradené vo vzostupnom poradí (pri každom elementárnom výsledku), získa sa nový súbor náhodných premenných, ktorý sa nazýva variačný rad:

Prvok ,, sa nazýva tý člen variačného radu alebo štatistika tého rádu.

Príklad 1

Ukážka:

Séria variácií:

Ryža. 1. Príklad 1

Empirická distribučná funkcia má skoky v bodoch vzorky, hodnota skoku v bode je , kde je počet prvkov vzorky, ktoré sa zhodujú s .

Je možné zostrojiť empirickú distribučnú funkciu pre variačný rad:

Ďalšou charakteristikou distribúcie je tabuľka (pre diskrétne distribúcie) alebo hustota (pre absolútne spojité). Empirickým alebo selektívnym analógom tabuľky alebo hustoty je takzvaný histogram.

Histogram je založený na zoskupených údajoch. Odhadovaný rozsah hodnôt náhodnej premennej (alebo rozsah údajov vzorky) je rozdelený bez ohľadu na vzorku do určitého počtu intervalov (nie nevyhnutne rovnakých). Nech , , sú intervaly na riadku, nazývané zoskupovacie intervaly . Označme pre počtom prvkov vzorky, ktoré spadajú do intervalu:

(1)

Na každom z intervalov je postavený obdĺžnik, ktorého plocha je úmerná. Celková plocha všetkých obdĺžnikov sa musí rovnať jednej. Nech je dĺžka intervalu. Výška vyššie uvedeného obdĺžnika je

Výsledný údaj sa nazýva histogram.

Príklad 2

Dostupné variačná séria(pozri príklad 1):

Tu je desiatkový logaritmus, teda t.j. keď sa vzorka zdvojnásobí, počet intervalov zoskupenia sa zvýši o 1. Všimnite si, že čím viac intervalov zoskupovania, tým lepšie. Ale ak vezmeme počet intervalov, povedzme, rádovo , potom s rastom sa histogram nebude blížiť hustote.

Nasledujúce tvrdenie je pravdivé:

Ak je hustota distribúcie prvkov vzorky spojitou funkciou, potom existuje bodová konvergencia pravdepodobnosti histogramu k hustote.

Takže výber logaritmu je rozumný, ale nie jediný možný.

Záver

Matematická (alebo teoretická) štatistika je založená na metódach a konceptoch teórie pravdepodobnosti, ale v istom zmysle rieši inverzné problémy.

Ak pozorujeme súčasný prejav dvoch (alebo viacerých) znakov, t.j. máme súbor hodnôt niekoľkých náhodných premenných - čo možno povedať o ich závislosti? Je tam alebo nie? A ak áno, aká je táto závislosť?

Často je možné urobiť nejaké predpoklady o distribúcii ukrytej v „čiernej skrinke“ alebo o jej vlastnostiach. V tomto prípade je podľa experimentálnych údajov potrebné potvrdiť alebo vyvrátiť tieto predpoklady („hypotézy“). Zároveň musíme pamätať na to, že odpoveď „áno“ alebo „nie“ môžeme dať len s určitou istotou a čím dlhšie môžeme v experimente pokračovať, tým presnejšie môžu byť závery. Najpriaznivejšia situácia pre výskum je, keď je možné s istotou tvrdiť určité vlastnosti pozorovaného experimentu - napríklad prítomnosť funkčná závislosť medzi pozorovanými veličinami, o normálnosti rozloženia, o jeho symetrii, o prítomnosti hustoty v rozdelení alebo o jeho diskrétnej povahe atď.

Takže má zmysel pamätať na (matematické) štatistiky, ak

existuje náhodný experiment, ktorého vlastnosti sú čiastočne alebo úplne neznáme,

Tento experiment sme schopní reprodukovať za rovnakých podmienok niekoľkokrát (alebo lepšie, kedykoľvek).

Bibliografia

1. Baumol W. Ekonomická teória a výskumné operácie. – M.; Veda, 1999.

2. Bolšev L.N., Smirnov N.V. Tabuľky matematickej štatistiky. Moskva: Nauka, 1995.

3. Borovkov A.A. Matematické štatistiky. Moskva: Nauka, 1994.

4. Korn G., Korn T. Príručka matematiky pre vedcov a inžinierov. - Petrohrad: Vydavateľstvo Lan, 2003.

5. Korshunov D.A., Chernova N.I. Zbierka úloh a cvičení z matematickej štatistiky. Novosibirsk: Vydavateľstvo Ústavu matematiky. S.L. Sobolev SB RAS, 2001.

6. Peheletsky I.D. Matematika: učebnica pre žiakov. - M.: Akadémia, 2003.

7. Suchodolskij V.G. Prednášky o vyššia matematika pre humanitné vedy. - Petrohradské vydavateľstvo Petrohradu štátna univerzita. 2003

8. Feller V. Úvod do teórie pravdepodobnosti a jej aplikácií. - M.: Mir, T.2, 1984.

9. Harman G., Moderná faktorová analýza. - M.: Štatistika, 1972.


Harman G., Moderná faktorová analýza. - M.: Štatistika, 1972.