Вероятностно-статистические методы исследования и метод системного анализа. Статистические методы Статистический анализ конкретных данных

3. Суть вероятностно-статистических методов

Как подходы, идеи и результаты теории вероятностей и математической статистики используются при обработке данных – результатов наблюдений, измерений, испытаний, анализов, опытов с целью принятия практически важных решений?

Базой является вероятностная модель реального явления или процесса, т.е. математическая модель, в которой объективные соотношения выражены в терминах теории вероятностей. Вероятности используются прежде всего для описания неопределенностей, которые необходимо учитывать при принятии решений. Имеются в виду как нежелательные возможности (риски), так и привлекательные («счастливый случай»). Иногда случайность вносится в ситуацию сознательно, например, при жеребьевке, случайном отборе единиц для контроля, проведении лотерей или опросов потребителей.

Теория вероятностей позволяет по одним вероятностям рассчитать другие, интересующие исследователя. Например, по вероятности выпадения герба можно рассчитать вероятность того, что при 10 бросаниях монет выпадет не менее 3 гербов. Подобный расчет опирается на вероятностную модель, согласно которой бросания монет описываются схемой независимых испытаний, кроме того, выпадения герба и решетки равновозможны, а потому вероятность каждого из этих событий равна ½. Более сложной является модель, в которой вместо бросания монеты рассматривается проверка качества единицы продукции. Соответствующая вероятностная модель опирается на предположение о том, что контроль качества различных единиц продукции описывается схемой независимых испытаний. В отличие от модели с бросанием монет необходимо ввести новый параметр – вероятность р того, что единица продукции является дефектной. Модель будет полностью описана, если принять, что все единицы продукции имеют одинаковую вероятность оказаться дефектными. Если последнее предположение неверно, то число параметров модели возрастает. Например, можно принять, что каждая единица продукции имеет свою вероятность оказаться дефектной.

Обсудим модель контроля качества с общей для всех единиц продукции вероятностью дефектности р . Чтобы при анализе модели «дойти до числа», необходимо заменить р на некоторое конкретное значение. Для этого необходимо выйти из рамок вероятностной модели и обратиться к данным, полученным при контроле качества. Математическая статистика решает обратную задачу по отношению к теории вероятностей. Ее цель – на основе результатов наблюдений (измерений, анализов, испытаний, опытов) получить выводы о вероятностях, лежащих в основе вероятностной модели. Например, на основе частоты появления дефектных изделий при контроле можно сделать выводы о вероятности дефектности (см. обсуждение выше сиспользованием теоремы Бернулли). На основе неравенства Чебышева делались выводы о соответствии частоты появления дефектных изделий гипотезе о том, что вероятность дефектности принимает определенное значение.

Таким образом, применение математической статистики опирается на вероятностную модель явления или процесса. Используются два параллельных ряда понятий – относящиеся к теории (вероятностной модели) и относящиеся к практике (выборке результатов наблюдений). Например, теоретической вероятности соответствует частота, найденная по выборке. Математическому ожиданию (теоретический ряд) соответствует выборочное среднее арифметическое (практический ряд). Как правило, выборочные характеристики являются оценками теоретических. При этом величины, относящиеся к теоретическому ряду, «находятся в головах исследователей», относятся к миру идей (по древнегреческому философу Платону), недоступны для непосредственного измерения. Исследователи располагают лишь выборочными данными, с помощью которых они стараются установить интересующие их свойства теоретической вероятностной модели.

Зачем же нужна вероятностная модель? Дело в том, что только с ее помощью можно перенести свойства, установленные по результатам анализа конкретной выборки, на другие выборки, а также на всю так называемую генеральную совокупность. Термин «генеральная совокупность» используется, когда речь идет о большой, но конечной совокупности изучаемых единиц. Например, о совокупности всех жителей России или совокупности всех потребителей растворимого кофе в Москве. Цель маркетинговых или социологических опросов состоит в том, чтобы утверждения, полученные по выборке из сотен или тысяч человек, перенести на генеральные совокупности в несколько миллионов человек. При контроле качества в роли генеральной совокупности выступает партия продукции.

Чтобы перенести выводы с выборки на более обширную совокупность, необходимы те или иные предположения о связи выборочных характеристик с характеристиками этой более обширной совокупности. Эти предположения основаны на соответствующей вероятностной модели.

Конечно, можно обрабатывать выборочные данные, не используя ту или иную вероятностную модель. Например, можно рассчитывать выборочное среднее арифметическое, подсчитывать частоту выполнения тех или иных условий и т.п. Однако результаты расчетов будут относиться только к конкретной выборке, перенос полученных с их помощью выводов на какую-либо иную совокупность некорректен. Иногда подобную деятельность называют «анализ данных». По сравнению с вероятностно-статистическими методами анализ данных имеет ограниченную познавательную ценность.

Итак, использование вероятностных моделей на основе оценивания и проверки гипотез с помощью выборочных характеристик – вот суть вероятностно-статистических методов принятия решений.

Подчеркнем, что логика использования выборочных характеристик для принятия решений на основе теоретических моделей предполагает одновременное использование двух параллельных рядов понятий, один из которых соответствует вероятностным моделям, а второй – выборочным данным. К сожалению, в ряде литературных источников, обычно устаревших либо написанных в рецептурном духе, не делается различия между выборочными и теоретическими характеристиками, что приводит читателей к недоумениям и ошибкам при практическом использовании статистических методов.

Предыдущая

В соответствии с тремя основными возможностями - принятие решения в условиях полной определенности, риска и неопределенности - методы и алгоритмы принятия решения можно разделить на три основных вида: аналитические, статистические и основанные на нечеткой формализации. В каждом конкретном случае метод принятия решения выбирается, исходя из поставленной задачи, доступных исходных данных, имеющихся моделей задачи, среды принятия решения, процесса принятия решения, требуемой точности решения, личных предпочтений аналитика.

В некоторых информационных системах процесс выбора алгоритма может быть автоматизирован:

В соответствующей автоматизированной системе заложена возможность использования множества разнотипных алгоритмов (библиотека алгоритмов);

Система в диалоговом режиме предлагает пользователю ответить на ряд вопросов об основных характеристиках рассматриваемой задачи;

По результатам ответов пользователя система предлагает наиболее подходящий (в соответствии с заданными в ней критериями) алгоритм из библиотеки.

2.3.1 Вероятностно-статистические методы принятия решения

Вероятностно-статистические методы принятия решения (МПР) используются в том случае, когда эффективность принимаемых решений зависит от факторов, представляющих собой случайные величины, для которых известны законы распределения вероятностей и другие статистические характеристики. При этом каждое решение может привести к одному из множества возможных исходов, причем каждый исход имеет определенную вероятность появления, которая может быть рассчитана. Показатели, характеризующие проблемную ситуацию, также описываются с помощью вероятностных характеристик.При таких ЗПР ЛПР всегда рискует получить не тот результат, на который ориентируется, выбирая оптимальное решение на основе осредненных статистических характеристик случайных факторов, то есть решение принимается в условиях риска.

На практике вероятностные и статистических методы часто применяются, когда сделанные на основе выборочных данных выводы переносятся на всю совокупность (например, с выборки на всю партию продукции). Однако при этом в каждой конкретной ситуации следует предварительно оценить принципиальную возможность получения достаточно достоверных вероятностных и статистических данных.

При использовании идей и результатов теории вероятностей и математической статистики при принятии решений базой является математическая модель, в которой объективные соотношения выражены в терминах теории вероятностей. Вероятности используются прежде всего для описания случайности, которую необходимо учитывать при принятии решений. Имеются в виду как нежелательные возможности (риски), так и привлекательные («счастливый случай»).

Суть вероятностно-статистических методов принятия решений состоит в использовании вероятностных моделей на основе оценивания и проверки гипотез с помощью выборочных характеристик .

Подчеркнем, что логика использования выборочных характеристик для принятия решений на основе теоретических моделей предполагает одновременное использование двух параллельных рядов понятий – относящиеся к теории (вероятностной модели) и относящиеся к практике (выборке результатов наблюдений). Например, теоретической вероятности соответствует частота, найденная по выборке. Математическому ожиданию (теоретический ряд) соответствует выборочное среднее арифметическое (практический ряд). Как правило, выборочные характеристики являются оценками теоретических характеристик.

К преимуществам использования этих методов относится возможность учета различных сценариев развития событий и их вероятностей. Недостатком этих методов является то, что используемые в расчетах значения вероятностей развития сценариев обычно практически очень трудно получить.

Применение конкретного вероятностно-статистического метода принятия решений состоит из трех этапов:

Переход от экономической, управленческой, технологической реальности к абстрактной математико-статистической схеме, т.е. построение вероятностной модели системы управления, технологического процесса, процедуры принятия решений, в частности по результатам статистического контроля, и т.п.

Проведение расчетов и получение выводов чисто математическими средствами в рамках вероятностной модели;

Интерпретация математико-статистических выводов применительно к реальной ситуации и принятие соответствующего решения (например, о соответствии или несоответствии качества продукции установленным требованиям, необходимости наладки технологического процесса и т.п.), в частности, заключения (о доле дефектных единиц продукции в партии, о конкретном виде законов распределения контролируемых параметров технологического процесса и др.).

Вероятностную модель реального явления следует считать построенной, если рассматриваемые величины и связи между ними выражены в терминах теории вероятностей. Адекватность вероятностной модели обосновывают, в частности, с помощью статистических методов проверки гипотез.

Математическая статистика по типу решаемых задач обычно делится на три раздела: описание данных, оценивание и проверка гипотез. По виду обрабатываемых статистических данных математическая статистика делится на четыре направления:

Одномерная статистика (статистика случайных величин), в которой результат наблюдения описывается действительным числом;

Многомерный статистический анализ, где результат наблюдения над объектом описывается несколькими числами (вектором);

Статистика случайных процессов и временных рядов, где результат наблюдения – функция;

Статистика объектов нечисловой природы, в которой результат наблюдения имеет нечисловую природу, например, является множеством (геометрической фигурой), упорядочением или получен в результате измерения по качественному признаку.

Пример, когда целесообразно использовать вероятностно-статистические модели.

При контроле качества любой продукции для принятии решения о том соответствует ли выпускаемая партия продукции установленным требованиям, из нее отбирается выборка. По результатам контроля выборки делается заключение о всей партии. В этом случае очень важно избежать субъективизма при формировании выборки, т.е необходимо, чтобы каждая единица продукции в контролируемой партии имела одинаковую вероятность быть отобранной в выборку. Выбор на основании жребия в такой ситуации не является достаточно объективным. Поэтому в производственных условиях отбор единиц продукции в выборку обычно осуществляют не с помощью жребия, а по специальным таблицам случайных чисел или с помощью компьютерных датчиков случайных чисел.

При статистическом регулировании технологических процессов на основе методов математической статистики разрабатываются правила и планы статистического контроля процессов, направленные на своевременное обнаружение разладки технологических процессов и принятия мер к их наладке и предотвращению выпуска продукции, не соответствующей установленным требованиям. Эти меры нацелены на сокращение издержек производства и потерь от поставки некачественных единиц продукции. При статистическом приемочном контроле на основе методов математической статистики разрабатываются планы контроля качества путем анализа выборок из партий продукции. Сложность заключается в том, чтобы уметь правильно строить вероятностно-статистические модели принятия решений, на основе которых можно ответить на поставленные выше вопросы. В математической статистике для этого разработаны вероятностные модели и методы проверки гипотез3.

Кроме того, в ряде управленческих, производственных, экономических, народнохозяйственных ситуаций возникают задачи другого типа – задачи оценки характеристик и параметров распределений вероятностей.

Или при статистическом анализе точности и стабильности технологических процессов надлежит оценить такие показатели качества, как среднее значение контролируемого параметра и степень его разброса в рассматриваемом процессе. Согласно теории вероятностей в качестве среднего значения случайной величины целесообразно использовать ее математическое ожидание, а в качестве статистической характеристики разброса – дисперсию, среднее квадратическое отклонение или коэффициент вариации. Отсюда возникает вопрос: как оценить эти статистические характеристики по выборочным данным и с какой точностью это удается сделать? Аналогичных примеров в литературе много. Все они показывают, как теория вероятностей и математическая статистика могут быть использованы в производственном менеджменте при принятии решений в области статистического управления качеством продукции.

В конкретных областях применений используются как вероятностно-статистические методы широкого применения, так и специфические. Например, в разделе производственного менеджмента, посвященного статистическим методам управления качеством продукции, используют прикладную математическую статистику (включая планирование экспериментов). С помощью ее методов проводится статистический анализ точности и стабильности технологических процессов и статистическая оценка качества. К специфическим методам относятся методы статистического приемочного контроля качества продукции, статистического регулирования технологических процессов, оценки и контроля надежности и др.

В производственном менеджменте, в частности, при оптимизации качества продукции и обеспечения соответствия требованиям стандартов особенно важно применять статистические методы на начальном этапе жизненного цикла продукции, т.е. на этапе научно-исследовательской подготовки опытно-конструкторских разработок (разработка перспективных требований к продукции, аванпроекта, технического задания на опытно-конструкторскую разработку). Это объясняется ограниченностью информации, доступной на начальном этапе жизненного цикла продукции, и необходимостью прогнозирования технических возможностей и экономической ситуации на будущее.

Наиболее распространенными вероятностно-статистическими методами являются регрессионный анализ, факторный анализ, дисперсионный анализ, статистические методы оценки риска, метод сценариев и т.д. Все большее значение приобретает область статистических методов, посвященная анализу статистических данных нечисловой природы, т.е. результатов измерений по качественным и разнотипным признакам. Одно из основных применений статистики объектов нечисловой природы - теория и практика экспертных оценок, связанные с теорией статистических решений и проблемами голосования.

Роль человека при решении задач методами теории статистических решений заключается в постановке задачи, т. е. в приведении реальной задачи к соответствующей типовой, в определении вероятностей событий на основе статистических данных, а также в утверждении получаемого оптимального решения.

Во многих случаях в горной науке необходимо исследовать не только детерминированные, но и случайные процессы. Все геомеханические процессы протекают в непрерывно изменяющихся условиях, когда те или иные события могут произойти, а могут и не произойти. При этом возникает необходимость анализировать случайные связи.

Несмотря на случайный характер событий, они подчиняются определенным закономерностям, рассматриваемым в теории вероятностей , которая изучает теоретические распределения случайных величин и их характеристики. Способами обработки и анализа случайных эмпирических событий занимается другая наука, так называемая математическая статистика. Эти две родственные науки составляют единую математическую теорию массовых случайных процессов, широко применяемую в научных исследованиях.

Элементы теории вероятностей и матстатистики. Под совокупностью понимают множество однородных событий случайной величины х , которая составляет первичный статистический материал. Совокупность может быть генеральной (большая выборка N ), содержащей самые различные варианты массового явления, и выборочной (малая выборка N 1), представляющей собой лишь часть генеральной совокупности.

Вероятностью Р (х ) события х называют отношение числа случаев N (х ), которые приводят к наступлению события х , к общему числу возможных случаев N :

В математической статистике аналогом вероятности является понятие частости события , представляющей собой отношение числа случаев , при которых имело место событие, к общему числу событий:

При неограниченном возрастании числа событий частость стремится к вероятности Р (х ).



Допустим, имеются какие-то статистические данные, представленные в виде ряда распределения (гистограммы) на рис. 4.11, тогда частость характеризует вероятность появления случайной величины в интервале і , а плавная кривая носит название функции распределения.

Вероятность случайной величины – это количественная оценка возможности ее появления. Достоверное событие имеет Р =1, невозможное событие – Р =0. Следовательно, для случайного события , а сумма вероятностей всех возможных значений .

В исследованиях недостаточно иметь кривую распределения , а необходимо знать и ее характеристики:

а) среднеарифметическое – ; (4.53)

б) размах – R = x max – x min , который можно использовать для ориентировочной оценки вариации событий, где x max и x min – экстремальные значения измеренной величины;

в) математическое ожидание – . (4.54)

Для непрерывных случайных величин математическое ожидание записывается в виде

, (4.55)

т.е. равно действительному значению наблюдаемых событий х , а соответствующая матожиданию абсцисса называется центром распределения.

г) дисперсия – , (4.56)

которая характеризует рассеяние случайной величины по отношению к математическому ожиданию. Дисперсию случайной величины иначе еще называют центральным моментом второго порядка.

Для непрерывной случайной величины дисперсия равна

; (4.57)

д) среднеквадратичное отклонение или стандарт –

е) коэффициент вариации (относительное рассеяние) –

, (4.59)

который характеризует интенсивность рассеяния в различных совокупностях и применяется для их сравнения.

Площадь, расположенная под кривой распределения , соответствует единице, это означает, что кривая охватывает все значения случайных величин. Однако таких кривых, которые будут иметь площадь, равную единице, можно построить большое количество, т.е. они могут иметь различное рассеяние. Мерой рассеяния и является дисперсия или среднеквадратичное отклонение (рис. 4.12).


Выше мы рассмотрели основные характеристики теоретической кривой распределения, которые анализирует теория вероятностей. В статистике оперируют эмпирическими распределениями, а основной задачей статистики является подбор теоретических кривых по имеющемуся эмпирическому закону распределения.

Пусть в результате n измерений случайной величины получен вариационный ряд х 1 , х 2 , х 3 , … х n . Обработка таких рядов сводится к следующим операциям:

– группируют х і в интервале и устанавливают для каждого из них абсолютную и относительные частости ;

– по значениям строят ступенчатую гистограмму (рис. 4.11);

– вычисляют характеристики эмпирической кривой распределения: среднеарифметическое дисперсию Д = ; среднеквадратичное отклонение .

Значениям , Д и s эмпирического распределения соответствуют величины , Д (х ) и s (х ) теоретического распределения.



Рассмотрим основные теоретические кривые распределения. Наиболее часто в исследованиях применяют закон нормального распределения (рис. 4.13), уравнение которого при имеет вид:

(4.60)

Если совместить ось координат с точкой m , т.е. принять m (x )=0 и принять , закон нормального распределения будет описываться более простым уравнением:

Для оценки рассеяния обычно пользуются величиной . Чем меньше s ,тем меньше рассеяние, т.е. наблюдения мало отличается друг от друга. С увеличением s рассеяние возрастает, вероятность погрешностей увеличивается, а максимум кривой (ордината), равный , уменьшается. Поэтому значение у =1/ при 1 называют мерой точности. Среднеквадратичные отклонения и соответствуют точкам перегиба (заштрихованная область на рис. 4.12) кривой распределения.

При анализе многих случайных дискретных процессов используют распределение Пуассона (краткосрочные события, протекающие в единицу времени). Вероятность появления чисел редких событий х =1, 2, … за данный отрезок времени выражается законом Пуассона (см. рис. 4.14):

, (4.62)

где х – число событий за данный отрезок времени t ;

λ – плотность, т.е. среднее число событий за единицу времени;

– среднее число событий за время t ;

Для закона Пуассона дисперсия равна математическому ожиданию числа наступления событий за время t , т.е. .

Для исследования количественных характеристик некоторых процессов (времени отказов машин и т.д.) применяют показательный закон распределения (рис. 4.15), плотность распределения которого выражается зависимостью

где λ – интенсивность (среднее число) событий в единицу времени.

В показательном распределении интенсивность λ является величиной, обратной математическому ожиданию λ = 1/m (x ). Кроме того, справедливо соотношение .

В различных областях исследований широко применяется закон распределения Вейбулла (рис. 4.16):

, (4.64)

где n , μ , – параметры закона; х – аргумент, чаще всего время.

Исследуя процессы, связанные с постепенным снижением параметров (снижением прочности пород во времени и т.д.), применяют закон гамма-распределения (рис. 4.17):

, (4.65)

где λ , a – параметры. Если a =1, гамма функции превращается в показательный закон.

Кроме приведенных выше законов применяют и другие виды распределений: Пирсона, Рэлея, бета – распределение и пр.

Дисперсионный анализ. В исследованиях часто возникает вопрос: В какой мере влияет тот или иной случайный фактор на исследуемый процесс? Методы установления основных факторов и их влияние на исследуемый процесс рассматриваются в специальном разделе теории вероятностей и математической статистики – дисперсионном анализе. Различают одно – и многофакторный анализ. Дисперсионный анализ основывается на использовании нормального закона распределения и на гипотезе, что центры нормальных распределений случайных величин равны. Следовательно, все измерения можно рассматривать как выборку из одной и той же нормальной совокупности.

Теория надежности. Методы теории вероятностей и математической статистики часто применяют в теории надежности, которая широко используется в различных отраслях науки и техники. Под надежностью понимают свойство объекта выполнять заданные функции (сохранять установленные эксплуатационные показатели) в течение требуемого периода времени. В теории надежности отказы рассматриваются как случайные события. Для количественного описания отказов применяют математические модели – функции распределения интервалов времени (нормальное и экспоненциальное распределение, Вейбулла, гамма-распределения). Задача состоит в нахождении вероятностей различных показателей.

Метод Монте-Карло. Для исследования сложных процессов вероятностного характера применяют метод Монте-Карло.С помощью этого метода решают задачи по нахождению наилучшего решения из множества рассматриваемых вариантов.

Метод Монте-Карло иначе еще называют методом статистического моделирования. Это численный метод, он основан на использовании случайных чисел, моделирующих вероятностные процессы. Математической основой метода является закон больших чисел, который формулируется следующим образом: при большом числе статистических испытаний вероятность того, что среднеарифметическое значение случайной величины стремится к ее математическому ожиданию , равна 1:

, (4.64)

где ε – любое малое положительное число.

Последовательность решения задач методом Монте-Карло:

– сбор, обработка и анализ статистических наблюдений;

– отбор главных и отбрасывание второстепенных факторов и составление математической модели;

– составление алгоритмов и решение задач на ЭВМ.

Для решения задач методом Монте-Карло необходимо иметь статистический ряд, знать закон его распределения, среднее значение , математическое ожидание и среднеквадратичное отклонение. Решение эффективно лишь с использованием ЭВМ.

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Введение

1. Распределение "хи-квадрат"

Заключение

Приложение

Введение

Как подходы, идеи и результаты теории вероятностей используются в нашей жизни? математический квадрат теория

Базой является вероятностная модель реального явления или процесса, т.е. математическая модель, в которой объективные соотношения выражены в терминах теории вероятностей. Вероятности используются, прежде всего, для описания неопределенностей, которые необходимо учитывать при принятии решений. Имеются в виду, как нежелательные возможности (риски), так и привлекательные ("счастливый случай"). Иногда случайность вносится в ситуацию сознательно, например, при жеребьевке, случайном отборе единиц для контроля, проведении лотерей или опросов потребителей.

Теория вероятностей позволяет по одним вероятностям рассчитать другие, интересующие исследователя.

Вероятностная модель явления или процесса является фундаментом математической статистики. Используются два параллельных ряда понятий - относящиеся к теории (вероятностной модели) и относящиеся к практике (выборке результатов наблюдений). Например, теоретической вероятности соответствует частота, найденная по выборке. Математическому ожиданию (теоретический ряд) соответствует выборочное среднее арифметическое (практический ряд). Как правило, выборочные характеристики являются оценками теоретических. При этом величины, относящиеся к теоретическому ряду, "находятся в головах исследователей", относятся к миру идей (по древнегреческому философу Платону), недоступны для непосредственного измерения. Исследователи располагают лишь выборочными данными, с помощью которых они стараются установить интересующие их свойства теоретической вероятностной модели.

Зачем же нужна вероятностная модель? Дело в том, что только с ее помощью можно перенести свойства, установленные по результатам анализа конкретной выборки, на другие выборки, а также на всю так называемую генеральную совокупность. Термин "генеральная совокупность" используется, когда речь идет о большой, но конечной совокупности изучаемых единиц. Например, о совокупности всех жителей России или совокупности всех потребителей растворимого кофе в Москве. Цель маркетинговых или социологических опросов состоит в том, чтобы утверждения, полученные по выборке из сотен или тысяч человек, перенести на генеральные совокупности в несколько миллионов человек. При контроле качества в роли генеральной совокупности выступает партия продукции.

Чтобы перенести выводы с выборки на более обширную совокупность, необходимы те или иные предположения о связи выборочных характеристик с характеристиками этой более обширной совокупности. Эти предположения основаны на соответствующей вероятностной модели.

Конечно, можно обрабатывать выборочные данные, не используя ту или иную вероятностную модель. Например, можно рассчитывать выборочное среднее арифметическое, подсчитывать частоту выполнения тех или иных условий и т.п. Однако результаты расчетов будут относиться только к конкретной выборке, перенос полученных с их помощью выводов на какую-либо иную совокупность некорректен. Иногда подобную деятельность называют "анализ данных". По сравнению с вероятностно-статистическими методами анализ данных имеет ограниченную познавательную ценность.

Итак, использование вероятностных моделей на основе оценивания и проверки гипотез с помощью выборочных характеристик - вот суть вероятностно-статистических методов принятия решений.

1. Распределение "хи-квадрат"

С помощью нормального распределения определяются три распределения, которые в настоящее время часто используются при статистической обработке данных. Это распределения Пирсона ("хи - квадрат"), Стьюдента и Фишера.

Мы остановимся на распределении ("хи - квадрат"). Впервые это распределение было исследовано астрономом Ф.Хельмертом в 1876 году. В связи с гауссовской теорией ошибок он исследовал суммы квадратов n независимых стандартно нормально распределенных случайных величин. Позднее Карл Пирсон (Karl Pearson) дал имя данной функции распределения "хи - квадрат". И сейчас распределение носит его имя.

Благодаря тесной связи с нормальным распределением, ч2-распределение играет важную роль в теории вероятностей и математической статистике. ч2-распределение, и многие другие распределения, которые определяются посредством ч2-распределения (например - распределение Стьюдента), описывают выборочные распределения различных функций от нормально распределенных результатов наблюдений и используются для построения доверительных интервалов и статистических критериев.

Распределение Пирсона (хи - квадрат) - распределение случайной величиныгде X1, X2,…, Xn - нормальные независимые случайные величины, причем математическое ожидание каждой из них равно нулю, а среднее квадратическое отклонение - единице.

Сумма квадратов

распределена по закону ("хи - квадрат").

При этом число слагаемых, т.е. n, называется "числом степеней свободы" распределения хи - квадрат. C увеличением числа степеней свободы распределение медленно приближается к нормальному.

Плотность этого распределения

Итак, распределение ч2 зависит от одного параметра n - числа степеней свободы.

Функция распределения ч2 имеет вид:

если ч2?0. (2.7.)

На Рисунке 1 изображен график плотности вероятности и функции ч2 - распределения для разных степеней свободы.

Рисунок 1 Зависимость плотности вероятности ц (x) в распределении ч2 (хи - квадрат) при разном числе степеней свободы

Моменты распределения "хи-квадрат":

Распределение "хи-квадрат" используют при оценивании дисперсии (с помощью доверительного интервала), при проверке гипотез согласия, однородности, независимости, прежде всего для качественных (категоризованных) переменных, принимающих конечное число значений, и во многих других задачах статистического анализа данных.

2. "Хи-квадрат" в задачах статистического анализа данных

Статистические методы анализа данных применяются практически во всех областях деятельности человека. Их используют всегда, когда необходимо получить и обосновать какие-либо суждения о группе (объектов или субъектов) с некоторой внутренней неоднородностью.

Современный этап развития статистических методов можно отсчитывать с 1900 г., когда англичанин К. Пирсон основал журнал "Biometrika". Первая треть ХХ в. прошла под знаком параметрической статистики. Изучались методы, основанные на анализе данных из параметрических семейств распределений, описываемых кривыми семейства Пирсона. Наиболее популярным было нормальное распределение. Для проверки гипотез использовались критерии Пирсона, Стьюдента, Фишера. Были предложены метод максимального правдоподобия, дисперсионный анализ, сформулированы основные идеи планирования эксперимента.

Распределение "хи-квадрат" является одним из наиболее широко используемых в статистике для проверки статистических гипотез. На основе распределения "хи-квадрат" построен один из наиболее мощных критериев согласия - критерий "хи-квадрата" Пирсона.

Критерием согласия называют критерий проверки гипотезы о предполагаемом законе неизвестного распределения.

Критерий ч2 ("хи-квадрат") используется для проверки гипотезы различных распределений. В этом заключается его достоинство.

Расчетная формула критерия равна

где m и m" - соответственно эмпирические и теоретические частоты

рассматриваемого распределения;

n - число степеней свободы.

Для проверки нам необходимо сравнивать эмпирические (наблюдаемые) и теоретические (вычисленные в предположении нормального распределения) частоты.

При полном совпадении эмпирических частот с частотами, вычисленными или ожидаемыми S (Э - Т) = 0 и критерий ч2 тоже будет равен нулю. Если же S (Э - Т) не равно нулю это укажет на несоответствие вычисленных частот эмпирическим частотам ряда. В таких случаях необходимо оценить значимость критерия ч2, который теоретически может изменяться от нуля до бесконечности. Это производится путем сравнения фактически полученной величины ч2ф с его критическим значением (ч2st).Нулевая гипотеза, т. е. предположение, что расхождение между эмпирическими и теоретическими или ожидаемыми частотами носит случайный характер, опровергается, если ч2ф больше или равно ч2st для принятого уровня значимости (a) и числа степеней свободы (n).

Распределение вероятных значений случайной величины ч2 непрерывно и ассиметрично. Оно зависит от числа степеней свободы (n) и приближается к нормальному распределению по мере увеличения числа наблюдений. Поэтому применение критерия ч2 к оценке дискретных распределений сопряжено с некоторыми погрешностями, которые сказываются на его величине, особенно на малочисленных выборках. Для получения более точных оценок выборка, распределяемая в вариационный ряд, должна иметь не менее 50 вариантов. Правильное применение критерия ч2 требует также, чтобы частоты вариантов в крайних классах не были бы меньше 5; если их меньше 5, то они объединяются с частотами соседних классов, чтобы в сумме составляли величину большую или равную 5. Соответственно объединению частот уменьшается и число классов (N). Число степеней свободы устанавливается по вторичному числу классов с учетом числа ограничений свободы вариации.

Так как точность определения критерия ч2 в значительной степени зависит от точности расчета теоретических частот (Т), для получения разности между эмпирическими и вычисленными частотами следует использовать неокругленные теоретические частоты.

В качестве примера возьмем исследование, опубликованное на сайте, который посвящен применению статистических методов в гуманитарных науках.

Критерий "Хи-квадрат" позволяет сравнивать распределения частот вне зависимости от того, распределены они нормально или нет.

Под частотой понимается количество появлений какого-либо события. Обычно, с частотой появления события имеют дело, когда переменные измерены в шкале наименований и другой их характеристики, кроме частоты подобрать невозможно или проблематично. Другими словами, когда переменная имеет качественные характеристики. Так же многие исследователи склонны переводить баллы теста в уровни (высокий, средний, низкий) и строить таблицы распределений баллов, чтобы узнать количество человек по этим уровням. Чтобы доказать, что в одном из уровней (в одной из категорий) количество человек действительно больше (меньше) так же используется коэффициент Хи-квадрат.

Разберем самый простой пример.

Среди младших подростков был проведён тест для выявления самооценки. Баллы теста были переведены в три уровня: высокий, средний, низкий. Частоты распределились следующим образом:

Высокий (В) 27 чел.

Средний (С) 12 чел.

Низкий (Н) 11 чел.

Очевидно, что детей с высокой самооценкой большинство, однако это нужно доказать статистически. Для этого используем критерий Хи-квадрат.

Наша задача проверить, отличаются ли полученные эмпирические данные от теоретически равновероятных. Для этого необходимо найти теоретические частоты. В нашем случае, теоретические частоты - это равновероятные частоты, которые находятся путём сложения всех частот и деления на количество категорий.

В нашем случае:

(В + С + Н)/3 = (27+12+11)/3 = 16,6

Формула для расчета критерия хи-квадрат:

ч2 = ?(Э - Т)І / Т

Строим таблицу:

Эмпирич. (Э)

Теоретич. (Т)

(Э - Т)І / Т

Находим сумму последнего столбца:

Теперь нужно найти критическое значение критерия по таблице критических значений (Таблица 1 в приложении). Для этого нам понадобится число степеней свободы (n).

n = (R - 1) * (C - 1)

где R - количество строк в таблице, C - количество столбцов.

В нашем случае только один столбец (имеются в виду исходные эмпирические частоты) и три строки (категории), поэтому формула изменяется - исключаем столбцы.

n = (R - 1) = 3-1 = 2

Для вероятности ошибки p?0,05 и n = 2 критическое значение ч2 = 5,99.

Полученное эмпирическое значение больше критического - различия частот достоверны (ч2= 9,64; p?0,05).

Как видим, расчет критерия очень прост и не занимает много времени. Практическая ценность критерия хи-квадрат огромна. Этот метод оказывается наиболее ценным при анализе ответов на вопросы анкет.

Разберем более сложный пример.

К примеру, психолог хочет узнать, действительно ли то, что учителя более предвзято относятся к мальчикам, чем к девочкам. Т.е. более склонны хвалить девочек. Для этого психологом были проанализированы характеристики учеников, написанные учителями, на предмет частоты встречаемости трех слов: "активный", "старательный", "дисциплинированный", синонимы слов так же подсчитывались.

Данные о частоте встречаемости слов были занесены в таблицу:

Для обработки полученных данных используем критерий хи-квадрат.

Для этого построим таблицу распределения эмпирических частот, т.е. тех частот, которые мы наблюдаем:

Теоретически, мы ожидаем, что частоты распределятся равновероятно, т.е. частота распределится пропорционально между мальчиками и девочками. Построим таблицу теоретических частот. Для этого умножим сумму по строке на сумму по столбцу и разделим получившееся число на общую сумму (s).

Итоговая таблица для вычислений будет выглядеть так:

Эмпирич. (Э)

Теоретич. (Т)

(Э - Т)І / Т

Мальчики

"Активный"

"Старательный"

"Дисциплинированный"

"Активный"

"Старательный"

"Дисциплинированный"

Сумма: 4,21

ч2 = ?(Э - Т)І / Т

где R - количество строк в таблице.

В нашем случае хи-квадрат = 4,21; n = 2.

По таблице критических значений критерия находим: при n = 2 и уровне ошибки 0,05 критическое значение ч2 = 5,99.

Полученное значение меньше критического, а значит принимается нулевая гипотеза.

Вывод: учителя не придают значение полу ребенка при написании ему характеристики.

Заключение

Студенты почти всех специальностей изучают в конце курса высшей математики раздел "теория вероятностей и математическая статистика", реально они знакомятся лишь с некоторыми основными понятиями и результатами, которых явно не достаточно для практической работы. С некоторыми математическими методами исследования студенты встречаются в специальных курсах (например, таких, как "Прогнозирование и технико-экономическое планирование", "Технико-экономический анализ", "Контроль качества продукции", "Маркетинг", "Контроллинг", "Математические методы прогнозирования", "Статистика" и др. - в случае студентов экономических специальностей), однако изложение в большинстве случаев носит весьма сокращенный и рецептурный характер. В результате знаний у специалистов по прикладной статистике недостаточно.

Поэтому большое значение имеет курс "Прикладная статистика" в технических вузах, а в экономических вузах - курса "Эконометрика", поскольку эконометрика - это, как известно, статистический анализ конкретных экономических данных.

Теория вероятности и математическая статистика дают фундаментальные знания для прикладной статистики и эконометрики.

Они необходимы специалистам для практической работы.

Я рассмотрела непрерывную вероятностную модель и постаралась на примерах показать ее используемость.

И в конце своей работы я пришла к выводу, что грамотная реализация основных процедур математико-статического анализа данных, статическая проверка гипотез невозможна без знания модели "хи-квадрат", а также умения пользоваться ее таблицей.

Список используемой литературы

1. Орлов А.И. Прикладная статистика. М.: Издательство "Экзамен", 2004.

2. Гмурман В.Е. Теория вероятностей и математическая статистика. М.: Высшая школа, 1999. - 479с.

3. Айвозян С.А. Теория вероятностей и прикладная статистика, т.1. М.: Юнити, 2001. - 656с.

4. Хамитов Г.П., Ведерникова Т.И. Вероятности и статистика. Иркутск: БГУЭП, 2006 - 272с.

5. Ежова Л.Н. Эконометрика. Иркутск: БГУЭП, 2002. - 314с.

6. Мостеллер Ф. Пятьдесят занимательных вероятностных задач с решениями. М.: Наука, 1975. - 111с.

7. Мостеллер Ф. Вероятность. М.: Мир, 1969. - 428с.

8. Яглом А.М. Вероятность и информация. М.: Наука, 1973. - 511с.

9. Чистяков В.П. Курс теории вероятностей. М.: Наука, 1982. - 256с.

10. Кремер Н.Ш. Теория вероятностей и математическая статистика. М.: ЮНИТИ, 2000. - 543с.

11. Математическая энциклопедия, т.1. М.: Советская энциклопедия, 1976. - 655с.

12. http://psystat.at.ua/ - Статистика в психологии и педагогике. Статья Критерий Хи-квадрат.

Приложение

Критические точки распределения ч2

Таблица 1

Размещено на Allbest.ru

...

Подобные документы

    Вероятностная модель и аксиоматика А.Н. Колмогорова. Случайные величины и векторы, классическая предельная проблема теории вероятностей. Первичная обработка статистических данных. Точечные оценки числовых характеристик. Статистическая проверка гипотез.

    методичка , добавлен 02.03.2010

    Правила выполнения и оформления контрольных работ для заочного отделения. Задания и примеры решения задач по математической статистике и теории вероятности. Таблицы справочных данных распределений, плотность стандартного нормального распределения.

    методичка , добавлен 29.11.2009

    Основные методы формализованного описания и анализа случайных явлений, обработки и анализа результатов физических и численных экспериментов теории вероятности. Основные понятия и аксиомы теории вероятности. Базовые понятия математической статистики.

    курс лекций , добавлен 08.04.2011

    Определение закона распределения вероятностей результатов измерения в математической статистике. Проверка соответствия эмпирического распределения теоретическому. Определение доверительного интервала, в котором лежит значение измеряемой величины.

    курсовая работа , добавлен 11.02.2012

    Сходимость последовательностей случайных величин и вероятностных распределений. Метод характеристических функций. Проверка статистических гипотез и выполнение центральной предельной теоремы для заданных последовательностей независимых случайных величин.

    курсовая работа , добавлен 13.11.2012

    Основные этапы обработки данных натуральных наблюдений методом математической статистики. Оценка полученных результатов, их использование при принятии управленческих решений в области охраны природы и природопользования. Проверка статистических гипотез.

    практическая работа , добавлен 24.05.2013

    Сущность закона распределения и его практическое применение для решения статистических задач. Определение дисперсии случайной величины, математического ожидания и среднеквадратического отклонения. Особенности однофакторного дисперсионного анализа.

    контрольная работа , добавлен 07.12.2013

    Вероятность и ее общее определение. Теоремы сложения и умножения вероятностей. Дискретные случайные величины и их числовые характеристики. Закон больших чисел. Статистическое распределение выборки. Элементы корреляционного и регрессионного анализа.

    курс лекций , добавлен 13.06.2015

    Программа курса, основные понятия и формулы теории вероятностей, их обоснование и значение. Место и роль математической статистики в дисциплине. Примеры и разъяснения по решению самых распространенных задач по различным темам данных учебных дисциплин.

    методичка , добавлен 15.01.2010

    Теория вероятностей и математическая статистика являются науками о методах количественного анализа массовых случайных явлений. Множество значений случайной величины называется выборкой, а элементы множества – выборочными значениями случайной величины.

Рассматриваемая группа методов является наиболее важной в социологических исследованиях, данные методы применяются практически в каждом социологическом исследовании, которое можно считать действительно научным. Они направлены в основном на выявление в эмпирической информации статистических закономерностей, т.е. закономерностей, выполняющихся "в среднем". Собственно, социология и занимается изучением "среднего человека". Кроме того, еще одна важная цель применения вероятностных и статистических методов в социологии – оценка надежности выборки. Насколько велика уверенность, что выборка дает более-менее точные результаты и какова погрешность статистических выводов?

Главный объект изучения при применении вероятностных и статистических методов – случайные величины . Принятие случайной величиной некоторого значения является случайным событием – событием, которое при осуществлении данных условий может как произойти, так и не произойти. Например, если социолог проводит опросы в сфере политических предпочтений на улице города, то событие "очередной респондент оказался сторонником партии власти" является случайным, если ничего в респонденте заранее не выдавало его политических предпочтений. Если же социолог опросил респондента у здания Областной Думы, то событие уже не случайное. Случайное событие характеризуется вероятностью его наступления. В отличие от классических задач на игральные кости и карточные комбинации, изучаемых в рамках курса теории вероятностей, в социологических исследованиях вычислить вероятность не так просто.

Важнейшей базой для эмпирической оценки вероятности является стремление частоты к вероятности , если под частотой понимать отношение, сколько раз произошло событие к тому, сколько раз оно теоретически могло бы произойти. Например, если среди 500 случайно отобранных на улицах города респондентов 220 оказались сторонниками партии власти, то частота появления таких респондентов составляет 0,44. В случае репрезентативной выборки достаточно большого размера мы получим примерную вероятность события или примерную долю людей, обладающих заданным признаком. В нашем примере при удачно подобранной выборке получим, что примерно 44% горожан – сторонники партии власти. Разумеется, поскольку опрошены не все горожане, а некоторые в процессе опроса могли солгать, то имеется некоторая погрешность.

Рассмотрим некоторые задачи, возникающие при статистическом анализе эмпирических данных.

Оценка распределения величины

Если некоторый признак можно выразить количественно (например, политическую активность гражданина как величину, показывающую, сколько раз за последние пять лет он участвовал в выборах различного уровня), то может быть поставлена задача оценить закон распределения этого признака как случайной величины. Другими словами, закон распределения показывает, какие значения величина принимает чаще, а какие реже, и насколько чаще/реже. Чаще всего как в технике и природе, так и в обществе встречается нормальный закон распределения . Его формула и свойства изложены в любом учебнике по статистике, а на рис. 10.1 приведен вид графика – это "колоколообразная" кривая, которая может быть более "вытянута" вверх или более "размазана" по оси значений случайной величины. Суть нормального закона в том, что чаще всего случайная величина принимает значения близ некоторого "центрального" значения, называемого математическим ожиданием , а чем дальше от него, тем реже туда "попадает" величина.

Примеров распределений, которые с небольшой погрешностью можно принять за нормальные, много. Еще в XIX в. бельгийский ученый А. Кетле и англичанин Ф. Гальтон доказали, что распределение частот встречаемости любого демографического или антропометрического показателя (продолжительности жизни, роста, возраста вступления в брак и т.д.) характеризуется "колоколообразным" распределением. Тот же Ф. Гальтон и его последователи доказали, что и психологические осооенности, например, способности, подчиняются нормальному закону .

Рис. 10.1.

Пример

Самый яркий пример нормального распределения в социологии касается социальной активности людей. Согласно закону нормального распределения получается, что социально-активных людей в обществе обычно около 5–7%. Все эти социально- активные люди ходят на митинги, конференции, семинары и т.д. Примерно такое же количество вообще отстраняются от участия в социальной жизни. Основная масса людей (80–90%) вроде бы равнодушна к политике и общественной жизни, однако отслеживает те процессы, которые ей интересны, хотя в целом относится к политике и обществу отстраненно, значительной активности не проявляет. Такие люди пропускают большинство политических событий, но время от времени смотрят новости по телевидению или в Интернете. Также они ходят голосовать на наиболее важные выборы, особенно если им "грозят кнутом" или "поощряют пряником". Члены этих 80–90% с общественно-политической точки зрения почти бесполезны поодиночке, но центрам социологических исследований эти люди вполне интересны, так как их очень много, и их предпочтения нельзя игнорировать. То же касается и околонаучных организаций, выполняющих исследования по заказам политических деятелей или торговых корпораций. И мнение "серой массы" по ключевым вопросам, связанным с прогнозированием поведения многих тысяч и миллионов людей на выборах, а также при острых политических событиях, при расколе обществе и конфликтах разных политических сил, этим центрам не безразлично.

Разумеется, нс все величины распределены по нормальному распределению. Кроме него, наиболее важными в математической статистике являются биномиальное и показательное распределения, распределения Фишера-Снедекора, "Хи-квадрат", Стьюдента .

Оценка связи признаков

Простейший случай – когда требуется просто установить наличие/отсутствие связи. Наиболее популярным в этом вопросе является метод "Хи-квадрат". Данный метод ориентирован на работу с категориальными данными. Например, такими явно выступают пол, семейное положение. Некоторые данные на первый взгляд кажутся числовыми, но могут "превратиться" в категориальные путем разбиения интервала значений на несколько малых интервалов. Например, стаж работы на заводе можно разбить на категории "менее одного года", "от одного до трех лет", "от трех до шести лет" и "более шести лет".

Пусть у параметра X имеется п возможных значений: {х1,..., х г1}, а у параметра Y– т возможных значений: (у1,..., у т}, q ij – наблюдаемая частота появления пары (x i, у j), т.е. количество обнаруженных появлений такой пары. Вычисляем теоретические частоты, т.е. сколько раз должна была появиться каждая пара значений для абсолютно нс связанных между собой величин:

На основе наблюдаемых и теоретических частот вычисляем значение

Также требуется вычислить количество степеней свободы по формуле

где m , n – количество сведенных в таблицу категорий. Кроме того, выбираем уровень значимости . Чем более высокую надежность мы хотим получить, тем ниже уровень значимости следует брать. Как правило, выбирается значение 0,05, которое означает, что мы можем доверять результатам с вероятностью 0,95. Далее в справочных таблицах находим по количеству степеней свободы и уровню значимости критическое значение . Если , то параметры X и Y считаются независимыми. Если , то параметры X и Y – зависимые. Если, то опасно делать вывод о зависимости либо независимости параметров. В последнем случае целесообразно провести дополнительные исследования.

Заметим также, что критерий "Хи-квадрат" с очень высокой уверенностью можно использовать, лишь когда все теоретические частоты не ниже заданного порога, которым обычно считается равным 5. Пусть v – минимальная теоретическая частота. При v > 5 можно уверенно использовать критерий "Хи-квадрат". При v < 5 использование критерия становится нежелательным. При v ≥ 5 вопрос остается открытым, требуется дополнительное исследование о применимости критерия "Хи-квадрат".

Приведем пример применения метода "Хи-квадрат". Пусть, например, в некотором городе проведен опрос среди молодых болельщиков местных футбольных команд и получены следующие результаты (табл. 10.1).

Выдвинем гипотезу о независимости футбольных предпочтений молодежи города N от пола респондента на стандартном уровне значимости 0,05. Вычисляем теоретические частоты (табл. 10.2).

Таблица 10.1

Результаты опроса болельщиков

Таблица 10.2

Теоретические частоты предпочтений

Например, теоретическая частота для юношей-болельщиков Звезды получена как

аналогично – другие теоретические частоты. Далее вычисляем значение "Хи-квадрат":

Определяем количество степеней свободы . Для и уровня значимости 0,05 ищем критическое значение:

Поскольку , причем превосходство существенное, практически наверняка можно говорить, что футбольные предпочтения юношей и девушек города N сильно различаются, за исключением случая нерепрезентативной выборки, например, если исследователь не стал получать выборку из разных районов города, ограничившись опросом респондентов в своем квартале.

Более сложная ситуация – когда нужно количественно оценить силу связи. В этом случае часто применяются методы корреляционного анализа. Данные методы обычно рассматриваются в углубленных курсах математической статистики.

Аппроксимация зависимостей по точечным данным

Пусть имеется набор точек – эмпирических данных (X i, Yi), i = 1, ..., п. Требуется аппроксимировать реальную зависимость параметра у от параметра х, а также выработать правило вычисления значения у, когда х находится между двумя "узлами" Хi.

Существуют два принципиально разных подхода к решению поставленной задачи. Первый заключается в том, что среди функций заданного семейства (например, полиномов) выбирается функция, график которой проходит через имеющиеся точки. Второй подход не "принуждает" график функции проходить через точки. Наиболее популярный в социологии и ряде других наук метод – метод наименьших квадратов – относится ко второй группе методов.

Суть метода наименьших квадратов состоит в следующем. Дано некоторое семейство функций у (х, а 1, ..., а т) с m неопределенными коэффициентами. Требуется подобрать неопределенные коэффициенты за счет решения оптимизационной задачи

Минимальное значение функции d может выступать в качестве меры точности приближения. Если данное значение слишком велико, следует выбрать иной класс функций у либо расширить используемый класс. Например, если класс "полиномы степени не выше 3" не дал приемлемой точности, берем класс "полиномы степени не выше 4" или даже "полиномы степени не выше 5".

Чаще всего метод используют для семейства "полиномы степени не выше N":

Например, при N = 1 это семейство линейных функций, при N = 2 – семейство линейных и квадратичных функций, при N = 3 – семейство линейных, квадратичных и кубических функций. Пусть

Тогда коэффициенты линейной функции (N = 1) ищутся как решение системы линейных уравнений

Коэффициенты функции вида а 0 + а 1х + а 2х 2 (N = 2) ищутся как решение системы

Желающие применить этот метод для произвольного значения N могут сделать это, увидев закономерность, по которой составлены приведенные системы уравнений.

Приведем пример применения метода наименьших квадратов. Пусть численность некоторой политической партии менялась следующим образом:

Можно заметить, что изменения численности партии за разные годы не сильно отличаются, что позволяет нам аппроксимировать зависимость линейной функцией. Чтобы было проще вычислять, вместо переменной х – года – введем переменную t = х – 2010, т.е. первый год учета численности возьмем как "нулевой". Вычисляем М 1; М 2:

Теперь вычисляем М", М*:

Коэффициенты a 0, a 1 функции у = a 0t + а 1 вычисляются как решение системы уравнений

Решая данную систему, например, по правилу Крамера или методом подстановки, получаем: а 0 = 11,12; а 1 = 3,03. Таким образом, получаем приближение

которое позволяет не только оперировать одной функцией вместо набора эмпирических точек, но и вычислять значения функции, выходящие за границы исходных данных, – "предсказывать будущее".

Также заметим, что метод наименьших квадратов можно использовать не только для полиномов, но и для других семейств функций, например, для логарифмов и экспонент:

Степень достоверности модели, построенной на основе метода наименьших квадратов, может быть определена на основе меры "R-квадрат", или коэффициента детерминации. Он вычисляется как

Здесь . Чем ближе R 2 к 1, тем адекватнее модель.

Выявление выбросов

Выбросом ряда данных называется аномальное значение, резко выделяющееся в общей выборке или общем ряде. Например, пусть процент граждан страны, положительно относящихся к некоторому политику, составлял в 2008–2013 гг. соответственно 15, 16, 12, 30, 14 и 12%. Легко заметить, что одно из значений резко отличается от всех остальных. В 2011 г. рейтинг политика почему-то резко превысил обычные значения, державшиеся в пределах 12–16%. Наличие выбросов может быть обусловлено разными причинами:

  • 1) ошибки измерения;
  • 2) необычная природа входных данных (например, когда анализируется средний процент голосов, полученных политиком; это значение на избирательном участке в военной части может существенно отличаться от среднего значения по городу);
  • 3) следствие закона (резко отличающиеся от остальных величины могут быть обусловлены математическим законом – например, в случае нормального распределения в выборку может попасть объект со значением, резко отличным от среднего);
  • 4) катаклизмы (например, в период короткого, но острого политического противостояния уровень политической активности населения может резко измениться, как это произошло в ходе "цветных революций" 2000– 2005 гг. и "арабской весны" 2011 г.);
  • 5) управляющие воздействия (например, если в год накануне исследования политик принял очень популярное решение, то в этот год его рейтинг может оказаться значительно выше, чем в другие годы).

Многие методы анализа данных неустойчивы к выбросам, поэтому для их эффективного применения нужно очистить данные от выбросов. Яркий пример неустойчивого метода – упомянутый выше метод наименьших квадратов. Простейший метод поиска выбросов основан на так называемом межквартильном расстоянии. Определяем диапазон

где Q m значение т- го квартиля. Если некоторый член ряда не попадает в диапазон, то он расценивается как выброс.

Поясним на примере. Смысл квартилей состоит в том, что они делят ряд на четыре равные или примерно равные группы: первый квартиль "отделяет" левую четверть ряда, отсортированного по возрастанию, третий квартиль – правую четверть ряда, второй квартиль проходит посередине. Поясним, как искать Q 1, и Q 3. Пусть в отсортированном по возрастанию числовом ряду п значений. Если п + 1 делится на 4 без остатка, то Q k суть k (п + 1)/4-й член ряда. Например, дан ряд: 1, 2, 5, 6, 7, 8, 10, 11, 13, 15, 20, здесь количество членов п = 11. Тогда (п + 1)/4 = 3, т.е. первый квартиль Q 1 = 5 – третий член ряда; 3(п + 1)/4 = 9, т.е. третий квартиль Q:i= 13 – девятый член ряда.

Немного сложнее случай, когда п + 1 не кратно 4. Например, дан ряд 2, 3, 5, 6, 7, 8, 9, 30, 32, 100, где число членов п = 10. Тогда (п + 1)/4 = 2,75 -

позиция между вторым членом ряда (v2 = 3) и третьим членом ряда (v3= 5). Тогда берем величину 0,75v2 + 0,25v3 = 0,75 3 + 0,25 5 = 3,5 – это и будет Q 1. 3(п + 1)/4 = 8,25 – позиция между восьмым членом ряда (v8= 30) и девятым членом ряда (v9=32). Берем величину 0,25v8 + 0,75v9 = 0,25 30 + + 0,75 32 = 31,5 – это и будет Q 3. Существуют и другие варианты вычисления Q 1 и Q 3, но рекомендуется использовать изложенный здесь вариант.

  • Строго говоря, на практике обычно встречается "приближенно" нормальный закон – поскольку нормальный закон определяется для непрерывной величины на всей действительной оси, многие реальные величины не могут строго удовлетворять свойствам нормально распределенных величин.
  • Наследов А. Д. Математические методы психологического исследования. Анализ и интерпретация данных: учеб, пособие. СПб.: Речь, 2004. С. 49–51.
  • О важнейших распределениях случайных величин см., например: Орлов А. И. Математика случая: вероятность и статистика – основные факты: учеб. пособие. М.: МЗ-Пресс, 2004.