Методы математической статистики. Математическая статистика для специалистов различных областей Математическая статистика значение

1. Основные понятия и определения

статистика выборка совокупность бернулли

Понятие статистики

Статистика, вернее ее методы исследования, широко применяется в различных областях человеческих знаний. Однако, как любая наука, она требует определения предмета ее исследования. В связи с этим различают статистику, занимающуюся изучением социально-экономических явлений, которая относится к циклу общественных наук, и статистику, занимающуюся закономерностями явлений природы, которая относится к наукам естественным.

Авторы большинства современных отечественных вузовских учебников по теории статистики (общей теории статистики) под статистикой понимают предметную общественную науку, т.е. науку, имеющую свои особые предмет и метод познания.

Статистика - общественная наука, которая изучает количественную сторону качественно определенных массовых социально-экономических явлений и процессов, их структуру и распределение, размещение в пространстве, движение во времени, выявляя действующие количественные зависимости, тенденции и закономерности, причем в конкретных условиях места и времени.

Предмет статистики

Статистика как наука исследует не отдельные факты, а массовые социально-экономические явления и процессы, выступающие как множество отдельных факторов, обладающих как индивидуальными, так и общими признаками.

Объект статистического исследования в статистике называют статистической совокупностью.

Статистическая совокупность - это множество единиц, обладающих массовостью, однородностью, определенной целостностью, взаимозависимостью состояния отдельных единиц и наличием вариации.

Например, в качестве особых объектов статистического исследования, т.е. статистических совокупностей, может выступать множество коммерческих банков, зарегистрированных на территории Российской Федерации, множество акционерных обществ, множество граждан какой-либо страны и т.д. Важно помнить, что статистическая совокупность состоит из реально существующих материальных объектов.

Каждый отдельно взятый элемент данного множества называется единицей статистической совокупности.

Единицы статистической совокупности характеризуются общими свойствами, именуемыми в статистике признаками , т.е. под качественной однородностью совокупности понимается сходство единиц (объектов, явлений, процессов) по каким-либо существенным признакам, но различающихся по каким-либо другим признакам.

Единицы совокупности наряду с общими для всех единиц признаками, обусловливающими качественную определенность совокупности, также обладают индивидуальными особенностями и различиями, отличающими их друг от друга, т.е. существует вариация признаков . Она обусловлена различным сочетанием условий, которые определяют развитие элементов множества.

Например, уровень производительности труда работников банка определяется его возрастом, квалификацией, отношением к труду и т.д.

Именно наличие вариации предопределяет необходимость статистики . Вариация признака может отражаться статистическим распределением единиц совокупности.

Статистика как наука изучает, прежде всего, количественную сторону общественных явлений и процессов в конкретных условиях места и времени, т.е. предметом статистики выступают размеры и количественные соотношения социально-экономических явлений, закономерности их связи и развития.

Количественную характеристику статистика выражает через определенного рода числа, которые называются статистическими показателями.

Статистический показатель отражает результат измерения у единиц совокупности и совокупности в целом.

Теоретические основы статистики как науки

Теоретическую основу любой науки, в том числе и статистики, составляют понятия и категории, в совокупности которых выражаются основные принципы данной науки.

Статистические совокупности обладают определенными свойствами, носителями которых выступают единицы совокупности (явления), обладающие определенными признаками. По форме внешнего выражения признаки делятся на атрибутивные (описательные, качественные) и количественные. Атрибутивные (качественные) признаки не поддаются количественному (числовому) выражению.

Количественные признаки можно разделить на дискретные и непрерывные.

Важной категорией статистики является также статистическая закономерность.

Статистическая закономерность - это форма проявления причинной связи, выражающаяся в последовательности, регулярности, повторяемости событий с достаточно высокой степенью вероятности, если причины (условия), порождающие события, не изменяются или изменяются незначительно.

Статистическая закономерность устанавливается на основе анализа массовых данных. Это обусловливает ее взаимосвязь с законом больших чисел.

Сущность закона больших чисел заключается в том, что в числах, суммирующих результат массовых наблюдений, выступают определенные правильности, которые не могут быть обнаружены на небольшом числе факторов. Закон больших чисел порожден свойствами массовых явлений. Тенденции и закономерности, вскрытые с помощью закона больших чисел, имеют силу лишь как массовые тенденции, но не как законы для каждого отдельного, индивидуального случая.

Метод статистики

Статистика как наука выработала приемы и способы изучения массовых общественных явлений, зависящие от особенностей ее предмета и задач, которые ставятся при его изучении. Приемы и способы, с помощью которых статистика изучает свой предмет, образуют статистическую методологию.

Под статистической методологией понимается система приемов, способов и методов, направленных на изучение количественных закономерностей, проявляющихся в структуре, динамике и взаимосвязях социально-экономических явлений.

Задача статистического исследования состоит в получении обобщающих характеристик и выявлении закономерностей в общественной жизни в конкретных условиях места и времени, которые проявляются лишь в большой массе явлений через преодоление свойственной ее единичным элементам случайности.

Статистическое исследование состоит из трех стадий:

статистическое наблюдение;

сводка и группировка результатов наблюдения;

анализ полученных обобщающих показателей.

Все три стадии связаны между собой, и на каждой из них используются специальные методы, объясняемые содержанием выполняемой работы.

Понятие о выборочном наблюдении

Статистическая методология исследования массовых явлений различает, как известно, два способа наблюдения в зависимости от полноты охвата объекта: сплошное и несплошное. Разновидностью несплошного наблюдения является выборочное.

Под выборочным наблюдением понимается такое несплошное наблюдение, при котором статистическому обследованию (наблюдению) подвергаются единицы изучаемой совокупности, отобранные случайным способом.

Выборочное наблюдение ставит перед собой задачу - по обследуемой части дать характеристику всей совокупности единиц при условии соблюдения всех правил и принципов проведения статистического наблюдения и научно организованной работы по отбору единиц.

Выборочный метод позволяет получить необходимые сведения приемлемой точности, когда факторы времени и стоимости делают сплошную разработку нецелесообразной.

Характеристики выборочной и генеральной совокупности

Совокупность отобранных для обследования единиц в статистике принято называть выборочной , а совокупность единиц, из которых производится отбор, - генеральной .

Основные характеристики параметров генеральной и выборочной совокупностей обозначаются определенными символами (табл. 1.1 ).

Таблица 1.1 Символы основных характеристик параметров генеральной и выборочной совокупностей

Характеристика

Генеральная совокупность

Выборочная совокупность

Объем совокупности (численность единиц)

Численность единиц, обладающих обследуемым признаком

Доля единиц, обладающих обследуемым признаком

Средний размер признака

Дисперсия количественного признака

Дисперсия доли

В процессе проведения выборочного наблюдения, как и вообще при анализе данных любого обследования, статистика выделяет два вида ошибок: регистрации и репрезентативности.

Ошибки регистрации могут иметь случайный (непреднамеренный) или систематический (тенденциозный) характер. Их можно избежать при правильной организации и проведении наблюдения.

Ошибки репрезентативности органически присущи выборочному наблюдению и возникают в силу того, что выборочная совокупность не полностью воспроизводит генеральную.

Избежать ошибок репрезентативности нельзя, однако, пользуясь методами теории вероятностей, основанными на использовании предельных теорем закона больших чисел, эти ошибки можно свести к минимальным значениям, границы которых устанавливаются с достаточно большой точностью;

Ошибка выборочного наблюдения - это разность между величиной параметра в генеральной совокупности и его величиной, вычисленной по результатам выборочного наблюдения.

Для среднего значения ошибка будет определяться так:

Где, . (1.1)

Величина называется предельной ошибкой выборки .

Предельная ошибка выборки величина случайная. Исследованию закономерностей случайных ошибок выборки посвящены предельные теоремы закона больших чисел.

Наиболее полно эти закономерности раскрыты в теоремах Л.Л. Чебышева и А.М. Ляпунова.

Теорема П. Л. Чебышева : при достаточно большом числе независимых наблюдений можно с вероятностью, близкой к единице (т.е. почти с достоверностью), утверждать, что отклонение выборочной средней от генеральной будет сколько угодно малым.

В теореме доказано, что величина ошибки не должна превышать.

В свою очередь, величина, выражающая среднее квадратическое отклонение выборочной средней от генеральной средней, зависит от колеблемости признака в генеральной совокупности и числа отобранных единиц.

Эта зависимость выражается формулой

где - средняя ошибка выборки (зависит и от способа производства выборки);

Генеральная дисперсия;

Объем выборочной совокупности.

Нетрудно убедиться, что при отборе большого числа единиц расхождения между средними будут меньше, т.е. существует обратная связь между, средней ошибкой выборки и числом отобранных единиц.

Можно доказать, что увеличение колеблемости признака влечет за собой увеличение среднего квадратического отклонения, а, следовательно, и ошибки.

Соотношение между дисперсиями генеральной и выборочной совокупности выражается формулой

Так как величина при достаточно больших близка к, можно приближенно считать, что выборочная дисперсия равна генеральной дисперсии, т.е. .

Следовательно, средняя ошибка выборки показывает , какие возможны отклонения характеристик выборочной совокупности от соответствующих характеристик генеральной совокупности. Однако о величине этой ошибки можно судить с определенной вероятностью. На величину вероятности указывает множитель.

А. М. Ляпунов доказал, что распределение выборочных средних (а, следовательно, и их отклонений от генеральной средней) при достаточно большом числе независимых наблюдений приближенно нормально при условии, что генеральная совокупность обладает конечной средней и ограниченной дисперсией.

Математически теорему Ляпунова можно записать так:

где - предельная ошибка выборки .

Значения этого интеграла для различных значений коэффициента доверия вычислены и приводятся в специальных математических таблицах.

Например:

t = 1 F (t) = 0.683; t = 1.5 F (t) = 0.866;

t = 2 F (t) = 0.954; t = 2.5 F (t) = 0.988;

t = 3 F (t) = 0.997; t = 3.5 F (t) = 0.999.

Это может быть прочитано так: с вероятностью можно утверждать, что разность между выборочной и генеральной средними не превышает одной величины средней ошибки выборки.

Другими словами, в случаев ошибка репрезентативности не выйдет за пределы и т.д.

Зная выборочную среднюю величину признака и предельную ошибку выборки, можно определить границы (пределы), в которых заключена генеральная средняя:

Теорема Бернулли рассматривает ошибку выборки для альтернативного признака, у которого возможны только два исхода: наличие признака () и отсутствие его (0).

Теорема Бернулли утверждает , что при достаточно большом объеме выборки вероятность расхождения между долей признака в выборочной совокупности () и долей признака в генеральной совокупности () будет стремиться к единице:

т.е. с вероятностью, сколько угодно близкой к единице, можно утверждать, что при достаточно большом объеме выборки частость признака (выборочная доля) сколько угодно мало будет отличаться от доли признака (в генеральной совокупности).

Ввиду того, что вероятность расхождения между частостью и долей следует закону нормального распределения, эту вероятность можно найти по функции в зависимости от задаваемой величины.

Средняя ошибка выборки для альтернативного признака определяется по формуле

Поскольку доля признака в выборочной совокупности неизвестна, ее необходимо заменить через долю того же признака в генеральной совокупности, т.е. принять, а дисперсию альтернативного признака принять за.

Тогда средняя, ошибка выборки выразится формулой

Предельная величина разности между частостью и долей называется предельной ошибкой выборки .

О величине предельной ошибки можно судить с некоторой вероятностью, которая зависит от множителя, поскольку.

Зная выборочную долю признака и предельную ошибку выборки, можно определить границы, в которых заключена генеральная доля:

Результаты выборочного статистического исследования во многом зависят от уровня подготовки процесса наблюдения.

Под уровнем подготовки в данном случае подразумевается соблюдение определенных правил и принципов проектирования выборочного обследования. Важнейшим элементом проектирования является составление организационного плана выборочного наблюдения.

В организационный план включаются следующие вопросы:

  • 1. Постановка цели и задачи наблюдения.
  • 2. Определение границ объекта исследования.
  • 3. Отработка программы наблюдения (составление анкеты, опросного листа, формы отчета и т.д.) и разработка ее материалов.
  • 4. Определение процедуры отбора, способа отбора и объема выборки.
  • 5. Подготовка кадров для проведения наблюдения, размножение формуляров, инструктивных документов и др.
  • 6. Расчет выборочных характеристик и определение ошибок выборки.
  • 7. Распространение выборочных данных на всю совокупность.
  • 2. Основные способы формирования выборочной cовокупности

Достоверность рассчитанных по выборочным данным характеристик в значительной степени определяется репрезентативностью выборочной совокупности, которая, в свою очередь, зависит от способа отбора единиц из генеральной совокупности.

По виду различают индивидуальный, групповой и комбинированный отбор.

При индивидуальном отборе в выборочную совокупность отбираются отдельные единицы генеральной совокупности, при групповом отборе - группы единиц, а комбинированный отбор предполагает сочетание группового и индивидуального отбора.

Метод отбора определяет возможность продолжения участия отобранной единицы в процедуре отбора.

Бесповторным называется такой отбор, при котором попавшая в выборку единица не возвращается в совокупность, из которой осуществляется дальнейший отбор.

При повторном отборе попавшая в выборку единица после регистрации наблюдаемых признаков возвращается в исходную (генеральную) совокупность для участия в дальнейшей процедуре отбора.

При этом методе объем генеральной совокупности остается неизменным, что обусловливает постоянную вероятность попадания в выборку всех единиц совокупности.

В практике выборочных обследований наибольшее распространение получи ли следующие выборки:

собственно-случайная;

механическая;

типическая;

серийная;

комбинированная.

Собственно-случайная выборка

При такой выборке отбор единиц из генеральной совокупности производится наугад или наудачу, без каких-либо элементов системности. При этом все без исключения единицы генеральной совокупности должны иметь абсолютно равные шансы попадания в выборку.

Технически собственно-случайный отбор проводят методом жеребьевки или по таблице случайных чисел.

Собственно-случайный отбор может быть как повторным, так и бесповторным.

Предположим, в результате выборочного обследования жилищных условий жителей города, осуществленного на основе собственно-случайной повторной выборки, получен следующий ряд распределения (табл. 2.1 ).

Таблица 2.1 Результаты выборочного обследования жилищных условий жителей города

Для определения средней ошибки выборки необходимо рассчитать выборочную среднюю величину и дисперсию изучаемого признака (т. 2.2).

Таблица 2.2 Расчет средней общей (полезной) площади жилищ, приходящейся на 1 человека, и дисперсии

Общая (полезная) площадь жилищ, приходится на 1 чел, м 2

Число жителей f

Середина интервала x

  • 5,0-10,0
  • 10,0-15,0
  • 15,0-20,0
  • 20,0-25,0
  • 25,0-30,0
  • 30,0 и более
  • 712,5
  • 2550,0
  • 4725,0
  • 4725,0
  • 3575,0
  • 2697,5
  • 5343,75
  • 31875,0
  • 82687,5
  • 106312,5
  • 98312,5
  • 87668,75

Средняя ошибка выборки составит:

Определим предельную ошибку выборки с вероятностью:

Установим границы генеральной средней:

Таким образом, на основании проведенного выборочного обследования с вероятностью можно заключить, что средний размер общей площади, приходящейся на одного человека, в целом по городу лежит в пределах от до.

При расчете средней ошибки собственно-случайной бесповторной выборки необходимо учитывать поправку на бесповторность отбора:

Если предположить, что представленные в табл. 2.1 данные являются результатом бесповторного отбора (генеральная совокупность включает единиц), то средняя ошибка выборки будет несколько меньше:

Соответственно уменьшится и предельная ошибка выборки, что вызовет сужение границ генеральной средней.

Воспользуемся еще раз данными табл. 2.1 для того, чтобы определить границы доли лиц, обеспеченность жильем которых составляет менее.

Согласно результатам обследования, численность таких лиц составила человека.

Определим выборочную долю и дисперсию:

Рассчитаем среднюю ошибку выборки:

Предельная ошибка выборки с заданной вероятностью составит:

Определим границы генеральной доли:

Следовательно, с вероятностью можно утверждать, что доля лиц, имеющих менее на человека, в целом по городу находится в пределах от до.

Механическая выборка

Механическая выборка применяется в случаях, когда генеральная совокупность каким-либо образом упорядочена, т.е. имеется определенная последовательность в расположении единиц (списки избирателей, телефонные номера респондентов, номера домов и квартир и т.п.).

Для проведения механической выборки устанавливается пропорция отбора, которая определяется соотнесением объемов выборочной и генеральной совокупностей.

Отбор единиц осуществляется в соответствии с установленной пропорцией через равные интервалы. Например, при пропорции (выборка) отбирается каждая единица.

Генеральную совокупность при механическом отборе можно ранжировать или упорядочить по величине изучаемого или коррелирующего с ним признака, что позволит повысить репрезентативность выборки.

Однако в этом случае возрастает опасность систематической ошибки, связанной с занижением значения изучаемого признака (если из каждого интервала регистрируется первое значение) или его завышением (если из каждого интервала регистрируется последнее значение).

Целесообразно отбор начинать с середины первого интервала, например при выборке отобрать и с таким же интервалом последующие единицы

Для определения средней ошибки механической выборки используется формула средней ошибки при собственно-случайном бесповторном отборе.

Типический отбор

Этот способ отбора используется в тех случаях, когда все единицы генеральной совокупности можно разбить на несколько типических групп.

Типический отбор предполагает выборку единиц из каждой типической группы собственно-случайным или механическим способом.

Отбор единиц в типическую выборку может быть организован либо пропорционально объему типических групп, либо пропорционально внутригрупповой дифференциации признака.

При выборке, пропорциональной объему типических групп, число единиц, подлежащих отбору из каждой группы, определяется следующим образом:

где - объем группы;

Объем выборки из группы.

Средняя ошибка такой выборки находится по формулам:

- (повторный отбор); (2.1)

- (бесповторный отбор), (2.2)

где - средняя из внутригрупповых дисперсий.

При выборке, пропорциональной дифференциации признака, число наблюдений по каждой группе рассчитывается по формуле:

где - среднее квадратическое отклонение признака в группе.

Средняя ошибка такого отбора определяется следующим образом:

- (повторный отбор), (2.4)

- (бесповторный отбор). (2.5)

Рассмотрим оба варианта типической выборки на условном примере.

Предположим, бесповторный типический отбор рабочих предприятия, пропорциональный размерам цехов, проведенный с целью оценки потерь из-за временной нетрудоспособности привел к следующим результатам (табл. 2.3 ).

Таблица 2.3 Результаты обследования рабочих предприятия

Определим среднюю и предельную ошибки выборки (с вероятностью):

Рассчитаем выборочную среднюю:

С вероятностью можно сделать вывод, что среднее число дней временной нетрудоспособности одного рабочего в целом по предприятию находится в пределах:

Воспользуемся полученными внутригрупповыми дисперсиями для проведения отбора, пропорционального дифференциации признака.

Определим необходимый объем выборки по каждому цеху:

С учетом полученных значений рассчитаем среднюю ошибку выборки:

В данном случае средняя, а, следовательно, и предельная ошибки будут несколько меньше, что отразится и на границах генеральной средней.

Серийный отбор

Данный способ отбора удобен в тех случаях, когда единицы совокупности объединены в небольшие группы или серии. В качестве таких серий могут рассматриваться упаковки с определенным количеством готовой продукции, партии товара, студенческие группы, бригады и другие объединения.

Сущность серийной выборки заключается в собственно случайном либо механическом отборе серий, внутри который производится сплошное обследование единиц.

Средняя ошибка серийной выборки (при отборе равновеликих серий) зависит от величины только межгрупповой (межсерийной) дисперсии и определяется по следующим формулам:

(повторный отбор); (2.6)

(бесповторный отбор), (2.7)

где - число отобранных серий;

Общее число серий.

Межгрупповую дисперсию вычисляют следующим образом:

где - средняя серии;

Общая средняя по всей выборочной совокупности.

Комбинированный отбор

В практике статистических обследований помимо рассмотренных выше способов отбора применяется и их комбинация.

Можно комбинировать типическую и серийную выборки, когда серии отбираются в установленном порядке из нескольких типических групп. Возможна также комбинация серийного и собственно-случайного отборов, при которой отдельное единицы отбираются внутри серии в собственно-случайном порядке.

Ошибка такой выборки определяется ступенчатостью отбора.

Многоступенчатым называется отбор, при котором из генеральной совокупности сначала извлекаются укрупненные группы, потом - более мелкие и так до тех пор, пока не будут отобраны те единицы, которые подвергаются обследованию.

Многофазная выборка предполагает сохранение одной и той же единицы отбора на всех этапах его проведения, при этом отобранные на каждой стадии единицы подвергаются обследованию (на каждой последующей стадии отбора программа обследования расширяется).

Исходя из вышеизложенного, приведем формулы предельной ошибки выборки для наиболее часто используемых на практике способов формирования выборочной совокупности (табл. 2.4 ).

Таблица 2.4 Предельная ошибка выборки для некоторых способов формирования выборочной совокупности

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Введение

Математическая статистика -- наука о математических методах систематизации и использования статистических данных для научных и практических выводов. Во многих своих разделах математическая статистика опирается на теорию вероятностей позволяющую оценить надежность и точность выводов делаемых на основании ограниченного статистического материала (напр. оценить необходимый объем выборки для получения результатов требуемой точности при выборочном обследовании).

В теории вероятностей рассматриваются случайные величины с заданным распределением или случайные эксперименты свойства которых целиком известны. Предмет теории вероятностей -- свойства и взаимосвязи этих величин (распределений).

Но часто эксперимент представляет собой черный ящик выдающий лишь некие результаты по которым требуется сделать вывод о свойствах самого эксперимента. Наблюдатель имеет набор числовых (или их можно сделать числовыми) результатов полученных повторением одного и того же случайного эксперимента в одинаковых условиях.

При этом возникают например следующие вопросы: Если мы наблюдаем одну случайную величину -- как по набору ее значений в нескольких опытах сделать как можно более точный вывод о ее распределении? математический статистика дисперсия гистограмма

Примером такой серии экспериментов может служить социологический опрос набор экономических показателей или наконец последовательность гербов и решек при тысячекратном подбрасывании монеты. Все вышеприведенные факторы обуславливают актуальность и значимость тематики работы на современном этапе направленной на глубокое и всестороннее изучение основных понятий математической статистики.

1. Предмет и метод математической статистики

В зависимости от математической природы конкретных результатов наблюдений статистика математическая делится на статистику чисел многомерный статистический анализ анализ функций (процессов) и временных рядов статистику объектов нечисловой природы. Существенная часть статистики математической основана на вероятностных моделях. Выделяют общие задачи описания данных оценивания и проверки гипотез. Рассматривают и более частные задачи связанные с проведением выборочных обследований восстановлением зависимостей построением и использованием классификаций (типологий) и др.

Для описания данных строят таблицы диаграммы иные наглядные представления например корреляционные поля. Вероятностные модели обычно не применяются. Некоторые методы описания данных опираются на продвинутую теорию и возможности современных компьютеров. К ним относятся в частности кластер-анализ нацеленный на выделение групп объектов похожих друг на друга и многомерное шкалирование позволяющее наглядно представить объекты на плоскости в наименьшей степени исказив расстояния между ними.

Методы оценивания и проверки гипотез опираются на вероятностные модели порождения данных. Эти модели делятся на параметрические и непараметрические. В параметрических моделях предполагается что изучаемые объекты описываются функциями распределения зависящими от небольшого числа (1-4) числовых параметров. В непараметрических моделях функции распределения предполагаются произвольными непрерывными. В статистике математической оценивают параметры и характеристики распределения (математическое ожидание медиану дисперсию квантили и др.) плотности и функции распределения зависимости между переменными (на основе линейных и непараметрических коэффициентов корреляции а также параметрических или непараметрических оценок функций выражающих зависимости) и др. Используют точечные и интервальные (дающие границы для истинных значений) оценки.

В математической статистике есть общая теория проверки гипотез и большое число методов посвященных проверке конкретных гипотез. Рассматривают гипотезы о значениях параметров и характеристик о проверке однородности (то есть о совпадении характеристик или функций распределения в двух выборках) о согласии эмпирической функции распределения с заданной функцией распределения или с параметрическим семейством таких функций о симметрии распределения и др.

Большое значение имеет раздел математической статистики связанный с проведением выборочных обследований со свойствами различных схем организации выборок и построением адекватных методов оценивания и проверки гипотез.

Задачи восстановления зависимостей активно изучаются более 200 лет с момента разработки К. Гауссом в 1794 г. метода наименьших квадратов. В настоящее время наиболее актуальны методы поиска информативного подмножества переменных и непараметрические методы.

Разработка методов аппроксимации данных и сокращения размерности описания была начата более 100 лет назад когда К. Пирсон создал метод главных компонент. Позднее были разработаны факторный анализ и многочисленные нелинейные обобщения.

Различные методы построения (кластер-анализ) анализа и использования (дискриминантный анализ) классификаций (типологий) именуют также методами распознавания образов (с учителем и без) автоматической классификации и др.

Математические методы в статистике основаны либо на использовании сумм (на основе Центральной Предельной Теоремы теории вероятностей) или показателей различия (расстояний метрик) как в статистике объектов нечисловой природы. Строго обоснованы обычно лишь асимптотические результаты. В настоящее время компьютеры играют большую роль в математической статистике. Они используются как для расчетов так и для имитационного моделирования (в частности в методах размножения выборок и при изучении пригодности асимптотических результатов).

1.1 Основные понятия математической статистики

Исключительно важную роль в анализе многих психолого-педагогических явлений играют средние величины, представляющие собой обобщенную характеристи ку качественно однородной совокупности по определенному количественно му признаку. Нельзя, например, вычислить среднюю специальность или среднюю национальность студентов вуза, так как это качест венно разнородные явления. Зато можно и нужно определить в среднем числовую характеристику их успеваемости (средний балл), эффек тивности методических систем и приемов и т. д.

В психолого-педагогических исследованиях обычно применяются различные виды средних величин: средняя арифметическая, сред няя геометрическая, медиана, мода и другие. Наиболее распространенными являются средняя арифметическая, медиана и мода.

Средняя арифметическая применяется в тех случаях, когда между определяю щим свойством и данным признаком имеется прямо пропорциональная зави симость (например, при улучшении показателей работы учебной группы улучшаются показатели работы каждого ее члена).

Средняя арифметическая представляет собой частное от деления сум мы величин на их число и вычисляется по формуле:

Размещено на http://www.allbest.ru/

где Х - средняя арифметическая; X1, X2, Х3 ... Хn - результаты отдельных наблюдений (приемов, действий),

n - количество наблюдений (приемов, действий),

Сумма результатов всех наблюдений (приемов, действий).

Медианой (Ме) называется мера среднего положения, характеризующая значение признака на упорядоченной (построенной по признаку возрастания или убывания) шкале, которое соответствует середине исследуемой совокупности. Медиана может быть определена для порядковых и количественных признаков. Место расположения этого значения определяется по формуле:

Место медианы = (n + 1) / 2

Например. По результатам исследования установлено, что:

На “отлично” учатся - 5 человек из участвующих в эксперименте;

На “хорошо” учатся - 18 человек;

На “удовлетворительно” - 22 человека;

На “неудовлетворительно” - 6 человек.

Так как всего в эксперименте принимало участие N = 54 человека, то середина выборки равна человек. Отсюда делается вывод, что больше половины обучающихся учатся ниже оценки “хорошо”, то есть медиана больше “удовлетворительно”, но меньше “хорошо”.

Мода (Мо) - наиболее часто встречающееся типичное значение признака среди других значений. Она соответствует классу с максимальной частотой. Этот класс называется модальным значением.

Например.

Если на вопрос анкеты: “укажите степень владения иностранным языком”, ответы распределились:

1 - владею свободно - 25

2 - владею в достаточной степени для общения - 54

3 - владею, но испытываю трудности при общении - 253

4 - понимаю с трудом - 173

5 - не владею - 28

Очевидно, что наиболее типичным значением здесь является - “владею, но испытываю трудности при общении”, которое и будет модальным. Таким образом, мода равна - 253.

Важное значение при использовании в психолого-педагогическом исследовании математических методов уделяется расчету дисперсии и среднеквадратических (стандартных) отклонений.

Дисперсия равна среднему квадрату отклонений значения варианты от среднего значения. Она выступает как одна из характеристик индивидуальных результатов разброса значений исследуемой переменной (например, оценок учащихся) вокруг среднего значения. Вычисление дисперсии осуществляется путем определения: отклонения от среднего значения; квадрата указанного отклонения; суммы квадратов отклонения и среднего значения квадрата отклонения.

Значение дисперсии используется в различных статистических расчетах, но не имеет непосредственного наблюдаемого характера. Величиной, непосредственно связанной с содержанием наблюдаемой переменной, является среднее квадратическое отклонение.

Среднее квадратичное отклонение подтверждает типичность и показательность средней арифметической, отражает меру колебания численных значений признаков, из которых выводится средняя величина. Оно равно корню квадратному из дисперсии и определяется по формуле:

(2)Размещено на http://www.allbest.ru/

где: - средняя квадратическая. При малом числе наблюдения (действий) - менее 100 - в значении формулы следует ставить не “N”, а “N - 1”.

Средняя арифметическая и средняя квадратическая являются основны ми характеристиками полученных результатов в ходе исследования. Они позволяют обобщить данные, сравнить их, установить преимущества одной психолого-педагогической системы (программы) над другой.

Среднее квадратическое (стандартное) отклонение широко применяется как мера разброса для различных характеристик.

Оценивая результаты исследования важно определить рассеивание случайной величины около среднего значения. Это рассеивание описывается с помощью закона Гауса (закона нормального распределения вероятности случайной величины). Суть закона заключается в том, что при измерении некоторого признака в данной совокупности элементов всегда имеют место отклонения в обе стороны от нормы вследствие множества неконтролируемых причин, при этом, чем больше отклонения, тем реже они встречаются.

При дальнейшей обработке данных могут быть выявлены: коэффициент вариации (устойчивости) исследуемого явления, представляющий собой процентное отношение среднеквадратического отклонения к средней ариф метической; мера косости, показывающая, в какую сторону направлено преимущественное число отклонений; мера крутости, которая показывает степень скопления значений случайной величины около среднего и др. Все эти статистические данные помогают более полно выявить признаки изучаемых явлений.

Меры связи между переменными. Связи (зависимости) между двумя и более переменными в статистике называют корреляцией. Она оценивается с помощью значения коэффициента корреляции, который является мерой степени и величины этой связи.

Коэффициентов корреляции много. Рассмотрим лишь часть из них, которые учитывают наличие линейной связи между переменными. Их выбор зависит от шкал измерения переменных, зависимость между которыми необходимо оценить. Наиболее часто в психологии и педагогике применяются коэффициенты Пирсона и Спирмена.

1.2 Основные понятия выборочного метода

Пусть -- случайная величина наблюдаемая в случайном эксперименте. Предполагается что вероятностное пространство задано (и не будет нас интересовать).

Будем считать что проведя раз этот эксперимент в одинаковых условиях мы получили числа -- значения этой случайной величины в первом втором и т.д. экспериментах. Случайная величина имеет некоторое распределение которое нам частично или полностью неизвестно.

Рассмотрим подробнее набор называемый выборкой.

В серии уже произведенных экспериментов выборка -- это набор чисел. Но если эту серию экспериментов повторить еще раз то вместо этого набора мы получим новый набор чисел. Вместо числа появится другое число -- одно из значений случайной величины. То есть (и и и т.д.) -- переменная величина которая может принимать те же значения что и случайная величина и так же часто (с теми же вероятностями). Поэтому до опыта -- случайная величина одинаково распределенная с а после опыта -- число которое мы наблюдаем в данном первом эксперименте т.е. одно из возможных значений случайной величины.

Выборка объема -- это набор из независимых и одинаково распределенных случайных величин («копий ») имеющих как и распределение.

Что значит «по выборке сделать вывод о распределении»? Распределение характеризуется функцией распределения плотностью или таблицей набором числовых характеристик -- и т.д. По выборке нужно уметь строить приближения для всех этих характеристик.

1.3 Выборочное распределение

Рассмотрим реализацию выборки на одном элементарном исходе -- набор чисел. На подходящем вероятностном пространстве введем случайную величину принимающую значения с вероятностями по (если какие-то из значений совпали сложим вероятности соответствующее число раз).

Распределение величины называют эмпирическим или выборочным распределением. Вычислим математическое ожидание и дисперсию величины и введем обозначения для этих величин:

Точно так же вычислим и момент порядка

В общем случае обозначим через величину

Если при построении всех введенных нами характеристик считать выборку набором случайных величин то и сами эти характеристики -- -- станут величинами случайными. Эти характеристики выборочного распределения используют для оценки (приближения) соответствующих неизвестных характеристик истинного распределения.

Причина использования характеристик распределения для оценки характеристик истинного распределения (или) -- в близости этих распределений при больших.

Рассмотрим для примера подбрасываний правильного кубика. Пусть -- количество очков выпавших при -м броске. Предположим что единица в выборке встретится раз двойка -- раз и т.д. Тогда случайная величина будет принимать значения 1 6 с вероятностями соответственно. Но эти пропорции с ростом приближаются к согласно закону больших чисел. То есть распределение величины в некотором смысле сближается с истинным распределением числа очков выпадающих при подбрасывании правильного кубика.

1.4 Эмпирическая функция распределения гистограмма

Поскольку неизвестное распределение можно описать например его функцией распределения построим по выборке «оценку» для этой функции.

Определение 1. Эмпирической функцией распределения построенной по выборке объема называется случайная функция при каждом равная

Напоминание: Случайная функция

называется индикатором события. При каждом это -- случайная величина имеющая распределение Бернулли с параметром

Иначе говоря, при любом значение равное истинной вероятности случайной величине быть меньше оценивается долей элементов выборки меньших.

Если элементы выборки упорядочить по возрастанию (на каждом элементарном исходе) получится новый набор случайных величин называемый вариационным рядом:

Элемент называется -м членом вариационного ряда или -й порядковой статистикой.

Эмпирическая функция распределения имеет скачки в точках выборки величина скачка в точке равна где -- количество элементов выборки совпадающих с.

Можно построить эмпирическую функцию распределения по вариационному ряду:

Другой характеристикой распределения является таблица (для дискретных распределений) или плотность (для абсолютно непрерывных). Эмпирическим или выборочным аналогом таблицы или плотности является так называемая гистограмма. Гистограмма строится по группированным данным. Предполагаемую область значений случайной величины (или область выборочных данных) делят независимо от выборки на некоторое количество интервалов (не обязательно одинаковых). Пусть -- интервалы на прямой называемые интервалами группировки. Обозначим для через число элементов выборки попавших в интервал:

На каждом из интервалов строят прямоугольник площадь которого пропорциональна. Общая площадь всех прямоугольников должна равняться единице. Пусть -- длина интервала. Высота прямоугольника над равна

Полученная фигура называется гистограммой.

Разобьем отрезок на 4 равных отрезка. В отрезок попали 4 элемента выборки в -- 6 в -- 3 и в отрезок попали 2 элемента выборки. Строим гистограмму (рис. 2). На рис. 3 -- тоже гистограмма для той же выборки но при разбиении области на 5 равных отрезков.

В курсе «Эконометрика» утверждается, что наилучшим числом интервалов группировки («формула Стерджесса») является

Здесь -- десятичный логарифм, поэтому

т.е. при увеличении выборки вдвое число интервалов группировки увеличивается на 1. Заметим что чем больше интервалов группировки, тем лучше. Но если брать число интервалов скажем порядка,то с ростом гистограмма не будет приближаться к плотности.

Справедливо следующее утверждение:

Если плотность распределения элементов выборки является непрерывной функцией, то при так что имеет место поточечная сходимость по вероятности гистограммы к плотности.

Так что выбор логарифма разумен, но не является единственно возможным.

Размещено на Allbest.ru

...

Подобные документы

    Построение полигона относительных частот, эмпирической функции распределения, кумулянты и гистограммы. Расчет точечных оценок неизвестных числовых характеристик. Проверка гипотезы о виде распределения для простого и сгруппированного ряда распределения.

    курсовая работа , добавлен 28.09.2011

    Предмет, методы и понятия математической статистики, ее взаимосвязь с теорией вероятности. Основные понятия выборочного метода. Характеристика эмпирической функции распределения. Понятие гистограммы, принцип ее построения. Выборочное распределение.

    учебное пособие , добавлен 24.04.2009

    Классификация случайных событий. Функция распределения. Числовые характеристики дискретных случайных величин. Закон равномерного распределения вероятностей. Распределение Стьюдента. Задачи математической статистики. Оценки параметров совокупности.

    лекция , добавлен 12.12.2011

    Оценки параметров распределения, наиболее важные распределения, применяемые в математической статистике: нормальное распределение, распределения Пирсона, Стьюдента, Фишера. Факторное пространство, формулирование цели эксперимента и выбор откликов.

    реферат , добавлен 01.01.2011

    Числовые характеристики выборки. Статистический ряд и функция распределения. Понятие и графическое представление статистической совокупности. Метод наибольшего правдоподобия для нахождения плотности распределения. Применение метода наименьших квадратов.

    контрольная работа , добавлен 20.02.2011

    Задачи математической статистики. Распределение случайной величины на основе опытных данных. Эмпирическая функция распределения. Статистические оценки параметров распределения. Нормальный закон распределения случайной величины, проверка гипотезы.

    курсовая работа , добавлен 13.10.2009

    Статистическая обработка данных контроля времени (в часах) работы компьютерного класса в день. Полигон абсолютных частот. Построение графика эмпирической функции распределения и огибающей гистограммы. Теоретическое распределение генеральной совокупности.

    контрольная работа , добавлен 23.08.2015

    Обработка результатов информации по транспортным и технологическим машинам методом математической статистики. Определение интегральной функции нормального распределения, функции закона Вейбула. Определение величины сдвига к началу распределения параметра.

    контрольная работа , добавлен 05.03.2017

    Понятие математической статистики как науки о математических методах систематизации и использования статистических данных для научных и практических выводов. Точечные оценки параметров статистических распределений. Анализ вычисления средних величин.

    курсовая работа , добавлен 13.12.2014

    Основные понятия математической статистики, интервальные оценки. Метод моментов и метод максимального правдоподобия. Проверка статистических гипотез о виде закона распределения при помощи критерия Пирсона. Свойства оценок, непрерывные распределения.

  • 7. Базовая аппаратная конфигурация персонального компьютера. Системный блок: понятия, виды. Внутреннее устройство системного блока.
  • 8.Метеринская плата компьютера: понятие, назначение, хар-ка, логические схемы.
  • 9.Структура и основная хар-ка процессора как основной микросхемы комп-ра.Связь процессора с др устройствами. Компоненты магистрали комп-ра.
  • 10. Внутренняя память компьютера: оперативная и кэш-память, микросхема пзу и система bios, энергонезависимая память cmos. Носители и устройства внешней памяти.
  • 11. Конструкция, принцип действия, основные параметры жесткого диска.
  • 1. Протокол передачи данных.
  • 12. Классификация устройств ввода и вывода информации, порты комп-ра для подключения периферийных устройств.
  • 13. Виды и основные пользовательские характеристики современных мониторов.
  • 14. Принтеры: понятие, назначение, виды, принципы работы.
  • 15. Клавиатура: группы клавиш, назначение клавиш.
  • 16. Виды, принцип действия, регулируемые параметры мыши. Доп. Устройства комп-ра: модем, тв-тюнер, звуковая карта.
  • 17. Понятие и структура программного обеспечения персонального компьютера.
  • 18. Назначение, типы, ведущие функции операционной системы пк. Основные компоненты операционной системы: ядро, интерфейс, драйверы устройств.
  • 19. Понятие и типы файлов. Файловая структура комп-ра. Обслуживание файловой структуры персонального комп-ра.
  • 20. Прикладное по: понятие, значение, структура, виды, программы.
  • 21. Назначение и виды языков программирования. Составные компоненты системы программирования.
  • 22. Назначение и классификация служебных программных средств.
  • 23. Компьютерный вирус. Признаки вирусного заражения.
  • 24. Классификация вирусов.
  • 25. Виды антивирусных программ. Меры по защите эвм от вирусов.
  • 26. Понятие архивации. Методы и форматы сжатия информации. Основные идеи алгоритмов rle, Лемпеля-Зива, Хаффмана.
  • 27. База данных. Классификация. Модели баз данных. Достоинства и недостатки.
  • 28. Субд. Виды. Основные принципы создания.
  • 29. Автоматизированное рабочее место мед специалиста. Назначение, основные требования и принципы разработки.
  • 30. Совокупность решаемых с помощью арм задач и основные направления применения автоматизированных рабочих мест мед персоналом.
  • 31. Структурные компоненты и функциональные модули автоматизированных рабочих мест медицинских работников. Классификация автоматизированных рабочих мест сотрудников медицинских организаций.
  • 32. Знания как основа функционирования экспертных систем. Понятие, свойства и виды знаний.
  • 33. Экспертная система: понятие, назначение и структурные компоненты. Основные этапы разработки экспертной системы
  • 34. Базовые функции экспертных систем и требования к работе медицинских экспертных систем.
  • 35. Режимы функционирования и виды современных экспертных систем. Экспертная система и специалист: сравнительные преимущества и недостатки
  • 36. Понятие компьютерной сети. Основные требования, предъявляемые к современным компьютерным сетям
  • 37. Основные компоненты компьютерной сети
  • 38. Классификация компьютерных сетей. Топология кс. Виды. Преимущества и недостатки.
  • 39. Глобальная сеть Интернет. История создания. Общая характеристика Интернет. Принцип коммутации пакетов
  • 40. Протокол сети интернет. Возможности сети. «Всемирная паутина». Язык html.
  • 41. Телемедицина, задачи телемедицины. История развития. Основные направления телемедицины
  • 42. Предмет, цели и задачи медицинской информатики. Виды медицинской информации
  • 43. Классификация медицинских информационных систем (мис). Задачи мис
  • 44. Информационные технологии. Информационные системы
  • 45. Виды технологических информационных медицинских систем. Уровни развития мис
  • 46. История развития эвм. Поколения эвм. Современный этап развития вычислительной техники и ее перспективы
  • 47. Математическая статистика ее методы. Основные этапы статистической работы.
  • 48. Генеральная совокупность и выборка. Способы формирования выборки
  • 49. Вариационный ряд и его наглядное изображение. Построение гистограммы (алгоритм)
  • 50. Характеристики статистического распределения: характеристики положения; характеристики формы; характеристики рассеяния.
  • 51. Оценка параметров генеральной совокупности. Точечная и интервальная оценка. Доверительный интервал. Уровень значимости
  • 52. Дисперсионный анализ. Градации факторов и анализ. Простейшая схема варьирование при различий по одному фактору
  • 53. Дисперсионный анализ. Рабочая формула для вычисления средних квадратов
  • 54. Вычисление f-критерия для определения влияния изучаемого фактора. Количественная оценка влияния отдельных факторов.
  • 55. Понятие корреляции. Функциональная и корреляционная зависимости. Графики рассеяния.
  • 56. Коэффициент корреляции и его свойства.
  • 57. Регрессионный анализ. Линейная регрессия
  • 58. Ряды динамики. Понятие временного ряда. Виды ряда. Определение тренда
  • 59. Выравнивание динамических рядов: метод скользящей средней
  • 60. Выравнивание динамических рядов: метод наименьших квадратов
  • 61. Выравнивание динамических рядов: метод удлинения периодов
  • 62. Анализ динамических рядов. Хронологическая средняя. Абсолютный прирост ряда. Коэффициент роста
  • 63. Анализ динамических рядов. Хронологическая средняя. Темп роста. Темп прироста
  • 47. Математическая статистика ее методы. Основные этапы статистической работы.

    Математическая статистика - это научная дисциплина, предметом изучения которой является разработка методов регистрации, описания и анализа статистических экспериментальных данных, полученных в результате наблюдений массовых случайных явлений.

    Основными задачами математической статистики являются:

      определение закона распределения случайной величины или системы случайных величин;

      проверка правдоподобия гипотез;

      определение неизвестных параметров распределения.

    Все методы математической статистики основаны на теории вероятностей. Однако в силу специфичности решаемых задач математическая статистика выделяется из теории вероятностей в самостоятельную область. Если в теории вероятностей считается заданной модель явления и производится расчет возможного реального течения этого явления (рис.1), то в математической статистике подбирается подходящая теоретико-вероятностная модель, исходя из статистических данных (рис.2).

    Рис.1. Общая задача теории вероятностей

    Рис.2. Общая задача математической статистики

    Как научная дисциплина математическая статистика развивалась вместе с теорией вероятностей. Математический аппарат этой науки построен во второй половине XIX века.

    Основные этапы статистической работы.

    Любое статистическое исследование в себя 3 основных этапа:

      сбор – это массовое научно-организованное наблюдение, посредством которого получают первичную информацию об отдельных фактах (единицах) изучаемого явления. Данный статистический учет большого числа или всех входящих в состав изучаемого явления единиц является информационной базой для статистических обобщений, для формулирования выводов об изучаемом явлении или процессе;

      группировка и сводка. Под этими данными понимают распределение множества фактов (единиц) на однородные группы и подгруппы, итоговый подсчет по каждой группе и подгруппе и оформление полученных итогов в виде статистической таблицы;

      обработка и анализ. Статистический анализ заключает стадию статистического исследования. Он содержит в себе обработку статистических данных, которые были получены при сводке, интерпретацию полученных результатов с целью получения объективных выводов о состоянии изучаемого явления и о закономерностях его развития.

    48. Генеральная совокупность и выборка. Способы формирования выборки

    Генеральная совокупность (в англ. - population) - совокупность всех объектов (единиц), относительно которых учёный намерен делать выводы при изучении конкретной проблемы.

    Генеральная совокупность состоит из всех объектов, которые подлежат изучению. Состав генеральной совокупности зависит от целей исследования. Иногда генеральная совокупность - это все население определённого региона (например, когда изучается отношение потенциальных избирателей к кандидату), чаще всего задаётся несколько критериев, определяющих объект исследования. Например, мужчины 30-50 лет, использующие бритву определённой марки не реже раза в неделю, и имеющие доход не ниже $100 на одного члена семьи.

    Выборка или выборочная совокупность - множество случаев (испытуемых, объектов, событий, образцов), с помощью определённой процедуры выбранных из генеральной совокупности для участия в исследовании.

    Характеристики выборки:

      Качественная характеристика выборки – кого именно мы выбираем и какие способы построения выборки мы для этого используем

      Количественная характеристика выборки – сколько случаев выбираем, другими словами объём выборки.

    Необходимость выборки

      Объект исследования очень обширный. Например, потребители продукции глобальной компании – огромное количество территориально разбросанных рынков.

      Существует необходимость в сборе первичной информации.

    Объём выборки

    Объём выборки - число случаев, включённых в выборочную совокупность. Из статистических соображений рекомендуется, чтобы число случаев составляло не менее 30 – 35.

    Основные способы формирования выборки

    Формирование выборки прежде всего основывается на знании контура выборки, под которым понимается список всех единиц совокупности, из которого выбираются единицы выборки. Например, если в качестве совокупности рассматривать все автосервисные мастерские города Москвы, то надо иметь список таких мастерских, рассматриваемый как контур, в пределах которого формируется выборка.

    Контур выборки неизбежно содержит ошибку, называемую ошибкой контура выборки и характеризующую степень отклонения от истинных размеров совокупности. Очевидно, что не существует полно официального списка всех автосервисных мастерских г. Москвы. Исследователь должен информировать заказчика работы о размерах ошибки контура выборки.

    При формировании выборки используются вероятностные (случайные) и невероятностные (неслучайные) методы.

    Если все единицы выборки имеют известный шанс (вероятность) быть включенными в выборку, то выборка называется вероятностной. Если эта вероятность неизвестна, то выборка называется невероятностной. К сожалению, в большинстве маркетинговых исследований из-за невозможности точного определения размера совокупности не представляется возможным точно рассчитать вероятности. Поэтому термин «известная вероятность» скорее основан на использовании определенных методов формирования выборки, чем на знании точных размеров совокупности.

    Вероятностные методы включают в себя:

      простой случайный отбор;

      систематический отбор;

      кластерный отбор;

      стратифицированный отбор.

    Невероятностные методы:

      отбор на основе принципа удобства;

      отбор на основе суждений;

      формирование выборки в процессе опроса;

      формирование выборки на основе квот.

    Смысл метода отбора на основе принципа удобства заключается в том, что формирование выборки осуществляется самым удобным с позиций исследователя образом, например с позиций минимальных затрат времени и усилий, с позиций доступности респондентов. Выбор места исследования и состава выборки производится субъективным образом, например, опрос покупателей осуществляется в магазине, ближайшем к месту жительства исследователя. Очевидно, что многие представители совокупности не принимают участия в опросе.

    Формирование выборки на основе суждения основано на использовании мнения квалифицированных специалистов, экспертов относительно состава выборки. На основе такого подхода часто формируется состав фокус-группы.

    Формирование выборки в процессе опроса основано на расширении числа опрашиваемых исходя из предложений респондентов, которые уже приняли участие в обследовании. Первоначально исследователь формирует выборку намного меньшую, чем требуется для исследования, затем она по мере проведения расширяется.

    Формирование выборки на основе квот (квотный отбор) предполагает предварительное, исходя из целей исследования, определение численности групп респондентов, отвечающих определенным требованиям (признакам). Например, в целях исследования было принято решение, что в универмаге должно быть опрошено пятьдесят мужчин и пятьдесят женщин. Интервьюер проводит опрос, пока не выберет установленную квоту.

    Математическая статистика является одним из основных разделов такой науки, как математика, и представляет собой отрасль, изучающую методы и правила обработки определенных данных. Иными словами, она исследует способы раскрытия закономерностей, которые свойственны большим совокупностям одинаковых объектов, основываясь на их выборочном обследовании.

    Задача данного раздела состоит в построении методов оценки вероятности или принятии определенного решения о характере развивающихся событий, опираясь на полученные результаты. Для описания данных используются таблицы, диаграммы, а также корреляционные поля. применяются редко.

    Математическая статистика используются в различных областях науки. К примеру, для экономики важно обрабатывать сведения об однородных совокупностях явлений и объектов. Ими могут являться изделия, выпускаемые промышленностью, персонал, данные о прибыли и т. д. В зависимости от математической природы результатов наблюдений, можно выделить статистику чисел, анализ функций и объектов нечисловой природы, многомерный анализ. Помимо этого, рассматривают общие и частные (связанные с восстановлением зависимостей, использованием классификаций, выборочными исследованиями) задачи.

    Авторы некоторых учебников считают, что теория математической статистики является лишь разделом теории вероятности, другие - что это самостоятельная наука, имеющая собственные цели, задачи и методы. Однако в любом случае ее использование очень обширно.

    Так, наиболее ярко математическая статистика применима в психологии. Ее использование позволит специалисту правильно обосновать найти зависимость между данными, обобщить их, избежать многих логических ошибок и многое другое. Нужно отметить, что измерить тот или иной психологический феномен или свойство личности без вычислительных процедур часто просто невозможно. Это говорит о том, что азы данной науки необходимы. Иными словами, ее можно назвать источником и базой теории вероятностей.

    Метод исследования, который опирается на рассмотрение статистических данных, используется и в других областях. Однако сразу необходимо отметить, что его черты в применении к объектам, имеющим различную природу происхождения, всегда своеобразны. Поэтому объединять в одну науку физическую или не имеет смысла. Общие же черты данного метода сводятся к подсчету определенного числа объектов, которые входят в ту или иную группу, а также изучению распределения количественных признаков и применению теории вероятностей для получения тех или иных выводов.

    Элементы математической статистики используются в таких областях, как физика, астрономия и т. д. Здесь могут рассматриваться значения характеристик и параметров, гипотезы о совпадении каких-либо характеристик в двух выборках, о симметрии распределения и многое другое.

    Большую роль математическая статистика играет в проведении Их целью чаще всего является построение адекватных методов оценивания и проверка гипотез. В настоящее время огромное значение в данной науке имеют компьютерные технологии. Они позволяют не только значительно упростить процесс расчета, но и создать для размножения выборок или при изучении пригодности полученных результатов на практике.

    В общем случае методы математической статистики помогают сделать два вывода: или принять искомое суждение о характере или свойствах изучаемых данных и их взаимосвязей, или доказать, что полученных результатов недостаточно для того, чтобы делать выводы.

    Рассмотрим некоторые понятия и основные подходы к классификации погрешностей. По способу вычисления погрешности можно подразделить на абсолютные и относительные.

    Абсолютная погрешность равна разности среднего измерения величины х и истинного значения этой величины:

    В отдельных случаях, если это необходимо, рассчитывают погрешности еди­ничных определений:

    Заметим, что измеренной величиной в химическом анализе может быть как содержание компонента, так и аналитический сигнал. В зависимости от того, завышает или занижает погрешность результат анализа, погрешности могут быть положительные и отрицательные.

    Относительная погрешность может быть выражена в долях или про­центах и обычно знака не имеет:

    или

    Можно классифицировать погрешности по источникам их происхождения. Так как источников погрешностей чрезвычайно много, то их классификация не может быть однозначной.

    Чаще всего погрешности классифицируют по характеру при­чин, их вызывающих. При этом погрешности делят на систематиче­ ские и случайные, выделяют также промахи (или грубые погрешности).

    К систематическим относят погрешности, которые вызваны постоянно действующей причиной, постоянны во всех измерениях или меняются по постоянно действующему закону, могут быть выявлены и устранены.

    Случайные погрешности, причины появления которых неизвестны, могут быть оценены методами математической статистики.

    Промах - это погрешность, резко искажающая результат анализа и обычно легко обнаруживаемая, вызванная, как правило, небрежностью или некомпетентностью аналитика. На рис. 1.1 представлена схема, поясняющая понятия систематических и погрешностей и промахов. Прямая 1 отвечает тому идеальному случаю, когда во всех N определениях отсутствуют систематические и случайные погрешности. Линии 2 и 3 тоже идеализированные примеры химического анализа. В одном случае (прямая 2) полностью отсутствуют случайные погрешности, но все N определений имеют постоянную отрицательную систематическую погрешность Δх; в другом случае (линия 3) полностью отсутствует систематическая погрешность. Реальную ситуацию отражает линия 4: имеются как случайные, так и систематические погрешности.

    Рис. 4.2.1 Систематические и случайные погрешности химического анализа.

    Деление погрешностей на систематические и случайные в известной степени условно.

    Систематические погрешности одной выборки результатов при рассмотрении большего числа данных могут переходить в случайные. Например, систематическая погрешность, обусловленная неправильными показаниями прибора, при измерении аналитического сигнала на разных приборах в разных лабораториях переходит в случайную.

    Воспроизводимость характеризует степень близости друг к другу единичных определений, рассеяние единичных результатов относительно среднего (рис. 1.2).

    Рис. 4.2..2. Воспроизводимость и правильность химического анализа

    В отдельных случаях наряду с термином «воспроизводимость» используют термин «сходимость». При этом под сходимостью понимают рассеяние результатов параллельных определений, а под воспроизводимостью - рас­сеяние результатов, полученных разными методами, в разных лабораториях, в разное время и т. п.

    Правильность - это качество химического анализа, отражающее близость к нулю систематической погрешности. Правильность характеризует отклонение полученного результата анализа от истинного значения измеряемой величины (см. рис.1.2).

    Генеральная совокупность - гипотетическая совокупность всех мыслимых результатов от -∞ до +∞;

    Анализ экспериментальных данных показывает, что большие по значению погрешности наблюдаются реже , чем малые. Отмечается также, что при увеличении числа наблюдений одинаковые погрешности разного знака встречаются одинаково часто. Эти и другие свойства случайных погрешностей описываются нормальным распределением или уравнением Гаусса, которое описывает плотность вероятности
    .

    где х -значение случайной величины;

    μ – генеральное среднее (математическое ожидание -постоянный параметр);

    Математическое ожидание - для непрерывной случайной величины представляет собой предел, к которому стремится среднее при неограниченном увеличении выборки. Таким образом, математическое ожидание является средним значением для всей генеральной совокупности в целом, иногда его называют генеральным средним.

    σ 2 -дисперсия (постоянный параметр) - характеризует рассеяние случайной величины относительно своего математического ожидания;

    σ – стандартное отклонение.

    Дисперсия – характеризует рассеяние случайной величины относительно своего математического ожидания.

    Выборочная совокупность (выборка) - реальное число (n) результатов, которое имеет исследователь, n = 3 ÷ 10.

    Нормальный закон распределения неприемлем для обработки малого числа изменений выборочной совокупности (обычно 3 – 10) – даже если генеральная совокупность в целом распределена нормально. Для малых выборок вместо нормального распределения используют распределение Стьюдента (t – распределение) , которое связывает между собой три основные характеристики выборочной совокупности –

    Ширину доверительного интервала;

    Соответствующую ему вероятность;

    Объем выборочной совокупности.

    Перед обработкой данных с применением методов математической статистики необходимо выявить промахи (грубые ошибки) и исключить их из числа рассматриваемых результатов. Одним из наиболее простых является метод выявления промахов с применением Q – критерия с числом измерений n < 10:

    где R = х макс - х мин – размах варьирования; х 1 – подозрительно выделяющееся значение; х 2 – результат единичного определения, ближайший по значению к х 1 .

    Полученное значение сравнивают с критическим значением Q крит при доверительной вероятности Р = 0,95. Если Q > Q крит, выпадающий результат является промахом и его отбрасывают.

    Основные характеристики выборочной совокупности . Для выборки из n результатов рассчитывают среднее, :

    и дисперсию , характеризующую рассеяние результатов относительно среднего:

    Дисперсия в явном виде не может быть использована для количественной характеристики рассеяния результатов, поскольку ее размерность не совпадает с размерностью результата анализа. Для характеристики рассеяния используют стандартное отклонение, S .

    Эту величину называют также средним квадратичным (или квадратическим) отклонением или средней квадратичной погрешностью отдельного результата.

    О тносительное стандартное отклонение или коэффициент вариации (V) вычисляют по соотношению

    Дисперсию среднего арифметического вычисляют:

    и стандартное отклонение среднего

    Следует отметить, что все величины – дисперсия, стандартное отклонение и относительное стандартное отклонение, а так же дисперсия среднего арифметического и стандартное отклонение среднего арифметического – характеризуют воспроизводимость результатов химического анализа.

    Используемое при обработке небольших (n<20) выборок из нормально распределенной генеральной совокупности t – распределение (т.е. распределение нормированной случайной величины) характеризуется соотношением

    где t p , f распределение Стьюдента при числе степеней свободы f = n -1 и доверительной вероятности Р=0,95 (или уровня значимости р=0,05) .

    Значения t - распределения приведены в таблицах, по ним рассчитывают для выборки в n результатов величину доверительного интервала измеряемой величины для заданной доверительной вероятности по формуле

    Доверительный интервал характеризует как воспроизводимость результатов химического анализа, так и – если известно истинное значение х ист – их правильность.

    Пример выполнения контрольной работы № 2

    Задание

    При а нализе воздуха на содержание азота хроматографическим методом для двух серий опытов получены следующие результаты:

    Решение :

    Проверяем ряды на наличие грубых ошибок по Q-критерию. Для чего их располагаем результаты в ряд по убыванию (от минимума к максимуму или наоборот) :

    Первая серия:

    77,90<77,92<77,95<77,99<78,05<78,07<78,08<78,10

    Проверяем крайние результаты ряда (не содержат ли они грубую ошибку).

    Полученное значение сравниваем с табличным (табл.2 приложения). Для n=8, p=0,95 Q таб =0,55.

    Т.к. Q таб >Q 1 расчет, левая крайняя цифра не является «промахом».

    Проверяем крайнюю правую цифру

    Q расч

    Крайняя правая цифра так же не является ошибочной.

    Располагаем результаты второго ря да в порядке их возрастания:

    78,02<78,08<78,13<78,14<78,16<78,20<78,23<78,26.

    Проверяем крайние результаты опытов - не являются ли они ошибочными.

    Q (n=8, p=0,95)=0,55. Табличное значение.

    Крайнее левое значение – не ошибочное.

    Крайняя правая цифра (не является ли она ошибочной).

    Т.е. 0,125<0,55

    Крайнее правое число не является «промахом».

    Подвергаем результаты опытов статистической обработке.

      Вычисляем средневзвешенные результатов:

    - для первого ряда результатов.

    - для второго ряда результатов.

      Дисперсия относительно среднего:

    - для первого ряда.

    - для второго ряда.

      Стандартное отклонение:

    - для первого ряда.

    - для второго ряда.

      Стандартное отклонение среднего арифметического:

    При небольших (n<20) выборках из нормально распределенной генеральной совокупности следует использовать t – распределение, т.е. распределение Стьюдента при числе степени свободы f=n-1 и доверительной вероятности p=0,95.

    Пользуясь таблицами t – распределения, определяют для выборки в n – результатов величину доверительного интервала измеряемой величины для заданной доверительной вероятности. Этот интервал можно рассчитать:

    Сравниваем дисперсии и средние результаты двух выборочных совокупностей.

    Сравнение двух дисперсий проводится при помощи F- распределения (распределения Фишера). Если мы имеем две выборочные совокупности с дисперсиями S 2 1 и S 2 2 и числами степеней свободы f 1 =n 1 -1 и f 2 =n 2 -1, соответственно, то рассчитываем значение F:

    F=S 2 1 / S 2 2

    Причем в числителе всегда находится большая из двух сравниваемых выборочных дисперсий. Полученный результат сравнивают с табличным значением. Если F 0 > F крит (при р=0,95; n 1 , n 2), то расхождение между дисперсиями значимо и рассматриваемые выборочные совокупности различаются по воспроизводимости.

    Если расхождение между дисперсиями незначимо, возможно сравнить средние x 1 и х 2 двух выборочных совокупностей, т.е. выяснить, есть ли статистически значимая разница между результатами анализов. Для решения поставленной задачи используют t – распределение. Предварительно рассчитывают средневзвешенное двух дисперсий:

    И средневзвешенное стандартное отклонение

    а затем – величину t:

    Значение t эксп сравнивают с t крит при числе степеней свободы f=f 1 +f 2 =(n 1 +n 2 -2) и выборочной доверительной вероятности р=0,95. Если при этом t эксп > t крит ,то расхождение между средними и значимо и выборка не принадлежит одной и той же генеральной совокупности. Если t эксп < t крит, расхождение между средними незначимо, т.е. выборки принадлежат одной и той же генеральной совокупности, и, следовательно, данные обеих серий можно объединить и рассматривать их как одну выборочную совокупность из n 1 +n 2 результатов.

    Контрольное задание № 2

    Анализ воздуха на содержание компонента Х хроматографическим методом для двух серий дал следующие результаты (таблица-1).

    3. Принадлежат ли результаты обеих выборок и одной и той же генеральной совокупности. Проверить по критерию Стьюдента t (р = 0,95; n = 8).

    Таблица-4.2.1- Исходные данные по контрольному заданию № 2

    № варианта

    Ком-понент