Дисперсия принимает значения. Дисперсия и стандартное отклонение в MS EXCEL. Математическое ожидание дискретной случайной величины

Математическое ожидание показывает, вокруг которой численной меры группируются значения случайной величины. Однако, необходимо также иметь возможность измерять изменчивость (вариативность) случайной величины относительно математического ожидания. Таким показателем изменчивости является математическое ожидание квадрата разности между случайной величиной и ее математическим ожиданием, а именно M [(X - М [Х]) 2].

Определение. дисперсией случайной величины x называется число 14 DX] = M [(XM [X]) 2], (3.30)

или DX] = ± f (x t) o (*, - M [X]) 2.

На рис.3.26 приведены формулы для расчета распределения - статистической вероятности fx;) - а также показателей: математического ожидания М [Х] (ячейка Е9) и дисперсии D [X] (ячейка G9).

14 Предлагаем сравнить это определение с определением выборочной дисперсии

Рис. 3.26. Формулы расчета м [х] и 0 [Х] В таблице рис.3.27 показаны результаты расчета математического ожидания м [х] и дисперсии 0 [Х] по данным примера 3.14, а также гистограмму распределения м [х] = 4,00 (ячейка Е9) и дисперсия 0 [Х] = 1,00 (ячейка В9).

Математическое ожидание показывает, что значение случайной величины x группируются около значения 4,00, количество которых составляет 50% от общего количества. Однако, вокруг такого же значения могут группироваться и другие данные.

Рис. 3.27. Таблица и гистограмма распределения с А / [Х] = 4,00 и £> [Х] = 1,00

С рис.3.28 видно, что для математического ожиданиям [х] = 4,00 дисперсия £> [Х] = 2,32 является вдвое большей, чем по данным рис. 3.27. О значительной изменчивости свидетельствует и соответствующая гистограмма.

Рис. 3.28. Таблица и гистограмма распределения с М [Х] = 4,00 и £> [Х] = 2,32

Предлагаем сравнить таблицы и графики рис. 3.27 и 3.28 и сделать выводы. Свойства дисперсии случайной величины, которые постоянно используются в вероятностно статистические методы:

o если x - случайная величина, а и Ь - некоторые числа, В = ах + Ь, то

D = a 2 D [X] (3.31)

(это значит, что число а в качестве параметра масштаба существенно влияет на дисперсию, тогда как число b - параметр сдвига на значение дисперсии не влияет);

o если X 1, X 2, X n - попарно независимые случайные величины (то есть X t и X независимые для i Ф j), то дисперсия суммы равна сумме дисперсий

D = D + D + ... + D . (3.32)

Соотношение по математического ожидания (3.25) и дисперсии (3.32) имеют важное значение при изучении выборочных свойств, поскольку результаты выборочных наблюдений или измерений рассматриваются в математической статистике, как реализации независимых случайных величин.

С дисперсией случайной величины тесно связан еще один показатель изменчивости - стандартное отклонение.

Определение. Стандартным отклонением случайной величины x называется неотъемлемое число

SD [X] = + VD [X]. (3.33)

Итак, стандартное отклонениях однозначно связано с дисперсией.

В теории и практике статистических исследований также важную роль играют специальные функции - так называемые моменты (начальные и центральные), которые являются характеристиками случайных величин.

Определение. Исходным моментом k-то порядка случайной величины x называется математическое ожидание k-й степени этой величины:

~ K = M . 15 (3.34)

Определение. Центральным моментом k-то порядка случайной величины x называется математическое ожидание k-й степени отклонения этой величины x от его математического ожидания:

m = m k, где a = M [X].

Для обозначения мометнив случайных величин используем те же буквы, что и для мометнив вариационного ряда, но с дополнительным знаком ~ ("тильда").

Формулы для вычисления моментов дискретных (которые принимают значения Х и с вероятностью р) и непрерывных (с плотностью вероятности / х)) случайных

величин приведены в табл. 3.4.

Таблица 3.4

Формулы для вычисления моментов случайных величин

Как и для вариационных строк моменты дискретных случайных величин имеют аналогичный смысл:

Первый начальный момент (¿= 1) случайной величины Хе ее математическим ожиданием:

~ 1 = М [Х] = с. (3.36)

Второй центральный момент (¿= 2) определяет дисперсию 0 [Х] случайной величины x:

Ш г (хи - а) 2 г. и = ЦХ] = (Т 2. (3.37)

Третий центральный момент (¿= 3) характеризует асимметрию распределения случайной величины x:

п

Коэффициент асимметрии а распределения случайной величины x имеет вид:

Г = ~ X (хи "а) 3 Р и = А. (3.38)

Четвертый центральный момент (¿= 4) характеризует крутизну распределения случайной величины.

На основе сравнения значений теоретических и выборочных моментов выполняется оценивания параметров распределений случайных величин (см., Например, разделы 4 и 5).

Как отмечалось выше, в математической статистике используются два параллельных строки показателей: первый - имеет отношение к практике (это показатели выборки), второй - базируется на теории (это показатели вероятностной модели). Соотношение этих показателей представлены в табл. 3.5.

Таблица 3.5

Соотношение показателей эмпирической выборки и вероятностной модели

Таблица 3.5 продолжение

Итак, целью описательной статистики является превращение совокупности выборочных эмпирических данных на систему показателей - так называемых статистик, имеющие отношение к реально существующих объектов. Так, психологи, педагоги, другие специалисты работают в реальной сфере, объектами которой являются лица, группы лиц, коллективы, характеристиками для которых служат эмпирические показатели. Однако основная цель исследования - это получение нового знания, а знание существует в идеальной форме в виде характеристик теоретических моделей. Отсюда возникает проблема корректного перехода от эмпирических показателей реальных объектов к показателям теоретической модели. Этот переход требует анализа как общих методических подходов, так и строгих математических оснований. Принципиальную возможность здесь открывает закон больших чисел, теоретическое обоснование котором было предоставлено Якобом Бернулли (1654-1705), Пафнутием Львовичем Чебышевым (1821-1894) и другими математиками XIX в.

Вопрос. Задача.

1. Раскройте понятие случайной величины.

2. Чем отличаются дискретная и непрерывная случайные величины?

3. Из каких элементов состоит вероятностное пространство?

4. Как построить распределение дискретной случайной величины?

5. Как связаны между собой функция плотности Л (х) и функция распределения Б (х)?

6. Предоставьте геометрическую интерпретацию Интеграл Б (со) = | Л (х) сх = 1.

В теории измерений важное значение имеет второй центральный момент, называемый дисперсией результатов наблюдений или дисперсией случайной погрешности D 2 .

Найдем дисперсию случайной величины предыдущего примера по этой формуле:

Дисперсия случайной погрешности является характеристикой рассеяния результатов наблюдений относительно математического ожидания.

Дисперсия имеет размерность квадрата измеряемой физической величины, поэтому значительно чаще в метрологической практике пользуются средним квадратическим отклонением (СКО) результатов наблюдений, являющимся квадратным корнем из дисперсии: а = ^ DX. СКО имеет размерность измеряемой физической величины.

Плотность вероятности результатов наблюдений при различных значениях СКО погрешности имеет следующий вид (рис. 5.4).

Рис. 5.4

Чем больше о, тем более пологой и «расплывчатой» становится функция распределения.

Дисперсия обладает четырьмя свойствами.

Свойство 1. Дисперсия постоянной величины равна нулю: D(C) = 0.

Доказательство. По определению дисперсия случайной величины равна разности квадрата отклонений каждого значения этой величины и ее математического ожидания: D(X) = М[Х - М(Х)] 2 . Тогда D(C) = = М[С - М(С)] 2 . В соответствии с первым свойством математического ожидания (математическое ожидание постоянной величины равно самой величине) имеем D(C) = М(С - С) 2 = М(0) 2 = 0. Это говорит также о том, что постоянная величина сохраняет одно и то же значение и рассеяния не имеет.

Свойство 2. Постоянный множитель можно выносить за знак дисперсии, возведя его в квадрат:

Доказательство. По определению дисперсия случайной величины D(CX) = МСХ-М(СХ) 2 ]. В соответствии со вторым свойством математического ожидания (постоянный множитель можно выносить за знак математического ожидания)

Свойство 3. Дисперсия суммы двух независимых случайных величин равна сумме дисперсий этих величин:

Доказательство. По формуле для дисперсии имеем

Раскрыв скобки и используя свойство математического ожидания суммы нескольких величин и произведения двух независимых случайных величин, получим

Следствием этого свойства является то, что дисперсия суммы нескольких взаимно независимых случайных величин равна сумме дисперсий этих величин, а также то, что дисперсия суммы постоянной величины и случайной величины равна дисперсии случайной величины, т.е.

Свойство 4. Дисперсия разности двух независимых случайных величин равна сумме дисперсий этих величин: D(X- Y) = D(X) + D(Y).

Доказательство. В силу третьего свойства D(X- Y) = D(X) + D(- Y). По второму свойству дисперсии D(-Y) = (-1) 2 D(Y) = D(Y). Следовательно,

На основании этого свойства среднее квадратическое отклонение суммы конечного числа взаимно независимых случайных величин равно квадратному корню из суммы квадратов средних квадратических отклонений этих величин:

Известно, что по закону распределения можно найти числовые характеристики случайной величины. Это, в свою очередь, означает, что если несколько случайных величин имеют одинаковые законы распределения, то их числовые характеристики одинаковы.

Рассмотрим п независимых случайных величин Х р Х 2 ,..., Х п, которые имеют одинаковые распределения, а следовательно, и одинаковые характеристики (математическое ожидание, дисперсию и др.). С точки зрения теории измерений наибольший интерес представляет изучение числовых характеристик среднего арифметического этих величин.

Обозначив среднее арифметическое рассматриваемых случайных

величин как , установим связь между числовыми характеристиками этого среднего арифметического и соответствующими характеристиками математического ожидания, дисперсии и среднего квадратического отклонения среднего арифметического значения случайной величины.

1. Математическое ожидание среднего арифметического одинаково распределенных взаимно не связанных случайных величин равно математическому ожиданию а каждой из величин:

2. Дисперсия среднего арифметического п п раз меньше дисперсии D каждой из величин:

3. Среднее квадратическое отклонение среднего арифметического п одинаково распределенных независимых случайных величин в 4п раз меньше среднего квадратического отклонения а каждой из величин:

Пример. Среднее квадратическое отклонение каждой из 16 одинаково распределенных взаимно независимых случайных величин равно 10. Найти среднее квадратическое отклонение среднего арифметического а* этих величин.

Дисперсия в статистике находится как индивидуальных значений признака в квадрате от . В зависимости от исходных данных она определяется по формулам простой и взвешенной дисперсий:

1. (для несгруппированных данных) вычисляется по формуле:

2. Взвешенная дисперсия (для вариационного ряда):

где n — частота (повторяемость фактора Х)

Пример нахождения дисперсии

На данной странице описан стандартный пример нахождения дисперсии, также Вы можете посмотреть другие задачи на её нахождение

Пример 1. Имеются следующие данные по группе из 20 студентов заочного отделения. Нужно построить интервальный ряд распределения признака, рассчитать среднее значение признака и изучить его дисперсию

Построим интервальную группировку. Определим размах интервала по формуле:

где X max– максимальное значение группировочного признака;
X min–минимальное значение группировочного признака;
n – количество интервалов:

Принимаем n=5. Шаг равен: h = (192 — 159)/ 5 = 6,6

Составим интервальную группировку

Для дальнейших расчетов построим вспомогательную таблицу:

X’i– середина интервала. (например середина интервала 159 – 165,6 = 162,3)

Среднюю величину роста студентов определим по формуле средней арифметической взвешенной:

Определим дисперсию по формуле:

Формулу дисперсии можно преобразовать так:

Из этой формулы следует, что дисперсия равна разности средней из квадратов вариантов и квадрата и средней.

Дисперсия в вариационных рядах с равными интервалами по способу моментов может быть рассчитана следующим способом при использовании второго свойства дисперсии (разделив все варианты на величину интервала). Определении дисперсии , вычисленной по способу моментов, по следующей формуле менее трудоемок:

где i - величина интервала;
А - условный ноль, в качестве которого удобно использовать середину интервала, обладающего наибольшей частотой;
m1 — квадрат момента первого порядка;
m2 — момент второго порядка

(если в статистической совокупности признак изменяется так, что имеются только два взаимно исключающих друг друга варианта, то такая изменчивость называется альтернативной) может быть вычислена по формуле:

Подставляя в данную формулу дисперсии q =1- р, получаем:

Виды дисперсии

Общая дисперсия измеряет вариацию признака по всей совокупности в целом под влиянием всех факторов, обуславливающих эту вариацию. Она равняется среднему квадрату отклонений отдельных значений признака х от общего среднего значения х и может быть определена как простая дисперсия или взвешенная дисперсия.

характеризует случайную вариацию, т.е. часть вариации, которая обусловлена влиянием неучтенных факторов и не зависящую от признака-фактора, положенного в основание группировки. Такая дисперсия равна среднему квадрату отклонений отдельных значений признака внутри группы X от средней арифметической группы и может быть вычислена как простая дисперсия или как взвешенная дисперсия.

Таким образом, внутригрупповая дисперсия измеряет вариацию признака внутри группы и определяется по формуле:

где хi - групповая средняя;
ni - число единиц в группе.

Например, внутригрупповые дисперсии, которые надо определить в задаче изучения влияния квалификации рабочих на уровень производительности труда в цехе показывают вариации выработки в каждой группе, вызванные всеми возможными факторами (техническое состояние оборудования, обеспеченность инструментами и материалами, возраст рабочих, интенсивность труда и т.д.), кроме отличий в квалификационном разряде (внутри группы все рабочие имеют одну и ту же квалификацию).

Средняя из внутри групповых дисперсий отражает случайную , т. е. ту часть вариации, которая происходила под влиянием всех прочих факторов, за исключением фактора группировки. Она рассчитывается по формуле:

Характеризует систематическую вариацию результативного признака, которая обусловлена влиянием признака-фактора, положенного в основание группировки. Она равняется среднему квадрату отклонений групповых средних от общей средней. Межгрупповая дисперсия рассчитывается по формуле:

Правило сложения дисперсии в статистике

Согласно правилу сложения дисперсий общая дисперсия равна сумме средней из внутригрупповых и межгрупповых дисперсий:

Смысл этого правила заключается в том, что общая дисперсия, которая возникает под влиянием всех факторов, равняется сумме дисперсий, которые возникают под влиянием всех прочих факторов, и дисперсии, возникающей за счет фактора группировки.

Пользуясь формулой сложения дисперсий, можно определить по двум известным дисперсиям третью неизвестную, а также судить о силе влияния группировочного признака.

Свойства дисперсии

1. Если все значения признака уменьшить (увеличить) на одну и ту же постоянную величину, то дисперсия от этого не изменится.
2. Если все значения признака уменьшить (увеличить) в одно и то же число раз n, то дисперсия соответственно уменьшится (увеличить) в n^2 раз.

Дисперсия случайной величины является мерой разброса значений этой величины. Малая дисперсия означает, что значения сгруппированы близко друг к другу. Большая дисперсия свидетельствует о сильном разбросе значений. Понятие дисперсии случайной величины применяется в статистике. Например, если сравнить дисперсию значений двух величин (таких как результаты наблюдений за пациентами мужского и женского пола), можно проверить значимость некоторой переменной. Также дисперсия используется при построении статистических моделей, так как малая дисперсия может быть признаком того, что вы чрезмерно подгоняете значения.

Шаги

Вычисление дисперсии выборки

    Запишите значения выборки. В большинстве случаев статистикам доступны только выборки определенных генеральных совокупностей. Например, как правило, статистики не анализируют расходы на содержание совокупности всех автомобилей в России – они анализируют случайную выборку из нескольких тысяч автомобилей. Такая выборка поможет определить средние расходы на автомобиль, но, скорее всего, полученное значение будет далеко от реального.

    • Например, проанализируем количество булочек, проданных в кафе за 6 дней, взятых в случайном порядке. Выборка имеет следующий вид: 17, 15, 23, 7, 9, 13. Это выборка, а не совокупность, потому что у нас нет данных о проданных булочках за каждый день работы кафе.
    • Если вам дана совокупность, а не выборка значений, перейдите к следующему разделу.
  1. Запишите формулу для вычисления дисперсии выборки. Дисперсия является мерой разброса значений некоторой величины. Чем ближе значение дисперсии к нулю, тем ближе значения сгруппированы друг к другу. Работая с выборкой значений, используйте следующую формулу для вычисления дисперсии:

    Вычислите среднее значение выборки. Оно обозначается как x̅. Среднее значение выборки вычисляется как обычное среднее арифметическое: сложите все значения в выборке, а затем полученный результат разделите на количество значений в выборке.

    • В нашем примере сложите значения в выборке: 15 + 17 + 23 + 7 + 9 + 13 = 84
      Теперь результат разделите на количество значений в выборке (в нашем примере их 6): 84 ÷ 6 = 14.
      Выборочное среднее x̅ = 14.
    • Выборочное среднее – это центральное значение, вокруг которого распределены значения в выборке. Если значения в выборке группируются вокруг выборочного среднего, то дисперсия мала; в противном случае дисперсия велика.
  2. Вычтите выборочное среднее из каждого значения в выборке. Теперь вычислите разность x i {\displaystyle x_{i}} - x̅, где x i {\displaystyle x_{i}} – каждое значение в выборке. Каждый полученный результат свидетельствует о мере отклонения конкретного значения от выборочного среднего, то есть как далеко это значение находится от среднего значения выборки.

    Как отмечалось выше, сумма разностей x i {\displaystyle x_{i}} - x̅ должна быть равна нулю. Это означает, что средняя дисперсия всегда равна нулю, что не дает никакого представления о разбросе значений некоторой величины. Для решения этой проблемы возведите в квадрат каждую разность x i {\displaystyle x_{i}} - x̅. Это приведет к тому, что вы получите только положительные числа, которые при сложении никогда не дадут 0.

    Вычислите сумму квадратов разностей. То есть найдите ту часть формулы, которая записывается так: ∑[( x i {\displaystyle x_{i}} - x̅) 2 {\displaystyle ^{2}} ]. Здесь знак Σ означает сумму квадратов разностей для каждого значения x i {\displaystyle x_{i}} в выборке. Вы уже нашли квадраты разностей (x i {\displaystyle (x_{i}} - x̅) 2 {\displaystyle ^{2}} для каждого значения x i {\displaystyle x_{i}} в выборке; теперь просто сложите эти квадраты.

    • В нашем примере: 9 + 1 + 81 + 49 + 25 + 1 = 166 .
  3. Полученный результат разделите на n - 1, где n – количество значений в выборке. Некоторое время назад для вычисления дисперсии выборки статистики делили результат просто на n; в этом случае вы получите среднее значение квадрата дисперсии, которое идеально подходит для описания дисперсии данной выборки. Но помните, что любая выборка – это лишь небольшая часть генеральной совокупности значений. Если взять другую выборку и выполнить такие же вычисления, вы получите другой результат. Как выяснилось, деление на n - 1 (а не просто на n) дает более точную оценку дисперсии генеральной совокупности, в чем вы и заинтересованы. Деление на n – 1 стало общепринятым, поэтому оно включено в формулу для вычисления дисперсии выборки.

    Отличие дисперсии от стандартного отклонения. Заметьте, что в формуле присутствует показатель степени, поэтому дисперсия измеряется в квадратных единицах измерения анализируемой величины. Иногда такой величиной довольно сложно оперировать; в таких случаях пользуются стандартным отклонением, которое равно квадратному корню из дисперсии. Именно поэтому дисперсия выборки обозначается как s 2 {\displaystyle s^{2}} , а стандартное отклонение выборки – как s {\displaystyle s} .

    • В нашем примере стандартное отклонение выборки: s = √33,2 = 5,76.

    Вычисление дисперсии совокупности

    1. Проанализируйте некоторую совокупность значений. Совокупность включает в себя все значения рассматриваемой величины. Например, если вы изучаете возраст жителей Ленинградской области, то совокупность включает возраст всех жителей этой области. В случае работы с совокупностью рекомендуется создать таблицу и внести в нее значения совокупности. Рассмотрим следующий пример:

      Запишите формулу для вычисления дисперсии генеральной совокупности. Так как в совокупность входят все значения некоторой величины, то приведенная ниже формула позволяет получить точное значение дисперсии совокупности. Для того чтобы отличить дисперсию совокупности от дисперсии выборки (значение которой является лишь оценочным), статистики используют различные переменные:

      Вычислите среднее значение совокупности. При работе с генеральной совокупностью ее среднее значение обозначается как μ (мю). Среднее значение совокупности вычисляется как обычное среднее арифметическое: сложите все значения в генеральной совокупности, а затем полученный результат разделите на количество значений в генеральной совокупности.

      Вычтите среднее значение совокупности из каждого значения в генеральной совокупности. Чем ближе значение разности к нулю, тем ближе конкретное значение к среднему значению совокупности. Найдите разность между каждым значением в совокупности и ее средним значением, и вы получите первое представление о распределении значений.

      Возведите в квадрат каждый полученный результат. Значения разностей будут как положительными, так и отрицательными; если нанести эти значения на числовую прямую, то они будут лежать справа и слева от среднего значения совокупности. Это не годится для вычисления дисперсии, так как положительные и отрицательные числа компенсируют друг друга. Поэтому возведите в квадрат каждую разность, чтобы получить исключительно положительные числа.

      Найдите среднее значение полученных результатов. Вы нашли, как далеко каждое значение совокупности расположено от ее среднего значения. Найдите среднее значение суммы квадратов разностей, поделив ее на количество значений в генеральной совокупности.

    2. Соотнесите это решение с формулой. Если вы не поняли, как приведенное выше решение соотносится с формулой, ниже представлено объяснение решения:

      • Находим разность между каждым значением и средним значением совокупности, а затем возводим каждую разность в квадрат, то есть получаем ( x 1 {\displaystyle x_{1}} - μ) 2 {\displaystyle ^{2}} , ( x 2 {\displaystyle x_{2}} - μ) 2 {\displaystyle ^{2}} и так далее вплоть до ( x n {\displaystyle x_{n}} - μ) 2 {\displaystyle ^{2}} , где x n {\displaystyle x_{n}} – последнее значение в генеральной совокупности.
      • Для вычисления среднего значения полученных результатов нужно найти их сумму и разделить ее на n:(( x 1 {\displaystyle x_{1}} - μ) 2 {\displaystyle ^{2}} + ( x 2 {\displaystyle x_{2}} - μ) 2 {\displaystyle ^{2}} + ... + ( x n {\displaystyle x_{n}} - μ) 2 {\displaystyle ^{2}} ) / n
      • Теперь запишем приведенное объяснение с использованием переменных: (∑( x i {\displaystyle x_{i}} - μ) 2 {\displaystyle ^{2}} ) / n и получим формулу для вычисления дисперсии совокупности.

Вычислим в MS EXCEL дисперсию и стандартное отклонение выборки. Также вычислим дисперсию случайной величины, если известно ее распределение.

Сначала рассмотрим дисперсию , затем стандартное отклонение .

Дисперсия выборки

Дисперсия выборки (выборочная дисперсия, sample variance ) характеризует разброс значений в массиве относительно .

Все 3 формулы математически эквивалентны.

Из первой формулы видно, что дисперсия выборки это сумма квадратов отклонений каждого значения в массиве от среднего , деленная на размер выборки минус 1.

дисперсии выборки используется функция ДИСП() , англ. название VAR, т.е. VARiance. С версии MS EXCEL 2010 рекомендуется использовать ее аналог ДИСП.В() , англ. название VARS, т.е. Sample VARiance. Кроме того, начиная с версии MS EXCEL 2010 присутствует функция ДИСП.Г(), англ. название VARP, т.е. Population VARiance, которая вычисляет дисперсию для генеральной совокупности . Все отличие сводится к знаменателю: вместо n-1 как у ДИСП.В() , у ДИСП.Г() в знаменателе просто n. До MS EXCEL 2010 для вычисления дисперсии генеральной совокупности использовалась функция ДИСПР() .

Дисперсию выборки
=КВАДРОТКЛ(Выборка)/(СЧЁТ(Выборка)-1)
=(СУММКВ(Выборка)-СЧЁТ(Выборка)*СРЗНАЧ(Выборка)^2)/ (СЧЁТ(Выборка)-1) – обычная формула
=СУММ((Выборка -СРЗНАЧ(Выборка))^2)/ (СЧЁТ(Выборка)-1 ) –

Дисперсия выборки равна 0, только в том случае, если все значения равны между собой и, соответственно, равны среднему значению . Обычно, чем больше величина дисперсии , тем больше разброс значений в массиве.

Дисперсия выборки является точечной оценкой дисперсии распределения случайной величины, из которой была сделана выборка . О построении доверительных интервалов при оценке дисперсии можно прочитать в статье .

Дисперсия случайной величины

Чтобы вычислить дисперсию случайной величины, необходимо знать ее .

Для дисперсии случайной величины Х часто используют обозначение Var(Х). Дисперсия равна квадрата отклонения от среднего E(X): Var(Х)=E[(X-E(X)) 2 ]

дисперсия вычисляется по формуле:

где x i – значение, которое может принимать случайная величина, а μ – среднее значение (), р(x) – вероятность, что случайная величина примет значение х.

Если случайная величина имеет , то дисперсия вычисляется по формуле:

Размерность дисперсии соответствует квадрату единицы измерения исходных значений. Например, если значения в выборке представляют собой измерения веса детали (в кг), то размерность дисперсии будет кг 2 . Это бывает сложно интерпретировать, поэтому для характеристики разброса значений чаще используют величину равную квадратному корню из дисперсии стандартное отклонение .

Некоторые свойства дисперсии :

Var(Х+a)=Var(Х), где Х - случайная величина, а - константа.

Var(aХ)=a 2 Var(X)

Var(Х)=E[(X-E(X)) 2 ]=E=E(X 2)-E(2*X*E(X))+(E(X)) 2 =E(X 2)-2*E(X)*E(X)+(E(X)) 2 =E(X 2)-(E(X)) 2

Это свойство дисперсии используется в статье про линейную регрессию .

Var(Х+Y)=Var(Х) + Var(Y) + 2*Cov(Х;Y), где Х и Y - случайные величины, Cov(Х;Y) - ковариация этих случайных величин.

Если случайные величины независимы (independent), то их ковариация равна 0, и, следовательно, Var(Х+Y)=Var(Х)+Var(Y). Это свойство дисперсии используется при выводе .

Покажем, что для независимых величин Var(Х-Y)=Var(Х+Y). Действительно, Var(Х-Y)= Var(Х-Y)= Var(Х+(-Y))= Var(Х)+Var(-Y)= Var(Х)+Var(-Y)= Var(Х)+(-1) 2 Var(Y)= Var(Х)+Var(Y)= Var(Х+Y). Это свойство дисперсии используется для построения .

Стандартное отклонение выборки

Стандартное отклонение выборки - это мера того, насколько широко разбросаны значения в выборке относительно их .

По определению, стандартное отклонение равно квадратному корню из дисперсии :

Стандартное отклонение не учитывает величину значений в выборке , а только степень рассеивания значений вокруг их среднего . Чтобы проиллюстрировать это приведем пример.

Вычислим стандартное отклонение для 2-х выборок: (1; 5; 9) и (1001; 1005; 1009). В обоих случаях, s=4. Очевидно, что отношение величины стандартного отклонения к значениям массива у выборок существенно отличается. Для таких случаев используется Коэффициент вариации (Coefficient of Variation, CV) - отношение Стандартного отклонения к среднему арифметическому , выраженного в процентах.

В MS EXCEL 2007 и более ранних версиях для вычисления Стандартного отклонения выборки используется функция =СТАНДОТКЛОН() , англ. название STDEV, т.е. STandard DEViation. С версии MS EXCEL 2010 рекомендуется использовать ее аналог =СТАНДОТКЛОН.В() , англ. название STDEV.S, т.е. Sample STandard DEViation.

Кроме того, начиная с версии MS EXCEL 2010 присутствует функция СТАНДОТКЛОН.Г() , англ. название STDEV.P, т.е. Population STandard DEViation, которая вычисляет стандартное отклонение для генеральной совокупности . Все отличие сводится к знаменателю: вместо n-1 как у СТАНДОТКЛОН.В() , у СТАНДОТКЛОН.Г() в знаменателе просто n.

Стандартное отклонение можно также вычислить непосредственно по нижеуказанным формулам (см. файл примера )
=КОРЕНЬ(КВАДРОТКЛ(Выборка)/(СЧЁТ(Выборка)-1))
=КОРЕНЬ((СУММКВ(Выборка)-СЧЁТ(Выборка)*СРЗНАЧ(Выборка)^2)/(СЧЁТ(Выборка)-1))

Другие меры разброса

Функция КВАДРОТКЛ() вычисляет сумму квадратов отклонений значений от их среднего . Эта функция вернет тот же результат, что и формула =ДИСП.Г(Выборка )*СЧЁТ(Выборка ) , где Выборка - ссылка на диапазон, содержащий массив значений выборки (). Вычисления в функции КВАДРОТКЛ() производятся по формуле:

Функция СРОТКЛ() является также мерой разброса множества данных. Функция СРОТКЛ() вычисляет среднее абсолютных значений отклонений значений от среднего . Эта функция вернет тот же результат, что и формула =СУММПРОИЗВ(ABS(Выборка-СРЗНАЧ(Выборка)))/СЧЁТ(Выборка) , где Выборка - ссылка на диапазон, содержащий массив значений выборки.

Вычисления в функции СРОТКЛ () производятся по формуле: