Дисперсия дискретной случайной величины. Дисперсия случайной величины Дисперсия случайной величины x

Дисперсия D X случайной величиныXопределяется формулой

D X = E (X – EX)2

Дисперсия случайной величины - это математическое ожидание квадрата отклонения случайной величины от её математического ожидания.

Рассмотрим случайную величину Xс законом распределения

Вычислим её математическое ожидание.

E X = 1 + 2 + 3 =

Составим закон распределения случайной величины X – EX

а затем закон распределения случайной величины (X-EX) 2

D X = ++=

Замечание. Более удобной для вычисления может оказаться следующая формула, которую можно рассматривать как одно из свойств дисперсии:

DX = EX2 – (EX)2

Таким образом, дисперсия случайной величины равна разности мате­матического ожидания квадрата случайной величины и квадрата её математи­ческого ожидания. Для использования этой формулы нужно составить таблицу:

Выше было показано, что EX =р . Легко видеть, чтоEX 2 =р . Таким образом, получается, чтоD X=р р 2 =pq .

Дисперсия характеризует степень рассеяния значений случайной величины относительно её математического ожидания. Если все значения случайной величины тесно сконцентрированы около её математического ожидания и большие отклонения от математического ожидания маловероятны, то такая случайная величина имеет малую дисперсию. Если значения случайной величины рассеяны и велика вероятность больших отклонений от математического ожидания, то такая случайная величина имеет большую дисперсию.

Пример

Найти дисперсию случайной величины Х, равномерно распределенной на

Свойства дисперсии.

    Если k – число, то D (kX ) =k 2 D X.

    Для попарно независимых случайных величин X 1 ,X 2 ,,X n справедливо равенство

    Если Х и Y независимы, D (X+Y) =D X+D Y.

Предлагаем в качестве упражнения рассмотреть, чему равняется D(X– Y) в тех же условиях

Неравенства Маркова и Чебышева

Неравенства Маркова дают оценку для значений случайной величины в тех случаях, когда наши знания о случайной величине ограничиваются ее математическим ожиданием и дисперсией, и, хотя эти оценки достаточно грубы, они требуют минимальной информации о рассматриваемой случайной величине.

Если возможные значения дискретной случайной величины Х неотрицательны и существует ее математическое ожидание ЕХ = а, то для любого числа с > 0 справедливо неравенство

Р (Х <с) >1 – а / с

Соответственно, выполняется и неравенство

Р (Х ≥ с) ≤ а / с

Эти неравенства называются (первым и вторым) неравенствами Маркова

Пример 9.4. Пусть X - время опоздания студента на

лекцию, причем известно, что ЕХ = 1 мин. Воспользовавшись

первым неравенством Чебышева, оценим вероятность Р{Х >5}

того, что студент опоздает не менее, чем на 5 мин.

Имеем P(X≥5) ≤EX/5

Таким образом, искомая вероятность не более 0,2, т.е. в среднем,

из каждых пяти студентов опаздывает по крайней мере на 5 мин не более чем один студент.

Если Х – случайная величина, математическое ожидание которой ЕХ = а, дисперсия DХ конечна, то для любого числа с > 0 выполняются неравенства

P (| X – a | ≥ c) ≤DX / c 2

P (| X – a | < c) >1 – DX / c 2

Данные неравенства называются (первым и вторым) неравенствами Чебышева

Замечание . Иногда и неравенства Маркова и неравенства Чебышева называются первым и вторым неравенствами Чебышева.

Пример . Пусть в условиях предыдущего примера известно дополнительно, что а = y/DX = 1. Оценим минимальное значение х о, при котором вероятность опоздания студента на время не менее х о не превышает заданного значения Р 3 = 0,1.

Для решения поставленной задачи воспользуемся неравенством Чебышева. Тогда

Р 3 ≤ Р{Х ≥х 0 } = Р{Х - ЕX ≥ х о - ЕX} ≤ Р{|Х – EХ| >х 0 - EX}≤

и

И, подставляя конкретные значения, имеем

Таким образом, вероятность опоздания студента на время более 4,16 мин не более 0,1.

Сравнивая полученный результат с результатом предыдущего примера можно заметить, что дополнительная информация о дисперсии времени опоздания позволяет дать более точную оценку искомой вероятности.

Замечание . Элементарным следствием из неравенства Чебышева является Закон больших чисел (в форме Чебышева):

Определение. (Начальным ) Моментом порядка k случайной величины Х называется число m k = Е(Х k)

Определение. (Центральным) моментом порядка k случайной величины Х называется число μ k = Е(Х–ЕХ) k

Замечание. Нетрудно видеть, что математическое ожидание – начальный момент первого порядка, а дисперсия – центральный момент второго порядка.

Замечание. Если плотность распределения вероятностей непрерывной случайной величины симметрична относительно прямой x = EX , то все ее центральные моменты нечетного порядка равны нулю.

появлению значений, которые выше или, наоборот, ниже среднего, образуются асимметричные распределения.

Определение . Асимметрией А случайной величины Х называют отношение третьего центрального момента к кубу среднеквадратичного отклонения. А=μ 3 / σ 3

(по Е.В.Сидоренко)

Асимметрия - величина, характеризующая степень асимметрии распределения относительно математического ожидания.: Если коэффициент асимметрии отрицателен, то либо большая часть значений случайной величины, либо мода находятся левее математического ожидания, и наоборот, если больше нуля, то правее.

В тех случаях, когда какие-нибудь причины благоприятствуют более частому

появлению значений, которые выше или, наоборот, ниже среднего, образуются асимметричные распределения. При левосторонней, или положительной, асимметрии в распределении чаще встречаются более низкие значения признака, а при правосторонней,

или отрицательной - более высокие

Очевидно, что для случайной величины, распределенной симметрично относительно математического ожидания, асимметрия равна нулю.

В тех случаях, когда какие-либо причины способствуют преимущественному

появлению средних или близких к средним значений, образуется распределение с положительным эксцессом. Если же в распределении преобладают крайние значения, причем одновременно и более низкие, и более высокие, то такое распределение характеризуется отрицательным эксцессом и в центре распределения может образоваться впадина, превращающая его в двувершинное (см следующий рисунок эксцесса).

Определение . Эксцессом γ случайной величины Х называют отношение

 = (μ 4 / σ 4) –3

Эксцесс: а) положительный; 6) отрицательный. В распределениях с нормальной выпуклостью γ =0.

Нормальное распределение наиболее часто используется в теории вероятностей и в математической статистике, поэтому график плотности вероятностей нормального распределения стал своего рода эталоном, с которым сравнивают другие распределения. Одним из параметров, определяющих отличие распределения случайной величины Х от нормального распределения, как раз и является эксцесс. Для нормального распределения γ=0, если γ >0 , то это значит, что график плотности «заострен» сильнее, чем у нормального, а если γ<0, то, соответственно, меньше.

Определение . Квантилью уровня α или α-квантилью (0<α<1) называют число Q α , удовлетворяющее неравенствам Р{X < Q α }≤α и P{X> Q α } ≤ 1 – α

½ -квантиль называют также Медианой М случайной величины Х.

Для непрерывной случайной величины Х α-квантиль Q α – это такое число, меньше которого Х принимает значение с вероятностью α.

Если известна плотность распределения ρ(х) случайной величины Х, то, учитывая связь между функцией распределения и плотностью, уравнение для определения квантили можно записать как

Иначе говоря, квантиль Q α – решение уравнения F(Q α)=α ,

Пример .

Найдем α-квантиль и медиану экспоненциального распределения

(Непрерывная случайная величина Х имеет показательное распределение с параметром  > 0, если она принимает только неотрицательные значения, а ее плотность распределения имеет вид: (х) = е -  х, x≥0 и 0, если х <0

, поэтому
, а медиана равна

Определение. Модой непрерывной случайной величины называют точку максимума (локального) плотности распределения р(х). Различают унимодальные (имеющие одну моду), бимодальные (имеющие две моды) и мулътимодальные (имеющие несколько мод) распределения.

Для определения моды дискретной случайной величины предположим сначала, что ее значения x 1 , … x n расположены в порядке возрастания.

Модой дискретной случайной величины называют такое значение х i , при котором для вероятностей выполняются неравенства

p i -1 < p i и p i +1 < р i

В случае дискретных случайных величин распределения также могут быть унимодальными, бимодальными и мультимодальными.

Наивероятнейшим значением называют моду, при которой достигается глобальный максимум вероятности (дискретной случайной величины) или плотности распределения (непрерывной случайной величины).

Если распределение унимодальное, то мода также будет наивероятнейшим значением.

При решении практических задач могут встретиться случайные величины, имеющие разные распределения, но одинаковые математические ожидания. При этом у одних из этих величин отклонения значений от математического ожидания небольшие, у других, наоборот, могут быть значительными. Иначе говоря, у величин может быть разный разброс значений вокруг математического ожидания.

Например, для двух дискретных случайных величин, заданных следующими законами:

Х -1 и Y -100
Р 0,3 0,4 0,3 Р 0,2 0,6 0,2

математические ожидания равны, т.е. М (Х )=М (Y )=0. Однако, понятно, что это разные случайные величины и, прежде всего, они отличаются разбросом значений по оси абсцисс слева и справа от точки 0 – своего математического ожидания.

Приведенные рассуждения говорят о том, что было бы целесообразно ввести в рассмотрение некоторую числовую характеристику, связанную с разбросом. На первый взгляд может показаться, что такой характеристикой может быть среднее значение всех отклонений возможных значений случайной величины от математического ожидания.

Отклонением случайной величины Х от своего математического ожидания М (Х ) называется разность между случайной величиной и ее математическим ожиданием.

Очевидно, что отклонение также является случайной величиной. Найдем среднее значение отклонения, т.е. математическое ожидание отклонения, получим M (X M (X )) = M (X ) – M (M (X )) = M (X ) – M (X ) = 0.

Итак, математическое ожидание отклонения случайной величины равно нулю. Этот факт можно объяснить также тем, что возможные значения отклонения имеют как положительные, так и отрицательные знаки, поэтому при нахождении среднего значения (математического ожидания) слагаемые взаимно уничтожаются. Избежать этого можно, убрав отрицательные знаки значений отклонения. Для этого эти значения либо берут по абсолютной величине, либо возводят в квадрат. Первый путь используется крайне редко, так как работа с абсолютными величинами вызывает, как правило, серьезные трудности, например, при дифференцировании. Поэтому в качестве характеристики разброса используют математическое ожидание квадрата отклонения.

Дисперсией D (X ) случайной величиныХ называется математическое ожидание квадрата отклонения данной случайной величины от своего математического ожидания, т.е.

D (X ) = M [(X M (X )) 2 ] (6.4)

Само слово "дисперсия" означает "рассеивание".

Нетрудно понять, что вероятности значений случайных величин Х и (X M (X )) 2 одинаковы. Для того, чтобы величина (X M (X )) 2 приняла значение, например, (х 1 – M (X )) 2 , достаточно, чтобы случайная величина Х приняла значение х 1 . Вероятность этого события равна р 1 , следовательно, и вероятность того, что величина (X M (X )) 2 примет значение (х 1 – M (X )) 2 также равна р 1 . Аналогично обстоит дело и с остальными возможными значениями. Поэтому формула (6.4) с учетом определения математического ожидания случайной величины примет вид:

для дискретной случайной величины с конечным множеством значений

для непрерывной случайной величины

(6.6)

Несобственный интеграл в формуле (6.6) превращается в определенный интеграл по конечному промежутку , если значения непрерывной случайной величины имеются только в этом промежутке.

Математическое ожидание имеет ту же размерность, что и сама случайная величина, в отличие от дисперсии, которая имеет размерность, равную квадрату размерности случайной величины. Таким образом, дисперсия характеризует не сам разброс, а квадрат разброса значений случайной величины. Для того чтобы определить сам средний разброс находят квадратный корень из дисперсии и получают новую числовую характеристику, называемую среднеквадратическим отклонением.

Среднеквадратическим отклонением σ (Х ) случайной величины Х называется квадратный корень из дисперсии, т.е.

.

Пример 6.6 . Найти дисперсию дискретной случайной величины, заданной следующим рядом распределения

После вычислений, получим

(Х - М (Х )) 2 1,69 0,09 7,29
Р 0,3 0,5 0,2

Найдем математическое ожидание полученной случайной величины: D (X ) = M [(X M (X )) 2 ]=1,69·0,3+0,09·0,5+7,29·0,2=2,01. ■

Пример 6.7 . Найти дисперсию непрерывной случайной величины, заданной своей функцией плотности: f (x )=0,5x при х Î(0,2); для остальных х функция плотности равна нулю.

Решение . По формуле (6.2) найдем математическое ожидание, получим

По формуле (6.6) найдем дисперсию, при этом несобственный интеграл превратится в определенный по заданному промежутку (0,2):

. ■

Для вычисления дисперсии часто применяется другая формула, которая легко получается из формулы (6.4).

Теорема 6.1. Дисперсия случайной величины равна разности между математическим ожиданием квадрата этой случайной величины и квадратом математического ожидания:

D (X ) = M (X 2) – M 2 (X ) (6.7)

Доказательство. Преобразуем формулу (6.4), используя свойства математического ожидания, получим

Теорема доказана.

Пример 6.8 . Решим пример 6.6, используя формулу (6.7). Математическое ожидание было найдено, оно равно М (Х )=2,3. Теперь найдем закон распределения величины Х 2 , получим

Х 2
Р 0,3 0,5 0,2

Найдем М (Х 2) = 1·0,3 + 4·0,5 + 25·0,2 = 7,3. Тогда дисперсия равна

D (Х ) = 7,3 – (2,3) 2 = 2,01. ■

Очевидно, что применение формулы (6.7) значительно упрощает процесс нахождения дисперсии. Понятно, что эту же формулу можно применять и для нахождения дисперсии непрерывной случайной величины.

Свойства дисперсии

Дисперсия случайной величины обладает следующими свойствами:

1. Дисперсия постоянной величины равна нулю, т.е. D (C ) = 0, где С – постоянная величина.

Доказательство. По определению дисперсии с использованием свойства математического ожидания, получим

D (С ) = M [(С M (С )) 2 ]= M [(С С ) 2 ] =М (0)= 0.

Этот результат достаточно очевиден, так как постоянная величина принимает всего одно значение, поэтому разброс значений отсутствует.

Свойство доказано.

2. Постоянный множитель можно выносить за знак дисперсии, возводя его в квадрат, т.е. D (СX ) = С 2 D (X ).

Доказательство . По определению дисперсии с использованием свойств математического ожидания, получим

D (СХ ) = M [(СХ M (СХ )) 2 ]= M [(СХ СM (Х )) 2 ]= M [С 2 (Х M (Х )) 2 ]=

= С 2 M [(Х M (Х )) 2 ]= С 2 D (X ).

Свойство доказано.

3. Дисперсия суммы двух независимых случайных величин равна сумме дисперсий этих величин, т.е., если величины Х и Y независимы, то

D (X + Y ) = D (X ) + D (Y ).

Доказательство . Для доказательства применим формулу (6.7) и свойства математического ожидания, получим

D (X+Y ) = M ((X+Y ) 2) – M 2 (X+Y )= M (X 2 +2XY+Y 2) – (M (X+Y )) 2 =

= M (X 2) + M (2XY ) + M (Y 2) – (M (X )+M (Y )) 2 = M (X 2) + 2M (X )M (Y ) + M (Y 2) – – M 2 (X ) –2M (X )M (Y ) - M 2 (Y ) = M (X 2) – M 2 (X ) + M (Y 2) – M 2 (Y ) = D (X ) + D (Y ).

Свойство доказано.

Следствие. Дисперсия суммы нескольких независимых величин равна сумме дисперсий этих величин.

Доказательство можно провести методом математической индукции.

4. Дисперсия разности двух независимых случайных величин равна сумме их дисперсий, т.е. D (X Y ) = D (X ) + D (Y ).

Доказательство . Применяя второе и третье свойства дисперсии, получим D (X Y ) = D (X ) + D (– Y ) = D (X ) + (–1) 2 D (Y ) = D (X ) + D (Y ).

Свойство доказано.

Доказанное свойство также легко распространить на любое конечное число независимых случайных величин.

Пример 6.9 . Найти дисперсию дискретной случайной величины Х , равной числу появлений события А в n независимых испытаниях, если вероятность появления А в каждом испытании постоянна и равна р .

Решение. Пусть случайная величина Х – число появлений события А в n испытаниях.

Введем в рассмотрение еще n случайных величин:

Х 1 – число появлений события А в первом испытании;

Х 2 – число появлений события А во втором испытании;

…………………………………………………………….

Х n – число появлений события А в n – ом испытании.

Очевидно, что Х =Х 1 +Х 2 +…+Х n . Величины Х 1 , Х 2 , …, Х n взаимно независимы, так как исход каждого испытания не зависит от исходов остальных. Воспользуемся следствием четвертого свойства дисперсии, получим

D (X ) = D (X 1) + D (X 2) + …+ D (X n).

Найдем дисперсию величины Х 1 . Ряд распределения этой величины имеет вид:

Х 1
Р 1−р р

Тогда М (Х 1) = р ; М (Х 1 2) = р ; D (X 1) = р р 2 = р (1 – p )=pq .

Очевидно, что дисперсия каждой из остальных случайных величин также равна pq . Поэтому

D (X ) = D (X 1)+D (X 2)+…+D (X n) = npq . ■

Если исследуется некоторая случайная величина, у которой значения являются достаточно большими числами, то существует возможность перейти от этой величины к более простым величинам, называемым центрированной и стандартной.

Математическое ожидание показывает, вокруг которой численной меры группируются значения случайной величины. Однако, необходимо также иметь возможность измерять изменчивость (вариативность) случайной величины относительно математического ожидания. Таким показателем изменчивости является математическое ожидание квадрата разности между случайной величиной и ее математическим ожиданием, а именно M [(X - М [Х]) 2].

Определение. дисперсией случайной величины x называется число 14 DX] = M [(XM [X]) 2], (3.30)

или DX] = ± f (x t) o (*, - M [X]) 2.

На рис.3.26 приведены формулы для расчета распределения - статистической вероятности fx;) - а также показателей: математического ожидания М [Х] (ячейка Е9) и дисперсии D [X] (ячейка G9).

14 Предлагаем сравнить это определение с определением выборочной дисперсии

Рис. 3.26. Формулы расчета м [х] и 0 [Х] В таблице рис.3.27 показаны результаты расчета математического ожидания м [х] и дисперсии 0 [Х] по данным примера 3.14, а также гистограмму распределения м [х] = 4,00 (ячейка Е9) и дисперсия 0 [Х] = 1,00 (ячейка В9).

Математическое ожидание показывает, что значение случайной величины x группируются около значения 4,00, количество которых составляет 50% от общего количества. Однако, вокруг такого же значения могут группироваться и другие данные.

Рис. 3.27. Таблица и гистограмма распределения с А / [Х] = 4,00 и £> [Х] = 1,00

С рис.3.28 видно, что для математического ожиданиям [х] = 4,00 дисперсия £> [Х] = 2,32 является вдвое большей, чем по данным рис. 3.27. О значительной изменчивости свидетельствует и соответствующая гистограмма.

Рис. 3.28. Таблица и гистограмма распределения с М [Х] = 4,00 и £> [Х] = 2,32

Предлагаем сравнить таблицы и графики рис. 3.27 и 3.28 и сделать выводы. Свойства дисперсии случайной величины, которые постоянно используются в вероятностно статистические методы:

o если x - случайная величина, а и Ь - некоторые числа, В = ах + Ь, то

D = a 2 D [X] (3.31)

(это значит, что число а в качестве параметра масштаба существенно влияет на дисперсию, тогда как число b - параметр сдвига на значение дисперсии не влияет);

o если X 1, X 2, X n - попарно независимые случайные величины (то есть X t и X независимые для i Ф j), то дисперсия суммы равна сумме дисперсий

D = D + D + ... + D . (3.32)

Соотношение по математического ожидания (3.25) и дисперсии (3.32) имеют важное значение при изучении выборочных свойств, поскольку результаты выборочных наблюдений или измерений рассматриваются в математической статистике, как реализации независимых случайных величин.

С дисперсией случайной величины тесно связан еще один показатель изменчивости - стандартное отклонение.

Определение. Стандартным отклонением случайной величины x называется неотъемлемое число

SD [X] = + VD [X]. (3.33)

Итак, стандартное отклонениях однозначно связано с дисперсией.

В теории и практике статистических исследований также важную роль играют специальные функции - так называемые моменты (начальные и центральные), которые являются характеристиками случайных величин.

Определение. Исходным моментом k-то порядка случайной величины x называется математическое ожидание k-й степени этой величины:

~ K = M . 15 (3.34)

Определение. Центральным моментом k-то порядка случайной величины x называется математическое ожидание k-й степени отклонения этой величины x от его математического ожидания:

m = m k, где a = M [X].

Для обозначения мометнив случайных величин используем те же буквы, что и для мометнив вариационного ряда, но с дополнительным знаком ~ ("тильда").

Формулы для вычисления моментов дискретных (которые принимают значения Х и с вероятностью р) и непрерывных (с плотностью вероятности / х)) случайных

величин приведены в табл. 3.4.

Таблица 3.4

Формулы для вычисления моментов случайных величин

Как и для вариационных строк моменты дискретных случайных величин имеют аналогичный смысл:

Первый начальный момент (¿= 1) случайной величины Хе ее математическим ожиданием:

~ 1 = М [Х] = с. (3.36)

Второй центральный момент (¿= 2) определяет дисперсию 0 [Х] случайной величины x:

Ш г (хи - а) 2 г. и = ЦХ] = (Т 2. (3.37)

Третий центральный момент (¿= 3) характеризует асимметрию распределения случайной величины x:

п

Коэффициент асимметрии а распределения случайной величины x имеет вид:

Г = ~ X (хи "а) 3 Р и = А. (3.38)

Четвертый центральный момент (¿= 4) характеризует крутизну распределения случайной величины.

На основе сравнения значений теоретических и выборочных моментов выполняется оценивания параметров распределений случайных величин (см., Например, разделы 4 и 5).

Как отмечалось выше, в математической статистике используются два параллельных строки показателей: первый - имеет отношение к практике (это показатели выборки), второй - базируется на теории (это показатели вероятностной модели). Соотношение этих показателей представлены в табл. 3.5.

Таблица 3.5

Соотношение показателей эмпирической выборки и вероятностной модели

Таблица 3.5 продолжение

Итак, целью описательной статистики является превращение совокупности выборочных эмпирических данных на систему показателей - так называемых статистик, имеющие отношение к реально существующих объектов. Так, психологи, педагоги, другие специалисты работают в реальной сфере, объектами которой являются лица, группы лиц, коллективы, характеристиками для которых служат эмпирические показатели. Однако основная цель исследования - это получение нового знания, а знание существует в идеальной форме в виде характеристик теоретических моделей. Отсюда возникает проблема корректного перехода от эмпирических показателей реальных объектов к показателям теоретической модели. Этот переход требует анализа как общих методических подходов, так и строгих математических оснований. Принципиальную возможность здесь открывает закон больших чисел, теоретическое обоснование котором было предоставлено Якобом Бернулли (1654-1705), Пафнутием Львовичем Чебышевым (1821-1894) и другими математиками XIX в.

Вопрос. Задача.

1. Раскройте понятие случайной величины.

2. Чем отличаются дискретная и непрерывная случайные величины?

3. Из каких элементов состоит вероятностное пространство?

4. Как построить распределение дискретной случайной величины?

5. Как связаны между собой функция плотности Л (х) и функция распределения Б (х)?

6. Предоставьте геометрическую интерпретацию Интеграл Б (со) = | Л (х) сх = 1.

Y -100
р 0,3 0,4 0,3

Несмотря на то что математические ожидания величин X и Y одинаковы: М(Х)=М(Y) =0, возможные значения величин Х и Y «разбросаны» или «рассеяны» около своих математических ожида­ний по-разному: возможные значения величины X расположены гораздо ближе к своему математическому ожиданию, чем значения величины Y.

Укажем еще на один пример. При одинаковой средней величине годовых осадков одна местность может быть засушливой и неблагоприятной для сельскохозяйственных работ (нет дождей весной и летом), а другая - благоприятной для ведения сельского хозяйства.

Из сказанного вытекает необходимость введения новой числовой характеристики случайной величины, по которой можно судить о «рассеянии» возможных значений этой случайной величины.

Пусть задана дискретная случайная величина X:

X х 1 х 2 …. х n
р p 1 p 2 …. p n

Определение 1. Отклонением случайной величины X от ее математического ожидания М(Х) (или просто отклонением случайной величины X) называют случайную величину Х- М(Х).

Видно, что для того, чтобы отклонение случайной величины X приняло значение x 1 - М(Х), достаточно, чтобы случайная величина X приняла значение x 1 . Вероятность же этого события равна p 1 ; следовательно, и вероятность того, что отклонение случайной величины X примет значение x 1 - М(Х), также равна p 1 . Аналогично обстоит дело и для остальных возможных значений отклонения случайной величины X. Используя это, запишем закон распределения отклонения случайной величины X:

Х- М(Х) Х 1 - М(Х) Х 2 - М(Х) …. Х п - М(Х)
р p 1 p 2 …. p n

Вычислим теперь математическое ожидание отклонения Х- М(Х). Пользуясь свойствами 5 и 1 (подразд. 9.2, п. 2), получаем

М[Х - М(Х)] = М(Х) - М(Х) = 0. Следовательно, справедлива следующая теорема.

Теорема 9.2 . Математическое ожидание отклонения Х- М(Х) равно нулю:

М[Х-М(Х)] = 0.

Из теоремы видно, что с помощью отклонения Х- М(Х) не удается определить среднее отклонение возможных значений величины X от ее математического ожидания, т.е. степень рассеяния величины X. Это объясняется взаимным погашением положительных и отрицательных возможных значений отклонения. Однако можно освободиться от этого недостатка, если рассматривать квадрат отклонения случайной величины X.



Запишем закон распределения случайной величины 2 (рассуждения те же, что и в случае случайной величины Х- М(Х)).

[Х-М(Х) ] 2 [ Х 1 - М(Х) ] 2 [Х 2 - М(Х) ] 2 …. [Х п -М(Х) ] 2
р p 1 p 2 …. p n

Определение 2 . Дисперсией D(Х) дискретной случайной величины X называют математическое ожидание квадрата отклонения случайной величины X от ее математического ожидания:

D(Х) = М [(Х-М(Х )) 2 ].

Из закона распределения величины [Х- М (Х )] 2 следует, что D (X ) =

= [Х 1 - М (Х )] 2 p 1 + [Х 2 - М (Х )] 2 p 2 + ... + [ Х n - М (Х )] 2 p n .

2. Свойства дисперсии дискретной случайной величины.

1. Дисперсия дискретной случайной величины X равна разности между математическим ожиданием квадрата величины X и квадратом ее математического ожидания :

D (X ) = М (Х 2 )-М 2 (Х ).

Действительно, используя свойств математического ожидания, имеем

D (X ) = М[(Х - М(Х)) 2 ] = М[Х 2 -2ХМ(Х) + М 2 (Х)] =

= М(Х 2)-2М(Х)×М(Х) + М 2 (Х) = М(Х 2)-2 М 2 (Х) + М 2 (Х) = М(Х 2)- -М 2 (Х).

С помощью этого свойства и свойства математического ожидания устанавливаются следующие свойства.

2. Дисперсия постоянной величины С равна нулю .

3.Постоянный множитель можно выносить за знак дисперсии, возводя его в квадрат : D (CX ) =C 2 D (X ) .

4.Дисперсия суммы двух независимых случайных величин равна сумме дисперсий этих величин: М(Х+Y) = D (Х) + D (Y).

Методом математической индукции это свойство распространяется и на случай любого конечного числа слагаемых.

Следствием свойств 3 и 4 является свойство 5.

5. Дисперсия разности двух независимых случайных величин X и Y равна сумме их дисперсий : М(Х-Y) = D (Х) + D (Y).

Пример 9.6. Дисперсия случайной величины X равна 3. Найти дисперсию следующих величин: а) --3 X ; б) 4 X + 3.

Согласно свойствам 2, 3 и 4 дисперсии имеем

а) D(-3Х) = 9D(Х) = 9×3 = 27;

б) D (4Х+ 3) = D(4Х) + D (3) = 16D(Х) + 0 = 16×3 = 48.

Вычислим в MS EXCEL дисперсию и стандартное отклонение выборки. Также вычислим дисперсию случайной величины, если известно ее распределение.

Сначала рассмотрим дисперсию , затем стандартное отклонение .

Дисперсия выборки

Дисперсия выборки (выборочная дисперсия, sample variance ) характеризует разброс значений в массиве относительно .

Все 3 формулы математически эквивалентны.

Из первой формулы видно, что дисперсия выборки это сумма квадратов отклонений каждого значения в массиве от среднего , деленная на размер выборки минус 1.

дисперсии выборки используется функция ДИСП() , англ. название VAR, т.е. VARiance. С версии MS EXCEL 2010 рекомендуется использовать ее аналог ДИСП.В() , англ. название VARS, т.е. Sample VARiance. Кроме того, начиная с версии MS EXCEL 2010 присутствует функция ДИСП.Г(), англ. название VARP, т.е. Population VARiance, которая вычисляет дисперсию для генеральной совокупности . Все отличие сводится к знаменателю: вместо n-1 как у ДИСП.В() , у ДИСП.Г() в знаменателе просто n. До MS EXCEL 2010 для вычисления дисперсии генеральной совокупности использовалась функция ДИСПР() .

Дисперсию выборки
=КВАДРОТКЛ(Выборка)/(СЧЁТ(Выборка)-1)
=(СУММКВ(Выборка)-СЧЁТ(Выборка)*СРЗНАЧ(Выборка)^2)/ (СЧЁТ(Выборка)-1) – обычная формула
=СУММ((Выборка -СРЗНАЧ(Выборка))^2)/ (СЧЁТ(Выборка)-1 ) –

Дисперсия выборки равна 0, только в том случае, если все значения равны между собой и, соответственно, равны среднему значению . Обычно, чем больше величина дисперсии , тем больше разброс значений в массиве.

Дисперсия выборки является точечной оценкой дисперсии распределения случайной величины, из которой была сделана выборка . О построении доверительных интервалов при оценке дисперсии можно прочитать в статье .

Дисперсия случайной величины

Чтобы вычислить дисперсию случайной величины, необходимо знать ее .

Для дисперсии случайной величины Х часто используют обозначение Var(Х). Дисперсия равна квадрата отклонения от среднего E(X): Var(Х)=E[(X-E(X)) 2 ]

дисперсия вычисляется по формуле:

где x i – значение, которое может принимать случайная величина, а μ – среднее значение (), р(x) – вероятность, что случайная величина примет значение х.

Если случайная величина имеет , то дисперсия вычисляется по формуле:

Размерность дисперсии соответствует квадрату единицы измерения исходных значений. Например, если значения в выборке представляют собой измерения веса детали (в кг), то размерность дисперсии будет кг 2 . Это бывает сложно интерпретировать, поэтому для характеристики разброса значений чаще используют величину равную квадратному корню из дисперсии стандартное отклонение .

Некоторые свойства дисперсии :

Var(Х+a)=Var(Х), где Х - случайная величина, а - константа.

Var(aХ)=a 2 Var(X)

Var(Х)=E[(X-E(X)) 2 ]=E=E(X 2)-E(2*X*E(X))+(E(X)) 2 =E(X 2)-2*E(X)*E(X)+(E(X)) 2 =E(X 2)-(E(X)) 2

Это свойство дисперсии используется в статье про линейную регрессию .

Var(Х+Y)=Var(Х) + Var(Y) + 2*Cov(Х;Y), где Х и Y - случайные величины, Cov(Х;Y) - ковариация этих случайных величин.

Если случайные величины независимы (independent), то их ковариация равна 0, и, следовательно, Var(Х+Y)=Var(Х)+Var(Y). Это свойство дисперсии используется при выводе .

Покажем, что для независимых величин Var(Х-Y)=Var(Х+Y). Действительно, Var(Х-Y)= Var(Х-Y)= Var(Х+(-Y))= Var(Х)+Var(-Y)= Var(Х)+Var(-Y)= Var(Х)+(-1) 2 Var(Y)= Var(Х)+Var(Y)= Var(Х+Y). Это свойство дисперсии используется для построения .

Стандартное отклонение выборки

Стандартное отклонение выборки - это мера того, насколько широко разбросаны значения в выборке относительно их .

По определению, стандартное отклонение равно квадратному корню из дисперсии :

Стандартное отклонение не учитывает величину значений в выборке , а только степень рассеивания значений вокруг их среднего . Чтобы проиллюстрировать это приведем пример.

Вычислим стандартное отклонение для 2-х выборок: (1; 5; 9) и (1001; 1005; 1009). В обоих случаях, s=4. Очевидно, что отношение величины стандартного отклонения к значениям массива у выборок существенно отличается. Для таких случаев используется Коэффициент вариации (Coefficient of Variation, CV) - отношение Стандартного отклонения к среднему арифметическому , выраженного в процентах.

В MS EXCEL 2007 и более ранних версиях для вычисления Стандартного отклонения выборки используется функция =СТАНДОТКЛОН() , англ. название STDEV, т.е. STandard DEViation. С версии MS EXCEL 2010 рекомендуется использовать ее аналог =СТАНДОТКЛОН.В() , англ. название STDEV.S, т.е. Sample STandard DEViation.

Кроме того, начиная с версии MS EXCEL 2010 присутствует функция СТАНДОТКЛОН.Г() , англ. название STDEV.P, т.е. Population STandard DEViation, которая вычисляет стандартное отклонение для генеральной совокупности . Все отличие сводится к знаменателю: вместо n-1 как у СТАНДОТКЛОН.В() , у СТАНДОТКЛОН.Г() в знаменателе просто n.

Стандартное отклонение можно также вычислить непосредственно по нижеуказанным формулам (см. файл примера )
=КОРЕНЬ(КВАДРОТКЛ(Выборка)/(СЧЁТ(Выборка)-1))
=КОРЕНЬ((СУММКВ(Выборка)-СЧЁТ(Выборка)*СРЗНАЧ(Выборка)^2)/(СЧЁТ(Выборка)-1))

Другие меры разброса

Функция КВАДРОТКЛ() вычисляет сумму квадратов отклонений значений от их среднего . Эта функция вернет тот же результат, что и формула =ДИСП.Г(Выборка )*СЧЁТ(Выборка ) , где Выборка - ссылка на диапазон, содержащий массив значений выборки (). Вычисления в функции КВАДРОТКЛ() производятся по формуле:

Функция СРОТКЛ() является также мерой разброса множества данных. Функция СРОТКЛ() вычисляет среднее абсолютных значений отклонений значений от среднего . Эта функция вернет тот же результат, что и формула =СУММПРОИЗВ(ABS(Выборка-СРЗНАЧ(Выборка)))/СЧЁТ(Выборка) , где Выборка - ссылка на диапазон, содержащий массив значений выборки.

Вычисления в функции СРОТКЛ () производятся по формуле: