ВЫБОРКА. ОСНОВНЫЕ ХАРАКТЕРИСТИКИ.

ГЛАВА ІІ

===========

ОСНОВНЫЕ МЕТОДЫ

МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

ВЫБОРКА. ОСНОВНЫЕ ХАРАКТЕРИСТИКИ.

СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ

Изучение статистических закономерностей начинается с фиксации (протоколирования) результатов обследования. Затем эти данные представляются в удобной для обозрения и изучения форме — в виде рядов, многоугольников, гистограмм распределений. Методика получения рядов распределений и их графического изображения — многоугольников и гистограмм — является важным в данной теме.

Математическая статистика занимается установлением закономерностей, которым подчинены массовые случайные явления, на основе обработки статистических данных, полученных в результате наблюдений. Двумя основными задачами математической статистики являются:

1. определение способов сбора и группировки этих статистических данных;

2. разработка методов анализа полученных данных в зависимости от целей исследования.

К данным методам относятся:

а) оценка неизвестной вероятности события; оценка неизвестной функции распределения; оценка параметров распределения, вид которого известен; оценка зависимости от других случайных величин и т.д.;

б) проверка статистических гипотез о виде неизвестного распределения или о значениях параметров известного распределения.

Для решения этих задач необходимо выбрать из большой совокупности однородных объектов ограниченное количество объектов, по результатам изучения которых можно сделать прогноз относительно исследуемого признака этих объектов. Определим основные понятия математической статистики. Генеральная совокупность – это множество {а_i} всех однородных (однотипных) элементов (объектов) а_i, подлежащих изучению в данном исследовании. При этом каждому элементу а_i соответствует некоторое числовое значение X_i рассматриваемого признака Х.

Примером генеральной совокупности может служить работающее население региона или страны, а признаком Х, например, годовой доход работника.

Возможно сплошное обследование, когда изучается по рассматриваемому признаку каждый элемент генеральной совокупности без исключения, и выборочное обследование, когда изучению подвергается только некоторая часть элементов (подмножество) генеральной совокупности.

Выборка (выборочная совокупность) – это совокупность случайно отобранных по отдельным правилам объектов, составляющих лишь часть генеральной совокупности.

Выборка называется репрезентативной (представительной), если она правильно отражает свойства генеральной совокупности (закон и числовые характеристики признака как случайной величины). Учитывая закон больших чисел, можно утверждать, что это условие выполняется, если каждый объект выбран случайно, причем для любого объекта вероятность попасть в выборку одинакова.

Объем генеральной совокупности N и объем выборки n – число объектов в рассматриваемой совокупности. Виды выборки: повторная – каждый отобранный объект перед выбором следующего возвращается в генеральную совокупность; бесповторная– отобранный объект в генеральную совокупность не возвращается.

Способы первичной обработки выборки

Пусть интересующая нас случайная величина Х принимает в выборке значение х₁ п₁ раз, х₂ – п₂ раз, …, х_к – п_к раз, причем где п – объем выборки. Тогда наблюдаемые значения случайной величины х₁, х₂, …, х_к называют вариантами, а п₁, п₂, …, п_к – частотами. Если разделить каждую частоту на объем выборки, то получим относительные частоты Разность между максимальным и минимальным элементами выборки называетсяразмахом выборки. Последовательность вариант, записанных в порядке возрастания, называют вариационным рядом, а перечень вариант и соответствующих им частот или относительных частот – статистическим рядом:

x_i	x₁	x₂	…	x_k
n_i	n₁	n₂	…	n_k
w_i	w₁	w₂	…	w_k

Вариационный ряд, заданный в таком виде, называют дискретным

Пример.

При проведении 20 серий из 10 бросков игральной кости число выпадений шести очков оказалось равным 1, 1, 4, 0, 1, 2, 1, 2, 2, 0, 5, 3, 3, 1, 0, 2, 2, 3, 4, 1.Составим вариационный ряд: 0, 1, 2, 3, 4, 5. Размах выборки равен 5. Статистический ряд для абсолютных и относительных частот имеет вид:

x_i
n_i
w_i	0, 15	0, 3	0, 25	0, 15	0, 1	0, 05

◄

Пример. Дана выборка, состоящая из чисел: 3.2, 4.1, 8.1, 8.1, 6.7, 4.4, 4.4, 3.2, 5.0, 6.7, 6.7, 7.5, 3.2, 4.4, 6.7, 6.7, 5.0, 5.0, 4.4, 8.1. Составить статистический ряд распределения абсолютных и относительных частот.

Объем выборки п = 20. Перепишем варианты в порядке возрастания:

3.2, 3.2, 3.2, 4.4, 4.4, 4.4, 4.4, 4.4, 5.0, 5.0, 5.0, 6.7, 6.7, 6.7, 6.7, 6.7, 7.5, 8.1, 8.1, 8.1. Составлен так называемый вариационный ряд, который показывает, что выборка состоит из шести вариант (3, 4, 5, 6, 7, 8). Составим статистический ряд:

x_i	3.2	4.4	5.0	6.7	7.5	8.1
n_i
w_i	0, 15	0, 25	0, 15	0, 25	0, 05	0, 15

(относительная частота ). ◄

Если исследуется некоторый непрерывный признак, то вариационный ряд может состоять из очень большого количества чисел. В этом случае удобнее использовать группированную выборку. Для ее получения интервал, в котором заключены все наблюдаемые значения признака, разбивают на несколько равных частичных интервалов длиной h, , ( размах выборки), а затем находят для каждого частичного интервала n_i – сумму частот вариант, попавших в i-й интервал. В зависимости от объема выборки число интервалов группировки берется от 6 до 20. Составленная по этим результатам таблица называется группированным статистическим рядом:

Номера интервалов			…	k
Границы интервалов	(a, a + h)	(a + h, a + 2h)	…	(b – h, b)
Сумма частот вариант, попавших в интервал	n₁	n₂	…	n_k

От интервального ряда можно перейти к дискретному статистическому ряду, взяв на каждом интервале (х_i, x_i₊₁) за отдельное значение х_i^* величину

являющуюся серединой этого интервала.

Распределения

В этой теме необходимо усвоить методику оценки неизвестных средней и дисперсии генеральной совокупности по данным обследования выборки для случая, когда наблюдаемая случайная величина распределена нормально. Наряду с материалом пособия следует запомнить, что интервал накрывают неизвестную генеральную среднюю с вероятностью 0, 9973; интервал с вероятностью 0, 9545. Здесь — средняя выборки; -среднее квадратическое отклонение средней выборки. При такой оценке доверительного интервала, если объем выборки не мал (не менее 25единиц), точное значение генеральной дисперсии можно заменять приближенным , соответствующим данной выборке.

Пусть требуется изучить количественный признак генеральной совокупности. Располагая лишь выборочными значениями признака, можно оценить, а не определить точно значения параметров закона или числовых характеристик признака; эти оценки будут случайными и меняться от выборки к выборке. Поэтому важно не только знать оценки неизвестных величин, полученные на основе выборочных данных, но и понимать меры их надежности.

Цель любого оценивания – получить как можно более точное значение неизвестной характеристики признака генеральной совокупности по данным выборочного наблюдения.

Статистической оценкой неизвестной величины (неизвестного параметра теоретического закона распределения или неизвестной числовой характеристики признака генеральной совокупности) называют функцию от наблюдаемых значений признака как независимых случайных величин.

Точечной называют статистическую оценку, которая характеризуется одним числом. Интервальной называют оценку, которая задаётся двумя числами – концами интервала, покрывающего неизвестную величину, внутри которого может находиться оцениваемый параметр генеральной совокупности.

Генеральная совокупность характеризуется двумя сторонами:

1) видом распределения (например, равномерное, нормальное, Пуассоновское и т.д.); 2) параметрами распределения (например, математическое ожидание, среднее квадратическое отклонение и т.п.). В связи с этим существует два класса оценок: оценки вида распределения и оценки параметров распределения.

К статистической оценке предъявляется ряд естественных требований (несмещённость, состоятельность, эффективность), которые обеспечивают в некотором смысле её «доброкачественность». Определения несмещённой, состоятельной, эффективной оценок смотри в п.3.

1. Точечные оценки параметров распределения. Несмещённой и состоятельной оценкой генеральной средней (математического ожидания признака Х генеральной совокупности) является выборочная средняя .

1. Выборочным среднимназывается среднее арифметическое значений случайной величины, принимаемых в выборке:

, (1)

где x_i – варианты, n_i - частоты.

Замечание. Выборочное среднее служит для оценки математического ожидания исследуемой случайной величины.

Выборочной дисперсией называется

. (2)

Выборочным средним квадратическим отклонением–

(3)

Так же справедлива следующая формула для вычисления выборочной дисперсии:

. (4)

Исправленная выборочная дисперсия

(4а)

Исправленное выборочное среднее квадратическое отклонение - .

Пример. Найдем числовые характеристики выборки, заданной статистическим рядом

x_i
n_i

■ ▬ ▬ ▬ ►

2. Другими характеристиками вариационного ряда являются:

- мода М₀ – варианта, имеющая наибольшую частоту (в предыдущем примере

М₀ = 5).

- медиана т _е - варианта, которая делит вариационный ряд на две части, равные по числу вариант. Если число вариант нечетно ( n = 2k + 1 ), то m_e = x_k₊₁, а при четном n =2k . В частности, в предыдущем примере

Оценки начальных и центральных моментов (так называемые эмпирические моменты) определяются аналогично соответствующим теоретическим моментам:

- начальным эмпирическим моментом порядка k называется

. (5)

В частности, , то есть начальный эмпирический момент первого порядка равен выборочному среднему.

- центральным эмпирическим моментом порядка k называется

. (6)

В частности, , то есть центральный эмпирический момент второго порядка равен выборочной дисперсии.

◄ ▬ ▬ ▬ ■

Для непрерывного распределения применяются те же формулы, но за значения в этих формулах берутся, как правило середины вариант-интервалов. Таким образом, интервальный вариационный ряд заменяется дискретным рядом.

3. Получив статистические оценки параметров распределения (выборочное среднее, выборочную дисперсию и т.д.), нужно убедиться, что они в достаточной степени служат приближением соответствующих характеристик генеральной совокупности. Определим требования, которые должны при этом выполняться.

Пусть Θ * - статистическая оценка неизвестного параметра Θ теоретического распределения. Извлечем из генеральной совокупности несколько выборок одного и того же объема п и вычислим для каждой из них оценку параметра Θ: Тогда оценку Θ * можно рассматривать как случайную величину, принимающую возможные значения Если математическое ожидание Θ * не равно оцениваемому параметру, мы будем получать при вычислении оценок систематические ошибки одного знака (с избытком, если М( Θ *) > Θ, и с недостатком, если М(Θ *) < Θ ). Следовательно, необходимым условием отсутствия систематических ошибок является требование М(Θ *) = Θ.

Статистическая оценка Θ * называется несмещенно й, если ее математичес-кое ожидание равно оцениваемому параметруΘ при любом объеме выборки:

М(Θ *) = Θ.

Смещенной называют оценку, математическое ожидание которой не равно оцениваемому параметру.

Однако несмещенность не является достаточным условием хорошего приближения к истинному значению оцениваемого параметра. Если при этом возможные значения Θ * могут значительно отклоняться от среднего значения, то есть дисперсия Θ * велика, то значение, найденное по данным одной выборки, может значительно отличаться от оцениваемого параметра. Следовательно, требуется наложить ограничения на дисперсию.

Статистическая оценка называется эффективной, если она при заданном объеме выборки п имеет наименьшую возможную дисперсию.

При рассмотрении выборок большого объема к статистическим оценкам предъявляется еще и требование состоятельности. Состоятельной называется статистическая оценка, которая при п→ ∞ стремится по вероятности к оцениваемому параметру (если эта оценка несмещенная, то она будет состоятельной, если при п→ ∞ ее дисперсия стремится к 0).

Заданная таким образом оценка математического ожидания является несмещенной, то есть математическое ожидание выборочного среднего равно оцениваемому параметру (математическому ожиданию исследуемой случай-ной величины). Выборочная дисперсия, напротив, смещенная оценка генеральной дисперсии, и Поэтому и вводится несмещенная оценка генеральной дисперсии – исправленная выборочная дисперсия

Соответственно число является несмещенной точечной оценкой среднего квадратического отклонения.

Пример. Найти выборочное среднее, исправленную выборочную дисперсию и исправленное среднее выборочное отклонение для выборок, заданных в примерах 1 и 2.

2) В выборке из примера 2 будем считать вариантами середины частичных интервалов, то есть определим точечные оценки для выборки

x_i	12, 5	16, 5	20, 5	24, 5	28, 5
n_i

Тогда

◄

Пример. При изучении производительности труда Х на одного работника было обследовано 10 предприятий и получены следующие значения (тыс. руб.): 4, 2; 4, 8; 4, 7; 5, 0; 4, 9; 4, 3; 3, 9; 4, 1; 4, 3; 4, 8. Определить выборочную среднюю, выборочную дисперсию, исправленное среднее квадратическое отклонение.

По данной выборке объёма n=10 составим статистический ряд:

x_i	3, 9	4, 1	4, 2	4, 3	4, 7	4, 8	4, 9	5, 0
n_i

По формуле (1) найдется выборочная средняя:

(тыс. руб.).

По формуле (2) найдем выборочную дисперсию. Для этого вычислим и по формуле (4):

Тогда D_B=20, 382–20, 25=0, 132. Согласно (4а) S≈ 0, 383.

Смысл полученных результатов заключается в следующем. Средняя производительность труда на одного работника для изученных предприятий составила =4, 5 тыс. руб. Исправленное среднее квадратическое отклонение S описывает абсолютный разброс значений показателя Х и в данном случае составляет S=0, 383 тыс. руб.◄

2. Интервальные оценки параметров распределения. При выборке малого объема точечная оценка может значительно отличаться от оцениваемого параметра, что приводит к грубым ошибкам. Поэтому в таком случае лучше пользоваться интервальными оценками, то есть указывать интервал, в который с заданной вероятностью попадает истинное значение оцениваемого параметра. Разумеется, чем меньше длина этого интервала, тем точнее оценка параметра. Поэтому, если для оценки Θ * некоторого параметра Θ справедливо неравенство

| Θ * - Θ | < δ, число δ > 0 характеризует точность оценки(предельность ошибки)( чем меньше δ, тем точнее оценка). Но статистические методы позволяют говорить только о том, что это неравенство выполняется с некоторой вероятностью.

Надежностью (доверительной вероятностью)оценки Θ * параметра Θ называется вероятность γ того, что выполняется неравенство | Θ * - Θ | < δ. Если заменить это неравенство двойным неравенством – δ < Θ * - Θ < δ, то получим:

p ( Θ * - δ < Θ < Θ * + δ ) = γ.

Таким образом, γ есть вероятность того, что Θ попадает в интервал ( Θ *- δ, Θ *+ δ ). Доверительнымназывается интервал, в который попадает неизвестный параметр с заданной надежностью γ; он является симметричной интервальной оценкой неизвестной величины Q.

ЭЛЕМЕНТЫ ТЕОРИИ КОРРЕЛЯЦИИ

Расчеты коэффициентов корреляции, регрессии достаточно трудоемки. Это объясняется тем, что приходится обрабатывать большое количество исходных данных; ведь одно наблюдение дает сразу две величины. Однако нужно иметь в виду, что если объем выборки невелик, то расчеты этих коэффициентов несложны. При малых выборках общую корреляционную таблицу не составляют, а результат наблюдений оставляют в том виде, каким он получается непосредственно в опыте, т. е. в виде так называемой простой корреляционной таблицы. В такой таблице каждому номеру наблюдений соответствует пара наблюдавшихся значений случайных величин. Конечно, вычисленный по малому числу наблюдений коэффициент в целом имеет меньшую надежность. В тех случаях, когда известен общий вид зависимости между средней одной величины и значениями другой, параметры этой зависимости могут быть найдены методом наименьших квадратов.

Линейная корреляция

Рассмотрим выборку двумерной случайной величины (Х, Y). Примем в качестве оценок условных математических ожиданий компонент их условные средние значения, а именно: условным средним назовем среднее арифметическое наблюдавшихся значений Y, соответствующих Х = х. Аналогично условное среднее - среднее арифметическое наблюдавшихся значений Х, соответствующих Y = y. Введем уравнения регрессии Y на Х и Х на Y:

M (Y / x) = f (x), M ( X / y ) = φ (y).

Условные средние и являются оценками условных математических ожиданий и, следовательно, тоже функциями от х и у, то есть

= f*(x) - (1)

- выборочное уравнение регрессии Y на Х,

= φ *(у) - (2)

- выборочное уравнение регрессии Х на Y.

Соответственно функции f*(x) и φ *(у) называются выборочной регрессией Y на Х и Х на Y, а их графики – выборочными линиями регрессии. Выясним, как определять параметры выборочных уравнений регрессии, если этих уравнений известен.

Пусть изучается двумерная случайная величина (Х, Y), и получена выборка из п пар чисел (х₁, у₁), (х₂, у₂), …, (х_п, у_п). Будем искать параметры прямой линии среднеквадратической регрессии Y на Х вида

Y = ρ _yxx + b, (3)

Подбирая параметры ρ _ух и b так, чтобы точки на плоскости с координатами (х₁, у₁), (х₂, у₂), …, (х_п, у_п) лежали как можно ближе к прямой (3). Используем для этого метод наименьших квадратов и найдем минимум функции

. (4)

Приравняем нулю соответствующие частные производные:

В результате получим систему двух линейных уравнений относительно ρ и b:

. (5)

Ее решение позволяет найти искомые параметры в виде:

. (6)

При этом предполагалось, что все значения Х и Y наблюдались по одному разу.

Теперь рассмотрим случай, когда имеется достаточно большая выборка (не менее 50 значений), и данные сгруппированы в виде корреляционной таблицы:

Y	X
x₁	x₂	…	x_k	n_y
y₁ y₂ … y_m	n₁₁ n₁₂ … n_1m	n₂₁ n₂₂ … n_2m	… … … …	n_k₁ n_k₂ … n_km	n₁₁+n₂₁+…+n_k₁ n₁₂+n₂₂+…+n_k₂ …………….. n_1m+n_2m+…+n_km
n_x	n₁₁+n₁₂+…+n_1m	n₂₁+n₂₂+…+n_2m	…	n_k₁+n_k₂+…+n_km	n=∑ n_x = ∑ n_y

Здесь n_ij – число появлений в выборке пары чисел (x_i, y_j). Поскольку , заменим в системе (5)

, где п_ху – число появлений пары чисел (х, у). Тогда система (5) примет вид:

. (7)

Можно решить эту систему и найти параметры ρ _ух и b, определяющие выборочное уравнение прямой линии регрессии:

Но чаще уравнение регрессии записывают в ином виде, вводя выборочный коэффициент корреляции. Выразим b из второго уравнения системы (7):

Подставим это выражение в уравнение регрессии: . Из (7)

, (8)

где Введем понятие выборочного коэффициента корреляции

и умножим равенство (8) на : , откуда . Используя это соотношение, получим выборочное уравнение прямой линии регрессии Y на Х вида

. (9)

Коэффициент корреляции – безразмерная величина, которая служит для оценки степени линейной зависимости между Х и Y: эта связь тем сильнее, чем ближе |r| к единице.

Для качественной оценки тесноты корреляционной связи между X и Y можно воспользоваться таблицей Чеддока (табл.1):

Таблица 1

Диапазон изменения \| r_B \|	0, 1-0, 3	0, 3-0, 5	0, 5-0, 7	0, 7-0, 9	0, 9-0, 99
Характер тесноты связи	слабая	умеренная	заметная	высокая	весьма высокая

Итак, если для выборки двумерной случайной величины (X, Y): {(x_i, y_i), i = 1, 2,..., n} вычислены выборочные средние и и выборочные средние квадратические отклонения σ _х и σ _у, то по этим данным можно вычислить выборочный коэффициент корреляции

и получить линейные уравнения, описывающие связь между Х и Y, которые называются выборочным уравнением прямой линии регрессии Y на Х:

и выборочным уравнением прямой линии регрессии Х на Y :

Пример. Для выборки двумерной случайной величины

i
x_i	1, 2	1, 5	1, 8	2, 1	2, 3	3, 0	3, 6	4, 2	5, 7	6, 3
y_i	5, 6	6, 8	7, 8	9, 4	10, 3	11, 4	12, 9	14, 8	15, 2	18, 5

вычислить выборочные средние, выборочные средние квадратические отклонения, выборочный коэффициент корреляции и составить выборочное уравнение прямой линии регрессии Y на Х.

Для определения выборочного коэффициента корреляции вычислим предварительно Тогда

Выборочное уравнение прямой линии регрессии Y на Х имеет вид: или ◄

Пример. По заданной корреляционной таблице найти выборочные средние среднеквадратические отклонения s_Χ, s_Υ, коэффициент корреляции ρ _{Χ Υ} и уравнение линейной регрессии Y на X. Вычислить условные средние по дан-ным таблицы и найти наибольшее их отклонение от значений, вычисляемых из уравнения регрессии.

Y X						n_X






n_Y

Вычислим выборочные средние и среднеквадратические отклонения для X, Y

Выборочный коэффициент корреляции между Х и У отыскивается по формуле

Согласно таблице

откуда

Выборочное линейное уравнение регрессии У на Х имеет вид

или, с учётом вычисленных значений,

Условное среднее при x = x_i вычисляется по формуле

где - число выборочных значений y_j, наблюдавшихся при данном x_i . Согласно данным из таблицы находим

Значения условных средних , отыскиваемые по уравнению регрессии:

Отклонения значений,

будут d₁ = 0-0.45=-0.45; d₂ = 2.6- 1.96 = 0.65; d₃ = -0.51, d₄ = 0.55; d₅ = -0.05;

d₆ = 0.05. Наибольшее по абсолютной величине отклонение равно 0.65. ◄

Пример. Выборочно обследовано 100 снабженческо-сбытовых предприятий некоторого региона по количеству работников X и объёмам складской реализации Y (д.е.). Результаты представлены в корреляционной таблице;

X У						n_y






n_х						n=100

По данным исследования требуется:

1) в прямоугольной системе координат построить эмпирические ломаные регрессии Y на X и X на Y, сделать предположение в виде корреляционной связи;

2) оценить тесноту линейной корреляционной связи;

3) проверить гипотезу о значимости выборочного коэффициента корреляции, при уровне значимости α =0, 05;

4) составить линейные уравнения регрессии У на X и X на У, построить их графики в одной системе координат;

5) используя полученные уравнения регрессии, оценить ожидаемое среднее значение признака Y при х=40 чел.; дать экономическую интерпретацию полученных результатов.

1. Для построения эмпирических ломаных регрессии вычислим условные средние и Вычисляем . Так как при х=5 признак Y имеет распределение

YY
n_i

то условное среднее .

При х=15 признак Y имеет распределение

Y
n_i

тогда .

Аналогично вычисляются все и .Получим таблицы, выражающие корреляционную зависимость Y от X (табл.2) и X от Y (табл.3).

Таблица 2

x
	130, 8	132, 86	135, 74	137, 08	137, 86

Таблица 3

y
	6, 25		19, 54	32, 35		43, 57

В прямоугольной системе координат построим точки А_i(х_i, ), соединив их отрезками, получим эмпирическую линию регрессии Y на X. Аналогично строятся точки В_j( , y_j) и эмпирическая линия регрессии X на Y (см. рис.).

Построенные эмпирические ломаные регрессии Y на X и X на Y свидетельствуют о том, что между количеством работающих (X) и объёмом складских реализаций (Y) существует линейная зависимость. Из графика видно, что с увеличением X величина также увеличивается, поэтому можно выдвинуть гипотезу о прямой линейной корреляционной зависимости между количеством работающих и объёмом складских реализаций.

2. Оценим тесноту связи. Вычислим выборочный коэффициент корреляции, предварительно вычислив характеристики по формулам

, , , , ,

12 3 4 5 6 7 8 Следующая ⇒

Последнее изменение этой страницы: 2017-05-11; Просмотров: 2865; Нарушение авторского права страницы