ТОЧЕЧНЫЕ ОЦЕНКИ И ИХ СВОЙСТВА.

⇐ ПредыдущаяСтр 3 из 7Следующая ⇒

Статистику иногда определяют как науку принятия разумных решений в условиях неопределенности, когда действуют те или иные случайные факторы. Во многих случаях экспериментатор принимает решения, руководствуясь здравым смыслом и статистическими выводами, извлеченными из опытных данных. Получение обобщающих выводов из данных - основная цель статистики.

В оставшейся части настоящей работы мы уделим внимание двум категориям статистических задач: оценивание (точечное и интервальное) и проверка статистических гипотез. Это настолько обширные, глобальные темы, что мы познакомимся с ними лишь частично, делая ударение на методологии и примерах.

Например, у нас может возникнуть желание по наблюдениям, которые предполагаются нормально распределенными, получить число - точечную оценку параметра σ ², или же получить некоторый интервал, который с той или иной степенью достоверности содержит истинное значение параметра σ ². Возможно, мы захотим проверить наше предположение о нормальности распределения, обращаясь к теории проверки статистических гипотез.

Точечные оценки.

Нередко, сделав допущение о типе закона распределения, ищут по выборке приближенные значения (точечные оценки) его параметров. Неизвестный параметр распределения обозначают , а его точечную оценку .

Итак, - истинное значение параметра, постоянное неизвестное число. В наших примерах под мы часто понимаем математическое ожидание МХ либо дисперсию DХ=σ ² cл. величины X. - число, полученное по выборке и близкое к . По разным выборкам оценка примет разные значения вблизи .

Величина случайная, а - нет.

Оценка вычисляется по выборке (X₁, Х₂, ..., Х_n ), т.е. это функция выборки: =g (Х₁, Х₂, ..., Х_n ), поэтому называется статистикой. Как же подобрать функцию g, т.е. какие операции надо производить с точками выборки, чтобы получить хорошую оценку? Но что значит " хорошую"? Будет ли для истинного среднего =МХ хорошей оценкой выборочное среднее ? А, может, лучше полусумма (Х⁽¹⁾+X⁽ⁿ⁾)/2 наибольшего и наименьшего наблюдения, или, например, выборочная медиана ?

По сути дела под хорошей мы понимаем такую оценку, которая с большой вероятностью близка к истинному . Уточняя сказанное, рассмотрим три желательных свойства точечной оценки .

1. Состоятельность. Оценка состоятельна, если при увеличении объема выборки она неограниченно приближается к истинному . Для конечной генеральной совокупности оценка, полученная по всем элементам генеральной совокупности, даст точное значение . Когда же генеральная совокупность мыслится неограниченной, то состоятельность оценки означает, что при числе наблюдений n-> математическое ожидание оценки стремится к , а дисперсия ее к нулю:

(9)

Свойство состоятельности говорит, какова оценка при , и ничего не говорит о том, какова она при реальных значениях n. Поэтому состоятельность - необходимое требование к хорошей оценке, но недостаточное.

Как мы убедились, выводя формулу (8), МХ_n =МХ при любом n, а DХ=б²/n -> 0 при . Значит, выборочное среднее есть состоятельная оценка для математического ожидания МХ (здесь Х_n= , а МХ = ). Но состоятельными будут также и такие оценки МХ: , , поскольку число 100 становится пренебрежимо мало по сравнению с .

2. Несмещенность . Это свойство связано с поведением оценки при каждом конкретном n. У оценки , как случайной величины, есть математическое ожидание M . Разность -М называют смещением оценки . Смещение - средняя ошибка оценки и, если, она равна нулю, то оценку называют несмещенной. Итак, оценку называют несмещенной, если для любого n

(10)

Несмещенность оценки обозначает, что при всяком n среднее значение оценки, взятое по всевозможным выборкам данного объема n, в точности равно истинному значению параметра.

Оценка для среднего МХ несмещенная:

М =МХ, а оценки и , упомянутые выше, смещенные, например

М =

Пример 14. На рисунке 7 показаны для данного n законы распределения (плотности) трех оценок и параметра . Какая из оценок лучше?

Оценка лучше, чем , так как при одинаковой дисперсии оценка несмещенная: центр ее распределения совпадает с истинным . Величина М( - )=M - - смещение оценки , не равное нулю. Оценка не только несмещенная, но из трех оценок имеет меньшую дисперсию, значит, - лучшая из трех оценок.

3. Эффективность. Пусть для параметра мы имеем две несмещенные оценки (подобно и на рис.7) и выборку объема n. Какой оценкой пользоваться? Эффективна та, у какой меньше дисперсия.

Определение. Эффективной называется та из несмещенных оценок, у которой при данном объеме n минимальна дисперсия. Оказывается, наилучшей (точнее, эффективной) оценкой математического ожидания МХ нормальной величины является выборочное среднее . Математическая статистика показывает, как строить эффективные или близкие к ним оценки параметров разных распределений. Легко показать, что оценка дисперсии S² = (1/n)Σ (х₁- )² - выборочная дисперсия - является смещенной оценкой. Какому бы закону ни подчинялась cл.величина X, порождающая выборку, всегда среднее значение МS² = DХ * (n-1)/n DХ. Чтобы получить несмещенную оценку , достаточно ввести небольшую поправку: = [n/(n-1)]* S².

Для исправленной дисперсии имеем среднее:

Хотя при большом числе n состоятельные оценки S² и практически совпадают при небольшом числе n лучше пользоваться несмещенной оценкой .

Сценка стандартного отклонения имеет несущественное для приложений смещение (это не противоречит несмещенности ).

Ранее мы ввели понятие моментов cл. величин и их оценок по выборке: статистических моментов. Как следствие закона больших чисел, статистические моменты являются состоятельными оценками теоретических моментов. Хотя эти оценки могут быть смещенными (например, оценка S² дисперсии DХ), они по своим статистическим свойствам ненамного уступают эффективным оценкам, но выигрывают в простоте вычисления. Поэтому один из методов получения состоятельных оценок параметров распределения основан на моментах и так и называется " метод моментов^”.

МЕТОД МОМЕНТОВ

Если параметр распределения сам является моментом, как МХ или DХ, то за его оценку в этом методе берут соответствующий статистический момент (например, или ). Когда интересует характеристика θ распределения, отличная от начального или центрального момента, ее выражают как функцию одного или нескольких моментов и затем в качестве аргументов этой функции вместо теоретических моментов подставляют статистические.

Например, если , то .

Пример. Найти формулу для оценки методом моментов срединного отклонения Е нормального распределения. Срединное отклонение , поскольку для нормальной величины X ~ N(μ, б²) вероятность Р{μ - 0, 674б< Х< μ +0, 6746 } = 1/2.

Заменяя дисперсию в формуле на S² - статистический центральный момент второго порядка, получим оценку срединного отклонения:

Пример.

Пусть неизвестный параметр - математическое ожидание. Тогда в нормальном распределении

Эта характеристика является состоятельной (закон больших чисел).

Пример.

Смещенная выборочная характеристика.

Пусть в нормальном распределении следует оценить дисперсию. Положим в качестве выборочной характеристики случайную величину

= ,

т.к.

Доказать, что выборочная характеристика

является несмещенной для дисперсии

ИНТЕРВАЛЬНОЕ ОЦЕНИВАНИЕ

Мы видели, что точечная оценка параметра есть случайная величина, имеющая некоторый разброс возле истинного значения параметра, а потому мы допускаем какую-то ошибку, приравнивая истинное значение параметра численному значению оценки. Здесь же мы рассмотрим вопрос получения интервальных оценок, т.е. возможность построения некоторого интервала, содержащего (накрывающего) истинное значение параметра с заданной вероятностью. Эту вероятность β называют по-разному: доверительной вероятностью, коэффициентом доверия или гарантией, а построенный интервал - доверительным. Доверительный интервал для параметра θ, соответствующий доверительной вероятности β, обозначим I_β(θ ) - это интервал для θ, построенный по случайной выборке (и потому случайный) и накрывающий истинное значение θ (постоянное и обычно неизвестное нам) с заданной вероятностью β, т.е.

(13)

Величина β влияет на величину интервала I_β(θ ): чем больше β, тем шире интервал. Принято брать β равным 0, 95 или 0, 99. Если, приняв β =0, 99, мы по выборкам будем строить доверительные интервалы, то в среднем 1 на 100 интервалов не будет содержать истинное значение θ параметра, т.е. будет лежать в стороне от. θ (какой именно один из ста мы, конечно, не знаем, поскольку θ не известно).

Чтобы понять метод построения доверительных интервалов в простейших задачах, рассмотрим некоторые из них.

⇐ Предыдущая 1 234 5 6 7 Следующая ⇒