Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
Тема 2. Статистическое оценивание
В самом общем смысле статистическое оценивание параметров можно рассматривать как совокупность методов, позволяющих делать научно обоснованные выводы о числовых параметрах генеральной совокупности по случайной выборке из нее. Генеральной совокупностью называют множество результатов всех мыслимых наблюдений, которые могут быть получены при данном комплексе условий. Выборочной совокупностью (выборкой) называют множество результатов, случайно отобранных из генеральной совокупности. Задачи математической статистики практически сводятся к обоснованному суждению об объективных свойствах генеральной совокупности по результатам случайной выборки. Любая функция θ (Х1, Х2, …, Хn) от результатов наблюдения Х1, Х2, …, Хn случайной величины Х называется статистикой. Статистика , используемая в качестве приближенного значения неизвестного параметра θ , называется статистической оценкой. Основная задача теории оценивания состоит в том, чтобы произвести выбор оценки параметра θ , позволяющей получить хорошее приближение оцениваемого параметра. Все статистики и статистические оценки являются случайными величинами: при переходе от одной выборки к другой (даже в рамках одной и той же генеральной совокупности) конкретные значения статистической оценки будут подвержены неконтролируемому разбросу. Параметры генеральной совокупности есть постоянные величины. Методы статистического оценивания состоят из двух больших разделов: точечное оценивание параметров и интервальное оценивание. Точечной оценкой называют некоторую функцию результатов наблюдения θ (Х1, Х2, …, Хn), значение которой принимается за наиболее приближенное в данных условиях к значению параметра θ генеральной совокупности. Точечная оценка должна отвечать требованиям состоятельности, несмещенности и эффективности. Существуют следующие основные методы точечного оценивания случайных величин: метод максимального (наибольшего) правдоподобия; метод моментов; метод наименьших квадратов. Метод максимального правдоподобия.В соответствии с этим методом оценка мп неизвестного параметра θ по наблюдениям Х1, Х2, …, Хn случайной величины Х (подчиненной закону распределения f (X, ), где f – плотность вероятности) определяется из условия L(Х1, Х2, …, Хn; мп )= L(Х1, Х2, …, Хn; ) (2.1) где L – функция правдоподобия. Если переписать функцию L в виде L = , (2.2) тогда логарифм этой функции L = - (2.3) есть логарифмическая функция максимального правдоподобия. Функция максимального правдоподобия максимизирует количественную оценку для оценки истинного параметра θ . При этом оценка выбирается таким образом, что реализация функции (2.2) или эквивалентной ей функции (2.3) будет иметь наибольшее значение. Доказано, что оценки максимального правдоподобия являются состоятельными, асимптотически-несмещенными, асимпточески-нормальными и асимптотически-эффективными. Метод моментов. Метод моментов заключается в приравнивании определенного количества выборочных моментов к соответствующим теоретическим (т.е. вычисленным с использованием функции f (X, )) моментам исследуемой случайной величины, причем последние являются функциями от неизвестных параметров θ (1), …, θ (k). Рассматривая количество моментов, равное числу k подлежащих оценки параметров, и решая полученные уравнения относительно этих параметров, получаются искомые оценки. Доказывается, что оценки неизвестных параметров, полученные методом моментов, являются состоятельными. В силу сравнительно простой вычислительной реализации метод моментов удобен на практике. Метод наименьших квадратовиспользуется в регрессионном анализе для нахождения оценок параметров уравнения регрессии. Метод состоит в том, чтобы определить оценку неизвестного параметра из решения следующей задачи: min, (2.4) где xi – результаты выборочных наблюдений. Можно показать, что данный функционал достигает своего минимума при таком значении , при котором обращается в нуль первая производная: . В случае линейных связей, когда наблюдения содержат лишь случайные ошибки (без систематических), оценки, полученные методом наименьших квадратов, являются несмещенными линейными функциями от наблюденных значений. Если ошибки наблюдения независимы и подчиняются нормальному распределению, оценки, полученные данным методом, являются также эффективными. Несмещенность. Оценка неизвестного параметра θ называется несмещенной, если при любом объеме выборки n результат ее осреднения по всем возможным выборкам данного объема приводит к точному истинному значению оцениваемого параметра, т.е. М =θ. (2.5) Выполнение требования несмещенности гарантирует отсутствие систематической ошибки в оценке параметра. Разность М и θ называется смещением оценки. Оценканазывается асимптотически несмещенной, если ее смещенность исчезает при условии n , т.е. справедливо следующее равенство (М ) = θ . (2.6) Эффективность. Эффективной оценкой неизвестного параметра θ называется такая несмещенная оценка, которая обладает наименьшей дисперсией среди всех возможных несмещенных оценок параметра θ для данного объема выборки n. Данное выше определение опирается на понятие абсолютной эффективности. Несмещенная оценка являетсяабсолютно эффективной, если она достигает нижнюю границу эффективности, задаваемую неравенством Крамера-Рао. Var M , (2.7) где M -количество информации, содержащейся в выборке. - несмещенная оценка параметра θ, L – функция правдоподобия, Var – знак дисперсии, M – знак математического ожидания. Очевидно, что для абсолютно эффективной оценки неравенство (2.7) превращается в равенство. Можно также ввести понятие относительной эффективности. Для двух несмещенных оценок 1 и 2 оценка 1 будет более эффективной, если при прочих равных условиях выполняется неравенство: var( 1 ) < var( 2) (2.8) Мерой эффективности оценки служит средняя квадратическая ошибка, задаваемая следующей формулой: σ = М{( - θ )2} (2.9) Оценку 1 называют асимптотически более эффективной, чем оценка 2, если: var( 1) var( 2) (2.10) Cостоятельность. Оценка неизвестного параметра θ называется состоятельной, если по мере роста числа наблюдений n (т.е. при n ) она стремится по вероятности к оцениваемому значению θ , т.е. если для любого сколь угодно малого ε > 0 выполняется условие P > ε . (2.11) В теории доказывается, что средняя арифметическая является несмещенной, состоятельной и эффективной оценкой математического ожидания . Выборочная дисперсия является состоятельной, эффективной, но смещенной оценкой генеральной дисперсии . Несмещенной оценкой дисперсии генеральной совокупности будет исправленная выборочная дисперсия : = , (2.12) где дробь - является поправкой Бесселя. C ростом поправка стремится к нулю и уже при > 50 практически нет никакой разницы между и . Законы распределения выборочных характеристик Распределение Пирсона ( распределение). Если Х1, Х2, …, Хn есть ряд независимых, нормированных, нормально распределенных случайных величин , т.е. и для , то случайная величина (2.13) имеет распределение с степенями свободы, где -единственный параметр распределения, характеризующий число случайных величин в выражении (). Математическое ожидание и дисперсия ( распределения) задаются следующими выражениями: (2.14) Распределение Стьюдента ( - распределение). Если случайная величина Z имеет нормированное нормальное распределение , а величина имеет распределение с степенями свободы, причем Z и U взаимно независимы, то случайная величина (2.15) имеет - распределение с степенями свободы. Математическое ожидание и дисперсия ( -распределения) задаются следующими выражениями: (2.16) Распределение Фишера-Снедекора. Пусть имеется две независимые случайные величины X и Y, подчиняющиеся нормальному закону распределения. Произведены две независимые выборки объемами и и вычислены выборочные дисперсии и . Известно, что случайные величины и имеют распределение с соответственно и степенями свободы. Случайная величина (2.17) имеет F-распределение с и , причем . F-распределение не зависит от неизвестных параметров и , а зависит от числа наблюдений в выборках и . Математическое ожидание и дисперсия ( -распределения) задаются следующими выражениями: (2.18) Интервальной оценкой называют доверительный интервал ( - , + ), определяемый по результатам выборки, относительно которого можно утверждать с определенной, близкой к единице вероятностью, что он заключает в себе истинное значение оцениваемого параметра генеральной совокупности, т.е. Р( - θ + ) =γ, (2.19) где - и + и – соответственно нижняя и верхняя границы доверительного интервала. Вероятность γ называется доверительной вероятностью. Параметр задает точность интервальной оценки. Ширина доверительного интервала h определяется по формуле: h = 2 . (2.20) Доверительный интервал по своей природе случаен. Ширина доверительного интервала существенно зависит от объема выборки n (уменьшается с ростом n) и от величины доверительной вероятности (увеличивается с приближением доверительной вероятности к единице). Интервальные оценки для генеральной средней Дисперсия генеральной совокупности известна. Пусть из генеральной совокупности Х с нормальным законом распределения N(μ; σ ) и известным генеральным средним квадратическим отклонением взята случайная выборка Х1, Х2, …, Хn объемом n . Для нахождения интервальной оценки μ используем среднюю арифметическую, которая имеет нормальное распределение с параметрами N(μ; ). Статистика имеет нормированное нормальное распределение с параметрами N(0; 1). Вероятность любого отклонения может быть вычислена по интегральной теореме Лапласа для интервала, симметричного относительно μ по формуле: Р{( )< t γ }=Ф(t) (2.21) Задавая определенную доверительную вероятность γ по таблице интегральной функции Лапласа Ф(t), можно определить значение t γ . Преобразовав формулу (1.13), будем иметь доверительный интервал для математического ожидания: Р{ t γ + t γ }= Ф(t) (2.22) Точность оценки равна = t γ (2.23) Дисперсия генеральной совокупности неизвестна. Пусть имеется генеральная совокупность Х, распределенная по нормальному закону N(μ; σ ), c неизвестным средним квадратическим отклонением σ. По результатам выборки объема n из генеральной совокупности вычислены средняя арифметическая х и выборочное среднее квадратическое отклонение S. В этом случае для построения интервальной оценки генеральной средней μ используется статистика , имеющая распределение Стьюдента с числом степеней свободы ν =n-1. По таблице t – распределения Стьюдента для ν =n-1 степеней свободы находим значение tα , η , для которого справедливо равенство Р{ tα , η + tα , η }= γ (2.24) Точность оценки равна = tα , η (2.25) Интервальные оценки для генеральной дисперсии и Пусть из генеральной совокупности Х, распределенной по нормальному закону N(μ; σ ), взята случайная выборка объемом n и вычислена выборочная дисперсия S2. Требуется определить с надежностью γ интервальные оценки для генеральной дисперсии σ 2 и среднего квадратического отклонения σ. Для построения доверительного интервала при объеме выборки n обычно используется статистика , имеющая распределение Пирсона с ν =n-1. Выбирая уровень доверительной вероятности γ можно записать Р{ }=1- α (2.26) Далее по таблице - распределения можно выбрать такие два значения и , чтобы площадь, заключенная под дифференциальной функцией распределения между и , была равна γ =1- α. Обычно и выбирают так, чтобы Р( < )=Р( > )= , (2.27) Проведя соответствующие преобразования и учитывая то, что таблица -распределения содержит значения только для Р( > ), окончательно получаем: , (2.28) причем Р( )=Р( > )=1- ; (2.29) Р( )=Р( > )= . Доверительный интервал для генерального среднего квадратического отклонения равен . (2.30) При достаточно больших объемах выборки (n> 30) доверительный интервал для генерального среднего квадратического отклонения определяется по формуле: . (2.31) Популярное:
|
Последнее изменение этой страницы: 2016-08-24; Просмотров: 1254; Нарушение авторского права страницы