Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
Вопрос 1. Понятие средней величины. Классификация средних аналитических.Стр 1 из 7Следующая ⇒
Тема 5. Средняя и вариация. Вопросы: 1. Понятие средней величины. Классификация средних аналитических. 2. Понятие, виды и свойства средней арифметической. 3. Прочие виды аналитической средней. Правило мажорантности средних, выбор формулы средней. 4. Понятие и виды структурных характеристик вариационных рядов. 5. Понятие вариации. Показатели размера и интенсивности вариации. 6. Дисперсионный анализ. 7. Эксцесс и асимметрия.
Вопрос 1. Понятие средней величины. Классификация средних аналитических. Средняя величина – это обобщающая количественная характеристика совокупности по изучаемому признаку в конкретных условиях места и времени. В средних величинах погашаются индивидуальные отклонения, соответствующие отдельным единицам совокупности. Необходимое условие для расчета средней величины: все единицы совокупности должны обладать изучаемым признаком. Если средняя величина обобщает качественно однородные значения признака, она является типической характеристикой признаков данной совокупности. Если разнородные - то системной средней. Используя среднюю, можно одним числом охарактеризовать изучаемое явление. Так, по уточненным данным Всероссийской переписи населения 2002 года, средний размер семьи составляет 2, 7 чел. В городских населенных пунктах – 2, 7. В сельских – 2, 8. Самое малое значение этого показателя 2, 2 в сельской местности Псковской области, самый большой – 7, 4 выявлен в сельской местности Республики Ингушетия. Получив результат 2, 7 в среднем по России, можно сделать вывод, что наибольший удельный вес занимают семьи, состоящие из двух, но чаще из трех человек. Главное значение средних величин заключается в их обобщающей функции, т.е. в возможности замены множества различных индивидуальных значений признака средней величиной, характеризующей всю совокупность явлений. Виды средних аналитических величин различаются тем, какое свойство исходной варьирующей массы индивидуальных значений признака должно остаться неизменным.
Рисунок 1. Виды средней аналитической Средние величины, применяемые в статистике, относятся к классу степенных средних. Общая формула степенной средней имеет следующий вид:
где – степенная средняя k-ого порядка; если k = (-1), получается средняя гармоническая: если k =0, получается средняя геометрическая: Если k =1, получается средняя арифметическая: если k =2, получается средняя квадратическая: если k =3, получается средняя кубическая.
Понятие, виды и свойства средней арифметической. Средней арифметической величиной называется такое среднее значение признака, при вычислении которого общий объем признаков совокупности сохраняется неизменным. Средняя арифметическая имеет ту же единицу измерения, что и усредняемый признак. Средняя – это расчетная величина, поэтому значение средней арифметической может принимать дробное значение даже у дискретного признака. Рисунок 2. Виды средней арифметической Первичными (объемными) называются признаки, являющиеся абсолютными величинами. Вторичными называются признаки, являющие относительными величинами. Если известны индивидуальные значения признака, рассчитывается средняя в явной форме. Если не известны индивидуальные значения признака, но известна их суммарная величина, рассчитывается средняя в неявной форме. Формула определения средней арифметической в неявной форме (логическая формула средней):
где А – это объемный показатель, величина которого подлежит осреднению; В – объемный показатель, на единицу которого происходит осреднение
Например, формула определения средней урожайности.
Средняя урожайность = валовый сбор / посевная площадь
Вопрос 3. Прочие виды аналитической средней. Мода Мода – это наиболее часто встречающаяся варианта вариационного ряда. В ранжированном ряду мода отсутствует. В дискретном вариационном ряду мода определяется визуально, как значение признака с наибольшей частотой.
Таблица 6
Для определения моды дискретного ряда строится полигон распределения. Расстояние от оси ординат до наивысшей точки графика есть мода В интервальном ряду мода определяется по формуле: где - начальное значение интервала, содержащего моду; - величина модального интервала; - частота модального интервала; - частота интервала, предшествующего модальному; - частота интервала, следующего за модальным. Если модальный интервал первый или последний, то недостающая частота (предмодальная или послемодальная) берется равной нулю Рассчитаем моду в интервальной ряду на основе данных таблицы 2.
Рисунок 3. Гистограмма распределения Чаще всего встречаются ряды с одним модальным значением признака. В вариационном ряду может быть одна мода или несколько мод. В последнем случае ряд называется мультимодальный. Наличие двух мод и более свидетельствует о неоднородности рядов распределения. Медиана Медиана – это величина варьирующего признака, делящая совокупность на две равные части: со значениями признака меньше медианы и со значениями признака больше медианы, то есть медиана - это варианта, лежащая в середине вариационного ряда и делящая его на две равные части. Определение медианы в ранжированном ряду: В ранжированном вариационном ряду с нечетным числом единиц совокупности медианой является значение признака у средней в ряду единицы, т. е. находится та единственная варианта, справа и слева от которой находится одинаковое число вариант: Пример: Таблица 7
Ме = 151 ц/га То есть, у половины фермерских хозяйств урожайность меньше, чем 151 ц/га, а у половины больше, чем 151 ц/га. В ранжированном вариационном ряду с четным числом единиц совокупности медианой является расчетное значение средней арифметической простой у двух средних позиций вариационного ряда, то есть находятся две варианты, справа и слева от которых располагается одинаковое количество вариант. Ме равна средней арифметической из двух значений
Таблица 8
Ме = (151 + 154) / 2 = 152, 5 ц/га То есть, у половины фермерских хозяйств урожайность меньше, чем 152, 5 ц/га, а у половины больше, чем 152, 5 ц/га. Определение медианы в дискретном вариационном ряду: В дискретном вариационном ряду медианой является значение того варианта признака, у которого накопленная частота впервые превышает половину численности совокупности. Таблица 9
= 140/2 = 70; Для интервального ряда медиана определяется по следующей формуле:
где xМе - начало медианного интервала; Таблица 10
Это означает, что у половины рабочих производительность труда меньше 252, 5 м, а у другой половины больше 252, 5м. Для графического определения медианы последнюю ординату кумуляты делят пополам. Через полученную точку проводят прямую, параллельную оси x до пересечения ее с кумулятой. Абсцисса точки пересечения является медианой представленного на графике распределения.
Рисунок 4. Кумулята распределения Для графического определения медианы по огиве выполняют обратные действия, поскольку в огиве накопленные частоты помещают на оси абсцисс, а значения признака – на оси ординат. При нормальном симметричном распределении средняя величина совпадает с модой и медианой. Если распределение по форме близко к нормальному, то медиана находится между модой и средней величиной, причем ближе к средней, чем к моде. В практических расчетах Мо и Ме могут быть величинами, далеко отстоящими друг от друга. Для более четкой фиксации характера распределения используют другие структурные средние: квартили, квинтили, децили и перцинтили.
Квартили и квинтили При значениях признака, делящих совокупность на четыре равные части, рассчитываются квартилем распределения. Они обозначаются Qj с подписным значком номера квартиля. Q1 1: 3; Первый (нижний) квартиль отсекает от совокупности ¼ часть единиц с минимальными значениями, а третий (верхний) отсекает ¼ часть единиц с максимальными значениями, то есть как бы отбрасывают нетипичные, случайные значения признака. С помощью квартилей определяют границы, где находятся 50% единиц, наиболее характерные для этой совокупности. Для расчета Q1 (первого квартиля) используется следующая формула:
где xQ1 - начало интервала, содержащего 1-й квартиль;
Интервалом, содержащим Q1, является тот интервал, для которого накопленная частота впервые превышает ¼ от суммы частот (табл. 10). Это означает, что ¼ рабочих имеет производительность труда меньше, чем 234м., а ¾ имеет производительность труда больше. Для расчета Q3 используется формула:
Все обозначения аналогичны Q1.
Таким образом, общая формула расчета квартиля под номером i:
Значения признака, делящий ряд на пять равных частей, называются квинтилями. Их расчет производится аналогично расчету квартилей. Децили Децили - это варианты, которые делят ранжированную совокупность на 10 равных частей. Общая формула для расчета децилей:
Интервалом, содержащим Di, является тот интервал, для которого накопленная частота впервые превышает i/10 от суммы частот (табл. 10).
Это означает что, 60% рабочих имеют производительность труда меньше 259, 6м, а 40% - больше. Практическим примером использования децилей является децильный коэффициент дифференциации населения. Население делится на 10 частей по уровню дохода. Берут первые 10% и последние 10%. Считают, что средний доход последней группы не должен быть больше, чем в 10 раз среднего дохода первой группы. В России официально это превышение составляет 14-16 раз, неофициально – 20 и более раз. Перцентиль делит ранжированную совокупность на 100 равных частей. Формулы аналогичны формулам медианы, квартиля и дециля
Среднее линейное отклонение Недостаток размаха вариации устраняет показатель среднее линейное отклонение. Предназначенный для измерения закономерной силы вариации признака во всей совокупности показатель должен учитывать и обобщать все различия значений признака в совокупности без исключения. Однако число таких различий может быть весьма велико. Проще использовать среднюю из отклонений отдельных значений признака от среднего арифметического значения признака. Но среднее отклонение значений признака от средней арифметической величины согласно известному свойству средней равно нулю. Поэтому показателем силы вариации выступает не алгебраическая средняя отклонений, а средний модуль отклонений, или среднее линейное отклонение. Он рассчитывается по двум формулам: а) для несгруппированных данных (по формуле средней арифметической простой)
б) для сгруппированных данных (по формуле средней арифметической взвешенной) по абсолютной величине вычисляется как взвешенное по частоте отклонение по модулю середин интервалов от средней арифметической величины, т.е. по формуле:
Средний модуль отклонений определяет, на сколько в среднем отклоняются значения данного показателя от своего среднего значения в изучаемой совокупности. Среднее линейное отклонение имеет единицу измерения, совпадающую с единицей измерения признака у единиц совокупности Простота расчета и интерпретации составляют положительные стороны данного показателя. Недостаток среднего линейного отклонения: математические свойства модулей не позволяют поставить среднее линейное отклонение в соответствие с каким-либо вероятностным законом, в том числе и с нормальным распределением. Этот недостаток устраняется третьим и четвертым показателями вариации – дисперсией и среднеквадратическим отклонением. 3. Дисперсия - э то средний квадрат отклонений индивидуальных значений от средней величины. Она рассчитывается по простой и взвешенной формулам. Для ее обозначения используется греческая буква сигма в квадрате. а) для несгруппированных данных
б) для сгруппированных данных Недостаток дисперсии состоит в том, что она имеет размерность вариант, возведенную в квадрат (рублей в квадрате, человек в квадрате). Чтобы устранить этот недостаток, используетсясреднее квадратическое отклонение 4.Среднее квадратическое отклонение представляет собой среднее квадратическое отклонение вариант признака от средней величины. Рассчитывается как квадратный корень из дисперсии, поэтому для его обозначения используется σ. Для расчета среднего квадратического отклонения применяют две формулы а) для несгруппированных данных
б) для сгруппированных данных
Среднее квадратическое отклонение имеет те же единицы измерения, что и варианты исследуемого показателя. С помощью среднего квадратического отклонения можно утверждать, что i-тое значение признака в совокупности находится в пределах:
Центральные моменты 3-го и 4-го порядка будут рассмотрены в вопросе 7. Правило трех сигм В условиях нормального распределения существует зависимость между величиной σ и количеством наблюдений:
в пределах располагается 68, 3 % наблюдений;
в пределах располагается 94, 5 % наблюдений;
в пределах располагается 99, 7 % наблюдений. На практике почти не встречаются отклонения, которые превышают 3σ. Отклонение в 3σ может считаться максимальным При помощи этого правила можно получить примерную оценку σ: Правило сложения дисперсий Выделяют дисперсии: 1) общую 2) групповую 3) межгрупповую 4) среднюю из групповых Величина общей дисперсии характеризует вариацию признака под воздействием всех факторов, вызывающих эту вариацию:
где j – номер варианты Межгрупповая дисперсия (факторная дисперсия) характеризует систематическую вариацию, т. е. различия в величине изучаемого признака, возникающие под влиянием одного фактора, положенного в основание группировки
где - среднее значение изучаемого признака для i – й группы
– общая средняя для всей совокупности - номер группы
– количество единиц в i – й группе
Средняя из групповых (или остаточная) дисперсия характеризует случайную вариацию, т. е. ту часть вариации, которая вызвана действием других неучтённых факторов, и не зависящую от фактора, положенного в основании группировки: где - групповая дисперсия
Общая дисперсия равна сумме межгрупповой и средней из групповых дисперсий:
Эмпирический коэффициент детерминации:
Эмпирический коэффициент детерминации показывает долю межгрупповой дисперсии в общей дисперсии (насколько общая вариация изучаемого признака обусловлена вариацией группировочного (факторного) признака), т.е. показывает, насколько вариация признака в совокупности обусловлена фактором группировки. Эмпирическое корреляционное отношение:
Эмпирическое корреляционное отношение характеризует степень влияния группировочного признака на результативный показатель и оценивает тесноту связи между изучаемым и группировочным признаками. Эмпирическое корреляционное отношение изменяется в пределах от 0 до 1. Чем ближе η к 1, тем степень влияния больше, чем ближе к 0, тем слабее. 0 ≤ η ≤ 1 Пример. Стоимость 1 кв.м общей площади (у.е.) на рынке жилья по десяти 17-м домам улучшенной планировки составляла:
Таблица 14 При этом известно, что первые пять домов были построены вблизи делового центра, а остальные — на значительном расстоянии от него. Для расчета общей дисперсии вычислим среднюю стоимость 1 кв.м. общей площади: Общую дисперсию определим по формуле : . Вычислим среднюю стоимость 1 кв.м. и дисперсию по этому показателю для каждой группы домов, отличающихся месторасположением относительно центра города: а) для домов, построенных вблизи центра: б) для домов, построенных далеко от центра: Вариация стоимости 1 кв.м. общей площади, вызванная изменением местоположения домов, определяется величиной межгрупповой дисперсии: Вариация стоимости 1 кв.м. общей площади, обусловленная изменением остальных не учитываемых нами показателей, измеряется величиной внутригрупповой дисперсии Найденные дисперсии в сумме дают величину общей дисперсии Эмпирический коэффициент детерминации: показывает, что дисперсия стоимости 1.кв.м. общей площади на рынке жилья на 81, 8% объясняется различиями в расположении новостроек по отношению к деловому центру и на 18, 2% — другими факторами. Эмпирическое корреляционное отношение свидетельствует о существенном влиянии на стоимость жилья месторасположения домов. Правило сложения дисперсий для доли признака записывается так: а три вида дисперсий доли для сгруппированных данных определяется по следующим формулам: общая дисперсия: Формулы межгрупповой и средней из групповых дисперсий: 1) межгрупповая дисперсия для альтернативного признака: 2) средняя из групповых дисперсий для альтернативного признака: Моменты распределения Для дальнейшего изучения характера вариации используются средние значения разных степеней отклонений отдельных величин признака от его средней арифметической величины. Эти показатели получили название центральных моментов распределения распределения -го порядка , соответствующие степени, в которую возводятся отклонения отдельных значений признака от средней арифметической. Для несгруппированных данных: Для сгруппированных данных: Момент первого порядка согласно свойству средней арифметической равен нулю . Момент второго порядка является дисперсией . Моменты третьего и четвертого порядков используются для построения показателей, оценивающих особенности формы эмпирических распределений. Таблица 15 Центральные моменты распределений
Нормированный момент представляет собой отношение центрального момента k-го порядка к k-ой степени среднего квадратического отклонения: Нормированный момент - первого порядка равен 0 - второго порядка равен 1 - третьего и четвертого порядков используется для характеристики асимметрии и эксцессов Асимметрия и ее показатели Симметричным называется такое распределение, при котором варианты, равноотстоящие от средней, имеют равные частоты. Если распределение асимметрично, частоты вариантов, равноотстоящих от средней, не равны между собой. Изучение асимметрии имеет значение для статистических рядов, в которых у вариантов признака есть частоты. Частоты могут быть представлены явно (при дискретном и интервальном рядах) и неявно при упорядоченной совокупности данных с повторяющимися значениями признака (например: 2, 3, 4, 4, 5, 5, 5, 6, 7). Ранжированный ряд частот не имеет, но при большом количестве единиц наблюдения он может быть сгруппирован в интервальный ряд. В симметричных распределениях средняя арифметическая, мода и медиана совпадают . Если это равенство нарушается — распределение асимметрично. Для характеристики асимметрии используется ряд показателей: 1) Простейшим показателем асимметрии является разность , которая в случае правосторонней асимметрии положительна, а при левосторонней — отрицательна, при нулевом значении распределение симметрично. 2) Для сравнения асимметрии нескольких рядов вычисляется относительный показатель коэффициент асимметрии Пирсона величина которого в случае правосторонней асимметрии положительна, а при левосторонней — отрицательна, при нулевом значении распределение симметрично. 3) С помощью момента третьего порядка измеряют степень скошенности или асимметричности распределения. , где — коэффициент асимметрии, основанный на центральном моменте 3-го порядка. μ 3 - центральный момент 3-го порядка; σ 3 – среднее квадратическое отклонение в кубе В симметричных распределениях , как все центральные моменты нечетного порядка. Неравенство нулю центрального момента третьего порядка указывает на асимметричность распределения. При этом, если , то асимметрия правосторонняя и относительно максимальной ординаты вытянута правая ветвь; если , то асимметрия левосторонняя (на графике это соответствует вытянутости левой ветви).
Рисунок 6. График левосторонней и правосторонней асимметрии распределений
Рисунок 7. График расположения вариантов асимметрии распределений относительно друг друга Эксцесс и его показатели Под эксцессом понимается степень островершинности распределения, при этом в качестве эталона берется нормальное распределение. Изучение эксцесса имеет значение для статистических рядов, в которых у вариантов признака есть частоты. Характеристикой эксцесса является нормированный момент четвертого порядка. Показатель эксцесса для нормального распределения равен 3:
Показатель эксцесса для упорядоченного в порядке возрастания или убывания ряда не сгруппированных данных при фактическом распределении Показатель эксцесса для дискретного и интервального ряда при фактическом распределении
Для нормального распределения Е = 0. Для более островершинных распределений, чем нормальное, Е > 0, для более плосковершинных Е < 0
Рисунок 8. График эксцесса распределений Тема 5. Средняя и вариация. Вопросы: 1. Понятие средней величины. Классификация средних аналитических. 2. Понятие, виды и свойства средней арифметической. 3. Прочие виды аналитической средней. Правило мажорантности средних, выбор формулы средней. 4. Понятие и виды структурных характеристик вариационных рядов. 5. Понятие вариации. Показатели размера и интенсивности вариации. 6. Дисперсионный анализ. 7. Эксцесс и асимметрия.
Вопрос 1. Понятие средней величины. Классификация средних аналитических. Средняя величина – это обобщающая количественная характеристика совокупности по изучаемому признаку в конкретных условиях места и времени. В средних величинах погашаются индивидуальные отклонения, соответствующие отдельным единицам совокупности. Необходимое условие для расчета средней величины: все единицы совокупности должны обладать изучаемым признаком. Если средняя величина обобщает качественно однородные значения признака, она является типической характеристикой признаков данной совокупности. Если разнородные - то системной средней. Используя среднюю, можно одним числом охарактеризовать изучаемое явление. Так, по уточненным данным Всероссийской переписи населения 2002 года, средний размер семьи составляет 2, 7 чел. В городских населенных пунктах – 2, 7. В сельских – 2, 8. Самое малое значение этого показателя 2, 2 в сельской местности Псковской области, самый большой – 7, 4 выявлен в сельской местности Республики Ингушетия. Получив результат 2, 7 в среднем по России, можно сделать вывод, что наибольший удельный вес занимают семьи, состоящие из двух, но чаще из трех человек. Главное значение средних величин заключается в их обобщающей функции, т.е. в возможности замены множества различных индивидуальных значений признака средней величиной, характеризующей всю совокупность явлений. Виды средних аналитических величин различаются тем, какое свойство исходной варьирующей массы индивидуальных значений признака должно остаться неизменным.
Рисунок 1. Виды средней аналитической Средние величины, применяемые в статистике, относятся к классу степенных средних. Общая формула степенной средней имеет следующий вид:
где – степенная средняя k-ого порядка; если k = (-1), получается средняя гармоническая: если k =0, получается средняя геометрическая: Если k =1, получается средняя арифметическая: если k =2, получается средняя квадратическая: если k =3, получается средняя кубическая.
Популярное:
|
Последнее изменение этой страницы: 2016-07-13; Просмотров: 2212; Нарушение авторского права страницы