ОСНОВНЫЕ ЭТАПЫ СТАТИСТИЧЕСКОГО АНАЛИЗА ДАННЫХ

Стр 1 из 3Следующая ⇒

Вопросы к экзамену по статистике.

Часть 1

1. Основные этапы статистического анализа данных

2. Генеральная совокупность и выборка из нее. Репрезентативность выборки.

3. Основные способы организации выборки

4. Шкалы измерений.

5. Табулирование данных

6. Квантили и их интерпретация.

7. Графическое представление данных (гистограмма)

8. Графическое представление данных (полигон частот)

9. Графическое представление данных (сглаженная кривая).

10. Меры центральной тенденции (мода выборки).

11. Меры центральной тенденции (Медиана выборки)

12. Меры центральной тенденции (среднее выборки).

13. Меры изменчивости (размах, асимметрия, эксцесс).

14. Меры изменчивости (дисперсия).

15. Меры изменчивости (стандартное отклонение).

16. Нормальное распределение.

17. Приближенная проверка нормальности распределения.

18. Распределение, связанное с нормальным распределением.

Часть 2

1. Статистический вывод. Проверка гипотез.

2. Общая схема проверки статистической гипотезы.

3. Сравнение средних значений количественных признаков двух независимых выборок.

4. Сравнение средних значений количественных признаков двух зависимых (связанных) выборок.

5. Сравнение средних значений ранжированных признаков двух независимых выборок.

6. Сравнение средних значений ранжированных признаков двух зависимых (связанных) выборок.

7. Сравнение дисперсий двух независимых выборок.

8. Сравнение дисперсий двух зависимых связанных выборок.

9. Анализ взаимосвязи количественных признаков. Коэффициент корреляции Пирсона.

10. Корреляционная связь: форма, направление, сила.

11. Значимость коэффициента корреляции.

12. Анализ взаимосвязи ранжированных порядковых признаков.

13. Алгоритм вычисления ранговой корреляции Спирмана.

14. Проверка значимости коэффициента ранговой корреляции Спирмана.

15. Коэффициент ранговой корреляции Кендалла.

16. Анализ взаимосвязи номинальных признаков с помощью корреляции. Коэффициент корреляции « »

17. Биссериальный коэффициент корреляции.

18. Ранговый биссериальный коэффициент корреляции.

ОСНОВНЫЕ ЭТАПЫ СТАТИСТИЧЕСКОГО АНАЛИЗА ДАННЫХ

1 этап – исходный предварительный анализ исследуемой реальной системы. В результате этого этапа определяются:

- основные цели исследования на содержательном неформализованном уровне;

- совокупность единиц, представляющих предмет статистического исследования;

- перечень отобранных из представленных специалистами априорных (независимых от опыта человека) показателей, характеризующих каждого из исследуемых объектов;

- степень формализации соответствующих записей при сборе исходных данных;

- общее время и трудозатраты на планируемые работы.

- формализованная постановка задачи, по возможности включающая статистическую модель изучаемого явления.

2 этап – составление детального плана сбора исходной информации. При составлении этого плана необходимо по возможности учитывать полную схему дальнейшего статистического анализа.

3 этап – сбор исходного материала и ввод этих данных в ЭВМ.

4 этап – первичная статистическая обработка данных. В ходе этой обработки решаются следующие задачи:

1. .Отображение переменных, описанных текстом в номинальную или порядковую шкалу.

2 Анализ резко выделяющихся наблюдений.

3 Восстановление пропущенных наблюдений.

4 Проверка статистической независимости элементов исходной выборки.

5 этап – составление детального плана вычислительного анализа исходного материала. На этом этапе определяются основные группы, для которых будет проводиться дальнейший анализ. Обычно описывается блок-схема анализа с указанием привлекаемого метода.

6 этап – вычислительная реализация основной части статистической обработки данных.

7 этап – подведение итогов исследования. На этом этапе проверяется, в какой мере достигнуты сформулированные на 1 этапе содержательные цели работы. Если эти цели не достигнуты, то объясняется, почему. Работа завершается содержательной формулировкой новых задач, вытекающих из проведенного исследования.

ГЕНЕРАЛЬНАЯ СОВОКУПНОСТЬ И ВЫБОРКА ИЗ НЕЕ. РЕПРЕЗЕНТАТИВНОСТЬ ВЫБОРКИ

Генеральная совокупность – это совокупность всех мысленных наблюдений (или всех мыслимо возможных объектов), которые могут быть проведены при данном реальном комплексе условий.

Понятие ГС – это абстрактное математическое понятие. ГС может быть конечной или бесконечной.

Выборка из данной ГС представляет собой результат ограниченного ряда наблюдений интересующего нас показателя (признака, переменной). ГС всегда больше, чем выборка. В статистике выборка обозначается х1, х2, …, хn количество наблюдений n.

Количество наблюдений – «n»- называется объемом выборки.

Сущность статистических методов – чтобы по некоторой части ГС, т.е. по выборке, выносить суждения о свойствах ГС в целом.

Одним из важнейших вопросов, от успешного решения которого зависит достоверность выводов, получаемых в результате статистической обработки данных, является вопрос репрезентативности выборки, т.е. вопрос полноты и адекватности представления выборкой интересующих нас свойств ГС. Одним из важных путей повышения степени репрезентативности выборки является достижение полностью случайного отбора объектов из ГС.

ШКАЛЫ ИЗМЕРЕНИЙ

Данные эксперимента представляют собой результат измерения (наблюдения, регистрации, описания) свойств исследуемых объектов. Измерение – приписывание значений признакам объекта в соответствии с определенными правилами или шкалой измерения. В статистике наиболее часто употребляются следующие шкалы измерения:

- шкала наименований (номинальная, номинативная, шкала классификации). Она используется для отнесения объектов к определенному классу. Объекты, отнесенные к одному и тому же классу, получают одни и те же обозначения. Если количество классов шкалы известно, а также известны правила отнесения к ним объекта, то такая шкала называется категоризованной (примером такой шкалы является пол: м и ж). Простейшим случаем номинальной шкалы является дихотомическая шкала, которая состоит только из двух классов (курит – не курит). К сожалению, для номинальной шкалы арифметические операции не имеют смысла. После того, как с помощью номинальной шкалы мы классифицировали исходные объекты на классы, мы можем перейти от наименований к числам, подсчитав количество наблюдений в каждом из классов. Такая величина называется частотой. Можно работать с помощью математических методов.

- порядковая шкала (ранговая, ординальная). Эта шкала используется для отнесения объектов к определенному классу в соответствии со степенью выраженности, заданности свойства. В порядковой шкале должно быть не менее 3-х классов. Например, 1 класс – подходит для занятия вакантной должности; 2 класс – подходит с оговорками; 3 класс – не подходит. В порядковой шкале мы можем только сказать «больше», «меньше». Но не можем сказать «на сколько». В нашем примере 1 и 2 классы могут быть ближе друг к другу, чем 2 и 3 классы. От класса мы можем перейти к числам с помощью ранжирования. Обычно принято считать, что низший класс получает ранг 2 и т.д. Чем больше классов в шкале, тем больше у нас возможности для математической обработки полученных данных. В общих случаях числа в порядковой шкале не отражают количества свойства, которыми обладают исследуемые объекты. Поэтому для этой шкалы арифметические операции также чаще всего не имеют смысла. Примерами порядковой шкалы являются оценки на экзамене. Основные психологические исследования обычно используют порядковую шкалу, при этом необходимо стараться, чтобы в порядковой шкале было достаточное количество классов. Фактически в качестве единицы измерения в порядковой шкале используется расстояние в1 ранг, но при этом расстояние между соседними рангами может быть различным.

- количественные шкалы. Таких шкал имеется 2 типа: интервальная и шкала отношений. Интервальная шкала позволяет классифицировать и упорядочивать объекты, а также количественно описать различия между свойствами объектов. Для задания такой шкалы устанавливают единицу измерения и произвольную точку отсчета. Примером является календарное время. Для этой шкалы арифметические операции имеют смысл. Шкала отношений отличается от интервальной шкалы только тем, что в ней задано абсолютное начало отсчета. Например, рост в см – абсолютное начало 0. В шкале отношений мы можем определить не только на сколько одно измерение превосходит другое, но и во сколько раз.

-5 С ------------0------------- +5 С

ОК --------------------------------------

Считается, что в психологии примером шкалы отношений являются шкала порога абсолютной чувствительности. Примечание: данные, полученные в одной шкале, можно перевести в другую шкалу только в следующих направлениях: 3 2 1. От количественной к порядковой к номинальной (много курит, немного курит, не курит). В обратном направлении перевод информации не возможен. По мере возможности нужно стараться измерять в количественной шкале, т.к. в этом случае мы сможем перейти к любой из рассматриваемых выше шкал. Однако при этом происходит частичная потеря информации. Перевод исходной выборки из количественной шкалы называется ранжированием. При ранжировании каждому элементу выборки приписывается ранг, который соответствует месту этого элемента в упорядоченной выборке. Наиболее часто выборку ранжируют по возрастанию, т.е. ранг, равный 1, получает наименьший элемент выборки. В результате ранжирования «новая» выборка содержит значения от 1 до n. Пример ранжирования выборки. Пусть в ходе эксперимента измерялся коэффициент IQ и получена следующая выборка:

112, 108, 84, 96, 75, 124, 106, 89. n=8

7 6 2 4 1 8 5 3

Проранжировать полученную выборку (не путать с упорядочиванием). 75, 84, 89, 96, 106, 108, 112, 124.

Иногда в выборке встречаются несколько одинаковых значений. Такая ситуация называется проблемой совпадающих рангов. В этом случае каждому из совпадающих значений присваивается ранг, равный среднему значению рангов, если бы эти элементы не совпадали.

Пример: 108, 96, 96, 74, 84, 108, 104, 108, 103. (3+4): 2=3, 5

8 3, 5 3, 5 1 2 8 6 8 5 (7+8+9): 3=8

Пример перевода исходной выборки из количественной шкалы в номинальную. Пусть в ходе эксперимента измеряется уровень тревожности в диапазоне от 0 до 20. Необходимо перевести полученные данные в номинальную шкалу, содержащую 3 класса: высший (15-20); средний (6-14); низший (0-5). Исходная выборка имеет вид:

Количественная 14, 6, 8, 4, 18, 12, 10, 9.

Номинальная с с с н в с с с.

Переводя, мы теряем информацию. в-1, с-6, н-1.

ТАБУЛИРОВАНИЕ ДАННЫХ

Для анализа и интерпретации исходных количественных данных их необходимо обобщить. Чаще всего 1 этапом представления исходных данных является упорядочивание их по величине (по возрастанию или по убыванию). Если исходная выборка упорядочена по возрастанию, т.е. сначала расположено наблюдение, наименьшее по величине, затем 2 по величине и т.д., то такая выборка называется вариационным рядом и обозначается следующим образом: х(1), х(2), …, х(n) - упорядочены, х(1) < х(2) < … < х(n) (некоторые элементы 84, 84, 106, 106 могут совпадать); х1, х2 - не упорядочены, в произвольном порядке.

Когда исходная выборка имеет достаточно большой объем, то используют табулирование данных – т.е. представляют исходную выборку в виде таблицы соответствующего вида. Табулирование обычно осуществляется в 4 этапа:

1 этап – определение размаха выборки. Для этого из максимального элемента выборки вычитают минимальный.

R= хmax – xmin = x(n) - x(1), где R – размах выборки.

2 этап – определение ширины интервала, группирование данных. Прежде чем искать ширину интервала, необходимо определиться с количеством интервалов в группировании. Очень небольшое количество интервалов может слишком упростить и сгладить общую тенденцию, а слишком большое количество интервалов может привести к излишней детализации рассматриваемого явления. Рекомендация: количество интервалов выбирается таким образом, чтобы в каждый интервал попадало в среднем 5-6 элементов выборки. Для этого объем выборки делим на 5 и на 6, в результате получаем два числа.

k1=n/5, k2 = n/6, где n - объем выборки. После этого в качестве требуемого количества интервала выбирается целое число к, находящееся между k1 и k2. Пример: n=32, k1=32/5=6, 4; k2 =32/6=5, 3; отсюда получается в качестве к будет 6 (к=6 или к=5). Тогда ширина интервала группирования получается путем деления размаха выборки на количество интервалов.

h= R/k, где h – ширина.

Т.к. в большинстве случаев наши исходные данные являются целыми числами, то ширину интервала можно также округлить до ближайшего целого числа. h=50/6=8, 3=8

3 этап – определение границ интервалов группирования данных. При этом нужно обращать внимание на то, чтобы левая граница первого интервала не оказалась справа от наименьшего значения на числовой оси.

( * * * * * * * )

xmin xmax

( )( )( )( )( )( )( )

х min=42, левая граница не может быть 44, а может 40, т.е. левая граница первого интервала не может быть больше наименьшего значения. Каждая последующая граница получается путем прибавления ширины интервала к предыдущей границе.

h=8, x min =42. Левая граница 40; 40 – 48; 48 – 56.

4 этап – непосредственно само табулирование данных. На этом этапе мы подсчитываем, сколько элементов выборки попало в каждый интервал. Количество наблюдений, попавших в интервал, называется частотой. Результатом табулирования данных является таблица, состоящая из двух столбцов, первый из которых содержит границы интервала, второй – частоты. Пример: в результате проведения контрольной работы по чтению в классе из 38 учеников были получены следующие результаты: 90, 66, 106, 84, 105, 83, 104, 82, 97, 97, 59, 95, 78, 70, 47, 95. 100, 69, 44, 80, 75, 75, 51, 109, 89, 58, 59, 72, 74, 75, 81, 71, 68, 112, 62, 91, 93, 84. Протабулировать полученные исходные данные. xmin=44; xmax=112; R=112-44=68; n=38; k1=38/5=7, 5; k2=38/6=6, 3; k=7. Находим ширину: h=R/k; h= 68/7=9, 7=10.

Перед непосредственным подсчетом частот мы определяем для себя, в какой интервал будем включать значения, попадающие точно на границу интервала (левую и правую). Для контроля правильности вычисления нужно сложить все полученные частоты, если мы все сделали правильно, то сумма частот должна равняться количеству наблюдений в выборке.

Иногда выборка может быть представлена в виде частотного ряда. Частотным рядом называется таблица следующего вида:

zi z1 z2... zk

ni n1 n2... nk

z1, z2, …, zn - различные значения элементов исходной выборки.

x1, х2, …, хn

k < n

n1, n2, …, nk – частота встречаемости того или иного различного значения в выборке.

Имеет смысл задача построения частотного ряда, если в исходной выборке встречается много одинаковых значений. Пример: на занятиях по статистике проводится эксперимент по регистрации номера месяца рождения каждого из студентов. Опрос проводится по списку. Представить полученную выборку в виде вариационного и частотного рядов, а также определить размах выборки.

4, 12, 12, 6, 5, 1, 8, 6, 12, 8, 7, 1, 10, 6, 10, 8, 12, 12, 10, 1, 11, 12, 2, 4, 10, 12. n=26;

в виде вариационного ряда (по возрастанию): 1, 1, 1, 2, 4, 4, 5, 6, 6, 6, 7, 8, 8, 8, 10, 10, 10, 11, 12, 12, 12, 12, 12, 12, 12.

n=26 (общее количество); к=10.

Для контроля правильности вычислений можно просуммировать частоты n1+n2+…+nk=n

Находим размах выборки: R=12-1=11; max –12; min –1; меньше 11 может быть, 1/2 - 26, 1 – 50.

КВАНТИЛЬ

Квантиль – это точка на числовой прямой, которая делит совокупность исходных наблюдений на две части с известными пропорциями в каждой из частей. Показатель одной из пропорций обычно записывается при обозначении квантили в качестве индекса справа внизу и называется уровнем или порядком. В общем виде записывается следующим образом:

Кр читается квантиль уровня (порядка); показатель от 0 до 1.

Например, К0, 2. Пусть имеется квантиль уровня 0, 2. Характеризует левую часть пропорции исходных наблюдений.

Квантиль – это общее понятие. Частными случаями квантиля являются: квартили; децили; процентили. Квартиль делит исходную совокупность на две части, каждая из которых пропорциональна одной или нескольким четвертым частям. Обычно рассматривают 3 квартиля: Q1, Q2, Q3.

Дециль – делит исходную совокупность наблюдений на 2 части, каждая из которых пропорциональна одной или нескольким десятым частям. Обычно рассматривают 9 децилей: D1, D2, D3, …, D9.

Процентиль – делит исходную совокупность наблюдений на 2 части, каждая из которых пропорциональна одной или нескольким сотым частям. Обычно рассматривают 99 процентилей: Р1, Р2. …, Р98, Р99.

Иногда некоторая точка на числовой оси может одновременно являться и квантилью, и децилью, и процентилью. Например, Q2=D5=Р50=К0, 5.

Q3=децилью не может быть=Р75=К0, 75. ¾ =75/100

Главное – сами числа получить по их выборке.

Нормальное распределение.

Значения показателей (признаков) невозможно предугадать даже при полностью известных условиях эксперимента, в которых они измеряются.

Мы можем лишь указать вероятность того, что признак принимает то или иное значение.

Знание частоты встречаемости этих значений позволяет нам судить о распределении частот. Знание этого распределения исследуемого признака позволяет делать выводы о событиях, в которых участвует этот признак. Однако эти выводы тоже носят вероятностный или столастический характер.

Среди распределений есть такие распределения, которые встречаются на практике особенно часто. Эти распределения детально изучены и свойства их хорошо известны.

Наиболее распространенным распределением является нормальное распределение. Оно часто используется для приближенного описания многих случайных явлений, в которых на интересующий нас признак оказывает воздействие большое количество независимых случайных факторов, среди которых нет резко выделяющихся.

Нормальное распределение однозначно распределяется, если мы указываем значения двух его параметров: 1) среднее значение а; 2) дисперсии

( сигма). График нормального распределения называется кривой Гаусса и является симметричным относительно среднего значения а.

Параметр а характеризует положение графика на плоскости и

называется поэтому параметром положения. Параметр характеризует степень сжатия или растяжения, поэтому он называется параметром

масштаба. Если среднее значение а=0, а дисперсия =1, то такое нормальное распределение называется стандартным. Рассмотренная в предыдущем параграфе процедура стандартизации исходных данных как раз и приводит к тому, что преобразованные данные z1, z2, …, zn имеют стандартное нормальное распределение.

График стандартного нормального распределения является симметричным относительно вертикальной координатной оси.

При обработке исходных данных иногда осуществляются преобразования с помощью арифметических операций. В результате этого возникает несколько новых видов распределения, связанных с нормальным.

Наиболее часто из таких распределений в статистике

рассматриваются следующие: 1) Х - распределение (хи-квадрат); 2) t – распределение Стьюдента; 3) F – распределение Фишера.

Х - распределение.

Оно определяется как сумма квадратов случайных величин, имеющих стандартное нормальное распределение.

2 2 2 2

Хn = Z1 + Z2 +... +Zn

Х - распределение зависит от одного параметра, который называется числом степени свободы и обычно обозначается (ню). Этот параметр равен количеству суммируемых случайных величин.

График Х распределения не является симметричным и расположен в положительной полуплоскости. Среднее значение Х -распределения равно числу степен свободы (ню), а дисперсия равна 2.

t – распределение Стьюдента.

Оно получается в результате деления частной величины, имеющей стандартное нормальное распределение на квадратный корень из случайной

величины, имеющей Х – распределение.

t = Z0: X:

t – распределение Стьюдента зависит от одного параметра – числа степеней свободы.

График этого распределения является симметричным относительно координатной вертикальной оси.

Если > 30, то распределение Стьюдента практически не отличается от стандартного нормального распределения.

F – распределение Фишера. 2

Оно получается путем деления случайной величины, имеющей Х – распределение с числом степеней свободы 1 на случайную величину,

имеющую Х – распределение с числом степеней свободы 2.