Корелляционный и регрессионный анализ

План лекции.

1. Статистическая зависимость ее отличие от функциональной зависимости.

2. Корреляционная зависимость: Линии регрессии. Сравнение коэффициентов корреляции и регрессии. Основные этапы проведения корреляционного и регрессионного анализа:

Вопросы лекции.

1. Статистическая зависимость ее отличие от функциональной зависимости.

В исследованиях в большинстве случаев между переменными величинами существуют зависимости такого вида, когда каждому значению одной переменной (Х) соответствует не какое-то одно определенное, а множество значений другой переменной(Y), причем нельзя сказать заранее, какое именно значение примет зависимая величина Y. Такая зависимость получила название статистической (или стохастической, вероятностной). Наиболее часто появление такой зависимости объясняется действием на результирующую переменную не только контролируемого фактора или контролируемых факторов (в данном случае таким контролируемым фактором является переменная Х), а и многочисленных неконтролируемых случайных факторов:

X Y₁, Y₂, …, Y_n

Простейшим визуальным способом выявить наличие взаимосвязи между количественными переменными является построение диаграммы рассеяния. Это график, на котором по горизонтальной оси (X) откладывается одна переменная, по вертикальной (Y) другая. Каждому объекту на диаграмме соответствует точка, координаты которой равняются значениям пары выбранных для анализа переменных.

Понять особенность статистической зависимости проще, если сравнить её с зависимостью вида, когда каждому возможному значению случайной величины Х соответствует одно возможное значение случайной величины Y.

X Y

В простейшем случае линейной зависимости, чем больше значения одного признака, тем больше значения другого, и чем меньше значения одного признака, тем меньше значения другого.

2. Корреляционная зависимость: Линии регрессии.

Допустим, что существует стохастическая зависимость случайной переменной Y от Х. Зафиксируем некоторое значение х переменной Х. Переменная Y, в силу ее случайной зависимости от Х, может принять любое значение из некоторого множества, причем какое именно – заранее не известно. Поэтому, прежде всего, стараются выяснить, изменяется или нет при изменении Х математическое ожидание Y.

X

Если при изменении X математические ожидания М(Y) изменяются, то говорят, что имеет место корреляционная[1] зависимость величины Y от Х.

Функция же f(х)=М(Y), описывающая изменение математического ожидания случайной переменной Y при изменении значений переменной Х, называется функцией регрессии Y на Х, а ее график – линией регрессии. Если f(х) – линейная функция, то корреляционную зависимость можно описать с помощью уравнения вида

М(Y/х) =Bх+A, (1)

где А и В – некоторые параметры, а М(Y/х) – условное математическое ожидание наблюдавшихся значений Y, соответствующих Х=х.

Пусть в нашем распоряжении имеется лишь выборка ограниченного объема. Поэтому в этом случае речь может идти об оценке (приближенном выражении) функции регрессии.

В качестве оценок математических ожиданий принимают условные средние, которые находят по данным наблюдений (по выборке). Условным средним у_хназывают среднее арифметическое наблюдавшихся значений Y, соответствующих Х=х.

Условное математическое ожидание М(Y/х) является функцией от х, следовательно, его оценка, т.е. условное среднее у_х, также функция от х; обозначив эту функцию через φ (х), получим уравнение у_х = φ (х). Это уравнение называют выборочным уравнением регрессии; функцию φ (х) называют выборочной регрессией, а ее график – выборочной линией регрессии. Поскольку наиболее простой формой зависимости в математике является прямая, то в корреляционном и регрессионном анализе наиболее популярны линейные модели.Если функция φ (х) линейная, то выборочное уравнение линейной регрессии Y на Х имеет вид:

y_x=𝞺 _xy x + a (по аналогии с уравнением (1)),

где 𝞺 _{xy –}выборочный коэффициент линейной регрессии Y на X, . y_x_–условное среднее значение y для соответствующих Х=х.

Попробуем провести линию регрессии через облако точек на диаграмме рассеяния.

Таких линий можно нарисовать множество, причем на глаз невозможно определить, какая из них лучше подходит для описания диаграммы рассеяния?

Вы уже знакомы с методом, который позволяет совершенно точно вычислить положение прямой линии, наилучшим образом проходящей через облако точек, и составить уравнение этой линии. Это – метод наименьших квадратов. Вычисляемая с его помощью прямая линия – линия регрессии. Она характеризуется тем, что сумма квадратов расстояний от точек на диаграмме до этой линии минимальна (по сравнению со всеми возможными линиями). Таким образом, линия регрессии дает наилучшее приближенное описание линейной зависимости между двумя переменными.

Смысл коэффициента регрессии 𝞺 _xy

1) В общем случае коэффициент регрессии показывает, как в среднем изменится значение Y, если X увеличится на единицу.

2) Численно он равен тангенсу угла между прямой линией регрессии Y на X и положительным направлением оси ОХ.

3) По величине коэффициента регрессии судят о силе корреляционной связи между изучаемыми величинами: чем больше величина 𝞺 _xy, тем сильнее изменится среднее значение Y при изменении Х, тем сильнее корреляционная связь.

Какова бы ни была конфигурация облака точек на диаграмме рассеяния – лежат ли они в точности на одной прямой, или разбросаны хаотически – любая статистическая компьютерная программа всегда сможет построить уравнение регрессии. Может оказаться, что через два облака, различающихся степенью близости к линейной конфигурации, будут проведены одинаковые линии регрессии. Однако в одном случае точки могут лежать на одной прямой, а в другом случае – нет.

То есть зависимость между двумя переменными может иметь различный характер даже при одинаковых линиях регрессии.

Оказывается форма связи (линия регрессии) сама по себе не дает ответа на вопрос о тесноте связи пары переменных . На этот вопрос отвечает коэффициент парной корреляции. Он показывает, насколько тесно две переменные связаны между собой.

Визуально о тесноте связи можно судить по тому, насколько компактно расположены точки-объекты около линии регрессии. Чем ближе точки к линии регрессии, тем теснее связь.

Формула для вычисления парного коэффициента корреляции:

Чем выше по модулю (по абсолютной величине) значение коэффициента корреляции, тем сильнее связь между признаками. Принято считать, что коэффициенты корреляции, которые по модулю больше 0, 7, говорят о сильной связи Коэффициенты корреляции, которые по модулю меньше 0, 7, но больше 0, 5, говорят о связи средней силы. Наконец, коэффициенты корреляции, которые по модулю меньше 0, 5, говорят о слабой связи.

⇐ Предыдущая 1 2 3 4 567 Следующая ⇒
Поделиться:

Популярное:
ГЛАВА 2. ПАРНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ

Последнее изменение этой страницы: 2016-06-05; Просмотров: 612; Нарушение авторского права страницы