Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Количественная оценка тесноты связи по эмпирическим данным: коэффициент линейной парной корреляции.



ОТВЕТ

Коэффициент линейной парной корреляции используется для оценки степени тесноты линейной связи (был предложен Кэндэлом Пирсоном).

Строится как отношение показателя ковариации к произведению среднеквадратических отклонений признаков X и Y: .

Показатель ковариации – это показатель связи, который вычисляется следующим образом:

.

Это размерный показатель; его единицы измерения равны произведению единиц измерения Х на единицы измерения Y.

Свойства ковариации:

1) cov(X, X)=sх2;

2) cov(X, A)=0, где A-const.

Линейный коэффициент корреляции в отличие от ковариации – показатель безразмерный и поэтому легко интерпретируемый. Он может быть рассчитан также по формуле: .

Область допустимых значений линейного коэффициента корреляции от -1 до +1. Если значение коэффициента корреляции по модулю близко к единице, то связь близка к линейной функциональной. Если признаки Х и Y взаимно независимы, то значение коэффициента корреляции близко к нулю. Равенство нулю коэффициента корреляции означает отсутствие только линейной связи. Признаки же могут быть связаны тесной нелинейной связью и при этом иметь нулевой коэффициент корреляции (например, в случае параболической формы связи).

Отрицательные значения коэффициента корреляции свидетельствуют об обратной зависимости признаков, положительные значения свидетельствуют о прямой зависимости.

Линейный коэффициент парной корреляции может быть рассчитан по сгруппированным данным, а именно, по данным комбинационной группировки:

Xi Yj Итого по строке (fi)
Y1 Y2 .... Yk
X1 f11 f12   f1k f1
X2 f21 f22   f2k f2
....          
Xm fm1 fm2   fmk fm
Итого по столбцу (fj) f1 f2   fk N

 
 

В этом случае формула расчета линейного парного коэффициента корреляции следующая:

 

где N- объем совокупности; f – частоты распределения значений признаков.

ВОПРОС 38

Понятие регрессии и описание ее на эмпирическом уровне.

ОТВЕТ

Регрессия зависимость среднего значения какой-либо случайной величины от некоторой другой величины или нескольких величин.

Описание регрессии на эмпирическом уровне сводится к построению эмпирической регрессии.

Эмпирическая регрессия строится по данным аналитической или комбинационной группировок и представляет собой зависимость групповых средних значений признака-результата от групповых средних значений признака-фактора. Графическим представлением эмпирической регрессии является линия эмпирической регрессии - ломанная линия, составленная из точек, абсциссами которых являются групповые средние значения признака-фактора, а ординатами – групповые средние значения признака-результата. Число точек равно числу групп в группировке.

Рекомендуется наносить эмпирическую линию регрессии на «корреляционное поле». Корреляционное поле – точечный график в системе координат (Х; Y). Каждая точка соответствует единице совокупности. Положение каждой точки на графике определяется величиной 2-ух признаков – факторного и результативного (относящихся к данной единице совокупности).

Точки корреляционного поля обычно не лежат на одной линии, они вытянуты определенной полосой вдоль некоторой гипотетической линии.

Эмпирическая линия регрессии отражает основную тенденцию рассматриваемой зависимости. Если эмпирическая линия регрессии по своему виду приближается к прямой линии, то можно предположить наличие прямолинейной корреляционной связи между признаками. А если линия связи приближается к кривой, то это может быть связано с наличием криволинейной корреляционной связи.

Рассмотрим пример построения эмпирической линии регрессии для анализа взаимосвязи признаков: Y- выработка рабочего (шт./смену) и Х- квалификация (разряд) рабочего по совокупности из 20 рабочих. Исходные данные представлены в таблице:

X
Y

 

Чтобы построить эмпирическую линию регрессии произведем аналитическую группировку рабочих. Результаты представлены в таблице:

Признак-фактор Хj
Nj
Среднее значение признака-результата 11, 7 12, 5 16, 75 24, 75

Так как каждой группе соответствует единственное значение признака-фактора (Хj), то его среднее значение в группе совпадает с Хj: .

Нанесем точки ( ), j=1; m на корреляционное поле, соединим их отрезками и получим эмпирическую линию регрессии (рис.13).

Форма данной эмпирической линии регрессии напоминает возрастающий участок параболы, что позволяет выдвинуть гипотезу о параболической форме связи между признаками «выработка» и «разряд» для данной совокупности рабочих.


ис. 13. Построение эмпирической линии регрессии.

ВОПРОС 39

Расчет параметров линейного уравнения регрессии методом наименьших квадратов

ОТВЕТ

Уравнение регрессии – это уравнение, описывающее корреляционную зависимость между признаком-результатом Y и признаками факторами (одним или несколькими).

Наиболее часто для описания статистической связи признаков используется линейное уравнение регрессии. Внимание к линейной форме связи объясняется четкой экономической интерпретацией параметров линейного уравнения регрессии, ограниченной вариацией переменных и тем, что в большинстве случаев нелинейные формы связи для выполнения расчетов преобразуют (путем логарифмирования или замены переменных) в линейную форму. Линейное парное уравнение регрессии имеет вид: Y’i=a+b·Xi, i=1; n, n – объем совокупности (число наблюдений).

Оценки параметров линейной регрессии (a и b) могут быть найдены разными методами. Наиболее распространенным является метод наименьших квадратов (МНК).

МНК позволяет получить такие оценки параметров а и b, при которых сумма квадратов отклонений фактических значений результативного признака - Yi от расчетных (теоретических) значений –Y’i (рассчитанных по уравнению регрессии) минимальна:

.

Проиллюстрируем суть данного метода графически (рис.14). Попытаемся подобрать прямую линию, которая ближе всего расположена к точкам корреляционного поля. Согласно методу наименьших квадратов линия выбирается так, чтобы сумма квадратов расстояний по вертикали между точками корреляционного поля и этой линией была бы минимальной.

Y

 
 


Y’i

Yi

 

X

Х i

 

Рис.14. Линия регрессии с минимальной суммой квадратов отклонений.

 

В случае линейной парной зависимости:

S=å (Yi-( a+b·Xi))2 ®min.

Значения Yi и Xi i=1; n нам известны, это данные наблюдений. В функции S они представляют собой константы. Переменными в данной функции являются искомые оценки параметров - а и b. Чтобы найти минимум функции 2-ух переменных необходимо вычислить частные производные данной функции по каждому из параметров и приравнять их нулю, т.е. .

В результате получим систему из 2-ух нормальных линейных уравнений:

 

 
 

Решая данную систему, найдем искомые оценки параметров.

Правильность расчета параметров уравнения регрессии может быть проверена сравнением сумм (возможно некоторое расхождение из-за округления расчетов).

Параметр b может быть рассчитан также через коэффициент корреляции: .

Знак коэффициента регрессии b указывает направление связи (если b> 0, связь прямая, если b< 0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -Y при изменении признака-фактора - Х на 1 единицу своего измерения.

Формально значение параметра а – среднее значение признака-результата Y при значении признака-фактора Х равном нулю. Если признак-фактор не имеет и не может иметь нулевого значения, то вышеуказанная трактовка параметра а не имеет смысла.

Рассчитаем параметры линейного уравнения регрессии, описывающего зависимость выработки рабочего, шт./смену (Y) от разряда (Х). Исходные данные:

X
Y

Для оценки параметра b рассчитаем показатели:

=(3·3+4·2+5·4+6·4+7·3+8·4)/20=5, 7;

s2х=((3-5, 7)23+(4-5, 7)22+(5-5, 7)24+(6-5, 7)24+(7-5, 7)23+(8-5, 7)24)/20=2, 81;

=(10+12+13+11+14+12+13+….+27+25)/20=17, 1;

=(3·10+3·12+3·13+4·11+4·14+5·12+5·13+…+8·27+8·25)/20=104, 95;

Тогда параметр b=( - · )/s2х =(104, 95-5, 7·17, 1)/2, 81=2, 66.

Парметр a= -b· =17, 1- 2, 66·5, 7=1, 927.

Уравнение регрессии будет иметь вид: Y’=1, 927+2, 66·X..

Интерпретация параметров уравнения регрессии:

b- при увеличении разряда на единицу, выработка рабочего в среднем возрастает на 2, 66 шт. за смену.

Параметр а не интерпретируем, т.к. отсутствуют данные о рабочих с разрядом 0.

Рассчитаем теоретические значения признака-результата по уравнению регрессии:

Y’(х=3)=1, 927+2, 66·3=9, 91.

Y’(х=4)=1, 927+2, 66·4=12, 57.

Y’(х=5)=1, 927+2, 66·5=15, 24.

Y’(х=6)=1, 927+2, 66·6=17, 90.

Y’(х=7)=1, 927+2, 66·7=20, 56.

Y’(х=8)=1, 927+2, 66·8=23, 22.

 

 

Результаты расчета поместим в таблицу:

 

X
Y
Y’ 9, 91 9, 91 9, 91 12, 6 12, 6 15, 2 15, 2 15, 2 15, 2 17, 9 17, 9 17, 9 17, 9 20, 6 20, 6 20, 6 23, 2 23, 2 23, 2 23, 2

 

 

ВОПРОС 40

Оценка качества уравнения регрессии.

ОТВЕТ

Под качеством уравнения регрессии понимается степень близости (соответствия) рассчитанных по данному уравнению значений признака-результата (Y’) к фактическим (наблюдаемым) значениям Y.

Для оценки качества полученного уравнения регрессии используется ряд показателей. Наиболее широкое применение из них получил теоретический коэффициент детерминации – R2yx. Теоретический коэффициент детерминации рассчитывается, как отношение объясненной уравнением дисперсии признака-результата - d2, к общей дисперсии признака-результата s2y:

,

где d2 – объясненная уравнением регрессии дисперсия Y;

s2y - общая (полная) дисперсия Y.

 
 

В силу теоремы о сложении дисперсий общая дисперсия результативного признака равна сумме объясненной уравнением регрессии (d2) и остаточной (необъясненной) (e2) дисперсий: s2y=d2+e2. Поэтому коэффициент детерминации может быть рассчитан через остаточную и общую дисперсии:

 

где e2- остаточная (необъясненная уравнением регрессии) дисперсия Y.

Данный показатель характеризует долю вариации (дисперсии) результативного признака Y, объясняемую уравнением связи (а, следовательно, и фактором Х), в общей вариации (дисперсии) Y. Коэффициент детерминации R2yx принимает значения от 0 до 1. Соответственно величина 1-R2yx характеризует долю дисперсии Y, вызванную влиянием прочих неучтенных в уравнении факторов и ошибками измерений.

При парной линейной регрессии R2yx=r2yx.

 

 

ВОПРОС 41

Задачи изучения множественной связи.

ОТВЕТ

Парная регрессия может дать хороший результат при моделировании, если влиянием других факторов, воздействующих на объект исследования, можно пренебречь. В экономике (в отличие от естественных наук) невозможно контролировать поведение большинства экономических факторов. Влияние данных факторов нужно учитывать в модели. То есть нужно построить уравнение, описывающее множественную связь:

Y=f(X1, X2, ..., Xm, u),

где Y – признак-результат;

X1, X2, ..., Xm - признаки-факторы;

u – случайная составляющая.

Задачи анализа многофакторной зависимости:

1) сравнение степени влияния различных факторов на результат;

2) выделение прямого (непосредственного) влияния фактора на результат и косвенного (опосредованного) влияния фактора на результат (через другие факторы);

3) выявление существенности влияния данного фактора (или группы факторов) на результат на фоне других факторов (т.е. нельзя ли исключить из модели данный фактор без существенного ухудшения описания результирующей переменной).

Изобразим графически связи всех признаков для двухфакторной регрессии: Y=f(X1, X2, u) (рис.15).

 

Неучтенные в модели факторы

 
 

 


Y

 

       
   


X1 X2

- прямые связи

- полные связи

- косвенные (опосредованные) связи

 

Рис. 15. Граф связей модели: Y=f(Х1, Х2).

 

 

ВОПРОС 42

Регрессия в стандартных масштабах.

ОТВЕТ

Уравнение регрессии в стандартном масштабе связывает стандартизованные значения признаков. То есть все значения исследуемых признаков переводятся в стандарты по формулам:

для признаков -факторов , j=1; m,

где Хji - значение переменной Хji в i-ом наблюдении;

для признака – результата .

Таким образом, начало отсчета каждой стандартизованной переменной совмещается с ее средним значением, а в качестве единицы изменения принимается ее среднее квдратическое отклонение. Благодаря этому все переменные в стандартизованном масштабе имеют одинаковые средние арифметические значения равные 0 ( ) и одинаковые дисперсии равные 1 (stx2=sty2=1). Кроме того, коэффициент парной линейной корреляции между стандартизованными переменными равен среднему из произведений данных стандартизованных переменных: , .

Если связь между переменными в естественном масштабе линейная, то изменение начала отсчета и единицы измерения этого свойства не нарушат, так что и стандартизованные переменные будут связаны линейным соотношением:

,

где bj – параметры уравнения регрессии в стандартном масштабе.

b-коэффциенты могут быть оценены с помощью обычного МНК. При этом система нормальных уравнений будет иметь вид:

rx1y=b1+rx1x2b2+…+ rx1xmbm

rx2y= rx2x1b1+b2+…+ rx2xmbm

rxmy= rxmx1b1+rxmx2b2+…+bm

Найденные из данной системы b–коэффициенты показывают на какую часть своего среднего квадратического отклонения изменится признак-результат Y с изменением соответствующего фактора Хj на величину своего среднего квадратического отклонения (sхj) при неизменном влиянии прочих факторов (входящих в уравнение).

Кроме того, коэффициент bj может интерпретироваться как показатель прямого (непосредственного) влияния j-ого фактора (Xj) на результат (Y). Во множественной регрессии j-ый фактор оказывает не только прямое, но и косвенное (опосредованное) влияние на результат (т.е. влияние через другие факторы модели). Косвенное влияние измеряется величиной: , где m- число факторов в модели. Полное влияиние j-ого фактора на результат равное сумме прямого и косвенного влияний измеряет коэффициент линейной парной корреляции данного фактора и результата – rxj, y. Таким образом: rxj, y=bj+ .

 

ВОПРОС 43

Отбор факторов в уравнение множественной регрессии. Приемы анализа корреляционной матрицы.

ОТВЕТ

Отбор факторов обычно осуществляется в два этапа:

1) Теоретический (содержательный) анализ взаимосвязи результата и факторов, оказывающих на него существенное влияние;

2) Количественная оценка (расчет соответствующих показателей) и анализ взаимосвязи факторов с результатом. При линейной форме связи между признаками данный этап сводится анализу корреляционной матрицы (матрицы парных линейных коэффициентов корреляции).

Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям:

· Они должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность (например, в модели урожайности качество почвы задается в виде баллов).

· Каждый фактор должен быть достаточно тесно связан с результатом (при линейной связи коэффициент парной корреляции фактора с результатом rxj, y должен существенно отличаться от нуля).

· Факторы не должны быть коррелированы друг с другом, тем более находиться в строгой функциональной связи (т.е. они не должны быть интеркоррелированы). Разновидностью интеркоррелированности факторов является мультиколлинеарность - наличие высокой линейной связи между всеми или несколькими факторами.

Мультиколлинеарность может привести к нежелательным последствиям:

1) затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом» виде, ибо факторы коррелированны;

2) становится невозможным определить изолированное влияние факторов на результативный показатель.

Корреляционная матрица - это квадратная матрица размером (m+1; m+1) m- число факторов в модели. Ее размер определяется числом признаков, участвующих в анализе: m признаков-факторов и один признак-результат.

ry, y ry, x1 ryx2.... ry, xm

rx1, y rx1, x2 rx2x2.... rx2, xm

...... - корреляционная матрица

rxm, y rxm, x1 rxm, x2.... rxm, xm

Анализ корреляционной матрицы позволяет:

· Ранжировать факторы по степени их влияния на результат.

· Выявить мультиколлинеарные факторы.

Таким образом, анализ корреляционной матрицы позволяет решить вопрос о составе факторов в уравнении множественной регрессии.

ВОПРОС 44


Поделиться:



Популярное:

Последнее изменение этой страницы: 2016-08-24; Просмотров: 3039; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.085 с.)
Главная | Случайная страница | Обратная связь