Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


ИССЛЕДОВАНИЕ КОРРЕЛЯЦИОННОЙ ЗАВИСИМОСТИ



Цель работы - привить навыки по обработке полученных экспериментальным путем статистических данных для определения мер тесноты связи случайных величин, а также определения уравнений регрессии по методу Чебышева.

Общие положения

1.1. Общие сведения о корреляции

В природе все явления взаимосвязаны. Различают связи функциональную и корреляционную. Функциональной называют такую связь между величинам которой каждому значению одной переменной соответствует условное распределение другой.

Статистическое исследование корреляции сводят к установлению факт между случайными величинами, определению ее формы, направленности и ты. Установление факта связи производят на основе физического анализа результатов измерений соответствующих величин.

Корреляцию называют простой, если она основана на связи двух случайных величин, и множественной, если имеется взаимосвязь нескольких случайных величин. По форме различают корреляцию линейную, когда зависимость между случайными величинами отражается в виде уравнения прямой, и криволинейную - она отражается в виде уравнения какой-либо кривой. По направлению различают корреляцию прямую, когда с увеличением одной случайной величины увеличивается и другая, и обратную, когда с увеличением одной случайной величины другая в среднем уменьшается.

Тесноту корреляционной связи выражают в виде отвлеченных статистических характеристик (показателей) - коэффициента корреляции r и корреляционного отношения .

Коэффициент корреляции является численной характеристикой линейной корреляции и может быть найден по формуле

(3.1)

где X , Y - текущие, а - средние арифметические значения случайных вели­чин X и Y; - соответствующие среднеквадратические отклонения; N – объем парной выборки.

При обработке на ЭВМ выражение (3.1) удобнее представить в другом виде

. (3.2)

Коэффициент корреляции может принимать значение от -1 до +1. При полной прямой корреляции (корреляция переходит в функциональную зависимость) r = +1, при полной обратной (тоже функциональная зависимость) r = -1. При r = 0 прямоли­нейная корреляционная связь отсутствует (криволинейная связь при этом может быть). Обычно считают при r 0.3 связь двух случайных величин слабой, при r = 0, 4 - 0, 6 - средней, а при r 0, 7 - сильной (или тесной). Граница значимости коэффици­ента корреляции зависит от объема выборки и при N 50 может быть представлена в виде

 

, (3.3)

а при N 50 – по формуле (3.7).

Корреляционное отношение является численной характеристикой криволинейной связи. Квадрат корреляционного отношения представляет собой частное от деления двух дисперсий

, (3.4)

где - дисперсия выборки по величине Y; - дисперсия групповых средних выборки, расслоенной по некоторому факторному признаку. Как правило, расслоение двумерной выборки делается в виде корреляционной таблицы (например, см. таблицу 3.1), где представляют собой средние по разрядам величины Y независимо от распределения X, а - средние по разрядам величины Y с учетом их связи с гистограммой случайной величины X. Корреляционное отношение измеряет относительную степень варьирования групповых средних и может меняться в пределах . Когда групповые средние одинаковы (не варьируют), то = 0 и связь между случайными величинами отсутствует.

В случае функциональной линейной связи = 1. В других случаях > . Чем это различие больше, тем связь более криволинейна. В предельном случае когда связь строго криволинейна, возможно сочетание = 0 и =1. Вычисление по формуле (3.4) возможно лишь при выборке большого объема. С уменьшением объема выборки вероятность правильного вычисления корреляционного отношения падает.

Конечной целью статистического корреляционного анализа является установление корреляционного (когда обе случайные величины имеют центрированный нормированный вид) или регрессионного (когда обе случайные величины даны в произвольном исчислении) уравнения. Сделать это можно несколькими способами, из которых наиболее удобен метод Чебышева. Пояснения будем вести на примере выборки большого объема.

 

1.2. Предварительная группировка данных

Пусть при изготовлении некоторой продукции одного типономинала одновременно измеряются два параметра, значения которых представлены в таблице 1.1. Для удобства дальнейшей обработки данных ее необходимо упорядочить и представить в виде таблицы двумерного распределения (таблица 3.1). Для этого по гистограмме лабораторной работы 1 строим таблицу с числом внутренних клеток 9 9, в левом столбце которой записываются средние значения разрядов гистограммы в предпоследнем - число попаданий в них n . Для заполнения остальных строк и столбцов надо выбрать из таблицы 1.1 вторую колонку, например, Y, корреляцию с которой будем искать. Для величин Y , аналогично величинам Х , найдем Ymin и Y определим шаг гистограммы С и середины разрядов - которые и запишем в шапку таблицы 3.1. Затем для каждой пары чисел Х , Y таблицы 1.1 найдем соответствую клетку таблицы 3.1 и сделаем в ней отметку о попадании (точку или черточку). Ис­черпав всю таблицу 1.1, подсчитаем количество попаданий пар чисел в каждую j - ю клетку, то есть клетку, находящуюся на пересечении j - й строки и - го столбца. Суммы попаданий по строкам должны совпасть с гистограммой лаборатор­ной работы 1, суммы попаданий по столбцам дают гистограмму распределения ве­личины Y. В качестве контроля правильности заполнения таблицы 3.1 можно предло­жить равенство сумм чисел попаданий в разряды обеих гистограмм. Последний столбец таблицы 3.1 заполняется средними арифметическими значениями по каж­дой j-й строке. Тогда для величины Y получается две гистограммы - исходная с центрами разрядов и числами попаданий и условная - с центрами квазираз­рядов и числами попаданий . *

Таблица двумерного распределения дает дополнительную возможность избавиться от грубых промахов, которые невозможно выявить в одномерных выборках. Для двумерной таблицы грубым промахом считается попадание в клетку, отстоя­щую от основного массива данных одновременно не менее чем на одну пустую клетку по горизонтали и по вертикали (при достаточно большом общем объеме выборки, например, не менее 100).

Воспользовавшись формулами (1.5) и (1.6) для обеих гистограмм величины найдем

= 64.13; 54.32; 35.14.

Тогда по формуле (3.4) квадрат корреляционного отношения = 0, 6469 и =0, 8043. Другими словами, есть все основания отнести исследуемые параметры среднекоррелированным.

Таблица 3.1 - Таблица двумерного распределения

52.7 56.2 59.7 63.2 66.7 70.2 73.7 77.2 80.7
              56.8
          59.7
        59.1
      60.7
      60.8
  65.6
      69.5
            74.5
              79.3
-

1.3. Метод Чебышева

Метод Чебышева позволяет аппроксимировать искомую зависимость в виде полинома некоторой степени.

Исследование связи между случайными величинами начинается с вычисления смешанных моментов различных порядков. Смешанным центральным моментом порядка (hx, h ) распределения по разрядам совокупно наблюденных значений двух случайных величин X и Y называется выражение вида

. (3.5)

Полагая h = 0 получим , то есть центральные моменты порядка h случайной величины X (определены в лабораторной работе 1); полагая h = 0, получим , то есть центральные моменты случайной величины Y.

Смешанные основные моменты порядка ( ) находятся при помощи центральных моментов

. (3.6)

В частности, смешанный основной момент порядка (1/1) есть коэффициент корреляции.

В результате вычислений находим

=270.86; =6497, 40;

= / = 270.86 / 7.37 = 0.7396 0.74;

= / = 6497.40 / 49.692 = 0.3570.

Значимость коэффициента корреляции при объемах выборки N> 50 можно уста­новить при соблюдении неравенства

, (3.7)

где .

В нашем случае = 0.0341 и неравенство (3.7) выполняется. Иногда создаётся парадоксальная, на первый взгляд, ситуация, когда корреляционное отношение велико (то есть факт достаточно тесной связи установлен), а коэффициент корреляции незначим. Это говорит о сугубо нелинейном характере связи, имеющий вид, например, параболы, производная которой в точке экстремума (численно равная коэффициенту корреляции) равна нулю.

В случае, если коэффициент корреляции достаточно велик, правильность вычислений можно установить при подтверждении неравенства в нашем случае 0.6469 > 0.5470.

П.Л. Чебышев предложил достаточно простой и удобный способ определения уравнения регрессии по найденным моментам различного порядка, корреляционному отношению и коэффициенту корреляции. Способ предполагает предварительно найти корреляционное уравнение приближенного условного основного момента порядка в виде

= , (3.8)

где - центрированная и нормированная переменная;

; .

Следует иметь в виду, что при доказанном нормальном распределении случайной величины X смешанные основные моменты = 0 и = 3. Если распределение отличается от нормального, то следует использовать значения, вычисленные в лабораторной работе 1. Для нашего примера ; .

Переход к уравнению регрессии выполняется по формуле

, (3.9)

где - вероятное значение величины Y.

Выражение (3.8) является корреляционным уравнением в силу того, что аргумент и функция выражены в относительных единицах (в центрированном и нормированном виде). Выражение (3.9) является уравнением регрессии той же пары в абсолютных единицах измерения с учетом среднеквадратических отклонений. Именно по этой причине регрессия есть линия - геометрическое место точек проекций центров условных распределений (см. рис. 3.1)

Выражение (3.8) дает возможность подобрать полином любого (в разумных пределах) порядка, так как построен он следующим образом: для полинома первой степени достаточно принимать в расчет только первый член выражения (3.8), остальными можно пренебречь; для полинома второго порядка - первые два члена и т.д. (Здесь мы ограничились уравнениями только второго порядка). Показателем того, на каком порядке корреляционного уравнения следует остановиться, служит критерий с его основной ошибкой .Если величина критерия оказывается достаточно малой по сравнению с его ошибкой , то мы можем остановиться на корреляционном уравнении порядка. Если при очередном шаге величина критерия окажется отрицательной, то надо вернуться к уравнению предшествующего порядка.

Для определения порядка корреляционного уравнения находим критерий линейности

с основной ошибкой

.

Так как то уравнение не может быть линейным. Найдем критерий квадратичности

с основной ошибкой

.

Так как критерий и его основная ошибка отличаются друг от друга не более чем в 3 раза, то с достаточной точностью можно считать искомое корреляционное уравне­ние квадратичным. Подставляя найденные значения символов в (3.8), получим

.

Подставляя найденное выражение в (3.9) и раскрывая значение , получим искомое уравнение регрессии

Ошибка уравнения второй степени (границы существования вероятного значения случайной величины Y, коридор ошибок уравнения регрессии) равна

Для наглядности найденное уравнение регрессии и его коридор ошибок изоб­ражены на рисунке 3.1.

Рисунок 3.1 - Графиче­ское изображение найденного уравне­ния регрессии,

ко­ридора существования и групповых средних


Порядок проведения работы

2.1. По таблице 1.1 массива экспериментальных данных, полученной у преподава­теля, построить таблицу двумерного распределения.

2.2. Вычислить среднюю арифметическую , эмпирическую дисперсию и дисперсию групповых средних .

2.3. Вычислить корреляционное отношение .

2.4. Вычислить основные моменты двумерного распределения и .

2.5. Определить порядок корреляционного уравнения и найти уравнение ре­грессии по методу Чебышева.

2.6. Построить график уравнения и коридор его существования.

2.7. Оценить полученные результаты.

Содержание отчёта

Отчет о лабораторной работе должен содержать исходную таблицу данных, таблицу двумерного распределения, результаты вычислений по п.2.2 - 2.5 и графики по п.2.6.

При подготовке к защите лабораторной работы необходимо ознакомиться с контрольными вопросами и продумать ответы на них.

4. Контрольные вопросы

4.1. Назовите виды и степени связи между случайными величинами.

4.2. Что такое коэффициент корреляции и корреляционное отношение? В чём их сходство и различие?

4.3. Что выражают смешанные моменты? Как определяется их порядок? Kaкие смешанные моменты Вы знаете?

4.4. В чем идея метода Чебышева по нахождению уравнения регрессии?

4.5. Что такое корреляционное уравнение и чем оно отличается от регрессионного? От обычного алгебраического уравнения?

4.6. Как определяется степень уравнения регрессии и как проверяется ее достаточность?

4.7. Что такое доверительные границы (коридор ошибок) уравнения регрессии? Как проявляется правильность их нахождения?


5. Рекомендуемая литература

5.1. Митропольский А.К. Техника статистических вычислений. Изд. 2-е. – М.: Наука, 1971. - 576 с. (С.86-107, 133-141, 359-366, 395-404).

5.2. Математическая статистика /Под ред. проф. A.M. Длина. -М.: Высшая школа. 1975. - 270 с. (С. 269-299).

5.3. Джонсон Н., Лион Ф. Статистика и планирование эксперимента в технике науке: Методы обработки данных /Пер. с англ.; Под ред. Э.К.Лецкого. - М.: Мир 1980. - 610 с. (С.447-465, 472-482).

5.4. Долгов Ю.А. Статистическое моделирование: Учебник для вузов. – 2-е изд., доп. - Тирасполь: Полиграфист, 2011.- 352 с. (с. 39-53).


Лабораторная работа № 4

ПАРАБОЛИЧЕСКОЕ СГЛАЖИВАНИЕ

Цель работы привить навыки по обработке двумерных экспериментальных данных, аргументы которых носят периодический (равноотстоящий) характер, в том числе с пропусками.

Общие положения

1.1. Методы расчета при равноотстоящих значениях аргумента

На практике часто встречаются случаи, когда необходимо найти зависимость какой-либо переменной (случайной величины) от другой случайной величины, числовые значения которой отстоят друг от друга на равных расстояниях (долях, частях), то есть, соблюдается равенство

 

X2 - X1=X3 - X2=…=Xn - Xn-1= DX. (4.1)

 

Это могут быть задачи об изменениях цен, урожая, количества осадков и т.п. по годам или любые другие задачи, лишь бы соблюдалось равенство (4.1). В этом случае легко весь класс таких задач свести к единому аргументу, преобразовав именованные случайные величины Xi в абстрактные номера интервалов xi

 

, (4.2)

 

где Xн = Xmin - DX – начальное значение аргумента.

Для решения таких задач П.Л. Чебышев предложил простой способ отыскания функции

 

f(x) = k0 + k1y1(x) + k2y2(x) + … + klyl(x), (4.3)

 

где l £ n-1, причём n - количество интервалов;

 

;

;

;

;

;

;

;

- - - - - - - - - - - - - - -

.

 

Согласно формуле (4.3) первый член суммы является средним арифметическим выборки по случайной величине Y, первые два члена представляют собой линейное уравнение, три члена – квадратичное и т.д. Прибавляя к функции по одному новому члену мы увеличиваем степень уравнения на единицу. Для практических целей достаточно параболы 2-го или 3-го порядка, поэтому дальнейшие разложения полинома yl(x) здесь не приводятся.

Наилучшая кривая сглаживания считается полученной при достижении минимума ошибки приближения параболы

 

, (4.4)

 

где

;

.

Проверку полученного уравнения на степень приближения к экспериментальным данным можно вести по критерию c2-Пирсона, методика работы с которым изложена в разделе 1.3.

Пример 1. По числовой выборке середины разрядов таблицы 3.1 найти уравнение связи по методу параболического сглаживания и определить степень его достоверности.

Р е ш е н и е: Для нахождения уравнения связи воспользуемся формулами (4.3)-(4.4). Результаты вычислений для удобства будем записывать в специальную таблицу.

0) Вычисление параболы нулевого порядка.

; ;

; .

1) Вычисление параболы первого порядка.

; ; ;

При сложении первого и второго члена суммы (4.3) получается:

; ;

.

Так как s1< s0, то вычисления следует продолжать.

2) Вычисление параболы второго порядка.

;

; ;

При сложении третьего члена суммы (4.3) с предыдущими получается:

; .

Так как s2< s1, то вычисления следует продолжать.

3) Вычисление параболы третьего порядка.

;

;

;

При сложении четвёртого члена суммы (4.3) с предыдущими получается:

; .

Таблица 4.1 Последовательность вычислений параболического сглаживания

для равноотстоящих значений аргумента

xi Yi y1i Yiy1i y2i Yiy2i y3i Yiy3i 2f(x) 3f(x)
56, 8 -4 -227, 2 +9, 333 +530, 1 -16, 8 -954, 24 57, 07 56, 62
59, 7 -3 -179, 1 +2, 333 +139, 3 +8, 4 +501, 48 57, 03 57, 26
59, 1 -2 -118, 2 -2, 667 -157, 6 +15, 6 +921, 96 57, 76 58, 18
60, 7 -1 -60, 7 -5, 667 -344, 0 +10, 8 +655, 56 59, 27 59, 56
60, 8 -6, 667 -405, 4 61, 55 61, 55
65, 6 +1 +65, 6 -5, 667 -371, 8 -10, 8 -708, 48 64, 61 64, 30
69, 5 +2 +139, 0 -2, 667 -185, 4 -15, 6 -1084, 20 68, 44 68, 00
74, 5 +3 +223, 5 +2, 333 +173, 8 -8, 4 -625, 80 73, 04 72, 79
79, 3 +4 +317, 2 +9, 333 +740, 1 +16, 8 +1332, 24 78, 41 78, 84
- +160, 1 - +119, 1 - +38, 52 2c2=0, 272 3c2=0, 252
38636, 62 - 308, 000 - 1425, 6 - Р(2c2)= 0, 99951 Р(3c2)= 0, 99967

Так как s3> s2, то вычисления прекращаются и формально наилучшим считается уравнение второго порядка. Однако в силу того, что s2»s3 это ещё надо доказать. С этой целью подсчитаем значения функций 2f(x) и 3f(x) (см. таблицу), а затем по выражению (1.13) и таблице 1.2 определим для каждого из уравнений величину c2, по которой найдём вероятность правильной аппроксимации. Для нашего примера это Р(2c2)=0, 99951 и Р(3c2)=0, 99967. Так как табл.А.1 для такой точности не приспособлена, то пришлось воспользоваться таблицами в [4]. Такие вероятности означают, что с точностью до 0, 1% оба уравнения равноценны. В этом случае предпочтение нужно отдавать простейшему из них

,

которое, при подстановке первичного преобразователя превращается в обычное регрессионное уравнение

.

Сравнение этого уравнения с ранее найденными в лабораторной работе №3 показывает практически полное их совпадение.

Коридор существования найденного уравнения можно определить по формуле

,

f(X)
где соответствует , а рассчитано при определении параболы второго порядка. Графическая интерпретация результатов работы представлена на рисунке 4.1.

 
 

 


 

Рисунок 4.1 – Графическое изображение найденного уравнения регрессии, коридора его существования и средних экспериментальных точек


1.2. Методы расчета при неравноотстоящих значениях аргумента

В экспериментальной работе случается так, что некоторые данные в определённые моменты времени измерить нельзя (или забыли, или получился грубый промах и т.п.). Тогда в череде равноотстоящих аргументов исчезает чёткая последовательность xi=1, 2, …, n по числам натурального ряда и образуются как бы «дыры». При таком положении дел воспользоваться методикой расчёта, приведённой в подразделе 2.5.1, нельзя, результат будет неверным. В неё надо внести коррективы.

Предлагается (по аналогии) искать уравнение в виде

 

, (4.5)

где l £ n – 1; n – объём выборки; ; - средняя арифметическая аргумента u;

q1(x) = x ; q2(x) = x2 - B2xA2 ; q3(x) = (xB3) × q2(x) – A3 × q1(x);

;

;

;

;

; ; ;

; ; ;

; .

Остальные действия и критерии такие же, как и в случае равноотстоящих аргументов.

Пример 2. По числовой выборке середины разрядов таблицы 3.1 с пропуском (искусственный пример) второго и пятого разряда найти уравнение связи по методу параболического сглаживания для неравноотстоящего аргумента и определить степень его достоверности.

Р е ш е н и е: Для нахождения уравнения связи воспользуемся формулами (4.5). Результаты вычислений для удобства будем записывать в специальную таблицу.

0) Вычисление параболы нулевого порядка.

 

; ;

.

1) Вычисление параболы первого порядка.

; ;

; ;

; .

Так как s1< s0, то вычисления следует продолжать.


Таблица 4.2 - Последовательность вычислений параболического сглаживания

для неравноотстоящих значений аргумента

Номер интервала Аргумент ui Функция Yi Yixi Yixi2 Yixi3 2f(x)
56, 8 -106, 29 -6037, 27 641701, 64 -68206467, 41 57, 04
59, 1 -58, 29 -3444, 94 200805, 49 -11704952, 26 58, 69
60, 7 -34, 29 -2081, 40 71371, 31 -2447322, 18 60, 49
65, 6 +13, 71 +899, 38 12330, 45 +169050, 40 66, 04
69, 5 +37, 71 +2620, 85 98832, 07 +3726957, 17 69, 79
74, 5 +61, 71 +4597, 40 283705, 25 +17507450, 70 74, 57
79, 3 +85, 71 +6796, 80 582553, 99 +49930702, 07 79, 24
465, 5 +3350, 82 1891300, 20 -11024581, 51 c2=0, 00885
- 31375, 89 28635, 43 - - - Р(c2)=0, 9999

2) Вычисление параболы второго порядка.

; ;

; ;

;

;

;

;

; .

Так как s2< s1, то вычисления следует продолжать.

3) Вычисление параболы третьего порядка.

; ;

; ;

;

;

;

;

;

;

.

Так как s3> s2, то вычисления прекращаются. Необходимо вернуться к уравнению второго порядка.

Как правило, при неравноотстоящих аргументах третий порядок даёт либо незначительное уменьшение ошибки, либо резкое её возрастание, поэтому можно останавливаться на уравнениях второго порядка без расчёта уравнения третьего порядка. Это подтверждается проверкой на совпадение уравнения с исходными (экспериментальными) данными по критерию Пирсона Р(2c2)=0, 9999.

Обратным преобразованием получаем

,

или, переходя к первоначальным обозначениям,

.

Сравнение полученного уравнения с ранее найденными показывает практически полное их совпадение.

Расчет коридора существования и графическая интерпретация результатов аналогичны предыдущим.

Порядок проведения работы

2.1. По данным таблицы 3.1 из лабораторной работы №3 найти шаг аргумента (формула (4.1)) и заполнить первые две графы таблицы 4.1.

2.2. Вычислить элементы параболы нулевого порядка и заполнить соответствующие графы таблицы 4.1.

2.3. Вычислить элементы параболы первого порядка, найти линейное уравнение и заполнить соответствующие графы таблицы 4.1.

2.4. Вычислить элементы параболы второго порядка, найти квадратичное уравнение и заполнить соответствующие графы таблицы 4.1.


Поделиться:



Последнее изменение этой страницы: 2017-04-12; Просмотров: 636; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.137 с.)
Главная | Случайная страница | Обратная связь