Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Парный корреляционный анализ



Вызов анализа Statistics/Basic Statistics and Tables/ Correlation matrices

Графический анализ проводится по нажатию клавиш Scatterplotmatrixforselectedvariables

Теснота связи показана в процедуре Correlations

Процедура Correlation matrices сразу же дает возможность проверить достоверность рассчитанных коэффициентов корреляции. Значение коэффици­ента корреляции может быть высоким, но не достоверным, случайным. Чтобы увидеть вероятность нулевой гипотезы (p), гласящей о том, что коэффициент корреляции равен 0, нужно на закладке Options в опции Display окна Product-Moment Correlation установить переключатель на вторую строку display p & N.

Результаты корреляционного анализа.

 

Множественные и частные корреляции

Рассмотрим множественную регрессионную модель

V=f(D, H)

Понимание множественной и частной корреляций позволит обосновать ввод в модель той или иной переменной.

Таблица корреляций

R D H
V 0, 96 0, 84

 

Частные корреляции

RVD*H≈ 0, 861, tD=14, 42, p≈ 0≤ 0, 05

RVD*H≈ 0, 252, tH=2, 21, p≈ 0, 03≤ 0, 05

Анализ

R2VD≥ R2VD*H–взаимосвязь между V и D частично обусловлена влиянием Hна Vи D.

Аналогично объясняется зависимость между V и H, она практически полностью определена влиянием D на V и H.

RDH*V≈ 0, 196, tH=1, 69, p≈ 0, 09≥ 0, 05

Данные анализа говорят, что зависимость между VDи Hне значима. Следовательно, в качестве регрессионной модели возьмем модель, у которой частные коэффициенты корреляции самый большой

RVD*H=0, 861. Значит, получаем 2 уравнения регрессии

VнаDи H

Dна Vи H

Анализируем уравнения

Дисперсионный анализ

Задачи

1. Подготовить данные для проведения однофакторного дисперсионного анализа;

2. Рассчитать значения критерия Фишера для исследуемых зависимостей;

3. Получить таблицу средних значений в группах дисперсионного комплекса;

4. Построить графики средних значений и их доверительных интервалов для исследуемых зависимостей.

 

Процедура 1. Подготовка данных

До проведения однофакторного дисперсионного анализа необходимо провести предварительную подготовку данных, т.е. преобразовать значения фактора, отнести его к той или иной градации. Диаметры на высоте груди могут быть заменены значением соответствующей ступени толщины. Для этого над каждым членом вектора D произведем следующую модификацию, используя формулу:

Gr_D=ROUND(((D + a/2)/a)-0, 5)*a.

где: Gr_D – значение диаметра, отнесенное к определенной ступени толщины, см;
  D – эмпирическое значение диаметра, см;
  a – величина ступени толщины;
  ROUND – функция, которая округляет число до ближайшего целого (например, round (123, 6)=124)

В нашем случае величина ступени толщины равняется 4 см, поэтому формулу запишем в следующем виде:

ROUND(((D + 4/2)/4)-0, 5)*4.

Создаем новую переменную и в поле Functionsвводим формулу для расчета новой переменной:

В окне Basic Statistic and Tables выбираем Breakdown & one-way ANOVA, ОК.

В появившемся окне Descriptive Statistics and Correlations by Groups (Breakdown) в строке Analysis выбираем Detailed analysis of individual tables, ОК.

В окне Selectgroupingvariablesandthedependentvariables выбираем нужные столбики по данным, которых ведется анализ –G_D и V, ОК.

Codes for grouping variables нажимаем клавишу All. И появляются все коды групп диаметров. OK.

Вокне Descriptive Statistics and Correlations by Groups – Results, напротиввсехстрокставимгалочки, ОК.

 

OK.

Появляется общая информация по дисперсионному анализу Summary: Table o f statistics–таблица средних квадратов по градациям фактора.

В окне Descriptive Statistics and Correlations by Groups – Results, выбираем кнопку Analysis of Variance (дисперсионный анализ), ОК.

Выводится таблица дисперсионного анализа, в которой можно увидеть:

сумма квадратов отклонений выборочных средних групп от общего среднего (SS Effect),

число степеней свободы (do Effect),

средний квадрат (MS Effect),

сумма квадратов отклонений результатов наблюдений от выборочных средних групп (SS Error),

число степеней свободы (Df Error),

средний квадрат (MS Error)

выборочное значение F фактическое и вычисленный уровень значимости p.

Вычисленное значение уровня значимости p меньше заданного (p=0, 05), то гипотеза о равенстве средних отклоняется. Диаметр на высоте груди значимо влияет на объем ствола деревьев.

Если Fвыч > F stα , df1, df2, то влияние фактора на признак признается достоверным, нулевая гипотеза отвергается; если Fвыч < F stα , df1, df2, то влияние фактора на признак считается несущественным, случайным, т.е. нулевая гипотеза признается достоверной.

По таблице (Прилож._) находим значение F stα , df1, df2= 2, 2, сравниваем с вычисленным 111, 34 > 2, 2. Вывод – влияние фактора на признак – достоверно.

 

Проверка на нормальность

Предполагается, что исходные данные – это независимые выборки, которые получены из нормально распределенных генеральных совокупностей.

В окне Descriptive Statistics and Correlations by Groups – Results, выбираем кнопку Levene, ОК. Таким образом, производим дисперсионный анализ на основе критерия однородности дисперсии Левина.

Построение графиков

В окне Descriptive Statistics and Correlations by Groups – Results, выбираем кнопку Interaction plots, ОК. В результате получаем график для D2.

Настройте оси.

Регрессионный анализ

10.1. Проведение парного регрессионного анализа:

10.2. Использование криволинейной регрессии.
Расчет зависимости между исследуемыми переменными, используя формулу Корсуня.

Вставим данные из MOExcelв пакет Statistica, далее подписываем вектора данных.

НеобходимовызватьизменюStatistics→ Advanced Linear/NonlinearModels → NonlinearEstimation. Далеевыберите User-specified regression, least squares.

Нажмите OK. Появляется окно User-specified Regression Function.

Далее нажмите клавишу Function to be estimated and loss function. Появляется окно Estimated function, в котором необходимо вписать нужную формулу, например, формулу Корсуня, в общем виде, которая имеет вид:

Где х - это возраст древостоя, лет;

у - это диаметр древостоя, см.

Нажмите ОК. В поле MDdeletion выберите Casewise. Нажмите ОК.

 

В поле Estimation method выберите метод Gauss-Newton. ОК.

Появляется окно Results.

Основные результаты расчетов можно увидеть в окне, нажав Summary Parametrs estimates.

В столбце Estimate представлены результаты расчетов коэффициентов.

По клавише Predictedvalues, Residuals можно увидеть наблюдаемые Observed (практические) и предсказуемые Predicted (теоретические) значения.

Сравните значения практические и рассчитанные.

Далее проанализируйте данные дисперсионного анализа по клавише AnalysesofVariance.

 

В окне представлены основные данные:

Regression (порегрессии)

Residual (остаточные)

Total(общая)

 

В пакете Statistica имеется возможность протабулировать, используя полученную формулу. Для этого нажмите два раза мышью на заголовок нового столбца. Введите название, в нижней части окна введите формулупо которой рассчитывается данная переменная

SD=(Voz*Voz)/(7, 037947+0, 67576*Voz+0, 047839*Voz*Voz).

ОК.

 

Получается следующий результат.

 

1.1. Проведение полиноминального регрессионного анализа:

Вызовите Statistics-Aavansed Linear/Nonlinear Models/Fixed Nonlinear Regression.

Появится окно Fixed Nonlinear Regression, в котором необходимо ввести переменные.

В окне определяется вид преобразования переменной.

Вид нелинейных преобразований регрессии:

Преобразования Расшифровка
Х**2 Квадрат Х
Х**3 Куб Х
Х**4 Полином четвертой степени Х
SQRT(X) корень квадратный
LN(X) натуральный логарифм
LOG(X) десятичный логарифм
LN(X)  
e**(X)  
10**(X)  
1/X  

ОК. Появляется окно для отбора зависимой и независимой переменных.

ОК. ОК.

Далее анализ аналогичен парному и множественному регрессионному анализу. В верхней части окна приводятся параметры полученной регрессионной модели:

Обозначение Расшифровка
Multiple R коэффициент множественной корреляции
R2 коэффициент детерминации
adjusted R2 скорректированный коэффициент детерминации
F F-критерий (критерий Фишера);
Df число степеней свободы для F-критерия;
P вероятность нулевой гипотезы для F-критерия;
Standarderrorofestimate стандартная ошибка оценки (уравнения);
Intercept свободный член уравнения
Std.Error стандартная ошибка свободного члена уравнения;
T - t-критерий для свободного члена уравнения;
P вероятность нулевой гипотезы для свободного члена уравнения.
Beta коэффициенты уравнения.

 

Кнопка Regression summary results позволяет просмотреть основные результаты регрессионного анализа.

Столбец BETA -;

В - коэффициенты уравнения регрессии;

St. Err. of B - стандартные ошибки коэффициентов уравнения регрессии;

t - t-критерии для коэффициентов уравнения регрессии;

р-level - вероятность нулевой гипотезы для коэффициентов уравнения регрессии.

Уравнение регрессии имеет вид:

V= 5, 354848+0, 040592*SD2.

 

Значение t 9, 26 17, 14
Значимость переменной в уравнении   значима

 

Кнопка Anova (Overal goodness of fit) открывает окно с данными дисперсионного анализ Analysis of variance - позволяет ознакомиться с результатами дисперсионного анализа уравнения регрессии.

 

 

1.2. Проведение множественного регрессионного анализа:

Выбираем модуль MultipleRegressions.

 

При помощи кнопки Variables указываются независимые (ая) (independent) и зависимая (dependent) переменные.

В поле Input file указывается тип файла с данными в виде:

Raw Date - данные в виде строчной таблицы; или

Correlarion Matrix - корреляционной матрицы

Нажмите «ОК», в результате выводится окно с данными по регрессионному анализу.

 

В верхней части окна приводятся параметры полученной регрессионной модели:

Обозначение Расшифровка
Multiple R коэффициент множественной корреляции
R2 коэффициент детерминации
adjusted R2 скорректированный коэффициент детерминации
F F-критерий (критерий Фишера);
Df число степеней свободы для F-критерия;
P вероятность нулевой гипотезы для F-критерия;
Standarderrorofestimate стандартная ошибка оценки (уравнения);
Intercept свободный член уравнения
Std.Error стандартная ошибка свободного члена уравнения;
T - t-критерий для свободного члена уравнения;
P вероятность нулевой гипотезы для свободного члена уравнения.
Beta коэффициенты уравнения.

Multiple R - характеризует тесноту линейной связи между зависимой и всеми независимыми переменными. Может принимать значения от 0 до 1.

R2 - численно выражает долю вариации зависимой переменной, объясненную с помощью регрессионного уравнения. Чем больше R2, тем большую долю вариации объясняют переменные, включенные в модель.

Включение новой переменной в регрессионное уравнение увеличивает R не всегда, а только в том случае, когда частный F-критерий при проверке гипотезы о значимости включаемой переменной больше или равен 1. В противном случае включение новой переменной уменьшает значение R и adjusted R2.

adjusted R2 - cкорректированный R2 можно с большим успехом (по сравнению с R2) применять для выбора наилучшего подмножества независимых переменных в регрессионном уравнении.

 

Кнопка Regression summary results позволяет просмотреть основные результаты регрессионного анализа.

Столбец BETA -;

В - коэффициенты уравнения регрессии;

St. Err. of B - стандартные ошибки коэффициентов уравнения регрессии;

t - t-критерии для коэффициентов уравнения регрессии;

р-level - вероятность нулевой гипотезы для коэффициентов уравнения регрессии.

Уравнение регрессии имеет вид:

V= -1, 78422+0, 06099*D+0, 03596*H.

 

Значение t 6, 8 15, 1 2, 5
Значимость переменной в уравнении   значима на пределе

 

Кнопка Anova (Overalgoodnessoffit) открывает окно с данными дисперсионного анализ Analysisofvariance - позволяет ознакомиться с результатами дисперсионного анализа уравнения регрессии.

 

 

В строках таблицы дисперсионного анализа уравнения регрессии - источники вариации:

Regress. - обусловленная регрессией,

Residual - остаточная,

Total - общая.

В столбцах таблицы:

Sums of Squares –сумма квадратов,

df - число степеней свободы,

MeanSquares - средний квадрат,

F - значение F – критерия (критерия Фишера),

p-level - вероятность нулевой гипотезы для F - критерия.

 

Вывод: F - критерий полученного уравнения регрессии сравнить с критерием Фишера табличным и сделать вывод.

 

Вероятность нулевой гипотезы (p-level) значительно меньше 0, 05, что говорит об общей значимости уравнения регрессии.

 

Кнопка Partialcorrelations –вызывает окно с частными коэффициентами корреляции ( PartialCor.) между исследуемыми переменными Частная корреляция - это корреляция между двумя переменными, когда одна или больше из оставшихся переменных удерживаются на постоянном уровне (т.е. имеют постоянное значение). Частные коэффициенты корреляции, как и парные, могут принимать значения от -1 до +1.

 

 

Кнопка Predict dependent variable (на закладке Residual…) - позволяет рассчитать по полученному регрессионному уравнению значение зависимой переменной по значениям независимых переменных. На рисунке приводится пример расчета запаса при величине диаметра ствола - 20 см и высоты - 20 м. Предсказанный (Predicted) запас составил 0, 15478м3.

 

 

Кнопка Descriptivestatistics позволяет просмотреть описательные статистики и корреляционную матрицу с парными коэффициентами корреляции переменных, которые участвующих в регрессионной модели

 

Кнопка PerfomResidualanalysis вызывает процедуру всестороннего анализа остатков регрессионного уравнения. Остатки - это разности между опытными и предсказанными значениями зависимой переменной в построенной регрессионной модели.

Нажав кнопку Summary: Residual& predicted появляется окно с наблюдаемыми (Observed) и предсказанными (Predicted) значениями зависимой переменной. А также остатков (Residual).

 

 

Кнопка Redundancy предназначена для поиска выбросов. Выбросы - это остатки, которые значительно превосходят по абсолютной величине остальные. Выбросы показывают опытные данные, которые являются не типичными по отношению к остальным данным, и требует выяснения причин их возникновения. Выбросы должны исключаться из обработки, если они вызваны ошибками регистрации, измерения.

О нормальности остатков можно судить по графику остатков на нормальной вероятностной бумаге. Чем ближе распределение к нормальному виду, тем лучше значения остатков ложатся на прямую линию. Он строится при помощи кнопки Normal plot of resids. окна Residual analysis.

Кластерный

Цель анализа –

Методы кластерного анализа:

Иерархические - группа методов характеризуется последовательным объединением исходных элементов и соответствующим уменьшением числа кластеров.

агломеративные - первоначально все объекты являются отдельными кластерами. На первом шаге наиболее похожие объекты объединяются в кластер. На последующих шагах объединение продолжается до тех пор, пока все объекты не будут составлять один кластер;

и итеративные – сначала все объекты принадлежат одному кластеру, который на последующих шагах делится на меньшие кластеры, в результате образуется последовательность расщепляющих групп.

Запустите анализ, выбрав в меню Statistics (Анализ) -MultivariateExploraryTechniques (Многомерные разведочные анализы) - ClusterAnalysis (Кластерный анализ).

Выберите метод кластеризации:

Joining (treeclustering) – дендрограммы

K-meansclustering - кластеризация методом k-средних.

1. Иерархическая кластеризация - Joining (treeclustering) – дендрограммы.

Появится окно для настроек анализа. Выберите закладку Advanced (Дополнительно).

Выберите:

· Variables (переменные), по которым проводится анализ;

· Inputfile (Файл данных) – файл может содержать как исходные данные, так и матрицы расстояний;

· Cluster (Объект) – исходные данные могут располагаться как по строкам (Cases (rows)), так и в столбцах (Variables (Columns));

· Amalgamation-linkage rule (правило объединения);

· Distance measure (мера близости).

·

 

Amalgamation-linkage rule (правило объединения)
  Метод одиночной связи (ближайшего соседа) расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими объектами (ближайшими соседями)
  Метод полной связи (дальнего соседа)  
  невзвешенный метод «средней связи»  
  взвешенный метод «средней связи»  
  взвешенный центроидный метод  
  метод Варда  

 

Distance measure (мера близости)
  Квадрат Евклидова расстояния это геометрическое расстояние в многомерном пространстве, аналог физического расстояния.
  Евклидово расстояние  
  матхеттенское расстояние  
  расстояние Чебышева  
  степенное расстояние  
  процент несовпадений  
  коэффициент корреляции  

 

Выберите первоначально:

правило объединения - метод одиночной связи (ближайшего соседа) и

мера близости - Евклидово расстояние.

Задав установки, нажмите ОК.

Появляется окно с общей информацией о выбранных ранее условиях.

Для продолжения анализа в нижнем левом углу программы нажмите на панель анализа Joiningresults.

Перейдите на закладку дополнительно (Advanced)

Нажмите кнопку Distance matrix(Матрица расстояний).Появится окно с рассчитанной матрицей расстояний.

Нажатие по клавишам Horizontal hierar chical tree plot (горизонтальная дендрограмма) или Vertical icical tree plot (вертикальная дендрограмма) позволяет построить нужный график.

Порядок объединения можно увидеть в виде таблице в окне Amalgamation Schedule (Схема объединения).

А также график схемы объединения (Graph of Amalgamation Schedule) и описательные статистики (Descriptive statistics).

Метод k-средних.

Дискриминантный анализ

Запуститеанализ, выбраввменю Statistics (Анализ) -Multivariate Explorary Techniques (Многомерныеразведочныеанализы) - Discriminant Analysis (Дискриминантныйанализ).

В окне настройки анализа введите следующую информацию:

Variables (Переменные) – переменные двух видов – группирующую (Grouping) и Independent (Независимые).

Группирующую (Grouping) – это группирующий признак, в нашем примере пол особи – 1- самец, 2 –самка.

Independent (Независимые) – это переменные по которым рассчитывается дискриминантная функция.

Для отнесения переменной к той или иной группе введите коды, использованные для обозначения групп в поле Codesforgroupingvariable (Коды для группирующей переменной). ОК.

Откроется окно Discriminant Function Analysis (Общие данные по Дискриминантному анализу).

Анализируем статистику лямбда Уилкса (WilksLambda), которая используется для оценки дискриминации в данной модели. Значение статистики изменяется от 0 до 1. Если значение лямбда Уилкса равно 0, 0 – это полная дискриминация, если 1, 0 – нет дискриминации.

В нашем примере значение лямбда Уилкса равно 0, 31, дискриминация присутствует.

Нажмите на клавишу Summary: Variablesinmodel (Переменные в модели).

Появится окно с результатами статистики по каждой переменной в модели. Анализ статистики лямбды Уилкса по двум переменным показывает, что вклад второй переменной (S) в дискриминацию выше (значение лямбда Уилкса меньше).

Процедура Classification function (Функции классификации)

Функции классификации рассчитываются для каждой группы объектов, используются при классификации объектов.


Поделиться:



Популярное:

Последнее изменение этой страницы: 2016-04-10; Просмотров: 1290; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.139 с.)
Главная | Случайная страница | Обратная связь