Математико-статистические идеи метода

⇐ ПредыдущаяСтр 4 из 8Следующая ⇒

Исходным положением линейного МРА является возможность представления значений «зависимой» переменной К через значения «независимых» переменных х_1, х₂, ..., х_Р в виде линейного уравнения:

Y = b + b₁x₁ + b₂х₂ +... +b_Рх_Р + е, (1)

где b – свободный член (intercept), b_1,..., b_Р – коэффициенты регрессии (Unstandardizet Соеfficients), е – ошибка оценки {Residual). Коэффициенты регрессии вычисляются методом наименьших квадратов при решении системы из линейных уравнений, с минимизацией ошибки е.

После вычисления регрессионных коэффициентов по значениям независимых переменных для каждого из объектов могут быть вычислены оценки зависимой переменной Y (Predicted Values);

Ŷ = b + b₁x₁ + b₂х₂ +... +b_Рх_Р. (2)

Сопоставление значений зависимой переменной Y_i с их оценками Ŷ _i по выборке испытуемых, для которых значения Y_i известны, называется анализом остатков или ошибок (Residual analysis). Он позволяет оценить возможные погрешности предсказания. Значения оценок Ŷ _i могут быть вычислены и для испытуемых, истинные значения зависимой переменной для которых неизвестны.

Далее можно вычислить коэффициент корреляции Пирсона между известными значениями «зависимой» переменной и ее оценками. Это один из способов получения коэффициента множественной корреляции (КМК) между «зависимой» и «независимыми» переменными. Коэффициент множественной корреляции – это мера линейной связи одной переменной с множеством других переменных; принимает положительные значения от 0 (отсутствие связи) до 1 (строгая прямая связь). КМК наряду с разностями между исходными и оцененными значениями «зависимой» переменной (ошибки е) – основные показатели качества модели множественной регрессии.

Если «зависимая» и «независимые» переменные представлены в z-значе-ниях, то уравнение регрессии принимает вид:

Y_z = β ₁x₁ + β ₂х₂ +... + β _Рх_Р + е, (3)

где β _Р– стандартные коэффициенты регрессии, или β -коэффициенты (Standartized Соеfficients).

Стандартные коэффициенты регрессии связаны с исходными корреляциями следующим уравнением (в матричной форме):

В=R ^-1А, (4)

где В – вектор-столбец стандартных коэффициентов регрессии, R ^-1– матрица, обратная корреляционной матрице «независимых» переменных, А – вектор-столбец корреляций «независимых» переменных с «зависимой» переменной. На практике регрессионный анализ начинается именно с вычисления стандартных коэффициентов регрессии.

Напомним, что в случае двумерной регрессии – при наличии всего одной независимой переменной, уравнение 3 имеет вид:

ŷ _i = r_xy ∙ x_i_,

то есть стандартный коэффициент регрессии равен коэффициенту корреляции зависимой и независимой переменных.

Знак β -коэффициента соответствует знаку корреляции данной независимой и зависимой переменной. При наличии двух и более независимых переменных абсолютная величина β -коэффициентa зависит не только от корреляции данной независимой и зависимой переменных, но и от величин и знаков корреляций этой независимой переменной с другими независимыми переменными. Если данная независимая переменная никак не связана с другими независимыми переменными, то β -коэффициент, как и в двумерном случае, равен ее корреляции с зависимой переменной. Чем больше β -коэффициент по абсолютной величине, тем выше относительное влияние данной независимой переменной (с учетом влияния других независимых переменных), то есть тем выше информативность (уникальность) данной переменной для предсказания зависимой переменной. Статистические программы МРА (например, SPSS) оценивают p-уровень значимости каждого β -коэффициента.

Следует отметить, что взаимовлияние (системный эффект) независимых переменных может как уменьшать, так и увеличивать абсолютную величину β -коэффициентов (и их уровень значимости).

Произведение коэффициента β _i, - и коэффициента корреляции r_iy данной независимой и зависимой переменной – это вклад переменной i в дисперсию зависимой переменной.

Если зависимая переменная представлена в z-значениях (дисперсия равна 1), то эта единичная дисперсия «зависимой» переменной D_y может быть выражена формулой:

D_y =1=Σ β _i r_iy +D_e

где D_e, – часть дисперсии, обусловленная влиянием неучтенных факторов, или дисперсия ошибки предсказания.

Часть дисперсии «зависимой» переменной, обусловленная влиянием «независимых» переменных, – это коэффициент множественной детерминации (КМД), который равен коэффициенту множественной корреляции в квадрате или R²:

KДМ= R²= Σ β _i r_iy=1- D_e

Интерпретация КМД очевидна: это та часть дисперсии «зависимой» переменной, которая определяется «независимыми» переменными. Следовательно,

(1 - КМД) – это дисперсия ошибки оценки. Например, если КМК = 0, 8, то КМД = (КМК)² = 0, 64. Это означает, что 64% дисперсии «зависимой» переменной определяется исходными переменными, а 36% ее дисперсии относится к ошибке оценки.

Основной показатель состоятельности МРА (модели множественной регрессии) – коэффициент множественной корреляции (R). Подобно корреляции Пирсона, он является мерой линейной взаимосвязи одной переменной с совокупностью других переменных, но в отличие от него, принимает только положительные значения (от О до 1). Статистическая значимость КМК определяется по критерию F-Фишера для соответствующих степеней свободы. Для полноценной интерпретации результатов МРА необходимо, чтобы статистически значимыми были КМК и все В-коэффициенты.

Таким образом, основными целями МРА являются:

1. Определение того, в какой мере «зависимая» переменная связана с совокупностью «независимых» переменных, какова статистическая значимость этой взаимосвязи. Показатель – коэффициент множественной корреляции (КМК) и его статистическая значимость по критерию F-Фишера.

2. Определение существенности вклада каждой «независимой» переменной в оценку «зависимой» переменной, отсев несущественных для предсказания «независимых» переменных. Показатели – регрессионные коэффициенты β, их статистическая значимость по критерию t-Стьюдента.

3. Анализ точности предсказания и вероятных ошибок оценки «зависимой» переменной. Показатель – квадрат КМК, интерпретируемый как доля дисперсии «зависимой» переменной, объясняемая совокупностью «независимых» переменных. Вероятные ошибки предсказания анализируются по расхождению (разности) действительных значений «зависимой» переменной и оцененных при помощи модели МРА.

4. Оценка (предсказание) неизвестных значений «зависимой» переменной по известным значениям «независимых» переменных. Осуществляется по вычисленным параметрам множественной регрессии.

Исходные данные, процедура и результаты

Исходными данными для МРА является набор переменных, измеренных для выборки объектов (испытуемых). Одна из переменных определяется как «зависимая», остальные – как «независимые» переменные.

Пример

Перед исследователем стоит задача предсказания успеваемости пяти абитуриентов поданным вступительных тестов (4 теста). Кроме того, его интересует, какие тесты обладают наибольшей предсказательной силой в отношении последующей успеваемости. В качестве исходных данных психолог имеет для каждого из 20 учащихся предыдущего набора средний балл отметок и 4 показателя тестирования. В его распоряжении имеются результаты применения тех же 4 тестов для пяти абитуриентов, и исследователь надеется предсказать для них средний балл успеваемости. Таким образом, исходными данными для МРА являются: средний балл отметок как «зависимая» переменная (Y) и 4 «независимых» переменных – результатов тестов (test 1, test 2, test 3, test 4) (табл..2.1).

Таблица 2.1

Пример исходных данных для МРА

№	test 1	Test 2	Test 3	Test 4	Y	?
	86, 00	110, 00	110, 00	101, 00	3, 88
	80, 00	97, 00	99, 00	100, 00	3, 64
	93, 00	107, 00	103, 00	103, 00	4, 11
	87, 00	117, 00	93, 00	88, 00	3, 54
…	…	…	…	…	…
	120, 00	94, 00	110, 00	105, 00	3, 71
	74, 00	121, 00	100, 00	100, 00
	96, 00	114, 00	114, 00	103, 00
	104, 00	73, 00	105, 00	95, 00
	94, 00	121, 00	115, 00	104, 00
	91, 00	129, 00	105, 00	98, 00

Первые 20 объектов – это учащиеся предыдущего набора, для которых известен средний балл успеваемости, последние 5 объектов – это абитуриенты, для которых известны только результаты тестирования. Последний столбец (Y) – это оценки «зависимой» переменной, которые исследователь надеется получить в результате применения МРА. Корреляции исходных переменных приведены в табл. 2.

Таблица 2.2

Корреляция исходных данных для МРА

	test 1	test 2	test 3	test 4	Y
test 1		-0, 015	0, 263	0, 402	0, 639
test 2	-0, 015		0, 356	0, 317	0, 552
test	0, 263	0, 356		0, 772	0, 706
test 4	0, 402	0, 317	0, 772		0, 736
Y	0, 639	0, 552	0, 706	0, 736

Строгих указаний о соотношении количества объектов N и количества признаков Р нет, но чем больше объем выборки, тем выше шансы получить статистически достоверные результаты.

Главное требование к исходным данным – отсутствие линейных взаимосвязей между переменными, когда одна переменная является линейной производной другой переменной. Таким образом, нельзя пользоваться суммой переменных или их средним арифметическим наряду с самими переменными. Соответственно, недопустимы переменные, коэффициент корреляции которых с любой другой переменной равен 1. Следует избегать включения в анализ переменных, корреляция между которыми больше 0, 8.

Следующее требование – переменные должны быть измерены в метрической шкале (интервалов или отношений) и иметь нормальное распределение. При нарушении этого требования, однако, результаты могут быть полезны, если, конечно, соблюдать известную осторожность.

Желательно отбирать для МРА «независимые» переменные, сильно коррелирующие с «зависимой» переменной и слабо – друг с другом. Если «независимых» переменных много и наблюдается множество связей между ними, то перед МРА целесообразно провести факторный анализ этих «независимых» переменных с вычислением значений факторов для объектов.

При анализе на компьютере (например, при помощи SPSS) можно выбрать метод МРА: исходный или стандартный (Enter), прямой пошаговый (Forward), обратный пошаговый (Backward) или комбинированный пошаговый (Stepwise). Пошаговые методы позволяют в автоматическом режиме подобрать оптимальную комбинацию независимых переменных, обеспечивающую наибольшую статистическую значимость как КМК, так и β -коэффициентов.

Стандартный метод учитывает в МРА все «зависимые» переменные. Пошаговый метод обычно выступает внескольких модификациях, основными из которых являются прямой и обратный метод.

Прямой пошаговый метод поочередно включает в регрессионное уравнение каждую переменную, начиная с наиболее тесно коррелирующей с «зависимой» переменной, до тех пор, пока p-уровень значимости β -коэффициента последней из включенных переменных не превысит заданное значение (по умолчанию – 0, 1). Обратный пошаговый метод поочередно исключает переменные из анализа, начиная с той, которая имеет наибольшее значение p-уровня значимости β -коэффициента, до тех пор, пока все оставшиеся переменные не будут иметь статистически значимые β -коэффициенты (по умолчанию р≤ 0, 1). Таким образом, пошаговые методы позволяют отсеивать несущественные для предсказания «независимые» переменные – те, β -коэффициенты которых статистически не достоверны. Следует отметить, что разные варианты пошагового метода могут давать разные результаты, поэтому следует применить каждый из них и выбрать наиболее приемлемый конечный результат.

Основные результаты применения МРА:

R – коэффициент множественной корреляции;

F – критерий Фишера и p-уровень статистической значимости КМК;

R²– квадрат КМК или КМД;

β (Beta) – стандартизированные коэффициенты регрессии и p-уровень их статистической значимости;

В – коэффициенты регрессии (регрессионного уравнения).

Дополнительно возможно вычисление оценок «зависимой» переменной (Predicted Values) и ошибок оценки (Residuals).

ТЕМА 3. МАТЕМАТИКО-СТАТИСТИЧЕСКИЙ МЕТОД АНАЛИЗА

СТРУКТУРЫ ПСИХИЧЕСКИХ ЯВЛЕНИЙ: ФАКТОРНО-АНАЛИТИЧЕСКАЯ МОДЕЛЬ

Назначение

Факторный анализ – это статистический инструмент, который лежит в самой основе исследования индивидуальных различий. Многочисленные варианты его использования включают конструирование тестов, выявление основных параметров личности и способностей, установление того, сколько отдельных психологических характеристик (т.е. черт) измеряется набором тестов или заданиями теста.

Термин «факторный анализ» может относиться к двум довольно разным статистическим методикам. Исследовательский (или эксплораторный) факторный анализ – более старая (и более простая) методика. Конфирматорный факторный анализ полезен во многих областях за пределами изучения индивидуальных различий и особенно популярен в социальной психологии. В литературе не всегда четко указывается, какой из видов факторного анализа использовался – исследовательский или конфирматорный, и если пояснений нет, следует допустить, что имеется в виду исследовательский факторный анализ.

Поясним идею факторного анализа (ФА) на простейшем примере. Предположим, что в интересах науки надо собрать следующие данные у случайно сформированной выборки, например, у 200 студентов:

§ VI – вес тела (в кг);

§ V2 – степень невнятности речи (ранжируется по шкале от 1 до 5);

§ V3 – длина ноги (в см);

§ V4 – разговорчивость (ранжируется по шкале от 1 до 5);

§ V5 – длина руки (в см);

§ V6 – степень шатания при попытках пройти по прямой линии (ранжируется по шкале от 1 до 5).

Логично предположить, что VI, V3 и V5 будут варьировать совместно, поскольку крупные люди будут склонны иметь длинные руки и ноги и больше весить. Все эти три пункта измеряют некоторое фундаментальное свойство индивидуумов выборки: их размеры. Точно так же вероятно, что V2, V4 и V6 будут варьировать совместно, так как количество употребленного алкоголя, вероятно, будет связано с четкостью речи, разговорчивостью и с осложнениями при попытках пройти по прямой линии. Таким образом, хотя мы собрали шесть фрагментарных данных, эти переменные измеряют только 2 конструкта: размеры тела и степень опьянения. В факторном анализе вместо слова «конструкт» обычно используется слово «фактор», и далее мы будем следовать этой традиции.

Исследовательский факторный анализ, по существу, выполняет две функции:

§ Он показывает, сколько отдельных психологических конструктов (факторов) измеряется данным набором переменных. В приведенном выше примере такими двумя факторами являются размеры тела и степень опьянения.

§ Он показывает, какие именно конструкты измеряют использованные переменные. В приведенном выше примере было показано, что VI, V3 и V5 измеряют один фактор и V2, V4 и V6 измеряют другой, совершенно отличный фактор.

В некоторых формах факторного анализа дополнительно можно прокоррелировать факторы между собой, и затем вычислить для каждого испытуемого индивидуальную оценку по каждому фактору в целом («факторные оценки»).

Оценки по полным тестам (а не по его отдельным заданиям) также могут подвергаться факторному анализу – на самом деле именно так эта методика и используется. Факторный анализ в этом случае может показать, действительно ли тесты, которые, предположительно, измеряют один и тот же конструкт (например, шесть тестов, которые претендуют на измерение тревожности), продуцируют один фактор, или же в этом случае будут выделены несколько факторов (указывая на то, что тесты на самом деле измеряют несколько разных характеристик). Факторный анализ оценок, полученных на основе полных тестов, может быть чрезвычайно полезен для установления того, что именно измеряется группой тестов, поскольку многозначность языка допускает, что одному и тому же конструкту разными исследователями могут быть даны различные наименования. «Тревога» у одного автора может обозначать то же самое, что «нейротицизм» – у другого или «негативный аффект» – у третьего. Число терминов, используемых в психологии, потенциально безгранично, и без факторного анализа нет надежного способа установить, действительно ли несколько шкал измеряют один и тот же базисный психологический феномен. Например, если в справочнике указано, что имеются психологические средства измерения «нейротицизма», «тревоги», «истерии», «силы Эго», «нервозности», «низкой самоактуализации» и «боязливости», разумно задать вопрос: действительно ли это шесть отдельных понятий или это одна и та же характеристика, которой исследователи, имеющие разные теоретические воззрения, дали различные названия? Факторный анализ может точно ответить на этот вопрос, и поэтому он чрезвычайно полезен для упрощения структуры личности и способностей.

Возможности факторного анализа не ограничиваются анализом заданий или оценок теста. Предположим, что группу школьников, которые не имели специальной спортивной подготовки или спортивной практики, оценивали с точки зрения их успешности в соревнованиях по 30 видам спорта с помощью комплекса оценок, включавшего рейтинги тренеров, регистрацию времени, среднюю длину броска, забитые голы и любые другие измерения показателей успешности, наиболее подходящие для каждого вида спорта. Единственное условие состоит в том, что каждый ребенок должен участвовать в каждом виде соревнования. Факторный анализ покажет, будут ли индивидуумы, успешные в одной игре с мячом, демонстрировать тенденцию к успешности во всех остальных играх, будут ли соревнования по бегу на длинные и короткие дистанции образовывать две различные группы (и какой вид соревнования будет входить в какую группу) и т.д. Таким образом, вместо того чтобы обсуждать происходящее в терминах успешности в 30 различных областях, будет возможно суммировать эту информацию, обсуждая ее в категориях основных спортивных способностей – стольких, сколько выявит факторный анализ.

⇐ Предыдущая 1 2 345 6 7 8 Следующая ⇒