Измерение связи между признаками. Корреляция, метод рангов.

Корреляция – это соотношение, взаимосвязь между признаками.

Различают 2 формы связи: функциональную и корреляционную.

Функциональнаясвязь -каждому значению одного признака соответствует строго определенное значение другого признака и изменение величины одного признака вызывает совершенно определенные изменения величины другого признака, т.е. функциональнаясвязь – отражает строгую зависимость процессов или явлений, изменение какого-либо одного явления обязательно связано с изменением другого явления на определенную величину. Эта связь характерна для физико-химических процессов и присуща неживой природе.

Корреляционная связь —связь, при которой каждому определенному значению одного признака соответствует несколько значений другого взаимосвязанного с ним признака (связь между ростом и массой тела человека; связь между температурой тела и частотой пульса и др.), поэтому она проявляется лишь при массовом сопоставлении признаков в количественно однородной совокупности и характерна для социально-гигиенических и медико-биологических процессов.

Признаки могут быть качественными и количественными несгруппированными величинами (абсолютными и производными). Главным является установление причинных взаимосвязей, подтверждающих зависимость одного явления от другого или от какой-то общей причины. С этой целью определяют коэффициент корреляции, который позволяет оценить характер, силу и достоверность взаимосвязи изучаемых признаков.

Коэффициент корреляции - это величина, характеризующая направление и силу связи между признаками, который одним числом дает представление о направлении и силе связи между признаками (явлениями), пределы его колебаний от 0 до ± 1.

По направлению связь может быть прямая (+) и обратная (-).Прямая связь (положительный коэффициент корреляции) – с увеличением одного признака увеличивается другой признак (+).

Обратная связь (отрицательный коэффициент корреляции) – с увеличением одного признака (явления) другой уменьшается (-).

Под теснота (сила) связи-степень сопряженности между признаками. Чем больше среднему значению одного признака соответствует среднее значение другого, тем больше теснота, сила связи меду ними. Теснота связи определяется величиной коэффициента корреляции от 0 до ± 1.

В зависимости от численного выражения коэффициента корреляции различают связь слабую (0, 0 до 0, 3), среднюю (от 0, 3 до 0, 7) и сильную от 0, 7 до 1, 0).

Корреляционная связь может быть прямолинейной и криволинейной.

Прямолинейная связь - характеризуется относительно равномерным изменением средних значений одного признака при равных изменениях другого.

Криволинейная связь – при равномерном изменении одного признака могут наблюдаться возрастающие или убывающие значения другого признака.

Для вычисление коэффициента корреляции используют методы рангов, или метод «ро» (ρ ), квадратов, или метод Пирсона (r), корреляционной решетки (η ) и множественной корреляции. Наиболее простым методом является вычисление коэффициента корреляции методом рангов (метод Спирмена), но полученный метод дает приближенные результаты.

Коэффициент ранговой корреляции Спирмена - это непараметрический метод, используемый с целью статистического изучения связи между явлениями. В этом случае определяется фактическая степень параллелизма между двумя количественными рядами изучаемых признаков и дается оценка тесноты установленной связи с помощью количественно выраженного коэффициента.

Практический расчет коэффициента ранговой корреляции Спирмена включает следующие этапы:

·составить два ряда из парных сопоставляемых признаков, обозначив первый и второй ряд соответственно X иY.При этом представить первый ряд признака в убывающем или возрастающем порядке, а числовые значения второго ряда расположить напротив тех значений первого ряда, которым они соответствуют.

·величину признака в каждом из сравниваемых рядов заменить порядковым номером (рангом). Рангами, или номерами, обозначают места показателей (значения) первого и второго рядов. При этом числовым значениям второго признака ранги должны присваиваться в том же порядке, какой был принят при раздаче их величинам первого признака. При одинаковых величинах признака в ряду ранги следует определять как среднее число из суммы порядковых номеров этих величин

·определить разность рангов между х и у (d): d = х — у

·возвести полученную разность рангов в квадрат (d²)

·получить сумму квадратов разности (Σ d²) и подставить полученные

значения в формулу:

где 𝞢 d² - сумма квадратов разностей рангов;

1 и 6 – постоянные коэффициенты;

n – число наблюдений сравниваемых пар.

При использовании коэффициента ранговой корреляции условно оценивают тесноту связи между признаками, считая значения коэффициента равные 0, 3 и менее, показателями слабой связи; значения более 0, 4, но менее 0, 7 - показателями умеренной тесноты связи, а значения 0, 7 и более - показателями высокой тесноты связи.

Коэффициент ранговой корреляции целесообразно применять:

- при наличии небольшого количества наблюдении,

- когда нет необходимости в точном установлении силы связи, а

достаточно ориентировочных данных,

- когда признаки представлены не только количественными, но и

атрибутивными значениями,

- когда ряды распределения признаков имеют открытые варианты

(например, стаж работы до 1 года, 20 лет и более и др.).

Мощность коэффициента ранговой корреляции Спирмена несколько уступает мощности параметрического коэффициента корреляции.

Наиболее точным и часто применяемым является метод квадратов, или метод Пирсона.

Метод квадратов (метод Пирсона) применяется:

· когда требуется точное установление силы связи между признаками;

· когда признаки имеют только количественное выражение.

Коэффициент корреляции показывает степень статистической зависимости между двумя числовыми переменными. Он вычисляется следующим образом:

где r – коэффициент корреляции, вычисленный методом квадратов,

d_x_–отклонения вариант от средней величины(V_x_–M_x),

d_y_-–отклонения вариант от средней величины(V_y_–M_y).

Практический расчет коэффициента корреляции (метод Пирсона) включает следующие этапы:

· построить вариационные ряды для каждого из сопоставляемых признаков, обозначив первый и второй ряд чисел соответственно x и y;

· определить для каждого вариационного ряда средние значения (М₁ и М₂);

· найти отклонения (d_х и d_y) каждого числового значения от среднего значения своего вариационного ряда;

· полученные отклонения перемножить (d_x d_y)

· каждое отклонение возвести в квадрат и суммировать по каждому ряду (Σ d_x² и d_y²)

· подставить полученные значения в формулу расчета коэффициента корреляции:

Достоверность коэффициента корреляции определяется величиной ошибки и доверительным коэффициентом t. В том случае, если полученный коэффициент корреляции в 3 раза и более превышает свою ошибку, он считается достоверным.

Ошибка коэффициента корреляции, вычисленного ранговым методом

(Спирмена):

где m_p– средняя ошибка коэффициента корреляции, вычисленного методом рангов;

ρ – величина коэффициента корреляции, вычисленного методом рангов;

n – число наблюдений.

2. Ошибка коэффициента корреляции, вычисленного методом квадратов (Пирсона):

где m_r– ошибка коэффициента корреляции, вычисленного методом

квадратов;

n – число наблюдений.

Оценка достоверности коэффициента корреляции, полученного методом ранговой корреляции и методом квадратов

Способ 1.

Достоверность определяется по формуле:

или

Критерий t оценивается по таблице значений t с учетом числа степеней свободы (n — 2), где n — число парных вариант. Критерий t должен быть равен или больше табличного, соответствующего вероятности ρ ≥ 99%.

Способ 2.

Достоверность оценивается по специальной таблице стандартных коэффициентов корреляции. При этом достоверным считается такой коэффициент корреляции, когда при определенном числе степеней свободы (n — 2), он равен или более табличного, соответствующего степени безошибочного прогноза ρ ≥ 95%.

Метод стандартизации.

Стандартизация – это метод сравнения показателей в двух неоднородных совокупностях на основании расчета условных (стандартизованных показателей при использовании стандарта.

При сравнении двух неоднородных совокупностей по какому-либо признаку (составу) применяются методы стандартизации (прямой, обратный, косвенный).

Прямой способ применяют, когда имеются погрупповые (повозрастные) показатели заболеваемости (смертности, травматизма) или их можно вычислить (при наличии погрупповой численности населения и заболевших).

Косвенный способ используют, если показатели по группам отсутствуют и их нельзя вычислить из-за отсутствия числа заболевших.

Обратный способ применяют при отсутствии погрупповых величин численности населения.

Наиболее распространенным является прямой метод стандартизации.

Прямой метод применяется:

- при наличии полных сведений, как о составе сравниваемых совокупностей, так и о распределении в них явления,

- при сравнении интенсивных показателей в совокупностях, отличающихся по составу (например, по возрасту, полу, профессиям и т.д.).

Прямой метод стандартизации позволяет устранить (элиминировать) возможное влияние различий в составе совокупностей по какому-либо признаку на величину сравниваемых интенсивных показателей. С этой целью составы совокупностей по данному признаку уравниваются, что в дальнейшем позволяет рассчитать стандартизованные показатели.

Метод стандартизации используется при оценке показателей здоровья только при сравнении их уровней. Этот метод расчета условных величин применяется для устранения неоднородности состава сравниваемых коллективов. Он показывает, какой был бы уровень заболеваемости (травматизма, смертности, инвалидизации и др.) в каждом коллективе (учреждении, городе), если бы его состав (по возрасту, по полу, по стажу и др.) был одинаков.

Стандартизованные показатели — это условные, гипотетические величины, они не отражают истинных размеров явлений. Стандартизованные показатели свидетельствуют о том, каковы были бы значения сравниваемых интенсивных показателей, если бы были исключены различия в составах совокупностей.

Этапы расчета стандартизованных показателей:

I этап. Расчет общих и частных интенсивных показателей:

· общих — по совокупностям в целом;

· частных — по признаку различия (полу, возрасту, стажу работы и т.д.).

II этап. Определение стандарта, т.е. выбор одинакового численного состава среды по данному признаку (по возрасту, полу и т.д.) для сравниваемых совокупностей. За стандарт принимается сумма или полусумма численностей составов соответствующих групп. В то же время стандартом может стать состав любой из сравниваемых совокупностей, а также состав по аналогичному признаку какой-либо другой совокупности. Например, при сравнении летальности в конкретной больнице по двум отделениям скорой помощи за стандарт может быть выбран состав больных любой другой больницы скорой помощи. Таким образом, так или иначе уравниваются условия среды, что дает возможность провести расчеты новых чисел явления, называемых " ожидаемыми величинами".

III этап. Вычисление ожидаемых абсолютных величин в группах стандарта на основе групповых интенсивных показателей, рассчитанных на I этапе. Итоговые числа по сравниваемым совокупностям являются суммой ожидаемых величин в группах.

IV этап. Вычисление стандартизованных показателей для сравниваемых совокупностей.

V этап. Сопоставление соотношений стандартизованных и интенсивных показателей, формулировка вывода.

Общим этапом вычисления стандартизованных коэффициентов является выбор стандарта возрастно-полового состава (процентное распределение состава любой из сравниваемых групп или их суммарного значения). Можно использовать литературные данные или показатели предыдущих исследований.

⇐ Предыдущая 5 6 7 8 91011 12 13 14 Следующая ⇒