Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


РАЗБИЕНИЕ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ



НА ОДНОРОДНЫЕ ГРУППЫ

Цель работы выработать навыки построения однородных многомерных групп и доказательства их однородности.

Общие положения

1.1. Основные предпосылки группировки

Любые методы математического моделирования требуют предварительного создания той или иной матрицы со статистически несовпадающими строками. И если при активном эксперименте такие матрицы (планы эксперимента) создаются в ходе самой работы, то для пассивного эксперимента создание такой матрицы представляет определенные трудности. Покажем один из методов разбиения многомерных пассивных экспериментальных данных на статистически однородные группы для гарантированного получения матрицы данных со статистически несовпадающими строками.

Под статистической группировкой принято понимать сведение анализируемых статистических данных в однородные группы на основе существенных для них признаков. Если группа одна – это просто однородная статистическая совокупность, а если число групп две и более – мы говорим о группировке. Понятно, что сами группы между собой (одна по отношению к другой) разнородны. Однородность же рассматривается как критерий образования каждой отдельной группы, то есть критерий, на основе которого элементы статистической совокупности объединяются в одну группу.

Однородность следует понимать как совокупность качественных и количественных характеристик. Однородность группы статистических наблюдений, определяемую на основе количественного признака, будем называть количественной (или просто статистической ) однородностью, а на основе качественного признака – качественной однородностью ( однотипностью ). Качественная и количественная однородность являются необходимым и достаточным условиями однородности статистических наблюдений. На первом этапе проверки однородности следует доказывать необходимое условие – однокачественность анализируемых явлений, а затем уже решается задача проверки количественной однородности. Количественная однородность только тогда имеет смысл, когда отражает единство качества и количества, то есть является мерой такого единства. Отклонения от неё свидетельствуют о переходе одного качества в другое на основе накопленных качественных и количественных изменений.

1.2. Метод расчета однородных групп

Рассмотрим процедуру определения количественной однородности. Пусть имеется одномерная выборка случайной величины X объемом n. Разобьем исходную выборку случайным образом на две с объемами n1 и n2, причём n1+n2=n. Тогда для любых n1=1, 2, …, (n-1) и n2=(n-1), (n-2), …, 1, образующих множество всевозможных разбиений исходной совокупности P2, можно найти функцию

 

(7.1)

 

где r2 - подмножество разбиений статистической совокупности на всем множестве P2.

Эта функция позволяет проверить нулевую гипотезу

для всех

 

против альтернативной гипотезы

хотя бы для одного .

Такой подход использован в t-статистике Стьюдента при проверке равенства центров распределения двух выборок

 

 

где - средневзвешенная дисперсия.

В реальных исследованиях статистические наблюдения, как правило, проводятся не по одному, а по нескольким признакам одновременно. Если обозначить число таких признаков m, то статистическая совокупность предстанет исходной матрицей порядка n´ m, где каждая i-я строка может быть записана в виде {Xi1, Xi2, …, Xim}. Тогда критерием для проверки гипотезы об однородности двух m-мерных выборок, образованных по тому же принципу, что и для (7.1), можно принять функцию

 

(7.2)

 

где , - средние арифметические j-го признака выборок с объемами n1 и n2 соответственно;

.

 

Произведя соответствующие преобразования и заменив для удобства расчетов , а , получим формулу функции

. (7.3)

Если при формировании исходной матрицы данных соблюдаются некоторые ограничения, а именно: имеет место независимость случайных величин {Xij}, образующих i-ю вектор-строку, и равенство дисперсий одномерных случайных величин, соответствующих j-му признаку, для любых подмножеств r2 (то есть, для любых сочетаний объемов выборок l и n - l), то функция (7.3) распределена по закону c2 с m степенями свободы. Тогда нулевая гипотеза об однородности всех строк матрицы может быть принята при выполнении неравенств

 

для всех (7.4)

 

где q - желаемый уровень значимости (в таблице А1 Приложения величина q в данном случае совпадает с P(c2)). В противном случае принимается альтернативная гипотеза о существенной неоднородности хотя бы одной строки исходной матрицы данных.

Таким образом, алгоритм расчета – проверки однородности m-мерной статистической совокупности – заключается в следующем. Исходный статистический материал ранжируется (упорядочивается) по наиболее существенному из набора m признаку. Затем в соответствии с выражениями (7.3) и (7.4) осуществляется последовательный расчет критерия U(r2) для последовательностей l и n-l (l=1, 2, ..., n-1) и сравнение его с критическим значением c2 при уровне значимости q и m степени свободы. Если выполняется условие (7.4), то совокупность признается однородной (принимается нулевая гипотеза). Если условие (7.4) не выполняется, то совокупность признается неоднородной (принимается альтернативная гипотеза) и должна быть разбита по крайней мере на две группы.

Разбиение (разграничение) неоднородной статистической совокупности на однородные отличающиеся друг от друга группы должно базироваться на том варианте разбиения m-мерной совокупности, при котором достигается максимальное различие в комплексе признаков. Тогда исходная матрица разбивается на две группы по строке с U(r2)=max. Каждая из полученных таким образом групп m-мерных наблюдений снова проверяется на однородность.

Если обе группы окажутся однородными, то интервал группировки (граница разбиения исходного пространства) только один, процесс группировки на этом заканчивается. Если же гипотеза об однородности отвергается хотя бы для одной из групп, то эту группу нужно разделить на две части по максимальному значению критерия (7.3) и каждую из частей в отдельности снова подвергнуть проверке на однородность. Процедура такого деления неоднородной статистической совокупности продолжается до тех пор, пока все образованные группы не будут признаны однородными.

Критерий (7.3) приспособлен для деления неоднородной совокупности только на две части. Поэтому, когда число однородных групп больше двух, процесс последовательного дробления исходной совокупности может привести к появлению статистически неустойчивых границ между однородными группами. Выявление таких межгрупповых границ и их устранение из первоначально полученной группировки приводит к определению ее действительных интервалов.

Строго говоря, статистическую устойчивость межгрупповой границы можно установить путем сравнения многомерных средних. Если многомерные средние двух сравниваемых групп статистически эквивалентны, то вполне реально предположение о появлении статистически неустойчивой границы и группы следует объединить в одну. Если же такое сравнение свидетельствует о существенном различии многомерных средних, то граница между двумя однородными группами объективно существует и объединять эти группы не имеет смысла.

Пусть в процессе первоначальной группировки статистическая совокупность разделена на d однородных групп. Обозначим через Qk многомерную среднюю k-й группы (k=1, 2, …, d). Нулевая гипотеза о том, что граница между группами Gk и Gk+1 является статистически неустойчивой, запишется в виде соотношения

а конкурирующая гипотеза примет вид

Понятие нулевой гипотезы требует признания статистической неустойчивости границы между группами Gk и Gk+1, вследствие чего эти группы должны быть объединены в одно, то есть Gk È Gk+1. Отклонение нулевой гипотезы способствует принятию ее альтернативы, то есть требует признания существенного разграничения Gk и Gk+1.

Статистический критерий для проверки этих гипотез конструируется по аналогии с тем, как это делалось при выводе критерия (7.3)

(7.5)

Значение критерия (7.5) сравнивается с и при

(7.6)

межгрупповая граница считается статистически неустойчивой. Это приводит к объединению k-й и (k+1)-й групп и последующему их совместному сравнению с группой (k+2) и т.д. Если же соотношение (7.6) не выполняется, то граница между k-й и (k+1) группами сохраняется, а проверке подлежит граница между (k+1)-й и (k+2)-й группами.


1.3. Производственный пример

В таблице 7.1 представлена часть экспериментальных данных упорядоченная по главному показателю Y четырехмерная статистическая совокупность, характеризующая техническое состояние одного типа электрорадиоэлемента и одновременно качество некоторой технологической операции. Проверить данную статистическую совокупность на однородность.

Р е ш е н и е. Поскольку качественная однородность обеспечена условием примера (один тип электрорадиоэлемента), то расчет количественной однородности осуществляем по вышеприведенному алгоритму и критериям (7.3) и (7.4). Техника работы ясна из правой части таблицы 7.1.

Таблица 7.1 - Упорядоченная таблица экспериментальных данных

i Yi X1i X2i X3i l; n-l U(r2)
47, 1 50, 4 53, 1 54, 0 55, 2 57, 0 58, 2 59, 1 60, 5 61, 9 63, 4 64, 9 66, 5 68, 2 69, 9 71, 7 72, 9 73, 5 74, 0 75, 2 76, 5 77, 3 78, 3 80, 9 21, 4 24, 4 25, 6 22, 0 24, 6 21, 5 20, 5 27, 4 19, 8 19, 3 27, 5 18, 2 20, 2 22, 5 25, 0 17, 2 18, 5 28, 4 25, 8 22, 1 23, 2 24, 1 23, 2 24, 0 1; 23 2; 22 3; 21 4; 20 5; 19 6; 18 7; 17 8; 16 9; 15 10; 14 11; 13 12; 12 13; 11 14; 10 15; 9 16; 8 17; 7 18; 6 19; 5 20; 4 21; 3 22; 2 23; 1 -; - 12, 708 19, 830 25, 059 29, 122 34, 264 37, 445 39, 884 43, 791 45, 347 46, 725 48, 182* 47, 859 47, 200 45, 557 42, 934 39, 919 37, 367 31, 756 27, 507 23, 312 18, 362 13, 244 7, 225 -
S(× ) 1569, 7 546, 4 - -
S(× )2 104845, 0 12654, 4 - -

Примеры расчета критерия однородности:

и т.д.

Сравнивая полученные значения критерия U(r2) с табличными значениями (таблица А1) убеждаемся в неоднородности статистической совокупности, которую можно разбить на две группы по максимальному значению (отмечено звездочкой) – в первую группу вошло 11 строк, во вторую – 13.

Для каждой из новых групп повторяем все расчеты заново (таблицы 7.2 и 7.3), в результате которых определяем, что обе группы должны быть разделены на две части каждая (граница раздела отмечена звездочкой), при этом в новую 1-ю группу вошло 6 строк (таблица 7.4), во 2-ю – 5 строк (таблица 7.5), в 3-ю – 6 строк (таблица 7.6), а в 4-ю – 7 строк (таблица 7.7).

 

Таблица 7.2 - Данные 1-й группы после 1-го разделения

i’ i Yi X1i X2i X3i l; n-l U(r2)
47, 1 50, 4 53, 1 54, 0 55, 2 57, 0 58, 2 59, 1 60, 5 61, 9 63, 4 21, 4 24, 4 25, 6 22, 0 24, 6 21, 5 20, 5 27, 4 19, 8 19, 3 27, 5 1; 10 2; 9 3; 8 4; 7 5; 6 6; 5 7; 4 8; 3 9; 2 10; 1 -; - 9, 517 12, 208 13, 035 13, 699 14, 608 15, 027* 12, 408 11, 013 10, 106 6, 472 -
S(× ) 619, 9 254, 0 - -
S(× )2 35181, 7 5951, 9 - -

Таблица 7.3 - Данные 2-й группы после 1-го разделения

i’ i Yi X1i X2i X3i l; n-l U(r2)
64, 9 66, 5 68, 2 69, 9 71, 7 72, 9 73, 5 74, 0 75, 2 76, 5 77, 3 78, 3 80, 9 18, 2 20, 2 22, 5 25, 0 17, 2 18, 5 28, 4 25, 8 22, 1 23, 2 24, 1 23, 2 24, 0 1; 12 2; 11 3; 10 4; 9 5; 8 6; 7 7; 6 8; 5 9; 4 10; 3 11; 2 12; 1 -; - 10, 511 17, 881 22, 407 24, 423 26, 029 27, 510* 24, 277 22, 844 21, 271 17, 851 14, 329 6, 638 -
S(× ) 949, 8 292, 4 - -
S(× )2 69663, 3 6702, 5 - -

 

Таблица 7.4 - Данные 1-й группы после 2-го разделения

i’ i Yi X1i X2i X3i l; n-l U(r2)
47, 1 50, 4 53, 1 54, 0 55, 2 57, 0 21, 4 24, 4 25, 6 22, 0 24, 6 24, 5 1; 5 2; 4 3; 3 4; 2 5; 1 -; - 6, 773 8, 610 6, 625 4, 834 4, 370 -
S(× ) 316, 8 139, 5 - -
S(× )2 16790, 2 3260, 1 - -

 

Таблица 7.5 - Данные 2-й группы после 2-го разделения

i’ i Yi X1i X2i X3i l; n-l U(r2)
58, 2 59, 1 60, 5 61, 9 63, 4 20, 5 27, 4 19, 8 19, 3 27, 5 1; 4 2; 3 3; 2 4; 1 -; - 2, 244 4, 394 5, 378 4, 200 -
S(× ) 303, 1 114, 5 - -
S(× )2 18391, 5 2691, 8 - -

 


Таблица 7.6 - Данные 3-й группы после 2-го разделения

i’ i Yi X1i X2i X3i l; n-l U(r2)
64, 9 66, 5 68, 2 69, 9 71, 7 72, 9 18, 2 20, 2 22, 5 25, 0 17, 2 18, 5 1; 5 2; 4 3; 3 4; 2 5; 1 -; - 6, 041 9, 300 10, 855 12, 537* 6, 049 -
S(× ) 414, 1 121, 6 - -
S(× )2 28626, 8 2508, 6 - -

 

Таблица 7.7 - Данные 4-й группы после 2-го разделения

i’ I Yi X1i X2i X3i l; n-l U(r2)
73, 5 74, 0 75, 2 76, 5 77, 3 78, 3 80, 9 28, 4 25, 8 22, 1 23, 2 24, 1 23, 2 24, 0 1; 6 2; 5 3; 4 4; 3 5; 2 6; 1 -; - 10, 511 13, 881* 12, 697 11, 309 11, 135 7, 281 -
S(× ) 535, 7 170, 7 - -
S(× )2 41036, 5 4189, 3 - -

 

Таблица 7.8 - Данные 3-й группы после 3-го разделения

i’ I Yi X1i X2i X3i l; n-l U(r2)
64, 9 66, 5 68, 2 69, 9 18, 2 20, 2 22, 5 25, 0 1; 3 2; 2 3; 1 -; - 6, 296 6, 448 6, 851 -
S(× ) 269, 5 85, 9 - -
S(× )2 18171, 5 1870, 5 - -

 

Таблица 7.9 - Данные 4-й группы после 3-го разделения

i’ I Yi X1i X2i X3i l; n-l U(r2)
71, 7 72, 9 17, 2 18, 5 1; 1 -; - 4, 000 -
S(× ) 144, 6 35, 7 - -
S(× )2 638, 1 - -

 


Таблица 7.10 - Данные 5-й группы после 3-го разделения

i’ i Yi X1i X2i X3i l; n-l U(r2)
73, 5 74, 0 28, 4 25, 8 1; 1 -; - 4, 000 -
S(× ) 147, 5 54, 2 - -
S(× )2 10878, 2 1472, 2 - -

 

Таблица 7.11 - Данные 6-й группы после 3-го разделения

i’ I Yi X1i X2i X3i l; n-l U(r2)
75, 2 76, 5 77, 3 78, 3 80, 9 22, 1 23, 2 24, 1 23, 2 24, 0 1; 4 2; 3 3; 2 4; 1 -; - 8, 853 8, 422 7, 941 6, 584 -
S(× ) 388, 5 116, 6 - -
S(× )2 30158, 3 116, 6 - -

 

Таблица 7.12 - Статистические характеристики

для исчисления критерия устойчивости межгрупповых границ

k nk SYi SYi2 SX1i SX12i SX2i SX22i X3i X32i
316, 8 303, 1 269, 5 144, 6 147, 5 288, 2 16790, 2 18391, 5 18171, 5 10455, 3 10878, 2 30158, 3 139, 5 114, 5 85, 9 35, 7 54, 2 116, 6 3260, 1 2691, 8 1870, 5 638, 1 1472, 2 2721, 7

 

Таблица 7.13 - Значения критерия устойчивости (существенности)

межгрупповых границ

№ п/п Граница между группами U(Gk; Gk+1)
1 – 2 2 – 3 3 – 4 4 – 5 4, 5 – 6 13, 444 12, 383 12, 537 5, 325 15, 029

 

Таблица 7.14 - Итоговое разбиение исходной статистической совокупности

k nk Интервалы в группах Средние в группах
Y X1 X2 X3 Y X1 X2 X3
47, 1-57, 0 58, 2-63, 4 64, 9-69, 9 71, 7-74, 0 75, 2-80, 9 181-212 196-254 256-274 283-299 299-330 157-242 239-287 263-279 286-300 299-316 21, 4-25, 6 19, 3-27, 5 18, 2-25, 0 17, 2-25, 8 22, 1-24, 1 52, 8 60, 6 67, 4 73, 0 77, 6 197, 7 214, 6 265, 5 290, 5 310, 6 215, 2 263, 0 270, 5 291, 3 310, 6 23, 25 22, 90 21, 48 22, 48 23, 32

 

Таблица 7.15 - Эмпирические дисперсии результирующих групп

k nk S2Y
12, 636 4, 387 4, 649 0, 983 4, 608 132, 27 603, 80 97, 00 53, 67 229, 30 1074, 2 459, 5 45, 7 44, 9 48, 3 3, 343 17, 435 8, 609 29, 929 0, 647
S2p 6, 108 234, 02 403, 9 10, 77
Q 4, 600 5, 588 14, 615 11, 518

Дальнейшие расчеты показывают, что 1-я и 2-я группы должны быть признаны однородными, а 3-я и 4-я распались каждая еще на две подгруппы. В новой нумерации это соответственно 3-я группа (таблица 7.8), 4-я группа (таблица 7.9), 5-я группа (таблица 7.10) и 6-я группа (таблица 7.11), которые по результатам расчетов признаются однородными.

Процесс разбиения исходной совокупности на однородные многомерные группы закончился. Теперь необходимо проверить правильность разбиений, то есть проверить устойчивость границ. С этой целью сведем в одну таблицу (табл. 7.12) статистические характеристики, ранее исчисленные на различных итерациях (разбиениях) по каждой из шести групп.

Подставляем в формулу (7.5) данные по первым двум группам и получаем результат (см. таблицу 7.6), который сравниваем с табличным значением критерия и убеждаемся в невыполнении условия (7.6). Следовательно, граница между 1-й и 2-й группами признается значимой.

Далее проверяем устойчивость границы между 2-й и 3-й группами, которая также признается значимой, в силу невыполнения условия (7.6). Аналогичный вывод делаем о границе между 3-й и 4-й группами, а вот граница между 4-й и 5-й группами должна быть признана неустойчивой в силу незначимости критерия (7.6). Это означает, что группы 4 и 5 следует объединить и далее рассматривать вопрос о значимости границы между объединённой (4, 5)-й группой и 6-й группой. Так как эта граница оказалась устойчивой (значимой), а список групп исчерпался, то следует подвести итог проделанной работы. Окончательно исходная совокупность разбилась на 5 однородных групп (еще одна перенумерация), которые можно представить в виде таблицы 7.14.

Еще одной проверкой правильности проведенных разбиений может служить сравнение дисперсий проверяемых совокупностей (таблица 7.15). Сравнение следует проводить по критерию Бартлетта (2.5), так как объемы выборок не одинаковы. Сравнивая полученные расчетные величины Q с табличным значением критерия Пирсона можно с доверительной вероятностью утверждать, что однородность всех групп Y и X1 подтвердилась, а 1-я группа параметра X2 и 4-я группа параметра X3 содержат какую-то существенную неоднородность (в данном случае величина =157 1-й группы является грубым промахом, а величины 4-й группы четко делятся на две крайности). Так как по условию примененного метода разделения на однородные группы параметры и являются предпочтительными по сравнению с параметрами и , то на неоднородности в некоторых группах этих второстепенных параметров можно не обращать внимания.

Порядок проведения работы

2.1. По результатам лабораторной работы №6 составить таблицу исходных данных для лабораторной работы №7 по следующему правилу: в первом столбце должна стоять целевая функция Y, расположенная в порядке возрастания своей величины; во втором столбце должен стоять один из отобранных факторов , наиболее тесно связанный с целевой функцией ; в третьем столбце должен стоять фактор , следующий за фактором по тесноте связи с целевой функцией ; и так далее до исчерпания списка отобранных факторов. При этом следует помнить, что строка в новой таблице должна строго соответствовать такой же строке в таблице исходных данных лабораторной работы №6.

2.2. Рассчитать величины , найти границу раздела и повторять эту работу для новых таблиц до выполнения условия (7.4).

2.3. Провести проверку устойчивости границ и сформировать окончательные группы.

2.4. Оценить (доказать) однородность сформированных групп.

Содержание отчета

Отчет по лабораторной работе должен содержать ответы на все пункты задания с приведением необходимых формул, расчетов и таблиц. При подготовке к защите работы необходимо ознакомиться с контрольными вопросами и продумать результаты лабораторной работы.


4. Контрольные вопросы

4.1. Что такое «статистическая группировка»? Какие они бывают?

4.2. Какие принципы положены в основу разбиения многомерной группировки?

4.3. Почему необходимо проверять устойчивость границ разбиения?

4.4. Что необходимо сделать при обнаружении неустойчивой границы?

4.5. Что необходимо сделать при обнаружении неоднородности внутри окончательно разбитых групп?

4.6. В каких случаях можно пренебречь обнаружившейся неоднородностью внутри окончательно разбитых групп?

4.7. Зачем вообще разбивать многомерные группировки на статистически однородные группы?

5. Рекомендуемая литература

5.1. Кильдишев Г.К., Аболенцев Ю.И. Многомерные группировки. – М.: Статистика, 1978. – 160с.

5.2. Долгов Ю.А. Статистическое моделирование. – 2-е изд., доп. - Тирасполь: Полиграфист, 2011. – 352 с. (с. 280-289).


Лабораторная работа № 8


Поделиться:



Последнее изменение этой страницы: 2017-04-12; Просмотров: 536; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.052 с.)
Главная | Случайная страница | Обратная связь