Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
СТАТИСТИЧЕСКИЕ СОВОКУПНОСТИ И КОЛИЧЕСТВЕННЫЕ ПРИЗНАКИСтр 1 из 8Следующая ⇒
СТАТИСТИЧЕСКИЕ СОВОКУПНОСТИ И КОЛИЧЕСТВЕННЫЕ ПРИЗНАКИ Математическая статистика рассматривает множества единиц одного и того же вида, называемые статистическими совокупностями. Отдельные единицы, входящие в состав статистической совокупности, называются ее элементами. Число всех элементов называют объемом совокупности. Явления географической среды изучаются как в пространстве, так и во времени, отсюда элементами статистической совокупности могут быть как территориальные единицы (ландшафты, административные районы, хозяйства), так и временные (года, сезоны, месяцы, дни и т.д.). Одни и те же элементы статистической совокупности могут иметь не один, а множество количественных признаков, отражающих в цифровой форме те или иные свойства рассматриваемых явлений и показывающих различия между отдельными элементами статистической совокупности. Так, внутренняя разнородность географических ландшафтов может выражаться через различия в глубинах залегания кристаллического фундамента, абсолютной высоты земной поверхности, через вариацию климатических показателей (температуры, давления, влажности и т.д.). Последовательное перечисление количественных признаков элементов, отличающихся местоположением, называют пространственными рядами. Количественные признаки по годам, месяцам, дням, часам образуют ряды временные. Характерной чертой математической статистики является то, что она изучает статистические совокупности объектов, но не их отдельные элементы. Процесс получения количественных показателей объектов и явлений часто называют статистическими наблюдениями. 2. ГЕНЕРАЛЬНАЯ И ВЫБОРОЧНАЯ СОВОКУПНОСТИ Статистические совокупности подразделяются на генеральную и выборочную. Генеральная совокупность (М) - это вся имеющаяся статистическая совокупность, объединенная какой-либо качественной общностью. В географических исследованиях наиболее распространена территориальная общность объектов и явлений, заключающаяся в их принадлежности к какому-то географическом) району. Так, например, все населенные пункты России (или только города), все регионы страны (области, края, районы) являются генеральными совокупностями. Объем генеральной совокупности в географических исследованиях может быть различным - от нескольких единиц до бесконечности. При изучении пространственных закономерностей климатических, морфометрических и ряда других явлений наблюдается изменение количественных показателей от места к месту, т.е. любая точка местности имеет определенное числовое значение (среднегодовую или среднемесячную температуру, абсолютную высоту над уровнем моря и другие характеристики). Каждая точка в этом случае представляет собой элемент статистической совокупности, а так как таких точек неограниченное количество, то генеральная совокупность будет бесконечной. При большом объеме статистического материала обычно используют выборочную совокупность (m ), когда по определенной правильно выбранной генеральной совокупности, взятой на основе отбора, судят об этой совокупности в целом. Достаточно большой объем выборки и надлежащая организация наблюдений приводят к тому, что результаты выборочного изучения будут близки к результатам, получаемым при изучении генеральной совокупности. Основное качество выборочной совокупности, заключающееся в способности заменить всю генеральную совокупность, называется репрезентативностью выборки. СПОСОБЫ ОТБОРА ОБЪЕКТОВ В ВЫБОРКУ Отбор объектов в выборку должен удовлетворять следующему обязательному правилу - каждая единица генеральной совокупности имеет одинаковую возможность быть отобранной. Такое требование исключает субъективизм, предвзятость в исследованиях. Например, для правильной объективной оценки урожайности зерновых в области не следует использовать данные только лучших хозяйств. Изучение лишь крупных оврагов может создать неправильное представление об овражной эрозии на исследуемой территории. Наиболее часто встречаются следующие виды отбора: 3.1. Случайный повторный отбор, при котором объекты отбираются из генеральной совокупности и после изучения возвращаются в нее, так что любой объект может попасть в выборку повторно. Предположим, на изучаемой территории имеется 2000 хозяйств (М = 2000). Исследователь решил изучать эти хозяйства, выбрав из имеющейся генеральной совокупности лишь 30 (n = 30). Каждому хозяйству присваивается номер, который записывается в отдельную карточку. Все 2000 карточек тщательно перетасовывают. Выбирают наугад одну карточку и записывают номер хозяйства. Затем эту карточку возвращают в колоду, производят повторное перемешивание, после чего берут еще карточку. Таким образом, выбирают все 30 хозяйств, количественные признаки которых надлежит изучать. 3.2. Случайный бесповторный отбор, при котором элементы статистической совокупности отбираются как и в предыдущем случае, с той лишь разницей, что выбранная карточка в колоду не возвращается, так что каждый отобранный объект не может попасть в выборку повторно. Это более распространенный способ выборки по сравнению с первым. 3.3. Механический отбор заключается в том, что единицы, подлежащие изучению, берутся через определенный, заранее установленный интервал. Например, из всех оврагов изучаемой территории может быть выбран каждый пятый или десятый. 3.4. Серийный отбор (или гнездовой) производится путем деления генеральной совокупности на части (серии), после чего внутри отобранных серий (гнезд) производится сплошное наблюдение. Так, чтобы не изучать всю территорию, ее разбивают на равные площадки и по одному из вышеописанных способов выбирают для последующего сплошного обследования несколько площадок. Участки, типичные для изучаемого географического района, часто называют «ключами». На практике различные способы отбора могут применяться в сочетании друг с другом. Географ-исследователь должен уметь выбрать наиболее подходящий способ в зависимости от конкретных условий. Следует учесть, что часть никогда не может абсолютно точно охарактеризовать целое, поэтому характеристики генеральной совокупности будут отличаться от характеристик, полученных по выборочным данным. Точность во многом зависит от объема выборки (n), однако большое количество наблюдений соответственно увеличивает объем измерительных и вычислительных работ. СУЩНОСТЬ И ВИДЫ ГРУППИРОВОК Математико-статистическая обработка данных часто начинается с группировки, под которой понимают расчленение статистической совокупности на группы, однородные по какому-либо признаку. Для этого среди всей массы элементов статистической совокупности нужно выделить однородные группы, типы и только затем давать им обобщенные характеристики. Так, например, изучая динамику овражной эрозии, можно подразделить овраги по расположению в рельефе на донные, вершинные, склоновые. Затем уже ведется исследование по этим группам. Населенные пункты можно рассматривать не все сразу, а в отдельности - городские и сельские. Разновидности группировок В географии важную роль играет группировка по территориальному признаку. Например, те же овраги подразделяются (группируются) по принадлежности к физико-географи-ческим районам, природным зонам и т.д. Экономические итоговые сведения обычно даются по сетке административного деления. Группировка по временному признаку предполагает расчленение временных рядов на интервалы: часы, дни, недели, месяцы, года, десятилетия. Перед математико-статистическими расчетами часто используется группировка по количественному признаку. Разберем пример такой группировки. В таблице 1 даны длины (L) 25 оврагов в метрах. Таблица 1. Длины оврагов
Находим по таблице 1 наибольшее и наименьшее значения изучаемого признака (Хmах и Хmin). Оказалось, что самая большая длина оврага - 59 м, самая малая -17м. Этими двумя числами определяется промежуток вариации признака. Делим промежуток на равные интервалы, например, на 5. Подсчитываем число оврагов в каждом интервале. Эти числа называются частотами (см. табл. 2). Таблица, в которой перечислены интервалы признака и указаны частоты, называется интервальным рядом распределения. Число интервалов группировки зависит от объема совокупности. Их не должно быть чрезмерно много, так как в каждом интервале тогда окажется слишком мало наблюдений для того, чтобы закономерность проявлялась отчетливо; с другой стороны, и слишком малое число интервалов нежелательно, так как теряются существенные особенности распределения. При числе наблюдений от 100 до 500 рекомендуют делить промежуток на 8-16 интервалов. Можно рекомендовать вычисления длин интервалов (d) по Формуле Стерджесса,
Таблица 2 Интервальный ряд распределения
На практике лучше руководствоваться таблицей 3. Таблица 3. Зависимость числа интервалов группировки (m) от объема совокупности (n)
Промежуток вариации признака иногда может делиться не на равные интервалы, особенно тогда, когда в некоторых промежутках малое количество наблюдений. Группировка количественной информации облегчает дальнейший процесс математико-статистической обработки данных. ВОПРОСЫ И ЗАДАНИЯ Дайте определение следующих терминов и понятий: 1. Статистическая совокупность; 2. Элементы и объем статистической совокупности; 3. Количественные признаки; 4. Пространственные и временные ряды; 5. Статистические наблюдения; 6. Генеральная и выборочная совокупности; 7. Репрезентативность выборки; 8. Случайный повторный отбор; 9. Случайный бесповторный отбор; 10. Механический отбор; 11. Серийный отбор; 12. Полевой способ получения количественной информации; 13. Дистанционные измерения; 14. Камеральный способ получения количественной информации; 15. Лабораторный способ получения количественной информации; 16. Группировка данных по территориальному признаку; 17. Группировка данных по временному признаку; 18. Группировка данных по количественному признаку; 19. Интервальный ряд распределения; 20. Гистограмма; 21. Полигон распределения: 22. Кривая распределения; 23. Нормальное распределение; 24. Показательное распределение; 25. Равномерное распределение; ЛИТЕРАТУРА Червяков В.А. Основы математической статистики в географии. Владивосток, 1966. 86 с. Бочаров М.К. Методы математической статистики в географии. М., 1971.375с.
ЛИМИТЫ И РАЗМАХ По средней арифметической можно судить лишь о массовом уровне признака. Вторая основная проблема математической статистики заключается в выяснении степени колеблемости отдельных значений вокруг средней величины. Недостаточность и «однобокость» показателей среднего уровня покажем на следующем примере. В одной статистической совокупности изучаемый признак принимает следующие значения: 1, 3, 5, 7, 9; в другой - 3, 4, 5, 6, 7. В обоих случаях средняя арифметическая равна 5, однако разброс значений величин не одинаков (в первой совокупности он больше - от 1 до 9, во второй меньше - от 3 до 7). Необходимо ввести особые показатели изменчивости признака внутри статистической совокупности. Простейшим показателем колеблемости являются лимиты, то есть максимальные и минимальные значения количественных признаков статистической совокупности. В географических описаниях это наиболее распространенный показатель колеблемости. Примеры таких описаний: «Суточные суммы солнечной радиации в июле в Акмолинской области составляют 550-600 кал/кв.см, что больше, чем на тех же широтах в Поволжье», «Общие запасы перегноя и азота в полуметровой толще соответственно колеблются от 350 до 400 и от 23 до 25 т на гектар». По лимитам можно судить не только об амплитуде колебания количественных показателей, но и о среднем уровне, который обязательно занимает промежуточное положение между максимумом и минимумом. Разность между максимальным и минимальным значениями признака называют размахом. Он часто приписывается к лимитам в скобках. КОЭФФИЦИЕНТ ВАРИАЦИИ Среднее квадратическое отклонение является размерным показателем колеблемости признака. Оно выражается в тех же единицах, что и варианты признака. Поэтому сигма может служить непосредственным показателем колеблемости только тогда, когда сравниваются однородные количественные признаки. Пример сравнения колеблемости неоднородных признаков: имеются данные о значениях средних квадратических отклонений следующих показателей природных условий в одном и том же районе (табл. 8): Таблица 8. Сравнение неоднородных признаков
По этим числам невозможно установить, какой из приведенных признаков варьирует больше, а какой меньше. Действительно, метры нельзя сравнить с процентами и градусами, так как единицы измерения оказываются разными. Поэтому для сравнения разнородных признаков введен особый показатель - коэффициент вариации (V), представляющий собой отношение d к . Обычно коэффициент вариации выражается в процентах, тогда его формула будет иметь следующий вид:
Зная средние арифметические и средние квадратические отклонения признаков, указанные в нашем примере, по формуле (6) можно вычислить коэффициенты вариации (см. табл. 9). Таблица 9. Схема вычисления коэффициента вариации
Оказалось, что на исследуемой территории наиболее изменчивым количественным признаком является длина оврагов (V1 = 50%), а наименее изменчивы углы наклона (V3 = 10%). Обратим внимание на то, что коэффициент вариации применим для сравнения колеблемостей только тех количественных показателей, которые не могут принимать отрицательных значений. Этому условию полностью отвечают признаки, рассмотренные в таблице 9. Действительно, длины оврагов, распаханность и углы наклонов площадей водосборов немыслимы со знаком минус. То же можно сказать и о вещественных разновидностях продукции промышленного и сельскохозяйственного производств, о вещественных природных ресурсах (биологических, водных, минеральных). Не удовлетворяют отмеченному условию высоты земной поверхности, температуры, предельно-допустимые нормы концентраций (ПДК). В зависимости от выбора точки отсчета этих показателей будут изменяться значения вычисленных средних арифметических и зависимых от них коэффициентов вариации. Например, коэффициент вариации абсолютных высот земной поверхности окажется гораздо меньше коэффициента вариации относительных высот, началом отсчета которых служат самые различные высотные уровни. Аналогично численные значения коэффициента вариации температур будут зависеть от выбора точки их отсчета (точки кипения, замерзания и др.). ВИДЫ ОШИБОК ИССЛЕДОВАНИЙ Полученные в результате измерений количественные показатели явлений имеют ошибки самого разнообразного характера. Можно выделить следующие группы ошибок: 1. Ошибки методические, вызванные применением неправильной методики исследований. 2. Ошибки точности (инструментальные, картографические, расчеты с недостаточной точностью). 3. Ошибки репрезентативности, имеющие место при выборочном исследовании, когда используется только определенная часть генеральной совокупности. Избежать этих ошибок нельзя, однако их размеры можно свести к минимуму правильной организацией выборочного наблюдения. Кроме того, разработаны методы, дающие возможность по выборочным данным определять значения ошибок репрезентативности (см. ниже). Следует заметить, что расчет последних возможен только для выборочных показателей. Если же исследуется вся генеральная совокупность (например, все хозяйства или все населенные пункты на данной территории), то определять эти ошибки не имеет смысла - они фактически отсутствуют.
РАНГОВАЯ КОРРЕЛЯЦИЯ В географических исследованиях при малых объемах выбора часто требуется обработать статистический материал быстро, не претендуя на высокую точность. Для этого можно ограничиться вычислением не коэффициента корреляции, а ранговой корреляции. Суть этого показателя состоит в том, что действительные значения количественных признаков заменяются их рангами, то есть последовательным рядом простых чисел, начиная с единицы в порядке возрастания признака Например, имеются данные об урожайности зерновых культур (у) и количестве осадков за два месяца перед колошением (х) по пяти районам (табл. 3, столбцы 1 и 2). Требуется вычислить тесноту связи. Заменяем значения признаков их рангами Хр и Ур (столбцы 3 и 4), находим разности рангов (столбец 5), затем вычисляем квадраты этих разностей (столбец 6). Таблица 3 Схема вычисления рангового коэффициента корреляции Ранговый коэффициент корреляции (r) вычисляется по формуле Этот показатель тесноты связи рассчитывается главным образом тогда, когда достаточно выяснить приближенную величину тесноты связи, и поэтому полученные результаты можно округлять лишь до десятого знака. Ранговый коэффициент корреляции представляет ценность еще и потому, что в распоряжение географа-исследователя часто поступают данные о многих природных и социально-экономических явлениях, заранее выраженные в рангах или баллах, а последние легко перевести в ранги. МНОЖЕСТВЕННАЯ КОРРЕЛЯЦИЯ При изучении многофакторных связей встает проблема определения степени совместного влияния нескольких факторов на исследуемое явление. Корреляционный анализ обычно начинается с вычисления парных коэффициентов корреляции (rxy), выражающих степень зависимости изучаемого явления (у) от какого-либо фактора (х). Например, определяются коэффициенты корреляции между урожайностью зерновых культур, с одной стороны, и рядом климатических, почвенных и экономических факторов — с другой. Анализ полученных парных коэффициентов корреляции позволяет выявить наиболее важные факторы урожайности. Следующая ступень корреляционного анализа заключается в том, что вычисляется коэффициент множественной корреляции (R), показывающий степень совместного влияния важнейших факторов (x1, x2, ... xn) на изучаемое явление (у), например, на урожайность зерновых культур. Расчет для множества факторов представляет собой очень трудоемкий процесс, часто требующий применения ЭВМ. Рассмотрим простейший пример вычисления степени совокупного влияния на урожайность (у) только двух факторов: гидротермического коэффициента (x1) и стоимости основных средств производства (х2). Для этого вначале следует определить коэффициенты корреляции между тремя признаками (у, x1, и х2) попарно. Оказалось, что 1) коэффициент корреляции между урожайностью зерновых культур (у) и гидротермическим коэффициентом (х1) == 0, 80; 2) коэффициент корреляции между урожайностью зерновых культур (у) и стоимостью основных средств производства (х2) == 0, 67; 3) коэффициент корреляции между самими факторами урожайности (гидротермическим коэффициентом и стоимостью основных средств производства) = 0, 31. Коэффициент множественной корреляции, выражающий зависимость изучаемого явления от совокупного влияния двух факторов, вычисляется по формуле
В нашем примере
Совокупное влияние нескольких факторов на изучаемое явление больше, чем каждого из этих факторов в отдельности. Действительно, 0, 92 больше как 0, 80, так и 0, 67. Квадрат коэффициента множественной корреляции (R2 = 0, 84) означает, что колеблемость урожайности зерновых объясняется воздействием учтенных факторов (гидротермические коэффициенты и стоимость основных средств производства) на 84%. На долю остальных неучтенных факторов приходится всего 16%. Линейную зависимость одной переменной (у) от двух других можно выразить уравнением
8. ЧАСТНАЯ КОРРЕЛЯЦИЯ В предыдущем параграфе была рассмотрена схема вычисления я коэффициента множественной корреляции, выражающего степень совместного воздействия двух факторов ( пользу коэффициента частной корреляции покажем на приме изучения овражной эрозии. Известно, что скорость роста оврагов во многом зависит от энергии поверхностного стока, определяемой eё объемом и скоростью. Первая характеристика может быть выражена таким морфометрическим показателем, как площадь водосбора при вершине оврага, а скорость стока - углом наклона у вершины оврага. Были измерены скорости роста n-го числа оврагов (у), углы наклов (x1) и площади водосбора (х2), вычислены парные коэффициенты корреляции: =: - 0, 2, = 0, 8; == - 0, 7. Отрицательное значение первого коэффициента корреляции выглядит парадоксальным. Действительно, трудно представить, чтобы скорости роста оврагов были тем больше, чем меньше угол наклона. Объяснить эту аномалию может обычно вогнутая форма продольного профиля балки, где растет oвраг (рис. 5). Благодаря такой форме профиля наблюдается противоположность воздействия двух рассматриваемых факторов (x1, и х2) на скорость роста оврагов (у): овраг, начинающий свое развитие в устье балка имеет малый угол наклона (ai), но зато наибольшую площадь водосбора, обеспечивающую максимальный объем стекающей воды. По мера приближения вершины оврага к водоразделу угол наклона растет (a1, a2, a3, a4, a5), но площадь водосбора уменьшается (S1 – S5). Преобладающее воздействие площади водосбора (объема воды) над воздействием угла наклона (ее скорости) и привело к отрицательному значению зависимости скорости роста оврагов от угла наклона. Разнонаправленность воздействия двух рассмотренных факторов объясняет также минусовой знак их корреляционной взаимозависимости ( == - 0.7). Для того, чтобы определить, насколько велика зависимость скорости роста оврагов от угла наклона при исключении влияния другого фактора (площади водосбора), необходимо вычислить коэффициент частной корреляции по формуле (13). Оказалось, что
Таким образом, только в результате корреляционных расчетов стало возможным убедиться в прямой, а не обратной зависимости скорости роста оврагов от угла наклона, но только при условии исключения воздействия площади водосбора. ЛИТЕРАТУРА Жуков В.П., Сербенюк С.Н., Тикунов B.C. Математико-картографическое моделирование в географии. М., 1980. 224 с. Жуковская В.М. Опыт применения факторного анализа для характеристики степных провинций Канады // Количественные метода исследования в экономической географии. М., 1964.С. 122-166. Лукомский Я.И. Теория корреляции и ее применение к анализу производства. М., 1962. 375 с. Тикунов B.C. Моделирование в картографии" Учебник. М., 1997. 405 с. с. Червяков В.А. Особенности определения корреляций по картам статистических пове Червяков В.А. Основы математической статистики в географии. Владивосток, 1966. 86 рхностей // Сибирский географический сборник. 1975. №10. С. 5- СТАТИСТИЧЕСКИЕ СОВОКУПНОСТИ И КОЛИЧЕСТВЕННЫЕ ПРИЗНАКИ Математическая статистика рассматривает множества единиц одного и того же вида, называемые статистическими совокупностями. Отдельные единицы, входящие в состав статистической совокупности, называются ее элементами. Число всех элементов называют объемом совокупности. Явления географической среды изучаются как в пространстве, так и во времени, отсюда элементами статистической совокупности могут быть как территориальные единицы (ландшафты, административные районы, хозяйства), так и временные (года, сезоны, месяцы, дни и т.д.). Одни и те же элементы статистической совокупности могут иметь не один, а множество количественных признаков, отражающих в цифровой форме те или иные свойства рассматриваемых явлений и показывающих различия между отдельными элементами статистической совокупности. Так, внутренняя разнородность географических ландшафтов может выражаться через различия в глубинах залегания кристаллического фундамента, абсолютной высоты земной поверхности, через вариацию климатических показателей (температуры, давления, влажности и т.д.). Последовательное перечисление количественных признаков элементов, отличающихся местоположением, называют пространственными рядами. Количественные признаки по годам, месяцам, дням, часам образуют ряды временные. Характерной чертой математической статистики является то, что она изучает статистические совокупности объектов, но не их отдельные элементы. Процесс получения количественных показателей объектов и явлений часто называют статистическими наблюдениями. 2. ГЕНЕРАЛЬНАЯ И ВЫБОРОЧНАЯ СОВОКУПНОСТИ Статистические совокупности подразделяются на генеральную и выборочную. Генеральная совокупность (М) - это вся имеющаяся статистическая совокупность, объединенная какой-либо качественной общностью. В географических исследованиях наиболее распространена территориальная общность объектов и явлений, заключающаяся в их принадлежности к какому-то географическом) району. Так, например, все населенные пункты России (или только города), все регионы страны (области, края, районы) являются генеральными совокупностями. Объем генеральной совокупности в географических исследованиях может быть различным - от нескольких единиц до бесконечности. При изучении пространственных закономерностей климатических, морфометрических и ряда других явлений наблюдается изменение количественных показателей от места к месту, т.е. любая точка местности имеет определенное числовое значение (среднегодовую или среднемесячную температуру, абсолютную высоту над уровнем моря и другие характеристики). Каждая точка в этом случае представляет собой элемент статистической совокупности, а так как таких точек неограниченное количество, то генеральная совокупность будет бесконечной. При большом объеме статистического материала обычно используют выборочную совокупность (m ), когда по определенной правильно выбранной генеральной совокупности, взятой на основе отбора, судят об этой совокупности в целом. Достаточно большой объем выборки и надлежащая организация наблюдений приводят к тому, что результаты выборочного изучения будут близки к результатам, получаемым при изучении генеральной совокупности. Основное качество выборочной совокупности, заключающееся в способности заменить всю генеральную совокупность, называется репрезентативностью выборки. Популярное:
|
Последнее изменение этой страницы: 2016-04-11; Просмотров: 981; Нарушение авторского права страницы