Работа с выборочной совокупностью данных

⇐ ПредыдущаяСтр 8 из 8

В прикладном социологическом исследовании, прежде всего, важно определитьобъем выборки, то есть число опрашиваемых. Это число зависит от общего количества социальных изучаемых объектов, которые образовываютгенеральную совокупность. Если исследуется общественная мысль жителей региона, то генеральной совокупностью будут все жители региона. Если в границах локального исследования изучаются потребности, предложения пользователей конкретной библиотеки (музея, архива), генеральной совокупностью будет совокупность всех пользователей, посетителей этого учреждения. Выборка должна бытьоптимальной, илирепрезентативной, которая бы в миниатюре отображала все характерные особенности генеральной совокупности. Расчет объема выборки часто зависит от исследовательского приема. Так, приэкспертном опрашивании объем выборки редко превышает 30 %, а припробном (пилотажном) исследовании он может достигать 100 %.

В большинстве случаев большой размер или изменчивость генеральной совокупности не дают возможности осуществлять сплошное опрашивание. Поэтому применяютвыборочный метод.

В выборочных исследованиях невозможно достичь 100 % точности результатов, всегда остается риск ошибки. Достаточно репрезентативным считается выборочный параметр, для которого предельная ошибка не превышает 5 %. Увеличение объема выборки повышает точность исследования через уменьшение случайных ошибок, а уменьшение объема выборки экономит время, средства, человеческие ресурсы, однако уменьшает вероятность получения точных результатов. Необходимо выбирать " золотую середину". Для этого пользуются формулами и таблицами, с помощью которых можно определитьминимальный объем выборочной совокупности, исходя из объема генеральной совокупности и принятого уровня значимости в зависимости от типа выборки.

Конкретным примером расчета количества выборочной совокупности может послужитьреальная и потенциальная аудитория посетителей увеселительных учреждений.

Существуют и другие типы выборки: стихийная, квотная, простая, случайная (повторная, безповторная), систематическая, гнездовая (серийная).

Стихийнаявыборка - это выбор " первого встречного". Этим методом пользуются, если генеральная и выборочная совокупности по своим объемам достаточно большие. Так, для среднего города объем выборки может составлять 800-1000 лиц, для маленького - 400-500 лиц. Примером метода стихийной выборки может быть опрашивание общественной мысли на улицах с помощью средств массовой информации (прессы, радио, телевидение), почтовое опрашивание читателей. Наиболее пригодным и эффективным является метод формирования выборки на базе трудовых коллективов (предприятий, учреждений, организаций) города. Однако пока что нет надежных способов проверки репрезентативности стихийной выборки, а значит, достоверности ее результатов.

Квотная выборка используется, если стремятся достичь структурного соответствия выборочной и генеральной совокупностей. Ее применяют наиболее часто, если методом опрашивания является интервью. При этом необходимо определить признак, по которому осуществляется отбор респондентов (например, распределение по полу, возрасту, образованию, социально-профессиональной принадлежности). Такая выборка характерна для ситуации, если известное общее количество опрашиваемых, среди которых должно быть пропорциональное количество представителей разных групп населения.

Простая, случайная (вероятная) выборка выполняется на основе полных списков всех членов генеральной совокупности (эти списки называютосновой выборки); списки избирателей, картотека читательских формуляров и т.п.. Предположим, в городе проживает 10 тыс. жителей и надо проанкетировать 1000. Можно взять списки избирателей (формуляры читателей), произвольно выбрать необходимое количество респондентов и занести в выборочную совокупность. Для всех единиц совокупности обеспечивают равные возможности (одинаковую вероятность) попасть в выборку, поэтому и называют этот способ вероятным. Эта выборка в особенности эффективная в локальных исследованиях, поскольку обеспечен полный перечень всех единиц генеральной совокупности, а кроме того, эта совокупность является относительно однородной.

Систематическая (механическая) выборка - это упрощенный вариант вероятного отбора. Пользуясь теми же самыми списками генеральной совокупности (например, списками избирателей), отбор осуществляют не случайным способом, а последовательно, через один и тот же интервал (так называемыйшаг выборки). Например, в списке избирателей (картотеке читательских формуляров) взять каждого десятого и занести в выборочную совокупность. Шаг выборки определяют как пропорцию объемов генеральной и выборочной совокупностей:

К = М/п,

где К - шаг выборки;

N - размер генеральной совокупности;

n - размер выборочной совокупности.

Начинают отбор наиболее часто не с первого кандидата, а со случайно определенного или с кандидата, номер которого К/2. При этом рекомендуется использовать азбучные списки или картотеки.

Пригнездовой (серийной) выборке за единицу отбора берут не отдельных респондентов, а группы или другие подразделы (семья, бригада, школьный класс, студенческая группа, отдел в учреждении) со сплошным опрашиванием. Гнездовая выборка репрезентативная лишь при условии, что состав групп подобный.

Указанными типами способы формирования выборок не ограничиваются. В исследованиях государственного и регионального масштабов используются более сложные способы выборки - районированные, комбинированные, многоступенчатые, многофазовые. Например, для изучения и сравнения читательских потребностей в библиотеках Украины сначала определяют области, в границах области - районы, дальше - населенные пункты, библиотеки, и, в конце концов, в каждой библиотеке отбираются читатели.

Расчеты объема выборочной совокупности зависят от объема генеральной совокупности, а также от выбранного уровня, точности репрезентативности. Как правило, принимают 5 % -ую предельную ошибку репрезентативности на 5 % -м уровне значимости. С учетом этих предположений определяют объем выборочной совокупности.

Считается, что для пробных опрашиваний достаточно, если выборка объемом 100-250 лиц. Если величина генеральной совокупности составляет менее 5000 лиц, достаточный объем выборочной совокупности - не менее 500 респондентов. Если же объем генеральной совокупности 5000 лиц и большее, то необходимо опросить 10 % всей совокупности, но не большее 2000-2500 респондентов. Нет и не может быть универсальной методики выборки на все случаи, однако важно знать, что достоверность информации об исследуемом объекте зависит от выбора важнейших признаков, по которым будет осуществляться отбор респондентов. Необходимо, чтобы в состав выборки входили представители всех категорий населения, из которых складывается генеральная совокупность.

Подготовка данных к обработке

Информацию, полученную во время опрашивания, готовят к дальнейшей обработке. Собранная информация может отвечать требованиям полноты, надежности, технологичности.

Во время изучения исследователь часто сталкивается с отказом части респондентов принимать участие в опрашивании или отвечать на отдельный вопрос. Поэтому необходимо на стадии конструирования инструментария тщательно строить вопрос. Важную роль играют также психологические факторы взаимоотношений между анкетером (интервьюером) и респондентом, время и место проведения опрашивания. Получить все ответы почти никогда не удается. Поэтому после проведения опрашивания осуществляют контрольполноты данных и выбраковывают анкеты с чрезмерным количеством " пропусков".

Общих норм, стандартов наполнения инструментария нет. Исследователь должен их определить для себя сам, исходя из поставленных задач и выбранных статистических методов обработки. Как правило, требования к наполнению открытых вопросов субъективного характера (мысль, взгляды читателя) не могут быть высокими, так как много респондентов оставляют их без ответа, не имея четкой точки зрения.

Поднадежностью данных понимают, во-первых, соответствие структуры выборки структуре генеральной совокупности, во-вторых, содержательную идентичность интерпретации вопросов и ответов исследователем и респондентом, в-третьих, точность и логическую не-противоречивость ответов.

Если структура генеральной совокупности известна, во время формирования выборки и проведения опрашивания следят за соблюдением пропорционального соответствия социально-демографического состава респондентов этой структуре. Несмотря на это, желательно еще раз проверить уже собранный материал, получить количественные показатели реального состава респондентов и, если выявлены расхождения со структурой генеральной совокупности, выполнить так называемыйремонт выборки.

Есть два способа " отремонтировать" выборку: с помощью изъятия документов (заполненных бланков инструментария) из массива и с помощью дополнительного опрашивания.

Объем выборочной совокупности следует определять с некоторым запасом (10-20 % для анкетных опрашиваний) для компенсации потерь, которые будут вызваны выбраковкой определенной части анкет во время проверок. Если отклонения от выборки небольшие, пользуясь запасом объема выборки и изъятием соответствующих анкет из массива, выравнивают структуру выборки. Для этого берут за основу социально-демографическую группу с наиболее заниженной квотой в выборке и относительно нее пересчитывают в абсолютных числах, какими по объему должны были быть другие группы, пропорционально к структуре генеральной совокупности. По каждой группе подсчитывают разность между ее теоретическим и имеющимся (преувеличенным) размером и так определяют, сколько анкет из каждой группы надо изъять. Случайным способом или подсчетом интервала (шага) определяют порядковые номера анкет, которые изымаются, в отдельности в любой уменьшенной группе.

Иногда делают дополнительное опрашивание, отбирая респондентов, которые должны представлять недостаточно заполненные в выборке социально-демографические группы. Анкеты, полученные во время дополнительного опрашивания, проверяют на качество данных, как и анкеты основного массива.

Причиной для выбраковки анкеты может быть не только большое количество " пропусков". Некоторые люди отвечают наугад, случаются и " шутники". Иногда человек не совсем точно понял вопрос, в подчеркнутый вариант вкладывает немного другое содержание, чем составитель анкеты, или считает, что вопрос сформулирован недостаточно остро, не актуально, и потому отвечает на свой собственный вопрос, более " правильный".

Фальсификацию анкет можно распознать по смыслу ответов, в особенности открытых. Если в массиве, полученном с одного населенного пункта, появляются подобные анкеты, строят предположения, что их заполнял один человек. Предполагают также, что этот человек - респондент, поэтому одну анкету оставляют, как его собственную, а остаток (" за другого" ) изымают из дальнейшей обработки. Если же обнаруживается, что фальшивые анкеты выгадывал анкетер (такое иногда случается в масштабных исследованиях с одноразовым привлечением временных помощников в роли анкетеров и интервьюеров), эти анкеты выбраковывают все.

Изымаются и анкеты, заполненные несерьезно, второпях, " лишь бы отцепились". Их можно распознать по характерным ответам на открытые вопросы (или если таких ответов почти нет), по логической противоречивости ответов на связанные между собою вопросы Но надо принимать решение о выбраковке взвешенно, осторожно. Может случиться, что вся анкета заполнена вдумчиво, а два-три вопроса вызвали иронию респондента лишь через их несовершенное построение. Вероятно, что и для остальных респондентов эти вопросы имели кое-что странный или неуместный вид, то есть не " сработали" так, как предполагалось. В таком случае можно принять решение об отказе от статистической обработки именно этих вопросов. Чтобы не было таких неприятных сюрпризов, несовершенство инструментария стараются обнаружить в пробном (пилотажном) исследовании.

Технологичностью данных называют возможность оперативно и легко работать с ответами. Для этого необходимо, чтобы варианты ответов были обозначены однообразно, четко, открытые ответы вписаны понятным почерком, сформулированные ясно и не допускали двойного толкования. Обеспечение этих требований в особенности важно, если анкеты кодируются и вводятся в ЭВМ операторами, которые не имеют непосредственного отношения к исследованию. Поэтому возникает потребность выполнить техническую коррекцию ответов. Анкеты могут содержать механические огрехи респондентов - ответ по ошибке занесенный в поле соседнего вопроса, вписанный очень неразборчиво, содержит узкопрофессиональную аббревиатуру (такое как сокращенное название места работы), малоизвестные слова одного из разговорных диалектов и т.п.. Такие ответы редактируют, а если это невозможно - выбраковывают анкету.

После проверки качества информации подсчитывают количество документов в рабочем массиве (каждый вид документа - анкеты, бланки интервью, карточки анализа формуляров - в отдельности), одновременно нумеруя их. Если документы логически взаимосвязаны между собой - например, опрашивали читателей, чьи формуляры попали в выборку для анализа - на них проставляют одинаковые номера. Кстати, такие документы изымать из массива надо все вместе, если бракуется хотя бы один из них. Нумерация необходима, если обработка осуществляется с помощью ЭВМ. При выявлении ошибок в компьютерной копии массива данных лишь номер анкеты дает возможность обратиться в первоисточник на бумаге.

Подготовка массива к статистическому анализу завершается процедуройкодирования ответов. Для полноценного использования статистических методов необходимо, чтобы начальные данные были формализованные, т.е представлены в виде чисел, интервалов или унифицированных вариантов. Формализованные ответы составляют так называемую количественную (математическую) модель качественных свойств исследуемого объекта.

Процесс формализации начинается еще на этапе подготовки инструментария, если " кристаллизуются" списки вариантов будущих полузакрытых и закрытых вопросов. После получения всего массива собранных данных и проверки его качества закрывают все открытые вопросы. Эта работа состоит из трех частей: подготовка списков ответов, классификация (обобщение) ответов, " замена" ответов респондентов их формализованными аналогами (кодирование).

Классификацию проводят для каждого вопроса в отдельности. Исключение составляют вопросы, которые имеют общую предметную основу, например, если предлагалось респонденту назвать газеты, которые он подписывал в минувшем году, подписывает теперь и которые собирается подписывать в следующем году, то эти три вопроса целесообразно закрывать совместно.

Все ответы выписывают в отдельный список безвозвратным способом, то есть тождественные по смыслу формулирования подаются лишь одним разом, но с подсчитанным количеством повторов (частотой). Счет ведется на бумаге с помощью " палочек". Могут случаться формулирование, в которых помещается фактически несколько ответов. Такие формулирования разбивают на простые неделимые выражения, которые начинают фигурировать в общем списке в отдельности один от другого.

Полученный список детально анализируют с целью обобщения ответов, то есть объединение их в характерные смысловые группы, в более общие классы. Фактографическая информация классифицируется, как правило, более легко, чем личные мысли, взгляды, предложения респондентов.

Обработку открытых вопросов наиболее часто заканчивают обобщением ответов. Полученные частоты переводят в проценты, а в отчете анализируют их лишь в сравнимые между собой, не имея возможности проследить связи с другими вопросами анкеты. Такое вынужденное ограничение связано с высокой трудоемкостью ручной обработки данных.

Если планируется построение комбинационных таблиц, после обобщения открытых ответов полученный список вариантов снова " растворяют" в массиве анкет, то есть каждому ответу в анкете приписывают соответствующий вариант. Выполняют эту процедуру с помощью кодов, поэтому называется она кодированием открытых ответов, а формализованный список вариантов с кодами -кодификатором. Комплексным формулированием будут отвечать одновременно несколько кодов. В анкете заранее предусматривают свободные места для будущих кодов возле каждого открытого вопроса. Пользуются и таким приемом: оценивают возможное количество будущих формальных вариантов (например, их не может быть большее 5-7) и в такой же количестве рядом с вопросом печатают цепочку кодов, которые будут наполняться конкретными значениями после обобщения ответов.

Дальнейшая работа зависит от запланированного способа обработки данных.

Системы кодирования можно поделить на символьные и позиционные. Впозиционной системе каждому варианту анкеты отведено место (позиция) на специальной карточке, и для фиксации данных эти позиции или заштриховывают карандашом, или пробивают. Для обработки таких карточек необходимо специальное оснащение.

Более распространена символьная система кодирования, в который каждый вариант обозначается определенным символом, кодом. Под символом понимают условную пометку, которая может быть номером, буквой, коротким словом. Наиболее распространенные цифровые коды, которые обусловлены их высокой технологичностью (упрощается введение в ЭВМ). Коды не должны повторяться в границах одного вопроса, могут не повторяться вообще в границах всей анкеты (так называемое сквозное, или беспрерывное, кодирование), и, наоборот, нумерация вариантов может начинаться с единицы в каждом следующем вопросе (периодическое кодирование). Поскольку в сквозной системе все коды уникальные, для больших анкет (несколько десятков вопросов) приходится пользоваться двух- и трехзначными числами. Это перегружает инструментарий и замедляет перенесение данных на машинные носители в сравнении с более компактной периодической системой кодирования, но дает возможность проявлять такие ошибки операторов, как введение кода в позицию другого вопроса.

При применении персонального компьютера порядок, предшествующий подготовке массива к обработке, может быть другим. На компьютер можно перевести рутинную работу по проверке репрезентативности выборки, логичности ответов. Появляется даже такая ценная возможность, как быстрое закрытие открытых ответов одним человеком: машина берет на себя составление списков ответов и автоматическое кодирование кодификатором (конечно, не на бумаге, а лишь в компьютерной памяти), социологу остается творческая работа - классификация, которая проводится также с помощью ЭВМ. Но, кроме наличия соответствующего программного обеспечения, для использования таких возможностей необходимо введение полного массива данных в компьютер к выполнению всех дальнейших процедур, то есть традиционно последняя операция подготовки данных (введение в ЭВМ) может быть первой. В частности открытые ответы необходимо вводить в их первоначальном виде. Некоторая часть введенных анкет позднее окажется отбракованной. Это все, конечно, заметно увеличивает объем работы по перенесению данных на магнитный диск, но затраты потом полностью перекрываются оперативностью, удобством и точностью обработки.

⇐ Предыдущая 1 2 3 4 5 6 78

Последнее изменение этой страницы: 2017-05-11; Просмотров: 168; Нарушение авторского права страницы