ОЦЕНКА ЧАСТОТЫ ВСТРЕЧАЕМОСТИ БУКВ

⇐ ПредыдущаяСтр 10 из 13Следующая ⇒

Зададим человеку, для которого русский язык - родной, следующий вопрос: «Перед вами текст длиной в 1000 букв. Сколько раз в таком тексте можно встретить букву рЪ. Как вы думаете, что мы услышим в ответ?

Такую задачу (на материале английского языка) впервые решал американский психолог Ф.Эттнив еще в 1953 г. Эттнив вначале подсчитал частоты встречаемости букв английского алфавита, используя для этого тексты газет и журналов на английском языке. Эти оценки естественно считать объективными оценками частот букв английского алфавита.

Затем Эттнив сделал следующее. Он разделил своих ии. на две группы. В одной группе ии. получали листок с английским алфавитом и инструкцию, в которой предлагалось против каждой буквы проставить число, указывающее на то, сколько раз эта буква в среднем может встретиться в английском тексте длиной в 1000 букв.

Чтобы облегчить ии. задачу, в инструкции говорилось, что если бы все английские буквы встречались одинаково часто, то в тексте длиной в 1000 букв каждая из них появилась бы 38 раз. Значит, одни буквы должны были бы получить оценку более 38, другие -менее.

Вторую группу ии. Эттнив разделил на подгруппы, где задания были разными. Я ограничусь обсуждением одного из них. А именно: ии. получали 100 карточек типа игральных карт, перевернутых «рубашкой» вверх. Эттнив объявил, что на каждой карточке написана буква английского алфавита и что при этом буквы на карточках повторяются так же, как это происходит в тексте. Ии. предлагалось, не заглядывая в карточки, последовательно угадывать, какая буква там написана и записывать ответы в столбик на отдельном листе.

Получилось, что оценки ии. в обоих случаях не так уж кардинально отличались от объективных данных о частотах встречаемости букв. Правда, ии. регулярно завышали частоту частых букв и занижали частоту редких. В то же время ии. считали более частыми те буквы, которые стоят в начале английского алфавита, и более редкими -те, что стоят в его конце.

Последний момент заставляет нас задуматься: с одной стороны, в конце английского алфавита стоят X, Y, Z- действительно редкие буквы, а в начале - А, В, С, т. е. буквы куда более частые. Эттнив в первой группе ии. предъявлял буквы именно в алфавит-

ком порядке, и как раз данные по первой группе ии. оказались ближе всего к частотам, подсчитанным по тексту. А тогда - что же на самом деле «знают» ии. и на что они ориентируются, - на свой опыт восприятия текста или на место буквы в алфавите?

Хорошо бы так поставить эксперимент, чтобы быть уверенным в том, что ии. все-таки оценивают частоты букв вне зависимости от алфавитного порядка, - тогда уже не придется сомневаться в том, что ии. имеют свои представления о повторяемости букв в тексте, а не ориентируются на место той или иной буквы в алфавите.

Далее: все частоты, определенные путем подсчетов по текстам, мы будем называть объективными частотами и обозначать их Фоб, а оценки частот, предложенные ии., называть субъективными частотами и обозначать Фсуб.

Видимо, для сравнения Фоб и Фсуб надо одним ии. предложить размышлять о повторяемости букв, представленных в виде алфавита, т. е. построить опыт так же, как это сделал Эттнив в первой группе своих информантов. Другая же группа ии. должна оценивать повторяемость букв, имея перед собой список, где русские буквы расположены в заведомо случайном по сравнению с алфавитным порядке.

Такой эксперимент провел А. П. Василевич в конце 1960-х годов.

Самый интересный результат в этом эксперименте относится не к тому, что ии. действительно способны дать такие оценки Фсуб букв, которые были бы близки к Фоб, - все же после опытов Эттни-ва это трудно было бы поставить под сомнение. Более важно другое - оказалось, что ии. имеют совершенно разный «внутренний масштаб» оценок.

Инструкция в эксперименте Василевича предлагала ии. оценить частоту повторяемости букв в тексте длиной 1000 букв. При этом подчеркивалось, что, с учетом числа букв русского алфавита, это значит, что более частые буквы могут встретиться более чем 31 раз, а менее частые - менее чем 31 раз. Но это не помешало ии. дать отдельным буквам такие оценки Ф_суб, что их сумма доходила до 1250!

Например, все ии. считают самой частой русской буквой букву а. Здесь Ф_суб четко расходится с Ф_Об. Ибо самой частой русской буквой в текстах, согласно надежной статистике, является о, далее идет е, буква а занимает только третье место.

Впрочем, это не так важно. Более интересно иное: ии. приписывали букве а Фсуб от 30 до 150! Но зато даже те ии., которые мыслят весьма «размашисто», этот масштаб сохраняют и в оценках других букв.

Отсюда можно сделать любопытный вывод: человек, по-видимому, хорошо предсказывает относительные частоты и куда хуже -абсолютные.

Это, в общем, естественно - ведь для адекватного прогноза нам надо знать именно сравнительную вероятность того или иного со-

Таблица 3

Оценки относительной частоты встречаемости 15 букв русского алфавита

Буква	Данные опроса (Ф*в)	Данные подсчетов по текстам (Фоб)
А
О
Е
И
К
С	б
н
р
п
л		10-11
в
т		б
м
Б
Д		10-П

бытия. Важно, что стоит на первом месте, а что на пятом, т.е. важно знать порядок, относительный ранг буквы, слога или слова. О мере адекватности оценок частоты встречаемости букв можно судить по данным табл. 3, где приведены сравнительные данные Фсуб и Фоб для 15 букв русского алфавита.

3. ОЦЕНКА ЧАСТОТЫ ВСТРЕЧАЕМОСТИ СЛОВ

Выше мы уже говорили о том, что, используя частотные словари, можно так выбрать слова, значение которых надо выучить в первую очередь, чтобы объем абсолютно необходимого словаря-минимума свести к 2, 5-3 тыс. наиболее частых слов.

Это, в общем, верный путь. Однако - и это было отмечено в свое время французскими учеными, решавшими сходные практические задачи, - есть частые слова, которые почему-то регулярно не находят себе места в перечне того, что оказывается самым частым по данным частотных словарей.

Например, таково слово полотенце или ножницы. Мы часто видим вокруг себя предметы, именуемые этими словами, употребляем эти слова в устной речи, но гораздо реже они встречаются в

речи письменной. А абсолютное большинство частотных словарей составляется на основе именно письменной, а не устной речи. Получается, что, базируясь только на словах, частоты которых определены по частотному словарю, мы именно такие слова, как полотенце или ножницы, не сочтем частыми, а значит, если иметь в виду практические цели обучения, мы их не выучим.

Заметьте, что в тексте «Случай с Оливером» этот феномен отчасти проявился - в список наиболее частых слов не попал ни пиджак, ни свитер, поэтому в тексте на месте этих слов и стоят квазислова. Из чисто практических соображений ясно, что такие слова, как свитер и полотенце, надо знать, поскольку они обозначают обиходные предметы.

Условимся называть обиходными слова, именующие подобные предметы.

Исследования французских ученых некогда показали, что о многих весьма «обиходных» и важных предметах мы не только не пишем, но и говорим о них редко, поэтому к редким словам, например, относятся локоть, ногти, зубы, ножницы. Иначе говоря, слова эти редкие, но обиходные, потому что их референты либо часто встречаются в нашей жизненной практике, либо просто очень важны для нас. Признайтесь, что если у вас не болят зубы, то вы и не упоминаете слово зубы в речи, хотя ежедневно пользуетесь зубной щеткой, пастой или зубочисткой.

Из сказанного выше следует, что суждения информантов о частотах слов типа зубы и ножницы - это не только сведения, которые сами по себе любопытны, - это еще и способ узнать, надо ли эти и им подобные слова включать в учебный словарь-минимум. И если надо, то какие слова из обиходных встречаются чаще других, поскольку любой учебный минимум может быть увеличен только за счет действительно необходимых слов.

Итак, попробуем выяснить, считает ли говорящий «обиходные» слова относительно частыми. Более естественно предположить, что на оценку частоты обиходных слов должен влиять практический опыт, т. е. встречаемость тех или иных событий в нашей житейской практике, в окружающем нас мире.

Чтобы провести эксперимент, где ии. будут оценивать частоты слов типа свитер или ножницы, нам нужно осуществить сравнение -взять слова «обиходные», но оставшиеся за пределами «частых» по данным частотных словарей, выяснить оценки, которые им Дадут информанты, а потом сравнить эти оценки с оценками не обиходных слов - но каких? Видимо, надо взять а) такие слова, которые по частотному словарю попадают в разряд частых, а при этом едва ли можно считать частыми их референты, т. е. те объекты, которые эти слова именуют, и б) другие слова, которые в частотном словаре были редкими или вовсе не встретились, но и обиходными они не являются.

Такой эксперимент описан в книге (Фрумкина, 1971): он построен по довольно непростому плану, гарантирующему надежность результатов, поэтому здесь я не буду излагать его в подробностях.

Как оказалось, человек довольно точно может охарактеризовать частоты слов, если его попросить сортировать слова на группы по частоте. Именно сортировать, раскладывать на кучки или группы, а не упорядочивать, как мы это делали с буквами.

Дело в том, что при упорядочении надежные оценки получаются тогда, когда мы имеем дело с относительно небольшим количеством сравниваемых объектов. Даже 30 букв алфавита- это уже много. А если задание предполагает сортировку на очень частые, менее частые, средние, скорее редкие и т.п., то ии. хорошо справляются даже с набором из нескольких десятков слов. При этом в среднем ии. оценивают частоты слов примерно так же, как частотный словарь: частые по частотному словарю считают более частыми, чем редкие по частотному словарю. Иначе говоря, оценки Фсуб хорошо коррелированны с оценками Фоб - пока дело не доходит до «обиходных» слов. Тут Фсуб оказываются много выше, отражая, как можно было предполагать, наш жизненный опыт в целом, а не только опыт собственно речевой.

СЛОВЕСНЫЕ АССОЦИАЦИИ

⇐ Предыдущая 4 5 6 7 8 91011 12 13 Следующая ⇒