Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Корреляция между возрастом победительниц «Мисс Америка» и числом смертей из-за обваривания кипятком и других ожогов



 

В наш перенасыщенный данными век отыскать бессмысленные совпадения вроде этих довольно просто.

Некоторые из них успешно проходят тест на статистическую значимость. Всякий, кто станет искать корреляции достаточно долго и упорно, обязательно их найдет.

Вот почему разумно сосредоточиться на корреляциях, которые не лишены смысла. Существует очевидный фактор, объясняющий связь между знанием фактов и уровнем дохода: образование.

Если человек знает много фактов, он наверняка больше времени посвятил учебе. Кто хорошо образован, тот зарабатывает лучше. Помимо прочего, это подходящий девиз для рекламы подготовительных курсов и студенческого кредита. Дипломы Лиги плюща, Стэнфорда или Массачусетского технологического института приносят неплохие дивиденды (как было многократно засвидетельствовано)[127]. Для многих престижных профессий степени бакалавра искусств, магистра делового администрирования, доктора философии или медицины – эквивалент профсоюзного билета.

В связи с этим возникает вопрос: считать ли знание фактов исключительно надежным предвестником размера доходов или только индикатором уровня образования, полученного в учебных заведениях (то есть считать ли знание фактов «суррогатом» образования)?

Специалистам по статистике часто хочется определить влияние не одного, а сразу нескольких факторов, ответственных за определенный результат. Один из наиболее часто используемых методов – линейные регрессии . За мудреным названием стоит простая идея. Допустим, вам кажется, что между количеством пончиков, которые съедает человек, и его весом существует взаимосвязь. Можно ли по съедаемым пончикам предсказать вес едока? Один из способов это выяснить – собрать личные данные о весе и недельном пончиковом рационе. Затем возьмите лист миллиметровой бумаги и для каждого едока – персонального набора данных – отметьте точку (получится точечная диаграмма). Положение точек указывает на число съедаемых пончиков (по оси x ) и вес соответствующего едока (по оси y ).

Если корреляция имеется – люди, которые съедают много пончиков, весят больше, – то на диаграмме появится облако точек, устремленное вверх от нижнего левого угла к верхнему правому. Эта линия и называется линейной регрессией. С ее помощью можно строить прогнозы. Понадобилось узнать, сколько будет весить человек, съедающий в месяц 14 пончиков? От отметки 14 на «пончиковой» оси проведите вертикальную линию вплоть до ее пересечения с диагональю предполагаемой зависимости. Прямая, проведенная из этой точки по горизонтали, упрется в отметку на «весовой» оси. Так вы узнаете вероятный вес едока.

По сути, именно так и работают программы статистической обработки данных при создании линейных регрессий. И хотя машина, строя точечную диаграмму, на миллиметровке линий не чертит – для этого у нее есть четкий набор математических команд, – программы действуют по тому принципу, который я только что описал.

Гораздо интереснее учитывать не один, а несколько факторов, влияющих на результат. Предсказать вес едока можно точнее, приняв во внимание его пол – ведь мужчина обычно тяжелее женщины. Для этого нужно построить диаграмму рассеяния в трех плоскостях, что на бумаге сделать непросто. А вот для статистических программ это нетрудно.

Главным методом обработки большого массива данных служат так называемые множественные регрессии. Потребитель x  пола, купивший y  и имеющий почтовый индекс z , склонен покупать a , выбирать b  и голосовать за c . По такой модели можно, например, оценить значимость каждого конкретного фактора при составлении прогноза. Когда факторов много, некоторые зачастую оказываются лишними. Если в модели есть почтовый индекс, то нет необходимости указывать населенный пункт (почтовый индекс содержит информацию о штате и указывает на место жительства более точно). Программа это принимает в расчет.

 


Поделиться:



Последнее изменение этой страницы: 2019-06-10; Просмотров: 255; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.009 с.)
Главная | Случайная страница | Обратная связь