Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Лабораторная работа 9.Статистический анализ выборок с категорийными переменными.



Фиктивной или категорийной переменной называется переменная, которые определяют наличие или отсутствие у объектов исследования определенного свойства. Такие переменные принимают два значения 1 если объект удовлетворяет свойству и 0 в противном случае. Пример жарко или холодно, пол мужской или женский и т.д.Если имеется несколько свойств, то вводятся несколько переменных, например для указания времени года можно ввести 3 переменных х1-лето, х2-весна, х3-осень, четвертая переменная зима=1, если все х1, х2, х3 равны нулю. Фиктивными могут быть как зависимая, так и независимые переменные.

Рассмотрим задачу. Цена на недвижимость определяется площадью и состоянием.

Переменная состояние может быть в трех значениях «плохое», «хорошее» и «среднее»

Площадь

цена в тыс.

состояние

521

26

плохое

661

31

плохое

694

37, 5

среднее

743

34, 8

среднее

787

39

среднее

825

38

среднее

883

39, 5

среднее

920

31

плохое

965

37

среднее

1011

38, 5

среднее

1047

43, 5

среднее

1060

44, 8

хорошее

1080

40, 6

среднее

1164

41, 8

хорошее

1300

45, 2

хорошее

 

Требуется провести анализ данных.

Вырежем столбец состояние и сместим его вправо на два столбца.

Площадь

цена в тыс.

плохое

среднее

состояние

521

26

 

 

плохое

661

31

 

 

плохое

694

37, 5

 

 

среднее

743

34, 8

 

 

среднее

787

39

 

 

среднее

 

Проведем регрессионный анализ.

Первое построим модель регрессии по двум переменным Цена- Площадь.

Самостоятельно выполнить анализ и оценить модель График приведён ниже.

Заполним пустые два столбца в таблице данных.

Для этого введем формулу

ЕСЛИ(ссылка на ячейку столбца состояние=”плохое“; 1; 0) и скопируем ее вниз

Во второй столбец введем

ЕСЛИ(ссылка на ячейку столбца состояние=”среднее“; 1; 0) и скопируем ее вниз.

цена в тыс.

Площадь

хорошее

среднее

состояние

26

521

0

0

плохое

31

661

0

0

плохое

37, 5

694

0

1

среднее

34, 8

743

0

1

среднее

39

787

0

1

среднее

38

825

0

1

среднее

39, 5

883

0

1

среднее

31

920

0

0

плохое

37

965

0

1

среднее

38, 5

1011

0

1

среднее

43, 5

1047

0

1

среднее

44, 8

1060

1

0

хорошее

40, 6

1080

0

1

среднее

41, 8

1164

1

0

хорошее

45, 2

1300

1

0

хорошее

 

Построим модель регрессии. Переменные: У –цена, Х –хорошее и среднее

Обратите внимание, что качество модели в целом улучшилось.

Регрессионная статистика

Множественный R

0, 908404813

R-квадрат

0, 825199303

Нормированный R-квадрат

0, 796065854

Стандартная ошибка

2, 432800551

Наблюдения

15

 

Модель имеет вид

 Цена= 14, 6»хорошее»- 14, 4 «среднее» +29, 33

Если состояние плохое, то переменная хорошее =0, среднее =0

Если хорошее, то переменная хорошее =1, среднее =0

Если состояние среднее, то переменная хорошее =0, среднее =1

 Самостоятельно, заполните столбцы прогнозируемая цена и отклонение

цена в тыс.

Площадь

хорошее

среднее

состояние

прогнозируемая цена  состояние

отклонение

26

521

0

0

плохое

29, 33333

3, 3333

31

661

0

0

плохое

29, 33333

-1, 6667

37, 5

694

0

1

среднее

38, 71111

1, 2111

34, 8

743

0

1

среднее

38, 71111

3, 9111

39

787

0

1

среднее

38, 71111

-0, 2889

38

825

0

1

среднее

38, 71111

0, 7111

39, 5

883

0

1

среднее

38, 71111

-0, 7889

31

920

0

0

плохое

29, 33333

-1, 6667

37

965

0

1

среднее

38, 71111

1, 7111

38, 5

1011

0

1

среднее

38, 71111

0, 2111

43, 5

1047

0

1

среднее

38, 71111

-4, 7889

44, 8

1060

1

0

хорошее

43, 93333

-0, 8667

40, 6

1080

0

1

среднее

38, 71111

-1, 8889

41, 8

1164

1

0

хорошее

43, 93333

2, 1333

45, 2

1300

1

0

хорошее

43, 93333

-1, 2667

 

Постройте гистограмму остатков.

Включим в состав независимых переменных, переменную площадь и еще раз построим модель регрессии. Качество модели еще раз улучшилось

Множественный R

0, 946

R-квадрат

0, 896

Нормированный R-квадрат

0, 867

Стандартная ошибка

1, 965

Наблюдения

15, 000

 

Самостоятельно, заполните столбцы прогнозируемая цена и отклонение

Постройте гистограмму остатков.

цена в тыс.

Площадь

хорошее

среднее

состояние

прогнозируемая цена от состояния

отклонение

26

521

0

0

плохое

27, 47421

1, 4742

31

661

0

0

плохое

28, 92288

-2, 0771

37, 5

694

0

1

среднее

36, 65423

-0, 8458

34, 8

743

0

1

среднее

37, 16127

2, 3613

39

787

0

1

среднее

37, 61656

-1, 3834

38

825

0

1

среднее

38, 00977

0, 0098

39, 5

883

0

1

среднее

38, 60993

-0, 8901

31

920

0

0

плохое

31, 60291

0, 6029

37

965

0

1

среднее

39, 45844

2, 4584

38, 5

1011

0

1

среднее

39, 93443

1, 4344

43, 5

1047

0

1

среднее

40, 30694

-3, 1931

44, 8

1060

1

0

хорошее

42, 74681

-2, 0532

40, 6

1080

0

1

среднее

40, 64842

0, 0484

41, 8

1164

1

0

хорошее

43, 82296

2, 0230

45, 2

1300

1

0

хорошее

45, 23024

0, 0302

 

Статистический анализ выборок с зависимыми категорийными переменными (дискриминантный анализ)

Наиболее распространенной сегодня операцией интеллектуального анализа данных является классификация. С ее помощью выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил, которым должен удовлетворять анализируемый объект.

Одним из методов классификации является дискриминантный анализ, который используется для принятия решения о том, какие переменные различают (дискриминируют) две или более возникающие совокупности (группы).

Рассмотрим пример. Даны сведения о финансовом состоянии 16 компаний. Семь из них обанкротились, а девять остались финансово состоятельными. В качестве независимых переменных использованы финансовые показатели:

Отношение чистой прибыли к активам;

Отношение текущих активов к числу продаж.

Чистая прибыль /общие активы текущие активы / число продаж

банкротство

-0, 41

0, 45

1

-0, 09

0, 28

1

0, 01

0, 71

1

-0, 14

0, 43

1

0, 01

0, 7

1

0, 11

0, 38

1

-0, 01

0, 6

1

0, 1

0, 54

0

0, 05

0, 33

0

0, 05

0, 69

0

0, 07

0, 52

0

-0, 03

0, 28

0

0, 05

0, 2

0

-0, 09

0, 47

0

0, 08

0, 3

0

0, 04

0, 13

0

 

Задача состоит в нахождении закономерности банкротства от указанных показателей.

 Построим модель регрессии. В качестве зависимой переменной возьмем переменную банкротство.

Регрессионная статистика

Множественный R

0, 560

R-квадрат

0, 314

Нормированный R-квадрат

0, 208

Стандартная ошибка

0, 456

Наблюдения

16, 000

 

 

Y-пересечение

-0, 01583

Чистая прибыль /общие активы

-1, 75464

текущие активы / число продаж

0, 984655

       

 

Модель имеет вид

 Банкротство=-0, 158-1, 755 К1+0, 985К2, где К1 и К2 соответствующие показатели.

Заполните столбцы предсказанное банкротство, используя функцию ОКРУГЛ( модель регрессии), а для столбца отклонения функцию ЕСЛИ(значение банкротства = значению предсказанного банкротства; 0; 1). Подсчитайте число совпадений и оцените качество модели в процентах.

Чистая прибыль /общие активы текущие активы / число продаж

банкротство

предсказанное банкротство

отклонение

-0, 41

0, 45

1

1

0

-0, 09

0, 28

1

0

1

0, 01

0, 71

1

1

0

-0, 14

0, 43

1

1

0

0, 01

0, 7

1

1

0

0, 11

0, 38

1

0

1

-0, 01

0, 6

1

1

0

0, 1

0, 54

0

0

0

0, 05

0, 33

0

0

0

0, 05

0, 69

0

1

1

 

Самостоятельно. Рассчитать потребление мяса в г.п. Пуховичи, зимой. если известны данные выборки

№ п/п Душевое потребление мяса, кг (Y) Душевой доход, тыс. дол. (Х1) Город/Поселок ГТ Время года

1

35

1, 2

Поселок

Осень

2

31

0, 7

город

Осень

3

28

0, 6

Поселок

Лето

4

40

0, 8

город

Весна

5

45

0, 4

Поселок

Весна

6

31

0, 6

Поселок

Осень

7

30

0, 8

город

Лето

8

28

0, 3

Поселок

Лето

9

42

0, 6

Поселок

Весна

10

50

0, 9

город

Весна

11

53

0, 8

город

Зима

12

42

0, 7

город

Осень

13

60

1, 5

Поселок

Весна

14

35

0, 5

Поселок

Зима

15

28

0, 4

Поселок

Лето

16

37

0, 8

город

Осень

17

45

0, 9

город

Весна

18

43

1, 3

Поселок

Лето

19

40

0, 9

город

Осень

20

51

1

Поселок

Весна

 

 


Поделиться:



Последнее изменение этой страницы: 2019-05-17; Просмотров: 271; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.218 с.)
Главная | Случайная страница | Обратная связь