Модели с дискретными зависимыми переменными

⇐ ПредыдущаяСтр 3 из 16Следующая ⇒

Как следует из рассмотренного в предыдущих разделах материалов, в эконометрических исследованиях обычно предполагается, что результирующий показатель y_t, является количественной величиной, которая в принципе может принимать любые значения на множестве действительных чисел. Однако в экономических и социальных исследованиях часто приходится сталкиваться с разного рода ограничениями на значения зависимой переменной. В частности, зависимая переменная может принимать только целочисленные значения: 0, 1, 2,... Примерами таких зависимых переменных являются:

1а. Семейное положение, которое выражается следующими категориями (и соответствующими целыми числами):

– холост (1);

– женат (2);

– вдовец (3);

– разведен (4).

1б. Альтернативные товары, между которыми выбирает покупатель, и которые представляются следующими числами:

– марка А(1);

– марка Б(2);

– марка В(3);

– марка Г(4);

– прочие марки(5).

Очевидно, что в обоих случаях числа служат только для разграничения понятий. Расстояние между двумя числами не имеет никакого значения.

2а. Оценки, полученные на экзамене:

– отлично(5);

– хорошо(4);

– удовлетворительно(3);

– неудовлетворительно(2).

2б. Классы гостиниц:

– пять звезд(1);

– четыре звезды(2);

– три звезды(3);

– две звезды(4) и т. д.

В случаях 2а и 2б (в отличие от 1а и 1б) понятия естественным образом упорядочены, и характеризующие их числа отражают этот порядок. Но различия между 1 и 2 понятиями не обязательно столь же сильные, как между 2 и 3 и т. д.

3. Число предприятий, обанкротившихся в текущем году (0, 1, 2...). Так называемые счетные данные (count data).

При представлении значений зависимой переменной в целочисленном виде эконометрическая модель, связывающая эти значения с соответствующим набором независимых факторов, имеет специфическое содержание. Обычно такая модель определяет вероятность осуществления события, заключающегося в том, что при известных уровнях независимых факторов зависимая переменная примет конкретное значение j из заданного набора значений j=0, 1, 2,....

Содержательное уравнение такой модели выглядит следующим образом:

Вероятность(событие j произойдет)=

=Вероятность(Y=j)=F(параметры, факторы). (10.40)

Модели с дискретными зависимыми переменными могут быть классифицированы в зависимости от:

а) типа переменных;

б) выбранного закона распределения.

В свою очередь, внутри выделенных групп может быть развернута более подробная классификация в зависимости от более детальных свойств классификационных признаков. Эти детальные группировки будут рассмотрены по ходу дальнейшего изложения материала.

В научной литературе в зависимости от типа переменных модели с дискретными зависимыми переменными разделяются на модели выбора среди конечного числа альтернативных вариантов (примеры 1а, 1б, 2а, 2б) и модели счетных данных (пример 3).

В зависимости от числа вариантов, среди которых осуществляется выбор, различают модели бинарного выбора и модели множественного выбора. В отличие от моделей множественного выбора в моделях бинарного выбора результирующий показатель может принимать только два значения: 0 и 1.

К моделям множественного выбора относятся модели с неупорядоченными (примеры 1а, 1б) и упорядоченными (примеры 2а, 2б) альтернативными вариантами.

Рассмотрим особенности формализованного представления эконометрических моделей с различными видами дискретных зависимых переменных более подробно.

Модели бинарного выбора

Модели бинарного выбора широко используются в экономических и социальных исследованиях, особенно в экономике труда, при проведении анализа на микро-уровне. Покажем их специфические свойства на примере модели трудовой активности населения, исходные предпосылки которой состоят в следующем. Индивидуум в определенный период времени может работать или искать работу (y=1) или не делать этого (y=0). Предположим, что состояние “работать” или “не работать” определяется набором факторов (возраст, семейное положение, образование, опыт работы и т. д.), и соответствующие вероятности можно представить в следующем виде:

P(y=1)= F( a ¢ x );

P(y=0)=1–F( a ¢ x ). (10.41)

Вектор коэффициентов a отражает влияние факторов, например, характеризующих положение индивидуума в обществе, на рассматриваемую вероятность.

Одной из основных проблем при построении моделей бинарного выбора является обоснование функционала F( a ¢ x ). Например, предположим, как и в случае “классических” эконометрических моделей, что вероятности соответствующих событий могут быть представлены в виде линейной функции от значений рассматриваемых факторов:

F( a ¢ x )= a ¢ x =a₀+a₁x₁+...+a_nx_n, (10.42)

где a₀, a₁,..., a_n – параметры модели; x₁,..., x_n – значения независимых факторов.

Тогда, приняв M[y_t| x _t]=F( a ¢ x _t), соответствующую эконометрическую модель можно представить в следующем виде:

y_t =M[y_t | x _t]+(y_t –M[y_t | x _t])= a ¢ x _t +e_t. (10.43)

где M[y_t| x _t]= – условное математическое ожидание переменной y_tпри условии, что вектор независимых переменных равен x _t.

Линейная форма модели представляет определенное удобство для раскрытия содержания, входящих в нее слагаемых. Прежде всего заметим, что между их значениями выполняется следующие соотношения (см. табл. 10.1).

Таблица 10.1

у_t	P(у_t=...)=	e_t
	a¢ x_t	1–a¢ x_t(с вероятностью a¢ x_t)
	a¢ x_t	–a¢ x_t(с вероятностью 1–a¢ x_t)

Из табл. 10.1. следует, что ошибки e_tмодели (10.43) имеют следующие характеристики:

M[e_t]= a ¢ x _t(1– a ¢ x _t)+ (1– a ¢ x _t)( – a ¢ x _t)=0;

D[e_t| x _t]= a ¢ x _t(1– a ¢ x _t)²+(1– a ¢ x _t)(– a ¢ x _t)²= a ¢ x _t(1– a ¢ x _t)(1– a ¢ x _t+ a ¢ x _t)=

= a ¢ x _t(1– a ¢ x _t). (10.44)

где D[e_t| x _t] – условная дисперсия ошибки e_tпри условии, что вектор независимых переменных равен x _t.

Рассмотрим в качестве критерия выбора оценок параметров модели (10.43) минимум суммы дисперсий ее ошибок e_t:

a ¢ x _t)²+ a ¢ x _t)²= x _t(1– a ¢ x _t)²+ 1– a ¢ x _t)(– a ¢ x _t)²=

= x _t(1– a ¢ x _t)= min. (10.45)

Используя МНК для оценки параметров модели (10.43) при критерии (10.45), получим следующую систему “нормальных” уравнений, относительно неизвестных оценок а₀, а₁,..., а_n:

Выполнив дифференцирование с учетом попарной независимости коэффициентов между собой и со значениями факторов х_it, i=1, 2,..., T, эту систему можно представить в следующем виде:

В свою очередь, последняя система может быть представлена в векторно-матричном виде следующим образом:

или в компактной форме записи как

X × a = z, (10.47)

где матрица и вектор-столбец .

Из выражения (10.47) непосредственно вытекает, что неизвестные оценки параметров бинарной модели линейного типа могут быть получены на основании следующего выражения:

a = X ^–1× z, (10.47)

Однако линейная интерпретация (10.42) закона распределения вероятностей достаточно “неудобна” по своим “эконометрическим следствиям”.

Во-первых, заметим, что из выражения (10.44) вытекает, что ошибка e гетероскедастична, поскольку дисперсия ошибки зависит от вектора x. В таких условиях оценки параметров a модели (10.43), полученные на основе выражения (10.48), являются неэффективными. Для получения эффективных оценок ее параметров, необходимо использовать обобщенный МНК.

Во-вторых, любой метод оценки параметров линейных моделей бинарного выбора не дает гарантий, что результат произведения a ¢ x может принимать значения только на интервале [0, 1]. С учетом выражения (10.44) несложно заметить, что при отрицательных значениях этого произведениях и значениях больших единицы будет иметь место и другой абсурдный результат – отрицательная дисперсия остатков. Это обстоятельство существенно ограничивает область применения линейной модели бинарного выбора. На практике она используется только для предварительной обработки данных и для сопоставления с результатами, полученными более тонкими методами.

Из приведенных рассуждений вытекает, что модель бинарного выбора должна удовлетворять двум условиям:

где a ¢ x ®+¥ – область значений x, при которых P(y=1)=1, а a ¢ x ®–¥ – область значений x, при которых P(y=1)=0.

При этом между значениями составных частей регрессионного уравнения должно выполняться следующее соответствие (см. табл. 10.2).

Таблица 10.2

у_t	P(у_t=...)=	e_t
	F(a¢ x_t)	1– F(a¢ x_t)
	1– F(a¢ x_t)	–(1– F(a¢ x_t))

Условиям (10.49) отвечает, например, функция F( a ¢ x ), близкая к закону нормального распределения, график которой представлен на рис. 10.2. Ее использование позволяет снять рассмотренные выше ограничения моделей бинарного выбора. Модели с функционалом, обладающим свойством “нормального закона“, в литературе получили название probit-моделей:

P(Y=1)=ò ( a ¢ x ). (10.50)

где Ф(.) – функция стандартного нормального распределения, зависящая от значений факторов x и параметров a, j(u)– функция плотности распределения стандартной нормальной переменной u.

В предположении о независимости и гомоскедастичности ошибок e_tфункцию j(u) можем записать в следующем виде:

j( a ¢ x _t)=

Заметим, что s²в выражении (10.51) является неизвестным параметром, который должен быть оценен, как и вектор параметров a.

Рис.10.2 График функции закона распределения, близкого к нормальному.

Из выражения (10.51) вытекает, что между значениями независимой переменной у_t и j( a ¢ x _t) выполняется следующее соотношение (см. табл. 10.3).

Таблица 10.3

у_t	j(a¢ x_t)

0

Не менее широко в моделях бинарного выбора используется и логистическое распределение:

P(Y=1)= L( a ¢ x ). (10.52)

где L(.) представляет собой интегральную функцию логистического распределения.

Модели, построенные на его основе, называются logit-моделями. Несложно заметить, что в данном случае между составными частями регрессионного уравнения выполняется следующее соотношение (см. табл. 10.4).

Таблица 10.4

у_t	P(у_t=...)=	e_t

Вопрос о том, какое из вышеназванных распределений более подходит для практических исследований, остается открытым. На участке a ¢ x Î [–1, 2; 1, 2] оба они ведут себя практически одинаково. Однако вне этого участка, т. е. на хвостах распределения, значения функционалов Ф( a ¢ x ) и L( a ¢ x ) имеют некоторые отличия. В частности, логистическое распределение имеет более “тяжелый хвост”, чем нормальное. Практика показывает, что при отсутствии существенного преобладания одной альтернативы над другой, а также для выборок с небольшим разбросом переменных, выводы, полученные на основе probit- и logit-моделей, как правило, совпадают.

В общем случае из выражения (10.41) для модели бинарного выбора вытекает, что условное математическое ожидание зависимой переменной при заданном наборе факторов может быть определено следующим выражением:

M[y_t| x _t]=0× [1–F( a ¢ x _t)]+1× F( a ¢ x _t)=F( a ¢ x _t). (10.53)

Одно из направлений использования результата (10.53) в анализе рассматриваемых явлений связано с оценками так называемого маржинального эффекта факторов, входящих в модель. Маржинальный эффект фактора x_it, i=1, 2,..., n; t=1, 2,.., T показывает изменение функции F( a ¢ x _t) (характеризующей вероятность того, что у=1) при изменении фактора x_itна единицу.

Маржинальные эффекты факторов x _tдля модели бинарного выбора оцениваются на основе следующего выражения:

¶M[y_t| x _t]/¶ x _t={¶ F( a ¢ x _t)/ ¶( a ¢ x _t)}× a =f( a ¢ x _t)× a, (10.54)

где f(.) – плотность безусловного распределения, соответствующая интегральному распределению F(.) и дифференцирование осуществляется по вектору x _t. В частности, для нормального распределения маржинальный эффект рассчитывается по формуле

¶M[y_t| x _t]/¶ x _t=f( a ¢ x _t)× a, (10.55)

где f(.) – плотность стандартного нормального распределения.

Для логистического распределения производная функции этого закона по факторам x _tфункция f( a ¢ x _t) имеет следующий вид:

¶L[ a ¢ x _t]/¶ x _t=e ^a ^¢ ^x /(1+ e ^a ^¢ ^x )² =L( a ¢ x _t)× [1–L( a ¢ x _t)]. (10.56)

Соответственно в logit-модели маржинальные эффекты определяются как

¶M[y_t| x _t]/¶ x _t=L( a ¢ x _t)× [1–L( a ¢ x _t)]× a, (10.57)

Из выражений (10.54)–(10.57) вытекает, что величина маржинального эффекта для probit- и logit-моделей зависит от значений независимых факторов x. В связи с этим полезно будет определить так называемый “средний маржинальный эффект” в области существования значений независимых факторов.

На практике возможны два подхода к его оценке. Первый основан на усреднении значений независимых факторов, т. е. сначала рассчитываются выборочные средние всех факторов , i=1, 2,..., п, а затем для оценки среднего эффекта определяется f( a ¢ )× a. В соответствии со вторым подходом маржинальные эффекты оцениваются для каждого наблюдения, затем по полученным оценкам этих индивидуальных маржинальных эффектов определяется его среднее значение.

Поскольку функция (10.51) у рассматриваемых моделей непрерывна, то в соответствии с теоремой Слуцкого* на больших выборках оба подхода будут давать один и тот же набор средних маржинальных эффектов. Но это неверно для малых выборок. Практика показывает, что в этом случае лучшие результаты дает второй подход, основанный на усреднение индивидуальных маржинальных эффектов.

Заметим, что средний маржинальный эффект бинарной независимой переменной (например, с) можно определить как следующую разность: P[y=1| , с=1]–P[y=1| , с=0], где – вектор выборочных средних значений остальных независимых переменных х.

Обратим внимание на то, что результаты моделей бинарного выбора могут иметь разнообразное содержание. В частности, их можно проинтерпретировать в терминах выгоды или ущерба. Рассмотрим такую интерпретацию на примере модели крупной покупки. Исходными данными (наблюдаемыми переменными) в этом случае являются сведения о покупке (1 – покупка сделана, 0 – в противном случае) и факторы, характеризующие субъекта, потребителя (доход, пол, возраст и т. д.). Далее предполагается, что покупка имеет место, если она приносит выгоду потребителю, и покупка отсутствует, если такой выгоды нет, и даже возможен “ущерб” (например, покупка бесполезна).

Ненаблюдаемую (латентную) выгоду, получаемую t-м потребителем от покупки, будем моделировать как переменную y_t^*, определяемую следующим выражением:

y_t^*= a ¢ x _t+e_t, (10.58)

где a ¢ x _t в данном случае называется индексной функцией (index funktion); e_t– ошибка модели, в отношении которой делается предположение, что она имеет стандартное нормальное распределение с нулевым математическим ожиданием и единичной дисперсией.

Вероятность получения t-м потребителем выгоды от покупки может быть определена следующим образом:

P(y_t^*> 0)=P( a ¢ x _t+e_t> 0)=P(e_t> – a ¢ x _t). (10.59)

Если распределение симметрично (каковыми являются нормальное и логистическое), то выражение (10.59), можно представить в следующем виде:

P(y_t^*> 0)=P(e< a ¢ x _t)=F( a ¢ x _t). (10.60)

В качестве примера модели типа (10.58)–(10.60) рассмотрим модель миграции, разработанную Нейкостином и Циммером (Nakosteen, Zimmer, 1980). В ее основе лежит предположение о том, что индивидуум принимает решение о переезде, если это приносит ему определенную выгоду, которая оценивается на основе сопоставления доходов в настоящем и “новом” месте его проживания, затрат на переезд.

Доход y_p^*, который индивидуум может получить в данной местности настоящего проживания за год, определяется как

y_p^*= a ¢ x _p+e_p, (10.61)

где a – вектор значений параметров; x _p – вектор независимых переменных, характеризующих индивидуума, например, возраст, образование, опыт работы, и т. д.; e_p – ошибка модели.

Если индивидуум переезжает на новое место, то его доход y_m^*будет определяться согласно следующему выражению:

y_m^*= b ¢ x _m+e_m, (10.62)

где b – вектор значений параметров; x _m – вектор независимых переменных, состав которых может как совпадать, так и не совпадать с составом компонент вектора x _p (включать, например, возможность получения более престижной должности); e_m – ошибка модели.

Переезд связан с определенными затратами C^*, которые могут быть связаны линейной зависимостью со статусом индивидуума (предприниматель, наемный работник, семейный или несемейный и т. д.):

C^*= g ¢ z +u, (10.63)

где z – вектор независимых переменных, характеризующих статус индивидуума; u – ошибка модели.

С учетом вышеперечисленного выгода от переезда может быть представлена в следующем виде:

N^*=y_m^*– y_p^*– C^*= b ¢ x _m – a ¢ x _p – g ¢ z +(e_m –e_p– u)= d ¢ w +e, (10.64)

где w – вектор независимых переменных, характеризующих индивидуума, условия его жизнедеятельности в местах его жительства и т. п., которые влияют на уровень доходов и затраты на переезд; e=e_m –e_p– u – ошибка модели.

В целом, вероятность переезда P(N=1) определяется следующим образом:

P(N^*> 0)=P( d ¢ w + e > 0)=P( e > – d ¢ w ). (10.65)

Выражение (10.65) полностью соответствует выражению (10.59).

Альтернативную интерпретацию данных об индивидуальных предпочтениях дает модель случайной полезности (random utility model). Согласно этой интерпретации латентные (ненаблюдаемые) переменные предыдущей задачи, т. е. y_mи y_p, представляют собой полезности для индивидуума двух выборов (переезжать или не переезжать). В другом примере латентные переменные могут характеризовать полезность аренды дома и полезность владения домом. Статистика индивидуальных выборов, т. е. значения y_t=1 и y_t=0, дают возможность оценить, какая из альтернатив имеет большую полезность при соответствующих наборах факторов, но при этом величина полезности остается неопределенной. Обозначим полезность аренды дома через U^a, а полезность владения домом – через U^b. Наблюдаемый индикатор y_t равняется 1, если U^a> U^b, и равняется 0, если U^a £ U^b.

Общая постановка модели случайной полезности выглядит следующим образом:

U^a= a ¢ _a x +e_a;

U^b= a ¢ _b x +e_b. (10.63)

где a _aи a _b – различающиеся между собой вектора параметров модели; индексы а и b характеризуют варианты выбора.

Тогда, вероятность выбора варианта а (наблюдаемая переменная y принимает значение 1) определяется по следующей формуле:

P(y=1| x )=P[U^a> U^b]=P[( a ¢ _a x +e_a – a ¢ _b x –e_b| x ]=

= P[( a _a – a _b)¢ x +e_a –e_b> 0| x ]= P[ a ¢ x +e > 0| x ]. (10.64)

На практике по известным значениям наблюдаемой переменной y_tоценивается вектор a = a _a– a _b.

Рассмотренные выше модели использовали, так называемые индивидуальные данные. Каждое наблюдение содержало набор значений [y_t, x _t], характеризующих реальный выбор отдельного индивидуума и соответствующий вектор независимых факторов. Вместе с тем, часто при построении моделей бинарного выбора используются групповые данные, которые выражают результаты подсчетов или пропорций. Обозначим через k_t количество индивидуумов, имеющих одинаковые значения, характеризующих их признаков (т. е. одинаковый вектор x _t). Индекс t в этом случае выражает различные вектора признаков x _tи соответствующие количества индивидуумов k_t, обладающих ими. Пусть наблюдаемая зависимая переменная N_tвыражает долю индивидуумов, у которых y_t=1, в общем числе индивидуумов k_t. С учетом этого информация для фиксированного индекса t выглядит как [k_t, N_t, x _t], t=1,..., T. Для сгруппированных таким образом данных представим зависимость доли N_t от факторов-признаков, характеризующих индивидуумов t-й группы, в следующем виде:

N_t=F( a ¢ x _t)+e_t =p_t +e_t,

M[e_t]=0;

D[e_t]=p_t × (1–p_t)/k_t. (10.68)

где в качестве функции F( a ¢ x _t) обычно используются функции законов нормального и логистического распределений; p_t – оценка доли N_t; e_t– ошибка модели.

В заключение раздела, посвященного рассмотрению моделей бинарного выбора, объясним происхождение терминов logit и probit. Из выражения (10.68) следует, что дисперсия ошибки e гетероскедастична. Поскольку функция F( a ¢ x _t) предполагается нелинейной, то для оценки параметров следовало бы применить нелинейный МНК с весами, однако можно предложить менее громоздкий подход к решению данной задачи. Для этого обозначим через F(N_t) значение интегральной функции закона распределения в точке N_t. Тогда можно показать, что обратное значение этой функции F^–1(N_t) допускает следующее представление*:

F^–1(N_t)» a ¢ x _t +e_t/f(p_t)

или

F^–1(N_t)=z_t » a ¢ x _t +u_t, (10.66)

где f(p_t)– значение функции плотности, соответствующей интегральной функции закона распределения F(.), в точке p_t: u_t=e_t/f(p_t) – ошибка, обладающая следующими характеристиками:

M[u_t]=0;

Если F( a ¢ x _t) является логистической функцией, т. е.

p_t =exp( a ¢ x _t)/[1+ exp( a ¢ x _t)],

то несложно показать, что

F^–1(p_t )=ln[p_t /(1–p_t)]= a ¢ x _t. (10.71)

Функция типа (10.71) в научной литературе получила название logit-p_t. В связи с этим модели бинарного выбора, в основе которых лежит логистическое распределение, обычно называют logit-модели.

Для нормального распределения обратная функция Ф^–1(p_t) называется нормитом-p_t. Функция Ф^–1(p_t) может принимать отрицательные значения, обычно не превышающие –5. Чтобы избежать работы с отрицательными числами к значению функции на практике добавляется число 5. Функция (нормит-p_t +5) получила название probit-p_t. Поэтому модели бинарного выбора, основанные на нормальном распределении, называются probit - модели.

⇐ Предыдущая 1 234 5 6 7 8 9 10 Следующая ⇒