АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Регрессионные модели с переменной структурой

Читайте также:
  1. II. Право на фабричные рисунки и модели (прикладное искусство), на товарные знаки и фирму
  2. Автокорреляция остатков модели регрессии. Последствия автокорреляции. Автокорреляционная функция
  3. Аддитивная и мульпликативная модели временного ряда
  4. Адекватность трендовой модели
  5. Алгоритм оценки и проверки адекватности нелинейной по параметрам модели (на примере функции Кобба-Дугласа).
  6. Алгоритм проверки адекватности множественной регрессионной модели (сущность этапов проверки, расчетные формулы, формулировка вывода).
  7. Алгоритм проверки адекватности парной регрессионной модели.
  8. Алгоритм проверки адекватности парной регрессионной модели.
  9. Алгоритм проверки значимости регрессоров во множественной регрессионной модели: выдвигаемая статистическая гипотеза, процедура ее проверки, формулы для расчета статистики.
  10. Альтернативные модели потребления.
  11. Анализ дискреционной налогово-бюджетной и кредитно-денежной политики с помощью модели «IS-LM».
  12. Анализ и моделирование функциональной области внедрения ИС.

До сих пор в качестве факторов рассматривались экономические переменные, принимающие количественные значения в некотором интервале. Вместе с тем, может оказаться необходимым включить в модель фактор, имеющий два или более качественных уровня. Это могут быть разного рода атрибутивные признаки, такие, например, как профессия, пол, образование, климатические условия, отдельные регионы. Чтобы ввести такие переменные в регрессионную модель, они должны быть упорядочены и им присвоены те или иные значения, т.е. качественные переменные преобразованы в количественные. Такого вида сконструированные переменные принято в эконометрике называть фиктивными переменными. В отечественной литературе за ними закрепился термин структурные переменные.

Качественные признаки могут приводить к неоднородности исследуемой совокупности, что может быть учтено при моделировании двумя путями:

- регрессия строится для каждой качественно отличной группы единиц совокупности, т.е. для каждой группы в отдельности, чтобы преодолеть неоднородность единиц общей совокупности;

- построение общей регрессионной модели для совокупности в целом, учитывающей неоднородность данных. В этом случае в регрессионную модель вводятся фиктивные переменные, т.е. строится регрессионная модель с переменной структурой, отражающей неоднородность данных.

Рассмотрим применение фиктивных переменных для функции спроса. Предположим, что по группе лиц мужского и женского пола изучается линейная зависимость потребления кофе от цены. В общем виде для совокупности обследуемых уравнение регрессии имеет вид:

,

где: y - количество потребляемого кофе,

x - цена.

Аналогичные уравнения могут быть найдены отдельно для лиц мужского и женского пола: .

Различия в потреблении кофе проявятся в различии средних и . Вместе с тем, сила влияния x на y может быть одинаковой, т.е. . В этом случае возможно построение общего уравнения регрессии с включением в него фактора «пол» в виде фиктивной переменной. Объединяя уравнения y1 и y2 и вводя фиктивные переменные, можно придти к следующему соотношению:

,

где: z1 и z2 фиктивные переменные, принимающие значения:

; .

В общем уравнении регрессии зависимая переменная y рассматривается как функция не только цены x, но и пола (z1, z 2). Переменная z рассматривается как дихотомическая переменная, принимающая всего два значения: 1 и 0. При этом, когда z1 = 1, то z2 =0 и, наоборот, при z1 = 0 переменная z2 = 1.

Для лиц мужского пола, когда z1 = 1 и z2 = 0, объединенное уравнение регрессии составит: , а для лиц женского пола, когда z1 = 0 и z2 = 1, . Иными словами, различия в потреблении для лиц мужского и женского пола вызваны различиями свободных членов уравнения регрессии: . Параметр b является общим для всей совокупности лиц, как для мужчин, так и для женщин.

Вместе с тем, при практическом введении фиктивных переменных z1 и z2 в модель применение МНК для оценивания параметров α1 и α2, приведет к вырожденной матрице исходных данных, а, следовательно, и к невозможности получения их оценок. Объясняется это тем, что при использовании МНК для данного уравнения появляется свободный член, т.е. уравнение примет вид:

.

Предполагая при параметре A независимую переменную 1, имеем матрицу исходных факторов:

.

В рассматриваемой матрице существует линейная зависимость между первым, вторым и третьим столбцами: первый равен сумме второго и третьего. Поэтому матрица исходных факторов вырождена. Выходом из создавшегося затруднения может явиться переход к уравнениям вида:

или

,

каждое из которых включает только одну фиктивную переменную: z1 или z2.

Предположим, что определено уравнение ,

где: z1 - принимает значения 1 для мужчин и 0 для женщин. Теоретические значения размера потребления кофе для мужчин окажутся равными:

.

Для женщин соответствующие значения получим из выражения:

.

Сопоставляя эти результаты, видим, что различия в уровне потребления мужчин и женщин состоят в различии свободных членов данных уравнений: A - для женщин и A + A1 для мужчин.

Примером использования фиктивных переменных может служить зависимость урожайности пшеницы y от вида вспашки z и количества внесенного органического удобрения x. По 25 наблюдениям парное уравнение регрессии (без учета вида вспашки) составило:

;

F = 8,7; tА = 11,9; tβ = 2,95; ryx = 0,5246.

При его расчете использовалась следующая система нормальных уравнений:

.

Уравнение регрессии статистически значимо: F, tb, ryx превышают табличные значения (при 5 %-ом уровне существенности и числе степеней свободы 23: F = 4,28; tb = 2,069; ryx = 0,398; при 1%-ой вероятности ошибки: F = 7,88; tb = 2,807; ryx = 0,507;).

По виду вспашки поля характеризовались двумя категориями: зяблевая и весенняя. Вид вспашки не влияет на количество внесенных удобрений, но обусловливает различия в урожайности. Чтобы убедиться в этом введем в уравнение регрессии фиктивную переменную z для отражения эффекта вида вспашки, а именно: z = 1 для зяблевой вспашки и z = 0 для весенней вспашки. Уравнение регрессии примет вид: . Применяя метод наименьших квадратов для оценки параметров данного уравнения, получим следующую систему нормальных уравнений:

В виду того, что z принимает лишь два значения (1 и 0), (число полей с зяблевой вспашкой), (количество внесенных удобрений на полях с зяблевой вспашкой), , (сумма y по полям зяблевой вспашки).

В рассматриваемом примере вся совокупность из 25 единиц подразделена на две подгруппы: с зяблевой вспашкой - 13 полей и с весенней - 12 полей, т.е. n1 = 13 и n2 = 12. Соответственно этим двум группам имеем:

; .

Тогда система нормальных уравнений примет вид:

Решая ее, получим уравнение регрессии:

Уравнение регрессии статистически значимо: F = 15,6; R = 0,766; = 0,741; ta = 11,8; tb = 3,9; tc = 4,1. Как видим, добавление в регрессию фиктивной переменной существенно улучшило результат модели: доля объясненной вариации выросла с 27,5% () до 58,7% (). При этом, сила влияния количества внесенных органических удобрений на урожайность осталась практически неизменной: коэффициенты регрессии по существу одинаковы (0,326 в парном уравнении и 0,330 во множественном). Корреляция между видом вспашки и количеством внесенного удобрения на 1 га практически отсутствует: . Вместе с тем, применение зяблевой вспашки способствует росту урожайности в среднем на 2,9 ц с 1 га при одном и том же количестве внесенного удобрения на 1 га, что в целом соответствует и различию средней урожайности по видам вспашки (15,3 ц с 1 га для зяблевой вспашки и 12,5 ц с 1 га для весенней вспашки). Частный F -критерий для фактора z составил 16,58, что выше табличного значения при числе степеней свободы 1 и 22 (4,30 при α = 0,05 и 7,94 при α = 0,01). Это подтверждает целесообразность включения фиктивной переменной в уравнение регрессии.

Парные уравнения регрессии по отдельным видам вспашки показывают, практически одинаковую меру влияния количества внесенного удобрения на урожайность:

- при зяблевой вспашке и

- при весенней вспашке.

Поэтому вполне реально предположить единую меру влияния данного фактора не зависимо от вида вспашки, что и имеет место в уравнении регрессии с фиктивной переменной. Включив фиктивную переменную, удалось измерить ее влияние на изменение урожайности: частный коэффициент корреляции , оценивающий в чистом виде влияние данного фактора, составил 0,6555, что несколько выше, чем аналогичный показатель для фактора x: .

Частные уравнения регрессии по отдельным видам вспашки составили:

- для зяблевой вспашки

- для весенней вспашки.

Как видим, функция урожайности для первой группы (при z = 1) параллельно сдвинута вверх.

В рассмотренном примере качественный фактор имел только два состояния, которым и соответствовали обозначения 1 и 0. Если же число градаций качественного признака-фактора превышает два, то в модель вводится несколько фиктивных переменных, число которых должно быть меньше числа качественных градаций. Только при соблюдении этого положения матрица исходных фиктивных переменных не будет линейно зависима и возможна оценка параметров модели.

Например, при изучении зависимости цены двухкомнатной квартиры от ее полезной площади в модель могут быть введены фиктивные переменные, отражающие тип дома: «хрущевка», панельный, кирпичный. При использовании трех категорий домов вводятся две фиктивные переменные: z1 и z2. Пусть переменная z1 принимает значение 1 для панельного типа дома, и 0 для всех остальных типов домов; переменная z2 принимает значение 1 для кирпичных домов, и 0 для остальных; тогда переменные z1 и z2 принимают нулевые значения для «хрущевки».

Предположим, что уравнение регрессии с фиктивными переменными составило:

.

Частные уравнения регрессии для отдельных типов домов будут иметь вид:

· «хрущевки» - ;

· панельные - ;

· кирпичные - ;

демонстрируя наиболее высокие цены для квартир в панельных домах.

Параметры при фиктивных переменных z1 и z2 представляют собой разность между средним уровнем результативного признака для соответствующей группы и базовой группы. В рассматриваемом примере за базу сравнения цены взяты дома «хрущевки», для которых z1 = z2 = 0. Параметр при z1 = 2200 означает, что при одной и той же полезной площади квартиры цена ее в панельных домах в среднем на 2200 долларов США выше, чем в «хрущевках». Соответственно, параметр при z2 показывает, что в кирпичных домах цена выше в среднем на 1600 долларов при неизменной величине полезной площади по сравнению с указанным типом домов.

Рассмотренная трактовка параметров регрессии при фиктивных переменных справедлива, если сила влияния на «у» фактора «х» действительно не меняется в разных структурных частях совокупности. Иными словами, отсутствует взаимодействие факторов х; и фиктивных переменных z, т.е. для каждого значения z влияние х на у одинаково, что соответствует графику:

 

у

 

(при z = 1)

 

4 (при z = 0)

 

 

5 10 х

 

Целесообразность построения модели:

При наличии взаимодействия факторов (х и z) модель с фиктивной переменной принимает вид:

, что соответствует графическому изображению:

 

у

(при z = 1)

 

 

4 (при z = 0)

2

5 10 х

 

 

Наличие взаимодействия факторов обусловливает модель .

Предположим рассматриваются две группы наблюдений, для каждой из которых имеет место функциональная зависимость у от х:

уI = 20 + 5x; τух = 1; ;

уII = 70 – 3х; τух = 1; .

Поскольку на лицо четкое взаимодействие факторов, то попытка построить общую регрессионную модель вида у = а + вх + сz приведет к ухудшению результатов аппроксимации модели:

= 58 + 1х – 26zR2 = 0,842

Верной в ней будет лишь трактовка коэффициента регрессии при фиктивной переменной z. Поскольку в модели z = 1 для I группы наблюдений, когда , а z = 0 для П-ой группы наблюдений, когда , то параметр при z, равный: - 26, означает, что .

Модель с учетом взаимодействия факторов составит:

= 70 – 3х – 50z + 8(zx) R2 = 1,

т.е. функциональная зависимость, заложенная в информацию для каждой группы, продолжает действовать. При z = 0 мы получим уравнение связи для второй группы, т.е. уII = 70 – 3х. Параметр с при z показывает различие в параметрах а для двух сравниваемых групп: с = аI – аII = -50. Параметр d при совмещенной переменной (zx) фиксирует различие в силе связи у и х в группах:

d = bI – bII = 5 – (-3) = 8

В отдельных случаях может оказаться необходимым введение двух и более групп фиктивных переменных, т.е. двух и более качественных факторов, каждый из которых может иметь несколько градаций. Например, при изучении потребления некоторого товара, наряду с факторами, имеющими количественное выражение (цена, доход на одного члена семьи, цена на взаимозаменяемые товары и др.), учитываются и качественные факторы. С их помощью оцениваются различия в потреблении отдельных социальных групп населения, дифференциация в потреблении по полу, национальному составу и др. При построении такой модели из каждой группы фиктивных переменных следует исключить по одной переменной. Так, если модель будет включать три социальные группы, три возрастные категории и ряд экономических переменных, то она примет вид:

где: y - потребление,

;

;

x1, x2,…, xk – экономические переменные.

Фиктивные переменные широко используются для оценки сезонных различий в потреблении. Подробный учет сезонного фактора при построении динамических моделей рассмотрен в главе 8.

Фиктивные переменные могут вводиться не только в линейные, но и в нелинейные модели, приводимые путем преобразований к линейному виду. Так, модель с фиктивными переменными может иметь вид:

,

где: z – фиктивная переменная.

Целесообразность такого вида модели диктуется характером связи между экономическими переменными:

.

Фиктивная переменная вводится в эту модель как очередной сомножитель Cz:

Логарифмируя данное выражение, получим модель:

,

которая равносильна приведенной ранее , где параметры и случайная составляющая представлены в логарифмах.

До сих пор мы рассматривали фиктивные переменные как факторы, которые используются в регрессионной модели наряду с экономическими переменными. Вместе с тем, возможна регрессия только на фиктивных переменных. Например, изучается дифференциация заработной платы рабочих высокой квалификации по регионам страны. Модель заработной платы может иметь вид:

где: y - средняя заработная плата рабочих высокой квалификации по отдельным предприятиям;

;

;

………………………………………………………………………………..

.

Поскольку последний район, указанный в модели, обозначен zk, то в исследование включено к+ 1 район.

В виду того, что факторы данной регрессионной модели выражены дихотомическими признаками, параметры модели имеют свою специфику по сравнению с традиционной их интерпретацией. Параметр a представляет собой среднее значение результативного признака для базовой группы . Параметр b характеризует разность средних уровней результативного признака для группы 1 и базовой 0 группы. Соответственно, параметр bi представляет собой разность между и . Иными словами, коэффициенты при z отражают величину эффекта соответствующей группы фактора z. Рассмотрим применение данной модели на следующем условном примере.

Таблица 3.5.

Распространенность ручного труда на предприятиях одной отрасли в зависимости от уровня автоматизации производства.

Уровень автоматизации производства Число заводов Процент рабочих ручного труда в общей численности рабочих
на каждом заводе данной группы в среднем по группе
Высокий   31,37,38,39,35,32,34,34 35,0
Средний   40,45,47,48,46,48,50,52,39,43,44,56 46,5
Низкий   47,54,59,55,57,56,65,57,55,61 56,6
Итого:     46,8

 

По данным этой таблицы рассматривается следующая регрессионная модель:

где: y - процент рабочих ручного труда в общей численности рабочих;

z - уровень автоматизации производства,

;

;

В качестве базовой группы, с которой ведется сравнение уровня занятости ручным трудом, выступают предприятия с низким уровнем автоматизации производства.

Модель регрессии, исходя из средних уровней, приведенных в последней графе таблицы 3.5., составит:

.

Она показывает, что в предприятиях с низким уровнем автоматизации производства средний процент рабочих ручного труда равен 56,6. На предприятиях с высоким уровнем автоматизации производства распространенность ручного труда ниже на 21,6 процентных пункта (), а на предприятиях со средним уровнем автоматизации производства - ниже на 10,1 процентных пункта () по сравнению с предприятиями третьей группы.

В справедливости данного уравнения регрессии можно убедиться, обратившись к методу наименьших квадратов. Применяя МНК, система нормальных уравнений составит:

В виду того, что переменные z принимают лишь два значения: 1 или 0, в данной системе имеем следующие равенства:

; ; .

Соответственно, система нормальных уравнений составит:

Решая систему, получим: a = 56,6; b1 = -21.6; b2 = -10.1. Уравнение регрессии, как было показано ранее, примет вид:

.

Индекс детерминации для данной модели составит:

,

что статистически значимо: F -критерий = 54,6; при α = 0,05 и при степенях свободы 2 и 27, F табличное = 3,35.

Поскольку коэффициенты при фиктивных переменных в модели, не содержащей других экономических факторов, характеризуют величину эффектов i -го уровня фактора z, то регрессионная модель по своему содержанию тождественна дисперсионной модели. В основе нашего примера лежит дисперсионная модель вида:

,

где: yijj - ое наблюдение результативного признака на i - ом уровне исследуемого фактора (в примере i =1,2,3; j =1,…,30);

- среднее значение результативного признака в целом по совокупности (в примере = 46,8);

- эффект, обусловленный i -ым уровнем фактора;

- случайная ошибка в j -ом наблюдении на i -ом уровне изучаемого фактора; величина, на которую фактический уровень результативного признака yij отличается от его среднего значения для i -го уровня фактора, т.е. или .

В регрессионной модели обычно , но так как фиктивная переменная принимает только два значения, то .

Так, подставляя в наше уравнение z1 = 1, z2 = 0, получим для каждого завода первой группы по уровню автоматизации производства, что является для данной группы средней величиной (см.табл.3.9.5.). Соответственно, подставляя в уравнение регрессии z1 = 0, z2 = 1, получим: .

В виду того, что теоретическое значение результативного признака в рассматриваемой модели представляют собой групповые средние (), общая сумма квадратов отклонений раскладывается на одни и те же составляющие, как в регрессионном, так и в дисперсионном анализе по результатам группировки. Так, для дисперсионного анализа имеем:

Общая сумма квадратов Факторная сумма квадратов Остаточная сумма квадратов

Для регрессионной модели данное балансовое равенство примет следующий вид:

.

Общая сумма квадратов Факторная сумма квадратов Остаточная сумма квадратов

Но так как , то факторная и остаточная суммы квадратов, найденные по регрессионной модели и по модели дисперсионного анализа совпадают (см.табл.3.6.).

 

Таблица 3.6.

Результаты однофакторного дисперсионного анализа (двухфакторной регрессионной модели с фиктивными переменными).

Источники вариации Число степеней свободы Суммы квадратов Дисперсия на одну степень свободы F - отношение
фактическое табличное α = 0,05
Различия между уровнями фактора (за счет регрессии)     2075,4   1037,7   54,6   3,35
Внутри фактора (остаточная)     513,4   19,0     -
Итого:   2588,8 - - -

 

Мы рассмотрели модели с фиктивными переменными, в которых последние выступают факторами. В отдельных случаях может строиться модель, в которой дихотомический признак используется не в качестве фактора, а как результат. Подобного вида модели применяются, например, при обработке данных социологических опросов. В качестве зависимой переменной y рассматриваются ответы на вопросы, данные в альтернативной форме: да, нет. Поэтому зависимая переменная имеет два значения: 1, когда имеет место ответ «да», и 0 - во всех остальных случаях. Модель такой зависимой переменной имеет вид:

.

Она является вероятностной линейной моделью. В ней y принимает значения 1 и 0, которым соответствуют вероятности p и 1 - p. Поэтому при решении модели находятся задачу оценки условной вероятности события y при фиксированных значениях x. Для оценки параметров линейно-вероятностной модели применяются методы Logit-, Probit- и Tobit-анализа7. Такого рода модели требуется исследовать работающим с неколичественными переменными. Как правило, это модели выбора из заданного набора альтернатив. Зависимая переменная y представлена дискретными значениями (набор альтернатив), объясняющие переменные - характеристики альтернатив (время, цена), - характеристики индивидов (возраст, доход, уровень образования). Модель такого рода позволяет предсказать долю индивидов в генеральной совокупности, которые выбирают данную альтернативу.

Рассмотрим простейшую линейно-вероятностную модель:

у = а + вх + ε

Предположим у – использование прогрессивной технологии, х – возраст оборудования (в годах).

Поскольку у – дихотомический признак, то при построении модели определяется среднее ожидаемое значение у, т.е. , что соответствует вероятности наступления события при фиксированном среднем значении х. Это накладывает отпечаток на интерпретацию коэффициента регрессии «в». Он показывает среднее изменение вероятности наступления события. Так, если = 0,85 – 0,0375х, что, следовательно, с ростом возраста оборудования на 1 год вероятность использования прогрессивной технологии снижается в среднем на 0,0375, или, если ее выразить в процентах, то на 3,75 процентных пункта.

Вместе с тем, необходимо отметить, что в ряде случаев в модели у = а + вх + ε, где у – фиктивная переменная, применение обычного МНК может привести к неинтерпретируемым результатам анализа: при подстановке в регрессию индивидуальных значений х отдельные величины у могут оказаться либо < 0, либо > 1, что противоречит самой постановке задачи.

Кроме того, в теории доказывается, что оценки, полученные по МНК для линейно вероятностных моделей, страдают дефектом, ибо не соблюдается ряд предпосылок МНК:

- остаточные величины не являются нормально распределенными;

- дисперсия отклонений ε может зависеть от значений х, что вполне естественно, ибо обычно рассматриваются качественно разные группы, когда у = 1 х может иметь одну вариацию, а при у = 0 – другую.

В виду того, что в ряде случаев использование МНК к вероятностно-линейным моделям страдает погрешностями, то рекомендуется строить –– Logit модель.

В Logit – модели условная вероятность р представляет собой нелинейную функцию:

,

для определения которой используется метод максимального правдоподобия. Обозначим через z. Тогда:

, а .

Отсюда можно найти отношение , которое характеризует, во сколько раз вероятность Рi (при уi = 1), больше чем вероятность 1– Pi (при уi = 0).

.

Далее прологарифмировав, получим

или

- Logit – модель.

Для оценки параметров Logit-модели сначала определяются значения вероятностей Pi, используя метод максимального правдоподобия. Далее расчеты можно вести, используя взвешенный МНК (см. главу 4. Обобщенный метод наименьших квадратов).

К классу моделей с фиктивными переменными относятся также Тобит-модели.

Тобит-модели – это модели регрессии, содержащие в себе в качестве результата так называемые цензурированные переменные. Цензурированными называют переменные, наблюдаемые значения которых, большие (меньшие) определенной величины ("порога цензурирования"), берутся в неизменном виде, а значения переменной, равные или меньшие (большие) данной величины, приравниваются этой величине. В формульном виде:

 

(цензурирование снизу)

или

(цензурирование сверху)

где с – константа.

Частным случаем является с=0. Модель регрессии, включающая цензурированную (при с=0 и цензурировании снизу) переменную в качестве фактора, называется тобит-моделью:

 

где

 

а, b1, b2, … bp – неизвестные параметры модели;

x1, x2, …xp – переменные – факторы;

ε – случайные остатки.

Создатель первой такой модели – нобелевский лауреат Джеймс Тобин. Он изучал расходы семьи на автомобили. Эти расходы неотрицательны или равны нулю (в случае отказа от покупки автомобиля). Дж. Тобин показал, что если построить уравнение степенной регрессии расходов на автомобили от доходов семьи и найти его параметры с помощью МНК, то они будут смещенными и несостоятельными. Для получения более корректных выводов нулевые расходы следует рассматривать не как настоящие, а как наблюдаемые. Реальные же "расходы" равны отрицательным величинам. Для решения задачи нахождения параметров регрессии в данном случае может быть применен метод максимального правдоподобия (ММП).

Напомним, что для построения функции правдоподобия необходимо указать закон распределения наблюдаемых значений зависимой переменной Y, которые рассматриваются как отдельные случайные величины. Предположим, что эти величины независимы и распределены по нормальному закону с математическим ожиданием, равным теоретическому (найденному по уравнению регрессии) значению и некоторым средним квадратическим отклонением σε = σi, одинаковым для всех наблюдений. В соответствии с определением тобит-модели, все зависимые переменные, входящие в нее делятся на две группы. В первой фактические значения равны наблюдаемым, во второй фактические значения занимают область от минус бесконечности до нуля, а наблюдаемые равны нулю.

Для первой группы закон распределения каждой из величин Yi определяется плотностью нормального распределения:

 

Для наблюдений из второй группы по каждому наблюдению можно сказать следующее. При заданном наборе значений факторов среднее значение переменной Yi равно теоретическому значению , среднее квадратическое отклонение составляет σε. Фактическое значение у неизвестно, известно лишь, что оно находится на интервале [-∞; 0]. Вероятность попадания значений переменной Yi в этот интервал составляет:

 

 

Преобразуем эту формулу. Для этого, во-первых, представим интеграл на интервале [- ∞; 0] как сумму двух интегралов – на интервале [- ∞; ] и интервале [ ; 0] (по условию, ≤0):

 

 

Так как нормальное распределение имеет плотность распределения, симметричную относительно математического ожидания , то первое слагаемое равно 0,5 (оно показывает вероятность того, что фактическое значение переменной Yi не превысит ее математического ожидания). Для преобразования второго слагаемого можно воспользоваться следующей формулой для вероятности нахождения значений переменной Yi в интервале [α; β]:

 

где Ф(х) – нормированная функция нормального распределения (с математическом ожиданием, равным нулю, и средним квадратическим отклонением, равным нулю):

В нашем случае α= , β=0. Таким образом, получаем:

Значение нормированной функции Ф(0) равно 0,5. В силу симметричности распределения относительно нуля, Ф(-х)=1-Ф(х). С учетом этого:

Функция правдоподобия равна (или пропорциональна) вероятности появления наблюдаемых значений переменной Y. Для независимых величин эта вероятность равна произведению вероятностей появления отдельных значений yi. Вероятность появления наблюдений первой группы (наблюдаемые величины равны фактическим) определяется через плотность распределения f(yi). Вероятность появления наблюдений второй группы есть вероятность того, что фактическая величина меньше или равна нулю. Она выражается через функцию нормального распределения Fi(0). Таким образом, функция правдоподобия равна:

или

Логарифмическая функция правдоподобия равна:

или, раскрывая значения функций f(yi) и Ф ():

Для нахождения максимума логарифмической функции правдоподобия найдем производные по неизвестным параметрам а, b1, b2, … bp, σε. При дифференцировании учтем, что:

  1. теоретическое значение результата выражается через уравнение регрессии, содержащее неизвестные параметры а, b1, b2, … bp,;
  2. производная от нормированной нормальной функции Ф(х) равна ее плотности φ(х):

Для краткости и удобства чтения отдельные части выражения, получившегося в результате дифференцирования, заменим их стандартными обозначениями: , Ф(х), φ(х).

 

Для нахождения неизвестных параметров необходимо приравнять полученные выражения нулю и решить систему. Отметим, что данная система содержит нелинейные выражения, что не позволяет решить ее путем простых алгебраических преобразований. В этом случае используются итерационные процедуры, позволяющие найти оптимальные оценки параметров, опираясь на определенный алгоритм пошагового перебора различных значений параметров.

Среди моделей с фиктивными переменными наибольшими прогностическими возможностями обладают модели, в которых зависимая переменная y рассматривается как функция ряда экономических факторов xi и фиктивных переменных zi. Последние обычно отражают различия в формировании результативного признака по отдельным группам единиц совокупности, т.е. в результате структурных сдвигов пространственного или временного характера.

Для интерпретации параметров тобит-модели необходимо найти математическое ожидание зависимой переменной y и продифференцировать полученное выражение по независимой переменной xj, являющейся фактором в данной модели.

Математическое ожидание зависимой переменной yi равно сумме произведений математических ожиданий наблюдаемых значений yi при условии, что фактические значения меньше (или равны) или больше порога цензурирования, на соответствующие вероятности наступления этих событий:

Можно показать, что эта формула преобразуется в выражение:

Дифференцируя выражение для M(yi) по xj, получаем:

  (*)

Таким образом, влияние фактора xj не является постоянным. Для "средней" характеристики его воздействия на результат в вышеприведенную формулу подставляют средние значения факторов. Так как функция распределения Ф изменяется в границах [0;1], то коэффициент bj можно проинтерпретировать как верхний предел среднего изменения результата y при единичном изменении фактора xj.

Рассмотрим пример построения тобит-модели. В качестве переменных выберем денежный доход одного человека (x) и его расходы на покупку антиквариата (y). Для простоты возьмем некоторые условные числа (см. табл. 1).

Таблица 1

Зависимость расходов на антиквариат от доходов условных денежных единиц

Доход (х) Расходы на покупку антиквариата (y)
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   

 

Оценим параметры уравнения регрессии с помощью рассмотренного выше алгоритма по методу максимального правдоподобия для тобит-моделей. Используя эконометрический программный пакет EViews, получаем:

Для оценки среднего изменения результата при изменении фактора на одну единицу от своего среднего уровня () воспользуемся формулой (*):

Таким образом, при изменении денежного дохода на одну единицу от своего среднего уровня расходы на антиквариат в среднем возрастут на 0,048 денежных единиц.

 


7 См. например, Г. Аптон. Анализ таблиц сопряженности. Перевод с англ. М.: Статистика, 1982.


1 | 2 | 3 |

Поиск по сайту:



Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.052 сек.)