Тема
2. Модели бинарного выбора (логит и пробит модели) – y (0 и 1)
Фиктивная переменная – это обязательно x (т.е. фактор)
Бинарные (0 и 1) и с большим количеством значений
Star 2,3,4,5 (4 значения)
Hot 0 и 1 (горящая или негорящая)
Price = b0+b1*time+b2*star+b3*hot
При переходе в кол-ве звёзд на 1 цена увеличивается в среднем на b2 (b2>0) при фиксированных других факторах
Из переменной star делают 4 бинарных переменных
Добавить фиктивные переменные для дискр. Переменной (в основном окне)
Star2 (1, если 2 звезды и 0 в ост. Случаях)
Star 3(1, если 3 звезды и 0 в ост. Случаях)
Star 4(1, если 4 звезды и 0 в ост. Случаях)
Star5 (1, если 5 звезд и 0 в ост. Случаях)
Любые три переменные можно включить в модель (а 4 будет базовой)
Иногда за базовую выбирают самую многочисленную, либо самую отличающуюся категорию
За базу взяла отели 5 звезд
Price = b0+b1*time+b2*star2+b3*star3+b4*star4+ b4*hot
Интерпретации
Если изначально бинарная переменная, то 1 мы интерпретируем по отношению к 0 (горящая путёвка в среднем дешевле негорящей на b2)
Star2, star3 и star4 интерпретируем по отношению к базовой, а базовая это star5
|
|
Если коэф. Отриц. говорим меньше
Если коэф. Положит. Говорим больше
Модель 2: МНК, использованы наблюдения 1-160
Зависимая переменная: PRICE
Робастные оценки стандартных ошибок (с поправкой на гетероскедастичность), вариант HC0
Коэффициент | Ст. ошибка | t-статистика | P-значение | ||
const | 834,885 | 103,801 | 8,043 | <0,0001 | *** |
DSTAR_3 | −321,087 | 56,5475 | −5,678 | <0,0001 | *** |
DSTAR_4 | −218,663 | 47,8444 | −4,570 | <0,0001 | *** |
HOT | −726,863 | 44,7279 | −16,25 | <0,0001 | *** |
TIME | 108,655 | 12,4018 | 8,761 | <0,0001 | *** |
Среднее зав. перемен | 1382,569 | Ст. откл. зав. перемен | 571,8167 | |
Сумма кв. остатков | 12866459 | Ст. ошибка модели | 288,1135 | |
R-квадрат | 0,752515 | Испр. R-квадрат | 0,746129 | |
F(4, 155) | 135,2950 | Р-значение (F) | 1,69e-49 | |
Лог. правдоподобие | −1130,627 | Крит. Акаике | 2271,254 | |
Крит. Шварца | 2286,630 | Крит. Хеннана-Куинна | 2277,498 |
Мы смотрим значимость по группе (группа выделена красным)- группа значима, когда хотя бы один коэф. Значим – незначимую нельзя просто убрать из группы, а можно только заменить базовой
График – переменная/коробчатая диаграмма/факторизованная
Ящики с усами (боксплоты)
Нижняя граница– 25%
Верхняя граница – 75%
+ - это среднее
Черточка это медиана (50%)
Если будут отдельные звёздочки – это выбросы
От выбросов модель надо чистить
Однородность определяется близостью медианы и среднего
Модели с фиктивными переменными позволяют учесть специфику и не потерять кол-во наблюдений (очень мелкое разбиение по всем признакам не позволяет строить модели)
Если y бинарный, то речь идёт о логит и пробит моделях
|
|
Y – выжил – не выжил
Указывают некоторый порог
300 наблюдений (160 нулей, 140 злок)
Y-0-доброкач. 1 –злакочаст.
Таблица классификации
0 предсказать 1 – плохо (20) - допроверить
1 предсказать 0 – плохо (20)
0 предсказать 0 –хорошо (140)
1 предсказать 1 хорошо (120)
Посмотреть презентацию