Возьмем 11,3 млн договоров розничного бизнеса банка, заключенных с 5,7 млн клиентов в течение пяти лет, и построим логистическую регрессию. Модель должна учитывать, что у клиента может быть несколько продуктов, а поведение способно меняться в зависимости от совершенных сделок.
Разведочные методы показали следующее:
- 95% клиентов покупают в банке не более шести продуктов;
- возможно предсказывать вероятность покупки и время, когда вероятность продажи продукта максимальна;
- чем длиннее клиентская история, тем короче период между покупками – зависимость характерна для всех видов банковских продуктов.
Составим пожелания к модели:
- оптимизировать планирование продаж;
- уменьшить себестоимость поиска клиента;
- построить долгосрочные отношения с потребителем;
- увеличить рентабельность продуктов за счет более точного предложения;
- для продажи продукта совершать меньше действий: писем, звонков, рекламы;
- нивелировать субъективный подход к продажам и ошибки, обусловленные человеческим фактором;
- увеличить лояльность: не надоедать «сообщениями», делать предложение клиенту в момент возникновения реальной потребности.
Адекватность модели проверим:
- набором статистических критериев;
- пробными расчетами на тестовой выборке;
- распределениями базовых характеристик клиента по парам «факт-прогноз».
Немного теории
Результирующий показатель y, «поведение» которого зависит от объясняющих переменных X = (x(1), x(2),…, x(p)), будем считать качественной переменной, определяющей состояние характеризуемого объекта. Объясняющими переменными xi опишем социально-экономические характеристики i-го индивидуума (доход, возраст, пол), а результирующему показателю yi припишем значение единица, если i-й индивидуум имеет продукт, и ноль – в противном случае.
Вектор Y = (y1, y2,…, yn) исходных статистических данных зависимой переменной будет содержать только дихотомические (бинарные) признаки – его компоненты yi смогут принимать только два значения: «0» или «1».
Для исследования статистической связи между y и X простроим регрессионную модель зависимости вероятности P{y=1|X} от линейной формы объясняющих переменных ΘTX. Для моделирования значений P{y=1|X} подберем функции, область значений которых определится отрезком [0,1], а линейная форма ΘTX сыграет роль аргумента функции, т. е. P{y=1|X} = F(ΘTX), причем F(z) должны удовлетворять требованиям:
- F(z) монотонно возрастает по z
- 0 ≤ F(z) ≤1
- F(z)→1 при z→∞
- F(z)→0 при z→0.
Модели данного типа с подобными ограничениями называются моделями бинарного выбора и считаются логистическими, если в качестве F(z) рассматривается функция вида:
F(z) = P{yi = 1|Xi } = eZi/(1 + eZi)
Данная функция удовлетворяет описанным выше условиям (см. график функции на рис 1.).
Если для P получится значение меньшее 0,5, то можно предположить, что yi принимает значение «ноль», в противном случае предполагается, что yi принимает значение «единица».
Приступим к построению моделей прогноза покупок:
- потребительский кредит на карту в магазине (PIL CSF) – см. рис. 2.
- потребительский товарный кредит (CSF) – см. рис. 3.
- потребительский кредит на карту в отделении (PIL BRB) – см. рис. 4.
- депозит (Depo) – см. рис. 5.
- овердрафт (Over) – см. рис. 6.
- автокредит (Auto) – см. рис. 7.
- ипотека (Mort) – см. рис. 8.
Описание переменных в моделях приведено на рис. 9 и 10.
После годового эксперимента оценим точность моделей прогноза покупок:
- PIL CSF: точность найденных клиентов – 77,6%, упущенных клиентов – 22,4%, точность успешных продаж – 83,0%
- Потребительский кредит: найденных клиентов – 84,6%, упущенных – 15,4%, продаж – 63,1%
- Кредитная карта: найденных клиентов – 75,8%, упущенных – 24,2%, продаж – 17,3%
- PIL BRB: найденных клиентов – 79,4%, упущенных – 20,6%, продаж – 20,1%
- Депозит: найденных клиентов – 91,1%, упущенных – 8,9%, продаж 34,4%
- Овердрафт: найденных клиентов – 9,0%, упущенных – 11,0%, продаж – 1,7%
- Автокредит: найденных клиентов – 85,1%, упущенных – 14,9%, продаж – 0,2%
- Ипотека: найденных клиентов – 84,4%, упущенных – 15,6%, продаж – 0,1%.
Фактором, определяющим точность модели, оказалось количество клиентов, собирающихся пользоваться продуктом: больше потребителей – выше точность. Модели продуктов Ипотека, Овердрафт и Автокредит показали невысокую точность, поскольку мало распространены и нерепрезентативны в общей массе продуктов.
А описание свойств моделей прогноза покупок, времени наилучшего предложения и продуктового пути продолжим во второй части публикации.