Реальный data science от QIWI на хакатоне GoToHack
С 9 по 11 декабря 2016 г. прошел хакатон GoToHack, на котором мы представили свои задачи и наградили победителей. Хакатон был посвящен data science — несмотря на то, что в QIWI анализ данных активно используется, мы впервые участвовали в мероприятии по такой теме.
Организаторы вышли на нас практически случайно. GoTo как-то приезжали с воспитанниками своего образовательного курса на образовательный семинар QIWI FINTEEN. Один из наших экспертов, Михаил Копытин, рассказывал на нем про Big Data. Организаторы это запомнили и пригласили QIWI на хакатон в роли партнера с задачами по data science.
Формат был следующим: все участники делились на команды до трех человек. После этого им предоставлялся пул из 15 задач и наборов данных к ним от таких компаний, как HeadHunter, Известия, SkyEng. Команды могли выбирать любые кейсы на свой вкус.
Мы постарались подобрать такие наши банковские задачи, которые бы отвечали тематике хакатона — образованию. И хотелось, чтобы они были не только «для бизнеса», но и исследовательскими.
Дмитрий Гармашев, менеджер по исследованиям пользователей:
«В прошлом году были исследования, показавшие, что студенты не находят работу после диплома. Мы посмотрели, что много студентов играет в игры. А где игры — там и QIWI. Посмотрели все данные по платежам, представили, как их можно проанализировать. Задача стояла исследовать данные и найти в платежной истории какой-то набор признаков, говорящих о том, что студент закончил университет и у него появился доход. Например, стал платить за ЖКХ или больше тратить».
Сергей Чеканский, менеджер сервиса «QIWI Плати Потом»:
«Задача участникам понравилась, ведь она очень похожа на реальный комплекс задач, которые решают исследовательские компании, сотрудничающие с крупнейшими европейскими банками. Они тоже ищут события по платежной истории — обнаруживают свадьбу, скорое рождение ребенка, покупку машины, — а банк предлагает клиенту соответствующие кредиты и другие продукты».
Вторая задача была про определение социодемографических характеристик пользователя.
Сергей Чеканский:
«Мы дали ребятам платежную историю, собранную за полгода. Нужно было научиться определять возраст и пол пользователей. Почему это важная задача? По этим характеристикам можно сегментировать базу. Мы сможем лучше понимать, как выглядит профиль нашего пользователя, меньше тратить денег на продвижение. Это делают крупные банки и интернет-магазины».
Дмитрий Гармашев:
«Результаты оценивали в формате Kaggle — платформы для соревнований data scientist’ов. Компании выкладывают на ней свои сеты данных для их обработки в формате конкурса. Мы сделали что-то вроде мини-kaggle».
Команды, взявшиеся за задачи от QIWI, соревновались в трех номинациях.
- Самое бизнес-ориентированное решение — 10 000 рублей на QIWI Кошелек.
- Самое научно-обоснованное — 5000 рублей.
- Самое креативное — 3000 рублей.
Команда, получившая первый приз, с высокой точностью научилась определять пол и возраст, и их решение может быть по-настоящему применено в бизнесе.
Сергей Чеканский:
«Всё это дает пощупать, попробовать себя в реальном мире. Как будто они работают у нас. Ребята ожидали, что в банках много данных. А на самом деле платежная история банка выглядит довольно скучно: категория транзакции, ее сумма и время. Но из этого скучного списка можно выделить огромное количество признаков. И мы хотели, чтобы ребята попробовали эту работу сделать самостоятельно. Цель была в этом».
Для QIWI участие в хакатоне очень полезно с точки зрения кадрового маркетинга. Студенты запоминают, что в QIWI есть Big Data, что там интересно работать. Это подтверждается и тем, что за наши задачи взялось больше команд, чем за задачи других компаний.
Интересно, что на хакатоне само соревнование часто отходило на второй план.
Дмитрий Гармашев:
«Хотя команды были соперниками, они много помогали друг другу, делились кусками кода, тестировали. На взрослых хакатонах такого не бывает вообще. У поколения Z — родившихся после 1995 года — вообще повышенные навыки командообразования, назначения ролей. И больше способностей добиться общего результата».