Могут ли инвестиции в кинематограф быть прибыльнее рынка акций и стабильнее сектора облигаций?
Современный российский и мировой коммерческий кинематограф является уникальной сферой креативной экономики с точки зрения data-аналитики. Он предсказуем, обладает четкими трендами и прекрасно поддается прогнозированию: от окупаемости проекта в прокате до абсолютных значений по сборам, просмотрам и даже итоговым зрительским рейтингам. Индивидуальные показатели каждого проекта могут быть достаточно волатильными, однако совокупный результат при «портфельном инвестировании» (20–30 проектов) более стабилен, чем при работе с привычными биржевыми и внебиржевыми инвестиционными инструментами.
На исторических данных российского проката можно определить, окупится ли фильм, т. е. соберет ли два своих бюджета или нет, с точностью до 0,95 с помощью алгоритмов классификации. Если условный инвестор с 2012 года по настоящее время вкладывался в 15–20 российских фильмов ежегодно, историческая годовая доходность его портфеля инвестиций могла бы доходить до 130%. Заметим, прогноз можно создавать, пока производство фильма еще не началось, в рамках «продюсерского питчинга» перед частными инвесторами или экспертной комиссией Министерства культуры или Фонда кино.
Если разработанная ранее модель классификатора успеха/неуспеха фильма в прокате использовала всего 8 параметров и предполагала только двухклассовую градацию (проект окупится или не окупится в прокате), новая модель содержит расширенный набор данных (25 признаков) и предполагает возможность отнесения проекта к одному из четырех типов по критерию окупаемости.
Мировой опыт
Использование алгоритмов машинного обучения и нейросетей для анализа кинопроката является распространенной практикой. Один из объектов изучения — настроения целевой аудитории в социальных сетях и их влияние на успех фильма. Большие данные используются для прогнозирования успеха фильмов на основе активности онлайн-пользователей. Алгоритмы машинного обучения применяются для анализа настроений в социальных сетях, также осуществляется анализ мнений в обзорах и комментариях на специализированных киноресурсах. С помощью количественных методов прогнозируются награды киноакадемий, такие как «Оскар». Современные аналитики предсказывают даже рейтинг IMDb. Количественной оценке может быть подвергнута эмоциональная реакция зрителей с помощью диагностических средств, включая ЭКГ, МРТ, систему трекинга глаз и «полиграф».
Рис. 1. Фрагмент базы данных российского кинопроката с 2004 года по апрель 2022 года (N=1469), на которой обучались модели GradientBoostingClassifier и GradientBoostingRegressor
Методики прогнозирования успеха фильма в прокате создаются как в Голливуде и Европе, так и в индийском Болливуде. Абсолютным лидером в этой отрасли дата-аналитики по числу публикаций является Китай: аналитики с помощью «машинного зрения» изучают визуальные данные — афиши и постеры фильмов и прогнозируют на их основе успех проекта в прокате. Корейские дата-аналитики преуспели в анализе текстов рецензий. Исследования с помощью алгоритмов машинного обучения проводятся и для локальных кинорынков, например Тайваня. Интеллектуальный анализ данных кинопроизводства применяется даже на материалах Нигерии.
В России в научной сфере имеется крайне малое количество публикаций по данной теме. Одним из первых отметим проект ВШЭ «Методика нейросетевого прогнозирования кассовых сборов кинофильмов», основанный, к сожалению, на метриках и показателях американского рынка.
Одним из самых перспективных и доступных направлений для прогнозирования является анализ исторических данных проката. Кинотеатральная аудитория достаточно консервативна, жанровые предпочтения и вкусы меняются очень медленно даже в современных условиях, критерии окупаемости, зависимости от жанра, длительности, времени выхода и многие другие факторы также в большинстве случаев остаются стабильными.
Рис. 2. Фрагмент базы данных российского кинопроката по апрель 2023 года (N=194), на которой проходили проверку модели, основанные на GradientBoostingClassifier и GradientBoostingRegressor
Результаты анализа российского проката
Для оценки возможностей точного прогнозирования финансового результата и других показателей фильма воспользуемся данными российского кинорынка с 2004 года по май 2023 года. 25-факторная модель ансамблевая модель, основанная на GradientBoostingClassifier, обученная на несимметричной выборке из 1028 фильмов и протестированная на тестовой выборке из 441 кинофильма, показала точность ( accuracy) в 0,95 и значение ROC_AUC = 0,97 [площадь под кривой ROC показывает эффективность алгоритма: чем она ближе к единице, тем работа алгоритма совершеннее], что открывает дорогу к возможному коммерческому использованию результатов прогнозирования.
Рис. 3. Показатель эффективности ансамблевой двухклассовой модели прогнозирования результатов кинопроекта в прокате
Модель четырехклассового классификатора («провал фильма», «частичная окупаемость», «окупаемость» и «прибыль свыше 100%») заранее, до начала производственного цикла, может отбирать как потенциально провальные, так и гиперуспешные проекты с высокой точностью соотнесения именно к крайним классам. Рациональный инвестор, вооруженный подобным знанием, никогда не поддастся на уловки хитрого продюсера, рассчитывающего заработать «с производства». Вместо этого он выберет перспективный проект (а для надежности — несколько), вложится в него и поможет довести до проката, заработав свою долю прибыли с «результата».
Рис. 4. Показатель эффективности ансамблевой четырехклассовой модели прогнозирования результатов кинопроекта в прокате
С помощью регрессионной модели модель GradientBoostingRegressor и ей подобных можно прогнозировать конкретные величины кассовых сборов, количество просмотров зрителей и даже итоговый рейтинг кинокартины на «Кинопоиске». Коэффициент детерминации ( R2), основанный на сопоставлении предсказанных и фактических значений для величины сборов, составляет 0,825, для количества просмотров зрителей — 0,774, для итогового рейтинга «Кинопоиска» — 0,796 на тестовых выборках. Точность прогнозирования в абсолютных величинах (сборы, просмотры, баллы) может быть увеличена за счет совершенствования алгоритмов анализа и подбора факторов, влияющих на итоговые величины.
Рис. 5. Коэффициент детерминации для прогнозируемых на основе регрессии и фактических значений рейтинга «Кинопоиска» применительно к российским фильмам
Аналогичные принципы и правила (с другим набором весов) будут работать и для других мировых кинорынков и глобального кинорынка в целом. Российский рынок не является уникальным: на исторических данных можно проанализировать и создать методику отбора для любого локального национального кинорынка, равно как и для глобального.
Предсказуемость киноотрасли и креативной отрасли в целом открывает возможность использования классических кредитно-финансовых инструментов для финансирования, эмиссии акций, облигаций и других финансовых инструментов производителями и дистрибьюторами контента.
Модель «Киберпродюсер» и направления ее совершенствования
В базовую модель прогнозирования результатов кинопроката могут быть добавлены исторические данные по актерам и другим участникам творческих групп. Для повышения точности анализа может быть сделан акцент на сложных ансамблевых моделях машинного обучения и нейросетях.
Дополнительно в перечень анализируемых данных можно включить элементы аудиовизуального ряда (постеры, трейлеры, рекламные материалы), текстовое описание (аннотации, логлайн, синопсис) и сценарий в «американском» формате, который очень хорошо поддается формализации. Естественно, данное направление потребует куда больших вычислительных ресурсов и применения алгоритмов работы с текстом, изображениями и видео.
Условный «Киберпродюсер» при отборе потенциально успешных/неуспешных проектов заведомо опережает любого известного продюсера или киноведа по точности прогнозирования финансового успеха проекта в прокате. Обученная модель может обрабатывать сотни и тысячи кинопроектов. Для предварительной финансовой оценки тысяч проектов масштабного конкурса наподобие «Метода» или «Питчинга дебютантов» предварительно обученной ансамблевой модели или нейросети потребуется всего несколько секунд.
Одно из возможных направлений развития «киберпродюсирования»: оптимальный подбор «гиперпараметров» фильма, принятого в производство, для достижения максимального охвата целевой аудитории по аналогии, например, с методами оптимизации модели машинного обучения GridSearchCV, RandomizedSearchCV и других.
Проект любого фильма можно улучшить за счет подбора длительности, жанровой принадлежности, тиамина, возрастного рейтинга, ключевых актеров, режиссера, композитора и других важных членов творческой группы. Использование инструментальных диагностических средств (трекинг глаз, МРТ, ЭКГ и других) позволит оттестировать ключевые элементы фильма на целевых аудиториях и получить расшифровку эмоций и впечатлений человека от просмотра.
Кто победит в гипотетическом противостоянии ИИ и эксперта «Фонда кино»?
С точки зрения востребованности кинопродукции зрителем и финансовой эффективности, ответ очевиден. Если мы оценим результаты работы всех экспертных советов по критерию окупаемости, то придем к неутешительному выводу: даже расширенный экспертный совет, целиком и полностью состоящий из людей, ошибается чаще, чем искусственный интеллект.
Так, средняя окупаемость российских кинопроектов равна 1,1, даже с учетом проектов, многократно собирающих свой бюджет и приносящих прибыль. Медианная окупаемость российских кинопроектов с 2004 по 2022 год составила всего 0,28. При этом показатели проектов, получивших безвозвратную государственную поддержку, в среднем хуже, чем данные по рынку.
Рекомендованный на основе подбора параметров инвестиционный портфель кинопроектов дает окупаемость до 3,3, то есть в состоянии генерировать десятки и сотни процентов прибыли для производителей и дистрибьюторов российского киноконтента.
С помощью машинного обучения и нейросетей пока принципиально не рассматриваются субъективные темы «художественной ценности» каждого проекта, однако по косвенным данным (меньшая точность прогнозирования итогового зрительского рейтинга и количества просмотров) можно предположить, что искусственный интеллект здесь тоже может превысить способности эксперта-человека. Вероятно, с использованием более сложных алгоритмов машинного обучения и нейросетей и здесь удастся получать более точные выводы, включая прогнозы по получению кинопремий, интерес специализированных и узкоотраслевых целевых аудиторий.