19 июля 2023, 12:50
Количество просмотров 1352

Могут ли инвестиции в кинематограф быть прибыльнее рынка акций и стабильнее сектора облигаций?

Наш постоянный автор Антон Дождиков, аналитик данных и кандидат политических наук, дополняет и развивает начатую ранее тему о том, что национальный коммерческий кинематограф может приносить десятки и сотни процентов прибыли и стать инвестиционно привлекательной отраслью с внедрением процедур объективной оценки и разработки проектов с помощью data-аналитики.
Могут ли инвестиции в кинематограф быть прибыльнее рынка акций и стабильнее сектора облигаций?

Современный российский и мировой коммерческий кинематограф является уникальной сферой креативной экономики с точки зрения data-аналитики. Он предсказуем, обладает четкими трендами и прекрасно поддается прогнозированию: от окупаемости проекта в прокате до абсолютных значений по сборам, просмотрам и даже итоговым зрительским рейтингам. Индивидуальные показатели каждого проекта могут быть достаточно волатильными, однако совокупный результат при «портфельном инвестировании» (20–30 проектов) более стабилен, чем при работе с привычными биржевыми и внебиржевыми инвестиционными инструментами.

На исторических данных российского проката можно определить, окупится ли фильм, т. е. соберет ли два своих бюджета или нет, с точностью до 0,95 с помощью алгоритмов классификации. Если условный инвестор с 2012 года по настоящее время вкладывался в 15–20 российских фильмов ежегодно, историческая годовая доходность его портфеля инвестиций могла бы доходить до 130%. Заметим, прогноз можно создавать, пока производство фильма еще не началось, в рамках «продюсерского питчинга» перед частными инвесторами или экспертной комиссией Министерства культуры или Фонда кино.

Если разработанная ранее модель классификатора успеха/неуспеха фильма в прокате использовала всего 8 параметров и предполагала только двухклассовую градацию (проект окупится или не окупится в прокате), новая модель содержит расширенный набор данных (25 признаков) и предполагает возможность отнесения проекта к одному из четырех типов по критерию окупаемости.

Мировой опыт

Использование алгоритмов машинного обучения и нейросетей для анализа кинопроката является распространенной практикой. Один из объектов изучения — настроения целевой аудитории в социальных сетях и их влияние на успех фильма. Большие данные используются для прогнозирования успеха фильмов на основе активности онлайн-пользователей. Алгоритмы машинного обучения применяются для анализа настроений в социальных сетях, также осуществляется анализ мнений в обзорах и комментариях на специализированных киноресурсах. С помощью количественных методов прогнозируются награды киноакадемий, такие как «Оскар». Современные аналитики предсказывают даже рейтинг IMDb. Количественной оценке может быть подвергнута эмоциональная реакция зрителей с помощью диагностических средств, включая ЭКГ, МРТ, систему трекинга глаз и «полиграф».

Рис. 1. Фрагмент базы данных российского кинопроката с 2004 года по апрель 2022 года (N=1469), на которой обучались модели GradientBoostingClassifier и GradientBoostingRegressor

pict-1.webp

Методики прогнозирования успеха фильма в прокате создаются как в Голливуде и  Европе, так и в индийском Болливуде. Абсолютным лидером в этой отрасли дата-аналитики по числу публикаций является Китай: аналитики с помощью «машинного зрения» изучают визуальные данные — афиши и постеры фильмов и прогнозируют на их основе успех проекта в прокате. Корейские дата-аналитики преуспели в анализе текстов рецензий. Исследования с помощью алгоритмов машинного обучения проводятся и для локальных кинорынков, например Тайваня. Интеллектуальный анализ данных кинопроизводства применяется даже на материалах Нигерии.

В России в научной сфере имеется крайне малое количество публикаций по данной теме. Одним из первых отметим проект ВШЭ «Методика нейросетевого прогнозирования кассовых сборов кинофильмов», основанный, к сожалению, на метриках и показателях американского рынка.

Одним из самых перспективных и доступных направлений для прогнозирования является анализ исторических данных проката. Кинотеатральная аудитория достаточно консервативна, жанровые предпочтения и вкусы меняются очень медленно даже в современных условиях, критерии окупаемости, зависимости от жанра, длительности, времени выхода и многие другие факторы также в большинстве случаев остаются стабильными.

Рис. 2. Фрагмент базы данных российского кинопроката по апрель 2023 года (N=194), на которой проходили проверку модели, основанные на GradientBoostingClassifier и GradientBoostingRegressor

pict-2.webp
«Если абстрагироваться от эмоций и рассуждений о „художественной ценности“, кинематограф и индустрия развлечений в целом более предсказуемы, чем цены на сырьевые ресурсы, курсы акций, облигаций и криптовалют»

Результаты анализа российского проката

Для оценки возможностей точного прогнозирования финансового результата и других показателей фильма воспользуемся данными российского кинорынка с 2004 года по май 2023 года. 25-факторная модель ансамблевая модель, основанная на  GradientBoostingClassifier, обученная на несимметричной выборке из 1028 фильмов и протестированная на тестовой выборке из 441 кинофильма, показала точность ( accuracy) в 0,95 и значение ROC_AUC = 0,97 [площадь под кривой ROC показывает эффективность алгоритма: чем она ближе к единице, тем работа алгоритма совершеннее], что открывает дорогу к возможному коммерческому использованию результатов прогнозирования.

Рис. 3. Показатель эффективности ансамблевой двухклассовой модели прогнозирования результатов кинопроекта в прокате

pict-3.webp
В мире «гиперпостмодерна» условные «зрелища» (креативные отрасли) и прибыльнее, и более предсказуемы, чем «хлеб» (традиционные отрасли экономики)

Модель четырехклассового классификатора («провал фильма», «частичная окупаемость», «окупаемость» и «прибыль свыше 100%») заранее, до начала производственного цикла, может отбирать как потенциально провальные, так и гиперуспешные проекты с высокой точностью соотнесения именно к крайним классам. Рациональный инвестор, вооруженный подобным знанием, никогда не поддастся на уловки хитрого продюсера, рассчитывающего заработать «с производства». Вместо этого он выберет перспективный проект (а для надежности — несколько), вложится в него и поможет довести до проката, заработав свою долю прибыли с «результата».

Рис. 4. Показатель эффективности ансамблевой четырехклассовой модели прогнозирования результатов кинопроекта в прокате

pict-4.webp

С помощью регрессионной модели модель GradientBoostingRegressor и ей подобных можно прогнозировать конкретные величины кассовых сборов, количество просмотров зрителей и даже итоговый рейтинг кинокартины на «Кинопоиске». Коэффициент детерминации ( R2), основанный на сопоставлении предсказанных и фактических значений для величины сборов, составляет 0,825, для количества просмотров зрителей — 0,774, для итогового рейтинга «Кинопоиска» — 0,796 на тестовых выборках. Точность прогнозирования в абсолютных величинах (сборы, просмотры, баллы) может быть увеличена за счет совершенствования алгоритмов анализа и подбора факторов, влияющих на итоговые величины.

Рис. 5. Коэффициент детерминации для прогнозируемых на основе регрессии и фактических значений рейтинга «Кинопоиска» применительно к российским фильмам

pict-5.webp

Аналогичные принципы и правила (с другим набором весов) будут работать и для других мировых кинорынков и глобального кинорынка в целом. Российский рынок не является уникальным: на исторических данных можно проанализировать и создать методику отбора для любого локального национального кинорынка, равно как и для глобального.

Предсказуемость киноотрасли и креативной отрасли в целом открывает возможность использования классических кредитно-финансовых инструментов для финансирования, эмиссии акций, облигаций и других финансовых инструментов производителями и дистрибьюторами контента.

Модель «Киберпродюсер» и направления ее совершенствования

В базовую модель прогнозирования результатов кинопроката могут быть добавлены исторические данные по актерам и другим участникам творческих групп. Для повышения точности анализа может быть сделан акцент на сложных ансамблевых моделях машинного обучения и нейросетях.

Дополнительно в перечень анализируемых данных можно включить элементы аудиовизуального ряда (постеры, трейлеры, рекламные материалы), текстовое описание (аннотации, логлайн, синопсис) и сценарий в «американском» формате, который очень хорошо поддается формализации. Естественно, данное направление потребует куда больших вычислительных ресурсов и применения алгоритмов работы с текстом, изображениями и видео.

Условный «Киберпродюсер» при отборе потенциально успешных/неуспешных проектов заведомо опережает любого известного продюсера или киноведа по точности прогнозирования финансового успеха проекта в прокате. Обученная модель может обрабатывать сотни и тысячи кинопроектов. Для предварительной финансовой оценки тысяч проектов масштабного конкурса наподобие «Метода» или «Питчинга дебютантов» предварительно обученной ансамблевой модели или нейросети потребуется всего несколько секунд.

kiber.webp
«Киберпродюсер» в представлении нейросети «Кандинский 2.1»

Одно из возможных направлений развития «киберпродюсирования»: оптимальный подбор «гиперпараметров» фильма, принятого в производство, для достижения максимального охвата целевой аудитории по аналогии, например, с методами оптимизации модели машинного обучения GridSearchCV, RandomizedSearchCV и других.

Проект любого фильма можно улучшить за счет подбора длительности, жанровой принадлежности, тиамина, возрастного рейтинга, ключевых актеров, режиссера, композитора и других важных членов творческой группы. Использование инструментальных диагностических средств (трекинг глаз, МРТ, ЭКГ и других) позволит оттестировать ключевые элементы фильма на целевых аудиториях и получить расшифровку эмоций и впечатлений человека от просмотра.

Кто победит в гипотетическом противостоянии ИИ и эксперта «Фонда кино»?

С точки зрения востребованности кинопродукции зрителем и финансовой эффективности, ответ очевиден. Если мы оценим результаты работы всех экспертных советов по критерию окупаемости, то придем к неутешительному выводу: даже расширенный экспертный совет, целиком и полностью состоящий из людей, ошибается чаще, чем искусственный интеллект.

Так, средняя окупаемость российских кинопроектов равна 1,1, даже с учетом проектов, многократно собирающих свой бюджет и приносящих прибыль. Медианная окупаемость российских кинопроектов с 2004 по 2022 год составила всего 0,28. При этом показатели проектов, получивших безвозвратную государственную поддержку, в среднем хуже, чем данные по рынку.

Рекомендованный на основе подбора параметров инвестиционный портфель кинопроектов дает окупаемость до 3,3, то есть в состоянии генерировать десятки и сотни процентов прибыли для производителей и дистрибьюторов российского киноконтента.

С помощью машинного обучения и нейросетей пока принципиально не рассматриваются субъективные темы «художественной ценности» каждого проекта, однако по косвенным данным (меньшая точность прогнозирования итогового зрительского рейтинга и количества просмотров) можно предположить, что искусственный интеллект здесь тоже может превысить способности эксперта-человека. Вероятно, с использованием более сложных алгоритмов машинного обучения и нейросетей и здесь удастся получать более точные выводы, включая прогнозы по получению кинопремий, интерес специализированных и узкоотраслевых целевых аудиторий.

В прогнозировании кассовых сборов и показателей проката искусственный интеллект опережает эксперта-человека. А в ближайшем будущем, возможно, опередит и по показателям «духовности» и «художественной ценности»

PLUSworld в соцсетях:
telegram
vk
dzen
youtube