
Машинное обучение и искусственный интеллект во фрод-мониторинге

Маркетинговый ход или необходимость?
В своей предыдущей публикации я уже рассказывал об эволюции карточного мошенничества и мошенничества в дистанционных банковских сервисах, интернет- и мобильном банке, а также о параллельном развитии и совершенствовании фрод-мониторинговых систем. В их теперешнем состоянии на практике основное предпочтение до сих пор отдается так называемым rules based системам, т. е. системам, работающим по заранее заданным политикам и правилам, настроенным на выявление определенных операций и поведенческих моделей мошенников.
Во-вторых, он не требовал больших, а соответственно, дорогих вычислительных мощностей (в условиях жестких требований к подобным business critical системам).Признаюсь, я сам долго был активным сторонником такого подхода к построению и функционированию систем мониторинга. Во-первых, данный формат систем «ловил» до 90+% фрода.
В-третьих, пользовательский интерфейс оператора мониторинга не перегружался «лишней» информацией, отвлекающей внимание и порой мешающей оперативно и корректно принимать верные решения.
Между тем в последнее время все чаще в ИТ-сфере, в т. ч. в ее банковском направлении, звучат термины ML (Machine Learning) и AI (Artificial Intelligence), т. е. «машинное обучение» и «искусственный интеллект».
Собственно, нечто похожее уже звучало несколько лет назад применительно к системам фрод-мониторинга и называлось Neural Network, или нейронные сети. Иными словами, уже тогда системам придавался некий математический функционал, действующий по аналогии и как бы имитирующий организацию и функционирование биологических нейронных сетей, позволяющий моделировать процессы, происходящие в человеческом мозге.
Не вдаваясь сильно в технологию и математику, отмечу, что в данных компьютерных системах заявлялись возможности решать задачи распознавания образов, моделей, прогнозирование событий и многое другое, а также возможность самообучаться.
Несмотря на приличную долю «маркетинга» в названии и описании функционала таких решений, их возможности действительно были шире традиционных rules based систем. Но нужны ли они были тогда, когда мошенники действовали в основном стандартно и прямолинейно, благодаря чему не было нужды строить громоздкие и перегруженные информацией поведенческие многомерные связи и модели, рассчитывать сложные профили и осуществлять какой-либо нелинейный математический скоринг?! Подавляющая масса фрода отлавливалась просто и эффективно – на основе пары десятков правил и с минимальным количеством персонала операторов-аналитиков. Да и стоимость таких систем зачастую существенно превышала возможные потери от мошенничества, прогнозируемые на ближайшие годы.
Но, как я уже говорил, техника и технологии мошенничества, как и технологии бизнеса, не стоят на месте. Первые следуют за бизнесом по пятам, а иногда и обгоняют его. С появлением все новых продуктов и услуг, с их тотальной «дистанционизацией» и «диджитализацией», с постоянно растущим денежным наполнением банковский цифровой сектор становится все более привлекательным для мошенников. А те, в свою очередь, применяют всё более изощренные технологии и модели поведения, которые становится все сложнее выявлять и предотвращать, не развивая и не совершенствуя средства, технологии и процедуры мониторинга.
И вот в таких условиях в настоящее время на рынок систем фрод-мониторинга выходят системы с функционалом так называемого «машинного обучения» и «искусственного интеллекта».
Итак, давайте попробуем разобраться, что такое ML и AI на самом деле, насколько обучение – машинное, а интеллект – искусственный, и «интеллект» ли это вообще?
Машинное обучение – кто кого учит?
Машинное обучение можно считать одним из базовых подразделов искусственного интеллекта, использующих методы и принципы построения алгоритмов, способных обучаться. Различают два типа обучения. Первый из них – обучение по прецедентам. В нашем случае это прецеденты совершившихся фактов мошеннических операций. Такое обучение основано на выявлении общих закономерностей по часто повторяющимся данным и признакам, характерным для ряда схожих событий.
Второй тип – дедуктивное обучение, которое предполагает формализацию знаний экспертов и их перенос «в компьютер» в виде соответствующих алгоритмов и правил. Но такой тип «обучения» больше относится к «экспертным» системам мониторинга, которые в различной мере в настоящее время уже используются на рынке, а написание правил мониторинга, фильтров, скоринговых алгоритмов и т. п. с их загрузкой в систему – собственно и есть обучение этой системы. С выявлением и экспертной оценкой появляющихся новых типов и видов мошенничества, т. е. новых прецедентов, система постоянно «дообучивается». Поэтому термин машинное обучение в нашем случае – это все-таки обучение по прецедентам, и эти понятия можно считать синонимами.
Нужно сказать, что на практике машинное обучение – не только математическая, но и практическая задача. Одна лишь теория не приводит сразу к методам и алгоритмам, применимым во фрод-мониторинге. Чтобы заставить их корректно работать, необходимо изыскивать, тестировать и применять дополнительные прецедентные признаки и триггеры, подтверждающие и развивающие способность системы эффективно выявлять и предотвращать мошеннические операции. Кроме того, необходимо постоянно обрабатывать и анализировать прецеденты ложных срабатываний системы, также внося необходимые коррективы в процесс ее «обучения».
А это совсем разные вещи
Иными словами, «машинное обучение» – скорее «обучение машины» экспертом по заранее заданным условиям с ее дальнейшим «самообучением» согласно заложенным в нее правилам и алгоритмам этого «самообучения».
Таким образом можно признать, что функционал машинного обучения действительно присутствует (хотя и в разной степени) и используется в современных системах фрод-мониторинга, которые заявляют о его наличии. Но при этом стоит понимать, что «машина» в лице системы сама не обучается – ее «учат учиться», причем учиться быстро и правильно, постоянно контролируя и «подкручивая гайки», тем самым обеспечивая корректность работы системы и постоянное снижение уровня ложного срабатывания либо несрабатывания – т. е. уровень false/positive.
Artificial Intelligence – трудности перевода?
Теперь несколько слов об Artificial Intelligence (AI), который у нас интерпретируют как «искусственный интеллект». Сразу хочется сказать, что такой перевод с английского, мягко говоря, не совсем правильный, несмотря на то, что звучит кратко и вполне «маркетингово». В английском языке – словосочетание artificial intelligence не имеет той слегка «очеловеченной» окраски из области популярной фантастики, которую оно приобрело в этом довольно неудачном переводе на русский. Слово intelligence означает «умение рассуждать разумно», а вовсе не «интеллект», для которого есть английский аналог intellect.
Будет правильным утверждать, что современные компьютеры принципиально не отличаются от своих предков с перфокартами, где «ноль» – отсутствие сигнала, а «единица» – его наличие. Компьютер не способен параллельно решать несколько задач, как человек – только последовательно, через систему прерываний. Данный принцип пытаются ломать в создании так называемых «квантовых» компьютеров, но дальше единичных прототипов, решающих фиксированные алгоритмы, пока еще не продвинулись.
В итоге какие бы задачи ни ставились перед вычислительной машиной – от распознавания образов до игры в шахматы, – всё сводится к математическому перебору вариантов и выбору / расчету оптимального из них. Причем, что особенно важно – оптимального с точки зрения целевой функции и алгоритма, заранее заданных человеком, а не «придуманных» этой машиной. И в этом уже есть некие пересечения с «машинным обучением», не правда ли? Собственно, сравнивать интеллект машины и человека нельзя. Это совершенно разные процессы.
Можно сказать, что вычислительные способности машины сильно преувеличены. Да, в роли калькулятора человек не может сравниться с компьютером. Но что больше всего съедает ресурс компьютера? Наверно, любой геймер ответит – это обработка видеоданных. А вот у человека с этим нет проблем. Обработка и анализ видеоинформации человеком на порядок превосходят возможности машины, а если учесть, что параллельно обрабатывается и аудиоинформация, и данные «систем» обоняния, и осязания, координации движений – и все это в онлайн-режиме, и по сути – в аналоговом формате на уровне образов, а не цифровых последовательностей…
Распознавание образов для машины – сложнейшая задача. А связь, пусть даже распознанного образа с его функциональным назначением, еще сложнее. Как машине сравнить холодное с мягким?
Говоря об искусственном интеллекте, обыватель интуитивно подставляет в уме не «интеллект», а «разум». А это совсем разные вещи. Интеллект – умение опционально решать поставленные задачи. А разум? Наверно, точного определения до сих пор не существует. Разум – это прежде всего сознание, самосознание, наличие воли, цели, мотивации, способность к обучению и самообучению, рациональное поведение, интуиция. И это все – проявление живого мира, но не машины. Машине, например, в отличие от человека, не может быть присуща как опция воля к «иррациональным» действиям, таким как покорение горных вершин, освоение космоса. Взбираться на скалу, лететь в космос с риском разбиться, что может быть более иррационально? А машина, тем более система мониторинга, должна быть только «рациональной», а ведь любой рациональный функционал – это всегда заранее заданные и запрограммированные rules based поведение и реакции.
Исходя из этого, я убрал бы пока из ИТ-обихода термин AI в существующем понимании, прежде всего как слишком маркетинговое понятие, опасно подменяющее реальность. Хотя элементы именно «intelligence», такие как системы обработки и анализа больших массивов данных (Big Data) и принятия решений в современных системах фрод-мониторинга, просто необходимы. Так как в настоящее время (если говорить об операциях клиентов) мы имеем десятки, а порой и сотни признаков и параметров, присущих отдельно взятой операции, как финансовых, так и нефинансовых (в т. ч. биометрических) – от суммы операции до параметров устройства, с которого осуществлялась эта операция со слепком «почерка» клиента, набивающего на клавиатуре или водящего пальцем по экрану смартфона. А анализ этих данных – это не просто matching & scoring по цепочкам правил, но и анализ профилей, поведенческих моделей, предиктивных сценариев с глубоким использованием высшей математики со всеми ее разделами, «статистиками» и «вероятностями». И конечно, такая система должна «обучаться»! Да, пусть она будет обучаться не совсем сама, а, как я уже отмечал, обучаться так, как ее «обучили» мы. Вот такой симбиоз «машинного обучения» и «искусственного интеллекта» – вполне честный и жизнеспособный, – необходим на практике и уже довольно востребован!