
Что учесть при сборе данных для обучения ИИ: глобальные советы юриста

Стоит выделить три ключевых требования к наборам данных, которые можно использовать для обучения или дообучения ИИ моделей. Они должны быть: качественными, полученными законным путем и безопасными.
Качественные данные
Качественный датасет – это не любая совокупность данных, а репрезентативный, релевантный и корректно размеченный набор данных. С юридической точки зрения это важно для получения непредвзятых результатов работы ИИ, исключения какой-либо дискриминации.
Например, в апреле 2023 года к российской ИИ-системе Kandinsky (генерация изображений) возникли претензии от политиков, в частности от Сергея Миронова, руководителя фракции «Справедливая Россия — За правду» в ГД РФ, о том, что при введении запросов, связанных с Россией, результаты были менее точными, чем при запросах о США и других странах [1]. Компания-разработчик не сообщила о причинах, но можно предположить, что это связано с обучением преимущественно на зарубежных датасетах и преимущественного использования английского языка по сравнению с русским при работе в интернете.
Другим примером является скандал вокруг Google Photos в 2015 году, когда ИИ система некорректно квалифицировала темнокожих людей на фотографиях[2].
Снизить такие риски можно, обеспечивая должный контроль за качеством датасетов и учитывая еще на этапе обучения, с какой целевой аудиторией будет работать ИИ-система.
Законно собранные данные
Проблемы, возникшие в связи с качеством данных, обычно можно решить за счет дообучения ИИ модели. Если же использовать незаконно собранные данные, это может привести к необходимости полностью уничтожить обученную на таких данных ИИ-модель – такие требования начала предъявлять Федеральная торговая комиссия США с 2019 года[3].
При оценке законности собираемых данных необходимо, в первую очередь, обращать внимание на 3 аспекта:
1) Договорные условия (права использования)
Некоторые бесплатно распространяемые датасеты содержат в своих правилах ограничения на их использование для обучения ИИ-моделей, которые компания-разработчик планирует реализовывать за плату.
2) Вопросы интеллектуальной собственности
В настоящее время по всему миру суды рассматривают иски правообладателей о незаконности обучения ИИ моделей на принадлежащих им объектах интеллектуальной собственности (картинах, книгах, кинофильмах и т. п.) без выплаты вознаграждения. Одно из наиболее громких за последнее время – дело New York Times vs OpenAI[4], в котором издатель требует не только возмещения убытков, но и полного уничтожения датасета, на котором обучаются новые модели ChatGPT и формирования нового, не содержащего незаконно используемые произведения.
Персональные данные
Регулирование в данной области отличается в зависимости от страны (региона). Например, самым жестким считается регулирование в Европейском союзе (GDPR), а наименее жестким (из числа развитых стран) – в США. Но даже при нахождении компании-разработчика ИИ-модели в юрисдикции с менее жесткими правилами в области обработки персональных данных, компании, использующие данную ИИ-модель в других странах, могут столкнуться с претензиями, если будет выявлено, что при обучении были незаконно использованы персональные данные граждан таких стран (например, жалоба в адрес X (ex-Twitter) со стороны NOYB[5]).
В первую очередь, необходимо обращать внимание на способ получения персональных данных, используемых для обучения ИИ-модели. Так, например, широко используемый парсинг (скрейпинг) данных в интернете в последнее время все чаще рассматривается как потенциальное нарушение, если таким образом собираются персональные данные (см., например, совместное заявление регуляторов в области персональных данных некоторых стран ЕС[6]).
Еще один ключевой вопрос – основание обработки персональных данных для целей обучения ИИ моделей. Так, например, в указанном выше деле против Х (ex-Twitter) истцы заявляют о необходимости сбора согласий пользователей для обучения на их данных ИИ-модели, тогда как сама компания настаивает на возможности использования «законного интереса» (legitimate interest). По этому делу ирландская комиссия по защите персональных данных, рассматривающая жалобу, запросила Европейский совет по персональным данным (European Data Protection Board). В опубликованном в декабре 2024 г. Мнении[7] EDPB не дал четкого ответа на этот вопрос, а лишь указал критерии для оценки допустимости использования законного интереса как правового основания для обучения ИИ модели на персональных данных граждан ЕС. Соответственно, на практике многое будет зависеть от конкретной ситуации.
Следует также отметить, что обучение ИИ модели на данных пользователей без их согласия может повлечь не только строго юридические, но и бизнес-последствия: так, например, компания Zoom была вынуждена «откатить» назад изменения своих правил после того, как пользователи начали массово возмущаться заявлением компании о том, что на их данных будет обучаться собственная ИИ-модель компании[8].
Безопасные данные
Третьим аспектом, о котором важно заботиться компаниям, является недопущение заражения их ИИ модели (data poisoning[9]), например, за счет намеренного внедрения в датасет ложной или искаженной информации для влияния на результаты работы ИИ модели.
Данный риск особенно высок при использовании открытых (open-source) и свободно распространяемых датасетов с платформ-агрегаторов, не осуществляющих серьезный контроль за теми, кто публикует эти датасеты.
Вопросы безопасности наборов данных имеют значение, прежде всего, для ИИ-моделей, используемых в предсказательных ИИ-системах (например, в финансовых организациях), судебных помощников, ИИ-систем в области информационной безопасности. В этих сферах злоумышленники могут использовать последствия заражения для финансовой и иной выгоды.
Подводя итог, следует отметить, что описанные выше вопросы – лишь часть из тех, что возникают у компаний при разработке своих или использовании сторонних ИИ-моделей. Кроме того, сейчас в области ИИ постоянно развиваются не только технологии, но и регулирование; причем в разных странах по-разному. Поэтому важно при поиске ответов учитывать детали конкретного бизнес-кейса и страну (регион, группу стран), законодательство которых будет применимо в каждом конкретном случае.
[1] https://www.kommersant.ru/doc/5954264
[2] https://www.bbc.com/news/technology-33347866
[3] См., например: дело Cambridge Analytic (https://www.ftc.gov/news-events/news/press-releases/2019/12/ftc-issues-opinion-order-against-cambridge-analytica-deceiving-consumers-about-collection-facebook), дело Everalbum (https://www.ftc.gov/system/files/documents/cases/1923172_-_everalbum_decision_final.pdf)
[4] https://www.npr.org/2025/01/14/nx-s1-5258952/new-york-times-openai-microsoft
[5] https://www.heise.de/en/news/Noyb-vs-X-Illegal-data-collection-for-AI-training-9833306.html
[6] https://ico.org.uk/media/about-the-ico/documents/4026232/joint-statement-data-scraping-202308.pdf
[7] https://www.edpb.europa.eu/system/files/2024-12/edpb_opinion_202428_ai-models_en.pdf
[9] https://www.crowdstrike.com/en-us/cybersecurity-101/cyberattacks/data-poisoning/