15 июля 2024 года было опубликовано новое руководство по генерации синтетических данных, разработанное совместно с Агентством по науке, технологиям и исследованиям (A*STAR) и поддержанное множеством ведущих организаций. Это руководство, озаглавленное “Privacy Enhancing Technology (PET): Proposed Guide on Synthetic Data Generation”, представляет собой комплексный документ, направленный на обеспечение приватности при обработке данных и минимизацию рисков утечек и нарушений конфиденциальности.
Введение в PET и Синтетические Данные
Технологии, обеспечивающие приватность (Privacy Enhancing Technologies, PETs), представляют собой набор инструментов и методик, которые позволяют обрабатывать, анализировать и извлекать инсайты из данных, не раскрывая при этом личные или коммерчески чувствительные данные. PETs делятся на три основные категории: обфускация данных, зашифрованная обработка данных и федеративная аналитика.
Синтетические данные — это искусственно созданные данные, которые имитируют структуру и характеристики исходных данных. Их использование позволяет сохранять полезные свойства данных при минимизации рисков утечек конфиденциальной информации.
Области Применения Синтетических Данных
Синтетические данные находят широкое применение в различных областях, включая:
- Обучение моделей ИИ и машинного обучения (ML): Создание тренировочных наборов данных для моделей ИИ/ML, особенно в случаях, когда исходные данные редки или имеют высокую стоимость.
- Анализ данных и сотрудничество: Синтетические данные позволяют проводить анализ и сотрудничество между организациями, не подвергая риску конфиденциальность исходных данных.
- Тестирование программного обеспечения: Использование синтетических данных вместо производственных данных для предотвращения утечек данных при тестировании программного обеспечения.
Рекомендации по Генерации Синтетических Данных
Руководство содержит рекомендации и лучшие практики для генерации синтетических данных, включая следующие ключевые шаги:
- Знание исходных данных: Необходимо четко понимать цель и области применения синтетических данных, а также возможные риски.
- Подготовка данных: Исходные данные должны быть очищены и подготовлены для генерации синтетических данных. Это включает выбор необходимых атрибутов и удаление или псевдонимизацию прямых идентификаторов.
- Генерация синтетических данных: Использование различных методов генерации данных, таких как деревья решений, байесовские сети, копулы и глубокие генеративные модели (например, GANs).
- Оценка рисков повторной идентификации: Оценка рисков повторной идентификации путем проведения атак на синтетические данные для выявления возможных уязвимостей.
- Управление остаточными рисками: Внедрение технических, управленческих и договорных мер для минимизации выявленных рисков.
Примеры из Практики
В руководстве приводятся несколько примеров успешного применения синтетических данных:
- J.P. Morgan использовал синтетические данные для улучшения моделей обнаружения мошенничества.
- Mastercard применила синтетические данные для исследования предвзятости моделей ИИ.
- Johnson & Johnson внедрила синтетические данные для анализа медицинских данных, обеспечивая конфиденциальность пациентов.
- A*STAR помогла фармацевтической компании предварительно оценить данные перед их покупкой, используя синтетические копии данных.
Заключение
Синтетические данные представляют собой мощный инструмент для обеспечения приватности и защиты данных, позволяя организациям эффективно использовать свои данные без риска утечек конфиденциальной информации. Новое руководство предоставляет исчерпывающие рекомендации и лучшие практики для генерации синтетических данных, способствуя развитию инноваций и соблюдению нормативных требований.
Это руководство станет незаменимым ресурсом для CIO, CTO, CDO, дата-сайентистов и специалистов по защите данных, помогая им эффективно управлять и защищать данные в цифровую эпоху.
Для более детальной информации и доступа к полному тексту руководства, посетите официальный сайт PDPC и A*STAR.