Новое Руководство по Генерации Синтетических Данных: Обеспечение Приватности и Защита Информации
Искусственный интеллект

Новое Руководство по Генерации Синтетических Данных: Обеспечение Приватности и Защита Информации

15 июля 2024 года было опубликовано новое руководство по генерации синтетических данных, разработанное совместно с Агентством по науке, технологиям и исследованиям (A*STAR) и поддержанное множеством ведущих организаций. Это руководство, озаглавленное “Privacy Enhancing Technology (PET): Proposed Guide on Synthetic Data Generation”, представляет собой комплексный документ, направленный на обеспечение приватности при обработке данных и минимизацию рисков утечек и нарушений конфиденциальности.

Введение в PET и Синтетические Данные

Технологии, обеспечивающие приватность (Privacy Enhancing Technologies, PETs), представляют собой набор инструментов и методик, которые позволяют обрабатывать, анализировать и извлекать инсайты из данных, не раскрывая при этом личные или коммерчески чувствительные данные. PETs делятся на три основные категории: обфускация данных, зашифрованная обработка данных и федеративная аналитика.

Синтетические данные — это искусственно созданные данные, которые имитируют структуру и характеристики исходных данных. Их использование позволяет сохранять полезные свойства данных при минимизации рисков утечек конфиденциальной информации.

Области Применения Синтетических Данных

Синтетические данные находят широкое применение в различных областях, включая:

  1. Обучение моделей ИИ и машинного обучения (ML): Создание тренировочных наборов данных для моделей ИИ/ML, особенно в случаях, когда исходные данные редки или имеют высокую стоимость.
  2. Анализ данных и сотрудничество: Синтетические данные позволяют проводить анализ и сотрудничество между организациями, не подвергая риску конфиденциальность исходных данных.
  3. Тестирование программного обеспечения: Использование синтетических данных вместо производственных данных для предотвращения утечек данных при тестировании программного обеспечения.

Рекомендации по Генерации Синтетических Данных

Руководство содержит рекомендации и лучшие практики для генерации синтетических данных, включая следующие ключевые шаги:

  1. Знание исходных данных: Необходимо четко понимать цель и области применения синтетических данных, а также возможные риски.
  2. Подготовка данных: Исходные данные должны быть очищены и подготовлены для генерации синтетических данных. Это включает выбор необходимых атрибутов и удаление или псевдонимизацию прямых идентификаторов.
  3. Генерация синтетических данных: Использование различных методов генерации данных, таких как деревья решений, байесовские сети, копулы и глубокие генеративные модели (например, GANs).
  4. Оценка рисков повторной идентификации: Оценка рисков повторной идентификации путем проведения атак на синтетические данные для выявления возможных уязвимостей.
  5. Управление остаточными рисками: Внедрение технических, управленческих и договорных мер для минимизации выявленных рисков.

Примеры из Практики

В руководстве приводятся несколько примеров успешного применения синтетических данных:

  • J.P. Morgan использовал синтетические данные для улучшения моделей обнаружения мошенничества.
  • Mastercard применила синтетические данные для исследования предвзятости моделей ИИ.
  • Johnson & Johnson внедрила синтетические данные для анализа медицинских данных, обеспечивая конфиденциальность пациентов.
  • A*STAR помогла фармацевтической компании предварительно оценить данные перед их покупкой, используя синтетические копии данных.

Заключение

Синтетические данные представляют собой мощный инструмент для обеспечения приватности и защиты данных, позволяя организациям эффективно использовать свои данные без риска утечек конфиденциальной информации. Новое руководство предоставляет исчерпывающие рекомендации и лучшие практики для генерации синтетических данных, способствуя развитию инноваций и соблюдению нормативных требований.

Это руководство станет незаменимым ресурсом для CIO, CTO, CDO, дата-сайентистов и специалистов по защите данных, помогая им эффективно управлять и защищать данные в цифровую эпоху.

Для более детальной информации и доступа к полному тексту руководства, посетите официальный сайт PDPC и A*STAR.


Источник: Privacy Enhancing Technology (PET): Proposed Guide on Synthetic Data Generation (15 июля 2024 года, версия 1.0).

admin
Author: admin