Новое Руководство по Генерации Синтетических Данных: Обеспечение Приватности и Защита Информации

15 июля 2024 года было опубликовано новое руководство по генерации синтетических данных, разработанное совместно с Агентством по науке, технологиям и исследованиям (A*STAR) и поддержанное множеством ведущих организаций. Это руководство, озаглавленное «Privacy Enhancing Technology (PET): Proposed Guide on Synthetic Data Generation», представляет собой комплексный документ, направленный на обеспечение приватности при обработке данных и минимизацию рисков утечек и нарушений конфиденциальности.

PET_Proposed_guide_on_synthetic_data_generation_1721221003 Скачать

Введение в PET и Синтетические Данные

Технологии, обеспечивающие приватность (Privacy Enhancing Technologies, PETs), представляют собой набор инструментов и методик, которые позволяют обрабатывать, анализировать и извлекать инсайты из данных, не раскрывая при этом личные или коммерчески чувствительные данные. PETs делятся на три основные категории: обфускация данных, зашифрованная обработка данных и федеративная аналитика.

Синтетические данные — это искусственно созданные данные, которые имитируют структуру и характеристики исходных данных. Их использование позволяет сохранять полезные свойства данных при минимизации рисков утечек конфиденциальной информации.

Области Применения Синтетических Данных

Синтетические данные находят широкое применение в различных областях, включая:

Обучение моделей ИИ и машинного обучения (ML): Создание тренировочных наборов данных для моделей ИИ/ML, особенно в случаях, когда исходные данные редки или имеют высокую стоимость.
Анализ данных и сотрудничество: Синтетические данные позволяют проводить анализ и сотрудничество между организациями, не подвергая риску конфиденциальность исходных данных.
Тестирование программного обеспечения: Использование синтетических данных вместо производственных данных для предотвращения утечек данных при тестировании программного обеспечения.

Примеры из Практики

В руководстве приводятся несколько примеров успешного применения синтетических данных:

J.P. Morgan использовал синтетические данные для улучшения моделей обнаружения мошенничества.
Mastercard применила синтетические данные для исследования предвзятости моделей ИИ.
Johnson & Johnson внедрила синтетические данные для анализа медицинских данных, обеспечивая конфиденциальность пациентов.
A*STAR помогла фармацевтической компании предварительно оценить данные перед их покупкой, используя синтетические копии данных.

Заключение

Синтетические данные представляют собой мощный инструмент для обеспечения приватности и защиты данных, позволяя организациям эффективно использовать свои данные без риска утечек конфиденциальной информации. Новое руководство предоставляет исчерпывающие рекомендации и лучшие практики для генерации синтетических данных, способствуя развитию инноваций и соблюдению нормативных требований.

Это руководство станет незаменимым ресурсом для CIO, CTO, CDO, дата-сайентистов и специалистов по защите данных, помогая им эффективно управлять и защищать данные в цифровую эпоху.

Для более детальной информации и доступа к полному тексту руководства, посетите официальный сайт PDPC и A*STAR.

Источник: Privacy Enhancing Technology (PET): Proposed Guide on Synthetic Data Generation (15 июля 2024 года, версия 1.0).

Author: admin

Еженедельный дайджест КБ, ИИ и ИТ (16–22 января 2026)

1) Лидер Black Basta идентифицирован и объявлен в розыск в...

adminЯнв 22, 2026

Руководство MAS/MindForge по управлению рисками искусственного интеллекта в финансовом секторе

Руководство MAS/MindForge по управлению рисками искусственного интеллекта в финансовом секторе:...