Способи генерації синтетичних даних для навчання ШІ без витоку інформації

Автор(и)

DOI:

https://doi.org/10.31866/2617-796X.8.2.2025.347884

Ключові слова:

синтетичні дані, ML зі збереженням приватності, диференційна приватність, дифузійні моделі, генеративно-змагальні мережі (GAN), варіаційні автоенкодери (VAE), ризик атак на визначення членства

Анотація

Мета дослідження – визначити способи генерування синтетичних навчальних даних без витоку персональної інформації за допомогою порівняння трьох підходів – GAN із диференційною приватністю, варіаційних автоенкодерів (VAE) та дифузійних моделей – з огляду на компроміс «приватність / корисність», доменні особливості та процедури аудиту.

Методи дослідження. Проведено обмежений систематичний огляд 12 рецензованих досліджень (2022–2025). Здійснено відбір назв та анотацій, повторну оцінку повних текстів і уніфікацію поданих метрик. Розміри ефекту перераховано заново відносно базових показників кожного дослідження; якісний порівняльний аналіз із підрахунком голосів визначив Парето-ефективні області. Докази щодо конфіденційності охоплювали бюджети диференційної приватності, AUC (площу під ROC-кривою) для атак на визначення членства та перевірки на дублювання. Нові дані не збирали.

Наукова новизна. (i) Міжмодальний синтез, що прив’язує родини генераторів до фронтирів «приватність / корисність», а не до одиничних бенчмарків; (ii) показано, що дифузійні моделі з каліброваним шумом на ранніх кроках стабільно знижують витоки за зіставної якості; (iii) метрика «подібності без перекриттів», яка поєднує надлишковість найближчих сусідів із межами DP для оцінювання ризику, що може бути предметом зовнішнього аудиту; (iv) доменні евристики, які пояснюють ефективність KD-дерев для зміцнення GAN у табличних даних.

Висновки. Дифузійні моделі з налаштованим шумом наразі забезпечують найкращий баланс приватності та корисності у високоризикових застосунках; GAN доцільні за м’якших вимог або обмежених ресурсів (із постобробкою), VAE-гібриди – для проміжних режимів. Практично це означає: 1) розміщувати шум там, де динаміка моделі його «розсіює»; 2) застосовувати запропоновану метрику аудиту разом із тестами на членство; 3) узгоджувати вибір генератора з доменом (медичні зображення, фінансові ряди, журнали рекомендаційних систем).

Біографія автора

Марія Позднякова, Дніпровський національний університет імені Олеся Гончара

Магістр

Посилання

Alabdulwahab, S., Kim, Y.-T. and Son, Y., 2024. Privacy-Preserving Synthetic Data Generation Method for IoT-Sensor Network IDS Using CTGAN. Sensors, [e-journal] 24 (22), 7389. https://doi.org/10.3390/s24227389

Cai, X., Sun, Y., Lin, Z., Li, R. and Cai, T., 2025. Differentially private synthetic data generation for robust information fusion. Information Fusion, [e-journal] 124, 103373. https://doi.org/10.1016/j.inffus.2025.103373

Kairouz, P., Mcmahan, H.B., Avent, B., Bellet, A., Bennis, M., Bhagoji, A.N. … and Zhao, S., 2021. Advances and Open Problems in Federated Learning. Foundations and Trends® in Machine Learning, [e-journal] 14 (1–2), pp.1-210. http://dx.doi.org/10.1561/2200000083

Li, K., Gong, C., Li, Z., Zhao, Y., Hou, X. and Wang, T., 2023. PrivImage: Differentially Private Synthetic Image Generation using Diffusion Models with Semantic-Aware Pretraining. arXiv, [online] October 07. Available at: <https://arxiv.org/pdf/2311.12850> [Accessed 30 July 2025].

Liu, F., Cheng, Z., Chen, H., Wei, Y., Nie, L. and Kankanhalli, M., 2022. Privacy-preserving synthetic data generation for recommendation systems. In: SIGIR '22: The 45th International ACM SIGIR Conference on Research and Development in Information Retrieval, Madrid, Spain, July 11-15, 2022, [e-journal]. New York: Association for Computing Machinery, pp.1379-1389. https://doi.org/10.1145/3477495.3532044

McMahan, B., Moore, E., Ramage, D., Hampson, S. and Arcas, B.A., 2017. Communication-Efficient Learning of Deep Networks from Decentralized Data. In: Proceedings of the 20th International Conference on Artificial Intelligence and Statistics, Fort Lauderdale, 20-22 April 2017. [online] AISTATS, Vol. 54, pp.1273-1282. Available at: <https://proceedings.mlr.press/v54/mcmahan17a.html> [Accessed 30 July 2025].

Mohassel, P. and Zhang, Y., 2017. SecureML: A System for Scalable Privacy-Preserving Machine Learning. In: 2017 IEEE Symposium on Security and Privacy. [online] Institute of Electrical and Electronics Engineers, pp.19-38. Available at: <https://eprint.iacr.org/2017/396.pdf> [Accessed 30 July 2025].

Papernot, N., Abadi, M., Erlingsson, U., Goodfellow, I. and Talwar, K., 2017. Semi-supervised knowledge transfer for deep learning from private training data. In: 5th International Conference on Learning Representations, ICLR 2017, Conference Track Proceedings Toulon, France, April 24-26, 2017. [online] Toulon: Curran Associates, pp.2890-2906. Available at: <https://openreview.net/pdf?id=HkwoSDPgg> [Accessed 30 July 2025].

Pezoulas, V.C., Zaridis, D.I., Mylona, E., Androutsos, C., Apostolidis, K., Tachos, N.S. and Fotiadis, D.I., 2024. Synthetic data generation methods in healthcare: A review on open-source tools and methods. Computational and Structural Biotechnology Journal, [e-journal] 23, pp.2892-2910. https://doi.org/10.1016/j.csbj.2024.07.005

Sanchez-Serrano, P., Rios, R. and Agudo, I., 2025. A decision framework for privacy-preserving synthetic data generation. Computers and Electrical Engineering, [e-journal] 126, 110468. https://doi.org/10.1016/j.compeleceng.2025.110468

Sattarov, T., Schreyer, M., and Borth, D., 2024. Differentially Private Federated Learning of Diffusion Models for Synthetic Tabular Data Generation. arXiv, [online] December 20. Available at: <https://arxiv.org/html/2412.16083v1> [Accessed 30 July 2025].

Steier, A., Ramaswamy, L., Manoel, A. and Haushalter, A., 2025. Synthetic Data Privacy Metrics. arXiv, [online] January 07. Available at: <https://arxiv.org/pdf/2501.03941> [Accessed 30 July 2025].

Tschannen, M., Eastwood, C. and Mentzer, F., 2024. GIVT: Generative infinite-vocabulary transformers. arXiv, [online] July 17. Available at: <https://arxiv.org/pdf/2312.02116> [Accessed 30 July 2025].

Wang, Y.-X., Balle, B. and Kasiviswanathan, S.P., 2018. Subsampled Rényi Differential Privacy and Analytical Moments Accountant. arXiv, [online] December 4. Available at: <https://arxiv.org/pdf/1808.00087> [Accessed 30 July 2025].

Xie, C., Lin, Z., Backurs, A., Gopi, S., Yu, D., Inan, H. A., Nori, H., Jiang, H., Zhang, H., Lee, Y.T., Li, B. and Yekhanin, S., 2024. Differentially Private Synthetic Data via Foundation Model APIs 2: Text. arXiv, [online] July 23. Available at: <https://arxiv.org/pdf/2403.01749> [Accessed 30 July 2025].

Yao, Z., Krčo, N., Ganev, G. and de Montjoye, Y.-A., 2025. The DCR Delusion: Measuring the Privacy Risk of Synthetic Data. arXiv, [online] May 02. Available at: <https://arxiv.org/pdf/2505.01524> [Accessed 30 July 2025].

##submission.downloads##

Опубліковано

2025-12-29

Як цитувати

Позднякова, М. (2025). Способи генерації синтетичних даних для навчання ШІ без витоку інформації. Цифрова платформа: інформаційні технології в соціокультурній сфері, 8(2), 339–354. https://doi.org/10.31866/2617-796X.8.2.2025.347884

Номер

Розділ

Інформаційна безпека та цифрова економіка