Способи генерації синтетичних даних для навчання ШІ без витоку інформації
DOI:
https://doi.org/10.31866/2617-796X.8.2.2025.347884Ключові слова:
синтетичні дані, ML зі збереженням приватності, диференційна приватність, дифузійні моделі, генеративно-змагальні мережі (GAN), варіаційні автоенкодери (VAE), ризик атак на визначення членстваАнотація
Мета дослідження – визначити способи генерування синтетичних навчальних даних без витоку персональної інформації за допомогою порівняння трьох підходів – GAN із диференційною приватністю, варіаційних автоенкодерів (VAE) та дифузійних моделей – з огляду на компроміс «приватність / корисність», доменні особливості та процедури аудиту.
Методи дослідження. Проведено обмежений систематичний огляд 12 рецензованих досліджень (2022–2025). Здійснено відбір назв та анотацій, повторну оцінку повних текстів і уніфікацію поданих метрик. Розміри ефекту перераховано заново відносно базових показників кожного дослідження; якісний порівняльний аналіз із підрахунком голосів визначив Парето-ефективні області. Докази щодо конфіденційності охоплювали бюджети диференційної приватності, AUC (площу під ROC-кривою) для атак на визначення членства та перевірки на дублювання. Нові дані не збирали.
Наукова новизна. (i) Міжмодальний синтез, що прив’язує родини генераторів до фронтирів «приватність / корисність», а не до одиничних бенчмарків; (ii) показано, що дифузійні моделі з каліброваним шумом на ранніх кроках стабільно знижують витоки за зіставної якості; (iii) метрика «подібності без перекриттів», яка поєднує надлишковість найближчих сусідів із межами DP для оцінювання ризику, що може бути предметом зовнішнього аудиту; (iv) доменні евристики, які пояснюють ефективність KD-дерев для зміцнення GAN у табличних даних.
Висновки. Дифузійні моделі з налаштованим шумом наразі забезпечують найкращий баланс приватності та корисності у високоризикових застосунках; GAN доцільні за м’якших вимог або обмежених ресурсів (із постобробкою), VAE-гібриди – для проміжних режимів. Практично це означає: 1) розміщувати шум там, де динаміка моделі його «розсіює»; 2) застосовувати запропоновану метрику аудиту разом із тестами на членство; 3) узгоджувати вибір генератора з доменом (медичні зображення, фінансові ряди, журнали рекомендаційних систем).
Посилання
Alabdulwahab, S., Kim, Y.-T. and Son, Y., 2024. Privacy-Preserving Synthetic Data Generation Method for IoT-Sensor Network IDS Using CTGAN. Sensors, [e-journal] 24 (22), 7389. https://doi.org/10.3390/s24227389
Cai, X., Sun, Y., Lin, Z., Li, R. and Cai, T., 2025. Differentially private synthetic data generation for robust information fusion. Information Fusion, [e-journal] 124, 103373. https://doi.org/10.1016/j.inffus.2025.103373
Kairouz, P., Mcmahan, H.B., Avent, B., Bellet, A., Bennis, M., Bhagoji, A.N. … and Zhao, S., 2021. Advances and Open Problems in Federated Learning. Foundations and Trends® in Machine Learning, [e-journal] 14 (1–2), pp.1-210. http://dx.doi.org/10.1561/2200000083
Li, K., Gong, C., Li, Z., Zhao, Y., Hou, X. and Wang, T., 2023. PrivImage: Differentially Private Synthetic Image Generation using Diffusion Models with Semantic-Aware Pretraining. arXiv, [online] October 07. Available at: <https://arxiv.org/pdf/2311.12850> [Accessed 30 July 2025].
Liu, F., Cheng, Z., Chen, H., Wei, Y., Nie, L. and Kankanhalli, M., 2022. Privacy-preserving synthetic data generation for recommendation systems. In: SIGIR '22: The 45th International ACM SIGIR Conference on Research and Development in Information Retrieval, Madrid, Spain, July 11-15, 2022, [e-journal]. New York: Association for Computing Machinery, pp.1379-1389. https://doi.org/10.1145/3477495.3532044
McMahan, B., Moore, E., Ramage, D., Hampson, S. and Arcas, B.A., 2017. Communication-Efficient Learning of Deep Networks from Decentralized Data. In: Proceedings of the 20th International Conference on Artificial Intelligence and Statistics, Fort Lauderdale, 20-22 April 2017. [online] AISTATS, Vol. 54, pp.1273-1282. Available at: <https://proceedings.mlr.press/v54/mcmahan17a.html> [Accessed 30 July 2025].
Mohassel, P. and Zhang, Y., 2017. SecureML: A System for Scalable Privacy-Preserving Machine Learning. In: 2017 IEEE Symposium on Security and Privacy. [online] Institute of Electrical and Electronics Engineers, pp.19-38. Available at: <https://eprint.iacr.org/2017/396.pdf> [Accessed 30 July 2025].
Papernot, N., Abadi, M., Erlingsson, U., Goodfellow, I. and Talwar, K., 2017. Semi-supervised knowledge transfer for deep learning from private training data. In: 5th International Conference on Learning Representations, ICLR 2017, Conference Track Proceedings Toulon, France, April 24-26, 2017. [online] Toulon: Curran Associates, pp.2890-2906. Available at: <https://openreview.net/pdf?id=HkwoSDPgg> [Accessed 30 July 2025].
Pezoulas, V.C., Zaridis, D.I., Mylona, E., Androutsos, C., Apostolidis, K., Tachos, N.S. and Fotiadis, D.I., 2024. Synthetic data generation methods in healthcare: A review on open-source tools and methods. Computational and Structural Biotechnology Journal, [e-journal] 23, pp.2892-2910. https://doi.org/10.1016/j.csbj.2024.07.005
Sanchez-Serrano, P., Rios, R. and Agudo, I., 2025. A decision framework for privacy-preserving synthetic data generation. Computers and Electrical Engineering, [e-journal] 126, 110468. https://doi.org/10.1016/j.compeleceng.2025.110468
Sattarov, T., Schreyer, M., and Borth, D., 2024. Differentially Private Federated Learning of Diffusion Models for Synthetic Tabular Data Generation. arXiv, [online] December 20. Available at: <https://arxiv.org/html/2412.16083v1> [Accessed 30 July 2025].
Steier, A., Ramaswamy, L., Manoel, A. and Haushalter, A., 2025. Synthetic Data Privacy Metrics. arXiv, [online] January 07. Available at: <https://arxiv.org/pdf/2501.03941> [Accessed 30 July 2025].
Tschannen, M., Eastwood, C. and Mentzer, F., 2024. GIVT: Generative infinite-vocabulary transformers. arXiv, [online] July 17. Available at: <https://arxiv.org/pdf/2312.02116> [Accessed 30 July 2025].
Wang, Y.-X., Balle, B. and Kasiviswanathan, S.P., 2018. Subsampled Rényi Differential Privacy and Analytical Moments Accountant. arXiv, [online] December 4. Available at: <https://arxiv.org/pdf/1808.00087> [Accessed 30 July 2025].
Xie, C., Lin, Z., Backurs, A., Gopi, S., Yu, D., Inan, H. A., Nori, H., Jiang, H., Zhang, H., Lee, Y.T., Li, B. and Yekhanin, S., 2024. Differentially Private Synthetic Data via Foundation Model APIs 2: Text. arXiv, [online] July 23. Available at: <https://arxiv.org/pdf/2403.01749> [Accessed 30 July 2025].
Yao, Z., Krčo, N., Ganev, G. and de Montjoye, Y.-A., 2025. The DCR Delusion: Measuring the Privacy Risk of Synthetic Data. arXiv, [online] May 02. Available at: <https://arxiv.org/pdf/2505.01524> [Accessed 30 July 2025].
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Автори зберігають авторські права на статтю та одночасно надають журналу право його першої публікації на умовах ліцензії Creative Commons Attribution License, яка дозволяє іншим особам вільно поширювати опубліковану статтю з обов’язковим посиланням на її авторів та першу публікацію.
Журнал дозволяє авторам зберігати авторські права і права на публікації без обмежень.
Автор опублікованої статті має право поширювати інформацію про неї та розміщувати посилання на роботу в електронному репозитарії установи.