Моделювання процесів лінгвістичного аналізу українськомовних текстів

Автор(и)

  • Костянтин Ткаченко Навчально-науковий інститут управління, технологій та правових наук, Національний транспортний університет; Державний університет «Київський авіаційний інститут», Україна https://orcid.org/0000-0003-0549-3396
  • Олександр Смирнов Навчально-науковий інститут управління, технологій та правових наук, Національний транспортний університет, Україна https://orcid.org/0009-0005-4530-9700

DOI:

https://doi.org/10.31866/2617-796X.8.2.2025.347880

Ключові слова:

природномовні тексти, лінгвістичний аналіз, моделювання процесів лінгвістичного аналізу, процесна модель, морфологічний словник VESUM, Universal Dependencies, розомонімізація, токенізація

Анотація

На сьогодні широко застосовують автоматизацію обробки текстів природною мовою в різних сферах (державному секторі, науці, освіті, медіа, повсякденних сервісах тощо). Це потребує відповідних програмних інструментів (сервісів, засобів), які будуть спроможні забезпечувати таку автоматизовану обробку.

Метою статті є аналіз і дослідження проблем моделювання процесів лінгвістичного аналізу українських природномовних текстів і проєктування відповідного програмного забезпечення з визначенням функціональних можливостей його компонентів.

Методами дослідження є методи порівняльного аналізу основних програмних рішень цієї предметної області (лінгвістичний аналіз текстів, що представлені природною мовою), систематизації підходів до процесів автоматизованої обробки текстів та формалізації цих процесів у вигляді відповідної процесної моделі.

Новизною проведеного дослідження є аналіз сучасних проблем систем підтримки процесів автоматизованого оброблення текстів природною мовою, зокрема українською; розробка процесної моделі, що поєднує різні етапи та фази лінгвістичного аналізу текстів і проєктування відповідного програмного рішення підтримки цієї моделі.

Висновки. У роботі досліджено основні проблеми обробки природномовних текстів; визначено основні методи обробки українськомовних текстів; проведено аналіз і систематизацію сучасних систем, що підтримують окремі етапи автоматизованої обробки природномовних текстів; описано проєкт авторського програмного рішення що забезпечуватиме лінгвістичний аналіз українськомовних текстів; запропоновано процесну модель лінгвістичного аналізу природномовних текстів. Використання запропонованої процесної моделі з боку користувачів та розробників сприятиме полегшенню розгортання якісних українськомовних сервісів; з боку установ (відповідних програмних продуктів) під час модифікації системи лінгвістичного аналізу сприятиме отриманню більш об’єктивного уявлення про найчастіші проблеми лінгвістичного аналізу (так звані мовні проблеми), прогалини лексикону та пріоритети оновлень українськомовного NLP.

Біографії авторів

Костянтин Ткаченко, Навчально-науковий інститут управління, технологій та правових наук, Національний транспортний університет; Державний університет «Київський авіаційний інститут»

Кандидат економічних наук, доцент, доцент кафедри інформаційних технологій; доцент кафедри інженерії програмного забезпечення

Олександр Смирнов, Навчально-науковий інститут управління, технологій та правових наук, Національний транспортний університет

Магістрант кафедри інформаційних технологій

Посилання

ANN: LanguageTool 6.4, n.d. LT. [online] Available at: <https://forum.languagetool.org/t/ann-languagetool-6-4/9950> [Accessed 25 September 2025].

Available Models & Languages, n.d. Stanza, [online] Available at: <https://stanfordnlp.github.io/stanza/available_models.html> [Accessed 24 September 2025].

Dyomkin, V. and Chaplinsky, D., 2017. Tokenize UK Documentation. Release 0.2.0. [online] Available at: <https://tokenize-uk.readthedocs.io/_/downloads/en/latest/pdf/> [Accessed 24 September 2025].

Haltiuk, M. and Smywiński-Pohl, A., 2024. LiBERTa: Advancing Ukrainian Language Modeling through Pre-training from Scratch. In: Proceedings of the Third Ukrainian Natural Language Processing Workshop (UNLP) @ LREC-COLING 2024», Torino, Italia, May 25, 2024. [online] Torino: ELRA Language Resources Association, pp.120-128. Available at: <https://aclanthology.org/2024.unlp-1.14.pdf> [Accessed 25 September 2025].

Krashtan, T., 2023. A Search Engine for the Large Electronic Dictionary of the Ukrainian Language (VESUM). In: Electronic Lexicography in the 21st Century. The eighth eLex conference, Brno, Czech Republic, June 27-29, 2023. [online] Brno, pp.308-321. Available at: <https://elex.link/ojs/index.php/elex/article/view/33> [Accessed 25 September 2025].

lang-uk/tokenize-uk, n.d. GitHub. [online] Available at: <https://github.com/lang-uk/tokenize-uk> [Accessed 30 September 2025].

Morfologik speller for Ukrainian, 2018. LT, [online] July. Available at: <https://forum.languagetool.org/t/morfologik-speller-for-ukrainian/3188> [Accessed 25 September 2025].

Prytula, M., 2024. Fine-tuning BERT, DistilBERT, XLM-RoBERTa and Ukr-RoBERTa models for sentiment analysis of ukrainian language reviews. Artificial Intelligence, [e-journal] 2, pp.85-97. https://doi.org/10.15407/jai2024.02.085

Starko, V. and Rysin, A., 2022. VESUM: A Large Morphological Dictionary of Ukrainian As a Dynamic Tool. In: Proceedings of the 6th International Conference on Computational Linguistics and Intelligent Systems (COLINS 2022). Vol. I: Main Gliwice, Poland, May 12-13, 2022. [online] CEUR-WS.org, online, pp.61-70. Available at: <https://ceur-ws.org/Vol-3171/paper8.pdf> [Accessed 24 September 2025].

Starko, V. and Rysin, A., 2023. Creating a POS Gold Standard Corpus of Modern Ukrainian. In: Proceedings of the Second Ukrainian Natural Language Processing Workshop (UNLP), Dubrovnik, Croatia, May 5, 2023. [online] Dubrovnik: Association for Computational Linguistics, pp.91-95. Available at: <https://aclanthology.org/2023.unlp-1.11.pdf> [Accessed 25 September 2025].

Starko, V., Rysin, A. and Shvedova, M., 2021. Ukrainian Text Preprocessing in GRAC. In: 2021 IEEE 16th International Conference on Computer Sciences and Information Technologies (CSIT), Lviv, Ukraine, September 22-25, 2021. [online] Institute of Electrical and Electronics Engineers, Vol.2, pp.101-104. Available at: <https://www.researchgate.net/publication/357362512_Ukrainian_Text_Preprocessing_in_GRAC> [Accessed 25 September 2025].

Starko, V.F. and Rysin, A., 2020. Velykyi elektronnyi slovnyk ukrainskoi movy (VESUM) yak zasib NLP dlia ukrainskoi movy [The Great Electronic Dictionary of the Ukrainian Language (VESUM) as a NLP tool for the Ukrainian language]. In: Halaktyka Slova. Halyni Makarivni Hnatiuk [Galaktika Slova. Galina Makarivna Gnatyuk]. Kyiv: Vydavnychyi dim Dmytra Buraho, pp.135-141. [online] Dostupno: <https://www.researchgate.net/publication/344842033_Velikij_elektronnij_slovnik_ukrainskoi_movi_VESUM_ak_zasib_NLP_dla_ukrainskoi_movi_Galaktika_Slova_Galini_Makarivni_Gnatuk> [Data zvernennia 24 veresnia 2025].

UD Ukrainian IU, n.d. [online] Available at: <https://universaldependencies.org/treebanks/uk_iu/> [Accessed 24 September 2025].

UD Ukrainian ParlaMint, n.d. UD_Ukrainian-ParlaMint. [online] Available at: <https://universaldependencies.org/treebanks/uk_parlamint/> [Accessed 24 September 2025].

UDPipe 2 Models, n.d. Institute of Formal and Applied Linguistics. [online] Available at: <https://ufal.mff.cuni.cz/udpipe/2/models> [Accessed 30 September 2025.

Universal Dependencies/UD_Ukrainian-IU, n.d. GitHub. [online] Available at: <https://github.com/UniversalDependencies/UD_Ukrainian-IU> [Accessed 24 September 2025].

##submission.downloads##

Опубліковано

2025-12-29

Як цитувати

Ткаченко, К., & Смирнов, О. (2025). Моделювання процесів лінгвістичного аналізу українськомовних текстів. Цифрова платформа: інформаційні технології в соціокультурній сфері, 8(2), 312–325. https://doi.org/10.31866/2617-796X.8.2.2025.347880

Номер

Розділ

ІТ-технології в освіті, мистецтві та культурі