Використання методів NLP в інтелектуальних навчальних системах

Автор(и)

  • Костянтин Ткаченко Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Україна https://orcid.org/0000-0003-0549-3396

DOI:

https://doi.org/10.31866/2617-796X.7.1.2024.307009

Ключові слова:

NLP (Natural Language Processing), інтелектуальна навчальна система, онлайн-курс, токенізація, стемінг, нормалізація, стоп-слова, сегментація тексту

Анотація

Для ефективної організації освітніх процесів, які підтримують відповідні інтелектуальні навчальні системи, важливо обрати правильні технології, що забезпечували б індивідуалізацію навчання, адекватне сприйняття навчального контенту, так зване «розуміння» системами текстів українською мовою, які надають студенти (опис рішення завдання, відповіді, що надається власними словами, а не обирається з варіантів відповіді тесту, питань до системи тощо), створення прототипів, постійну ітерацію під час розпізнавання та обробки текстів природною мовою, максимальну надійність та ефективність процесів навчання.

Метою статті є дослідження, аналіз різних методів оброблення текстів природною мовою, концепції NLP, розгляд загальних проблем і перспектив розроблення на її основі програмного продукту оброблення українськомовного тексту в онлайн-курсах, які підтримують інтелектуальні навчальні системи.

Методами дослідження є основні методологічні підходи та технологічні засоби для аналізу текстів природною мовою в інтелектуальних навчальних системах, розроблення системи підтримки технології NLP (Natural Language Processing, оброблення природної мови) під час лінгвістичного аналізу текстів українською мовою. Такими методами, зокрема, є: системний та порівняльний аналізи – для виявлення особливостей інтелектуальних та інформаційних (з елементами інтелектуалізації) систем; метод експертних оцінок, що передбачає аналіз літературних джерел й інформаційних ресурсів, проведення інтерв’ю та опитування експертів, а також процеси розробки та тестування інтелектуальних й інформаційних систем.

Новизною проведеного дослідження є аналіз сучасних технологій розробки систем підтримки освітнього онлайн-процесу через організацію процесів сприйняття інформації, наданої студентами природною мовою, результати якого можуть застосовуватися під час розробки власного програмного продукту підтримки освітнього процесу українською мовою, забезпечення підвищення ефективності навчання на основі використання технології NLP у процесі вивчення відповідного навчального контенту.

Висновки. У роботі проаналізовано сучасні методи NLP. Проведений аналіз обумовив вибір методів токенізації, нормалізації, стемінгу та лематизації для використання в інтелектуальних навчальних системах під час лінгвістичного аналізу так званого «вільного» спілкування природною (українською) мовою студентів у процесі вивчення навчального контенту онлайн-курсів.

Під час токенізації українськомовних текстів вирішували такі проблеми, як усунення так званих «злитих» токенів, виправлення орфографічних помилок, визначення спільних префіксів у складних словах та їх впливу на семантику відповідних лексем, визначення спільних префіксів в абревіатурах, приведення слів до їхньої нормальної форми.

Лематизація особливо важлива для української мови (з її великою кількістю відмінків іменників, прикметників, словоформ тощо), потребує використання спеціально сформованих словників предметної галузі, що розглядається. У цих словниках словоформи представлені у вигляді лем (тобто іменники подано в називному відмінку).

Біографія автора

Костянтин Ткаченко, Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»

Кандидат економічних наук, доцент, доцент кафедри програмного забезпечення комп’ютерних систем

Посилання

Ashraf, A., 2023. Text Pre-Processing for NLP. Medium, [online] 31 August. Available at: https://medium.com/@abdallahashraf90x/text-pre-processing-for-nlp-95cef3ad6bab [Accessed 12 March 2024].

Awan, A.A., 2023. What is Tokenization? Datacamp. [blog] Available at: <https://www.datacamp.com/blog/what-is-tokenization> [Accessed 18 March 2024].

Bagui, S., Nandi, D., Bagui, S. and White, R., 2021. Machine Learning and Deep Learning for Phishing Email Classification using One-Hot Encoding. Journal of Computer Science, [e-journal] 7 (17), pp.610-623. https://doi.org/10.3844/jcssp.2021.610.623

ChatGPT, n.d. [online] Available at: <https://chat.openai.com/> [Accessed 12 March 2024].

Chen, M.X., Firat, O., Ankur, B., Melvin, J., Wolfgang, M., George, F., Llion, J., Mike, S., Noam, S., Niki, P., Vaswani, A., Jakob, U., Lukasz, K., Zhifeng, Ch., Yonghui, W. and Macduff, H., 2018. The Best of Both Worlds: Combining Recent Advances in Neural Machine Translation. In: Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Melbourne, Australia. [e-book] Melbourne: Association for Computational Linguistics, pp.76-86. https://doi.org/10.48550/arXiv.1804.09849

Cheng, J., Dong, L. and Lapata, M., 2016. Long Short-Term Memory-Networks for Machine Reading. In: Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, Austin, Texas, 01-05 November 2016. [e-book] Stroudsburg: Association for Computational Linguistics, pp.551-561. https://doi.org/10.48550/arXiv.1601.06733

Chung, J., Gulcehre, C., Cho, K. and Bengio, Y., 2014. Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling. arXiv:1412.3555, [e-journal] pp.1-9. https://doi.org/10.48550/arXiv.1412.3555

Church, K.W., 2017. Word2Vec. Natural Language Engineering, [e-journal] 23, pp.155-162. https://doi.org/10.1017/S1351324916000334

DALL•E 2 is an AI system that can create realistic images and art from a description in natural language, n.d. DALL•E 2. [online] Available at: <https://openai.com/dall-e-2> [Accessed 17 March 2024].

Eisenstein, J., 2018. Natural Language Processing. [online]. MIT Press. Available at: <https://cseweb.ucsd.edu/~nnakashole/teaching/eisenstein-nov18.pdf> [Accessed 11 March 2024].

Ghannay, S., Favre, B., Estève, Y. and Camelin, N., 2016. Word Embedding Evaluation and Combination. In: 10th edition of the Language Resources and Evaluation Conference. Portorož, Slovenia, 23-28 May 2016. [online] Portorož: European Language Resources Association, pp.300-305. Available at: <https://pageperso.lis-lab.fr/benoit.favre/papers/favre_lrec2016b.pdf> [Accessed 12 March 2024].

Martinez, J., 2023. Supervised Fine-tuning: customizing LLMs. Medium, [online] 09 August. Available at: https://medium.com/mantisnlp/supervised-fine-tuning-customizing-llms-a2c1edbf22c3 [Accessed 13 March 2024].

Mashtalir, S.V. and Nikolenko, O.V., 2023. Data preprocessing and tokenization techniques for technical Ukrainian texts. Applied Aspects of Information Technology, [e-journal] 6 (3), pp.318-326. https://doi.org/10.15276/aait.06.2023.22

Moseichuk, V., 2013. Perelik stop-sliv skachaty dlia ukrainskoi movy [List of stop words for Ukrainian language download]. Knyha marazmiv Ukrainy, [online] 16 January. Available at: <https://www.marazm.org.ua/windows/50_141.html> [Accessed 21 March 2024].

Natural Language Processing, 2023. Deeplearning.ai, [online] 11 January. Available at: <https://www.deeplearning.ai/resources/natural-language-processing/> [Accessed 02 March 2024].

Natural Language Toolkit, 2023. NLTK Project, [online] 02 January. Available at: <https://www.nltk.org> [Accessed 12 March 2024].

O’Connor, R., 2023. How DALL-E 2 Actually Works. AssemblyAI, [online] 29 September. Available at: <https://www.assemblyai.com/blog/how-dall-e-2-actually-works/> [Accessed 19 March 2024].

Pennington, J., Socher, R. and Manning, C., 2014. GloVe: Global Vectors for Word Representation. In: Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Proceedings of the Conference, Doha, Qatar, 25-29 October 2014. Stroudsburg: Association for Computational Linguistics, pp.1532-1543. Available at: <https://aclanthology.org/D14-1162.pdf> [Accessed 19 March 2024].

Perekladach [Translator], n.d. Google. [online] Available at: https://translate.google.com/ [Accessed 22 March 2024].

Pitis, S., 2023. Failure Modes of Learning Reward Models for LLMs and other Sequence Models. In: The Many Facets of Preference-based Learning. Workshop at the International Conference on Machine Learning (ICML) 2023. [online] Available at: <https://openreview.net/attachment?id=NjOoxFRZA4&name=pdf> [Accessed 13 March 2024].

Ramponi, M., 2022. How ChatGPT actually works. AssemblyAI, [online] 23 December. Available at: <https://www.assemblyai.com/blog/how-chatgpt-actually-works/> [Accessed 12 March 2024].

Responsible AI that ensures your writing and reputation shine, n.d. Grammarly. [online]. Available at: <https://www.grammarly.com/> [Accessed 18 March 2024].

Rong, X., 2014. word2vec Parameter Learning Explained. arxiv: 1411.2738, [online] pp.1-21. Available at: <https://arxiv.org/abs/1411.2738> [Accessed 12 March 2024].

Rytr, n.d. [online]. Available at: <https://rytr.me> [Accessed 21 March 2024].

Saumyab271, 2022. Stemming vs Lemmatization in NLP: Must-Know Differences. Analytics Vidhya. [blog] Available at: <https://www.analyticsvidhya.com/blog/2022/06/stemming-vs-lemmatization-in-nlp-must-know-differences/> [Accessed 18 March 2024].

Shpater, 2024. ChatGPT Architecture: Will ChatGPT Replace Search Engine? OPChatGPT. [blog] Available at: https://opchatgpt.com/chatgpt-architecture-will-chatgpt-replace-search-engine/ [Accessed 13 March 2024].

Sutskever, I., Vinyals, O. and Le, Q., 2014. Sequence to Sequence Learning with Neural Networks. In: Advances in Neural Information Processing Systems 27: Annual Conference on Neural Information Processing Systems 2014. Montreal, Quebec, Canada, 8-13 December 2014. [online] Montreal, pp.3104-3112. Available at: http://arxiv.org/abs/1409.3215v3 [Accessed 21 March 2024].

Tarwani, M.K. and Edem, S., 2017. Survey on Recurrent Neural Network in Natural Language Processing. International Journal of Engineering Trends and Technology, [e-journal] 48 (6), pp.301-304. https://doi.org/10.14445/22315381/IJETT-V48P253

Tkachenko, O., Tkachenko, K., Tkachenko, O., Kyrychok, R. and Yaskevych, V., 2024. Neural Networks in the Processing of Natural Language Texts in Information Learning Systems. In: Cybersecurity Providing in Information and Telecommunication Systems 2024. Proceedings of the Workshop Cybersecurity Providing in Information and Telecommunication Systems (CPITS 2024). Kyiv, Ukraine, 28 February 2024. [online] Kyiv, pp.73-87. Available at: <https://ceur-ws.org/Vol-3654/> [Accessed 24 March 2024].

Vivien, L., 2022. Google Translate Architecture illustrated. La Vivien Post [online]. Available at: <https://www.lavivienpost.com/google-translate-and-transformer-model/> [Accessed 11 March 2024].

Wu, Y., Schuster, M., Chen, Z., Le, Q., Norouzi, M. and Dean, J., 2016. Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation. arXiv preprint arXiv:1609.08144, [e-journal] 1. https://doi.org/10.48550/arXiv.1609.08144

##submission.downloads##

Опубліковано

2024-06-10

Як цитувати

Ткаченко, К. (2024). Використання методів NLP в інтелектуальних навчальних системах. Цифрова платформа: інформаційні технології в соціокультурній сфері, 7(1), 80–96. https://doi.org/10.31866/2617-796X.7.1.2024.307009

Номер

Розділ

Інформаційні технології в освіті, мистецтві та культурі