Використання нейронних мереж під час розпізнавання голосових команд

Костянтин Ткаченко; Владислав Брусєнцев

doi:10.31866/2617-796X.5.1.2022.261297

Автор(и)

Костянтин Ткаченко Державний університет інфраструктури та технологій, Україна https://orcid.org/0000-0003-0549-3396
Владислав Брусєнцев Державний університет інфраструктури та технологій, Україна https://orcid.org/0000-0002-8106-5855

DOI:

https://doi.org/10.31866/2617-796X.5.1.2022.261297

Ключові слова:

нейронні мережі, навчання нейронних мереж, рекурентні нейронні мережі, розпізнання, штучний інтелект, голосові команди

Анотація

Метою статті є дослідження, аналіз і розгляд загальних проблем та перспектив щодо розробки систем розпізнання голосових команд з використанням можливостей нейронних мереж та новітніх нейромережевих технологій.

Методами дослідження є методи семантичного аналізу основних понять цієї предметної сфери (системи розпізнавання голосових команд). У статті розглянуто наявні системи й алгоритми розпізнання.

Новизною проведеного дослідження є аналіз функціонування сучасних систем розпізнавання голосових команд, результати якого можуть застосовуватися під час розробки власної системи розпізнавання на основі використання покращених мовленнєвих моделей і рекурентної нейронної мережі, що навчається.

Висновки. Доведено ефективність використання нейронних мереж для завдань розпізнавання голосових команд. Розроблено систему розпізнавання мовлення на основі нейронних мереж з використанням покращеної мовленнєвої моделі.

Біографії авторів

Костянтин Ткаченко, Державний університет інфраструктури та технологій

Кандидат економічних наук, доцент кафедри інформаційних технологій та дизайну

Владислав Брусєнцев, Державний університет інфраструктури та технологій

Магістрант, кафедра інформаційних технологій та дизайну

Посилання

Ahmad, M.A., Baker, J.H., Tvoroshenko, I. and Lyashenko, V. 2019. Computational Complexity of the Accessory Function Setting Mechanism in Fuzzy Intellectual Systems. International Journal of Advanced Trends in Computer Science and Engineering, [online] 8 (5), pp.2370-2377. Available at: <https://doi.org/10.30534/ijatcse/2019/77852019> [Accessed 21 April 2022].

Ali, A.T., Eltayeb, E.B. and Abusail, E.A.A., 2017. Voice Recognition Based Smart Home Control System. International Journal of Engineering Inventions, 6 (4). pp.1-5.

Amosov, O.S., Ivanov, Iu.S. and Zhiganov, S.V., 2017. Lokalizatciia cheloveka v kadre videopotoka s ispolzovaniem algoritma na osnove rastushchego neironnogo gaza i nechetkogo vyvoda [Localization of a person in the frame of a video stream using an algorithm based on growing neural gas and fuzzy inference]. Kompiuternaia optika, [online] 41 (1), pp.46-58. Available at: <https://doi.org/10.18287/2412-6179-2017-41-1-46-58> [Accessed 18 April 2022].

Ault, S.V., Perez, R.J., Kimble, C.A. and Wang J. 2018. On Speech Recognition Algorithms. International Journal of Machine Learning and Computing, [online] 8 (6). pp.518-523. Available at: <https://doi.org/10.18178/ijmlc.2018.8.6.739> [Accessed 21 April 2022].

Beck, M.W., 2018. NeuralNetTools: Visualization and Analysis Tools for Neural Networks. Journal of Statistical Software, [online] 85 (11). pp.1-20. Available at: <https://doi.org/10.18637/jss.v085.i11> [Accessed 21 April 2022].

Bengio, Y., 2009. Learning Deep Architectures for AI. Foundations and Trends in Machine Learning, 2 (1). pp.1-127.

Cutajar, M., Gatt, E., Grech, I., Casha, O. and Micallef, J., 2013. Comparative study of automatic speech recognition techniques. IET Signal Processing, [online] 7 (1), pp.25-46. Available at: <https://doi.org/10.1049/iet-spr.2012.0151> [Accessed 23 April 2022].

Desai, S., Black, A.W., Yegnanarayana, B. and Prahallad, K., 2010. Spectral Mapping Using Artificial Neural Networks for Voice Conversion. IEEE Transactions on Audio, Speech, and Language Processing, [online] 18 (5), pp.954-964. Available at: <https://doi.org/10.1109/TASL.2010.2047683> [Accessed 23 April 2022].

Gers, F., Schraudolph, N. and Schmidhuber, J., 2002. Learning precise timing with LSTM recurrent networks. Journal of Machine Learning Research, 3, pp.115-143.

Glackin, C., Wall, J., Chollet, G., Dugan, N. and Cannings, N., 2018. TIMIT and NTIMIT Phone Recognition Using Convolutional Neural Networks. In: Pattern Recognition Applications and Methods. 7th International Conference, ICPRAM 2018, Funchal, Madeira, Portugal, [online] 16-18 January 2018. Revised Selected Papers, pp.89-100. Available at: <https://doi.org/10.1007/978-3-030-05499-1_5> [Accessed 21 April 2022].

Hinton, G., Deng, L., Yu, D., Dahl, G., Mohamed, Abdel-rahman, Jaitly, N., Senior, A., Vanhoucke, V., Nguyen, P., Sainath, T. and Kingsbury, B., 2012. Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups. IEEE Signal Processing Magazine, 29 (6), pp.82-97.

Huggins-Daines, D., Kumar, M., Chan, A., Black, A.W., Ravishankar, M. and Rudnicky, A.I., 2006. Pocketsphinx: A Free, Real-Time Continuous Speech Recognition System for Hand-Held Devices. In: 2006 IEEE International Conference on Acoustics Speech and Signal Processing Proceedings, [online] 14-19 May 2006. Available at: <https://doi.org/10.1109/ICASSP.2006.1659988> [Accessed 23 April 2022].

Këpuska, V. and Bohouta, G., 2017. Comparing speech recognition systems (Microsoft API, Google API and CMU Sphinx). Journal of Engineering Research and Application, [online] 7 (3), pp.20-24. Available at: <https://doi.org/10.9790/9622-0703022024> [Accessed 23 April 2022].

Kriukova, H., 2018. Prykhovani modeli Markova: rehuliaryzatsiia ta zastosuvannia v prykladnykh zadachakh [Hidden Markov models: regularization and application in applied problems]. In: Suchasni problemy matematyky ta yii zastosuvannia v pryrodnychykh naukakh i informatsiinykh tekhnolohiiakh [Modern problems of mathematics and its application in natural sciences and information technologies]. International scientific conference. Chernivtsi, Ukraine, [online] 17-19 September 2018, p.147. Available at: <http://ekmair.ukma.edu.ua/handle/123456789/15604> [Accessed 21 April 2022].

Kvitko, M.V., 2016. Raspoznavanie rechi s pomoshchiu glubokikh rekurrentnykh neironnykh setei [Speech recognition using deep recurrent neural networks]. In: System Analysis and Information Technologies 18-th International Conference SAIT 2016. Kyiv, Ukraine, [online] 30 May-2 June 2016, pp.223-224. Kyiv: Kyiv Polytechnic Institute. Available at: <http://sait.kpi.ua/media/filer_public/73/32/7332a68e-e93b-4c57-a3c8-66f11ee074cd/sait2016ebook.pdf> [Accessed 18 April 2022].

Li, N., 2021. An improved machine learning algorithm for text-voice conversion of English letters into phonemes. Journal of Intelligent & Fuzzy Systems, [online] 40 (2), pp.2743-2753. Available at: <https://doi.org/10.3233/JIFS-189316> [Accessed 21 April 2022].

Lipeika, A., Lipeikienė, J. and Telksnys, L., 2002. Development of Isolated Word Speech Recognition System. Informatica, [online] 13 (1), pp.37-46. Available at: <https://doi.org/10.3233/INF-2002-13103> [Accessed 19 April 2022].

Millstein, F., 2018. Natural Language Processing With Python: Natural Language Processing Using NLTK. Create Space Independent Publishing Platform.

Model movlennievoi komunikatsii [Model of speech communication]. Navchalni materialy onlain. [online] Available at: <https://pidru4niki.com/12810419/psihologiya/model_movlennyevoyi_komunikatsiyi> [Accessed 18 April 2022].

Muda, L., Mumtaj, B. and Elamvazuthi, I., 2010. Voice Recognition Algorithms using Mel Frequency Cepstral Coefficient (MFCC) and Dynamic Time Warping (DTW) Techniques. Journal of Computing, 2 (3), pp.138-143.

Robeiko, V. and Martynenko, M., 2014. Modeliuvannia zvukiv-zapovniuvachiv i roztiahnenoi vymovy zvukiv u slovakh u systemi avtomatychnoho rozpiznavannia ukrainskoho spontannoho movlennia [Modeling of filler sounds and stretched pronunciation of sounds in words in the system of automatic recognition of Ukrainian spontaneous speech]. In: Ukrainica VI. Současná ukrajinistika. Problémy jazyka, literatury a kultury. Sborník vědeckých článků z mezinárodní konference "VI Olomoucké sympozium ukrajinistů střední a východní Evropy". Olomouc, Česko, 21-23.08.2014. Olomouc: Univerzita Palackeho v Olomouci, pp.424-427.

Sokolov, A. and Savchenko, A.V., 2019. Voice command recognition in intelligent systems using deep neural networks. In: 2019 IEEE 17th World Symposium on Applied Machine Intelligence and Informatics (SAMI). Herlany, Slovakia, [online] 24-26 January 2019, pp.113-116. IEEE. Available at: <https://doi.org/10.1109/SAMI.2019.8782755> [Accessed 21 April 2022].

Subbotin, S.O., Oliinyk, A.O. and Oliinyk, O.O., 2009. Neiteratyvni, evoliutsiini ta multyahentni metody syntezu nechitkolohichnykh i neiromerezhnykh modelei [Non-iterative, evolutionary and multiagent methods of synthesis of fuzzy and neural network models]. Zaporizhzhia: ZNTU.

Swamy, S., and Ramakrishnan, K.V., 2013. An efficient speech recognition system. Computer Science & Engineering: An International Journal (CSEIJ), [online] 3 (4), pp.21-27. Available at: <https://doi.org/10.5121/cseij.2013.3403> [Accessed 21 April 2022].

Systema rozpiznavannia holosu [Voice recognition system]. Kia. [online] Available at: <http://webmanual.kia.com/STD_GEN5W_8/AVNT/EU/Ukrainian/voicerecognitionsystem.html> [Accessed 15 April 2022].

Toda, T., Nakagiri, M. and Shikano, K., 2012. Statistical Voice Conversion Techniques for Body-Conducted Unvoiced Speech Enhancement. IEEE Transactions on Audio, Speech, and Language Processing, [online] 20 (9), pp.2505-2517. Available at: <https://doi.org/10.1109/TASL.2012.2205241> [Accessed 22 April 2022].

Zheng, Y., Meng, Y. and Jin, Y., 2011. Object Recognition using Neural Networks with Bottom-up and Top-down Pathways. Neurocomputing, 74, pp.3158-3169.

Іnternet rechei [Internet of speeches]. [online] Available at: <https://iotukraine.com> [Accessed 25 April 2022].