Мультибіометрична ідентифікація студента за його голосовими та візуальними біометричними показниками в процесі дистанційної освіти

Тетяна Ковалюк; Анастасія Шевченко; Наталія Кобець

doi:10.31866/2617-796X.5.1.2022.261293

Автор(и)

Тетяна Ковалюк Київський національний університет імені Тараса Шевченка, Україна https://orcid.org/0000-0002-1383-1589
Анастасія Шевченко Київський національний університет імені Тараса Шевченка, Україна https://orcid.org/0000-0001-5230-8339
Наталія Кобець UNITY-BARS LLC, Україна https://orcid.org/0000-0003-4266-9741

DOI:

https://doi.org/10.31866/2617-796X.5.1.2022.261293

Ключові слова:

машинне навчання, штучні нейронні мережі, ідентифікація диктора, біометрія, розпізнавання голосу, розпізнавання облич

Анотація

Мета дослідження – розкрити сутність мультибіометричної ідентифікації студента й обґрунтувати доцільність її застосування для покращення якості, мінімізувати похибки в процесі його розпізнавання із застосуванням голосових і візуальних біометричних ідентифікаторів, що зберігаються в аудіофайлах, відео- та фотозображеннях.

Методи дослідження. Застосовано системний підхід щодо визначення вимог до програмного забезпечення системи мультибіометричної ідентифікації людини, методи обробки звуку, моделі нейронних мереж як класифікатори, що ідентифікують особу за вектором голосових ознак, методи візуальної ідентифікації особи за відеопотоком і за фотозображеннями.

Наукова новизна. Набули подальшого розвитку методи виявлення голосових ознак диктора, методи ідентифікації та реєстрації особи за її голосовими ознаками, алгоритми візуальної ідентифікації особи за її зображеннями у відеопотоці та за фотозображеннями на базі алгоритмів Віоли-Джонса, Eigenface і FisherFace; розроблено архітектуру системи мультибіометричної ідентифікації людини.

Висновки. Запропоновано мультибіометричну ідентифікацію студента за його голосовими та візуальними біометричними показниками для системи дистанційної освіти. Система передбачає витягнення акустичних характеристик із запису мови людини та подальше віднесення отриманих даних до одного з наперед заданих класів (дикторів). У ролі класифікатора застосовано багатошарову нейронну мережу (БШНМ). Класифікатор навчений на наборі даних з 43832 аудіофайлів від 108 дикторів. БШНМ на тестовій вибірці продемонструвала точність у 91 %. На етапі обробки кадрів відеопотоку здійснено виявлення обличчя в кадрі та розпізнавання виявленого обличчя. Розпізнавання облич у системі проводилося на основі пошуку найбільш відповідного шаблону базових зображень, що зберігаються в базі даних. Розроблено програмну систему для розпізнавання та індексації людей на відео одночасно з ідентифікацією особи за голосовими ознаками, щоб використовувати її в освітньому процесі для обліку відвідування дистанційних занять.

Біографії авторів

Тетяна Ковалюк, Київський національний університет імені Тараса Шевченка

Кандидат технічних наук, доцент кафедри програмних систем і технологій

Анастасія Шевченко, Київський національний університет імені Тараса Шевченка

Магістр, кафедра програмних систем і технологій

Наталія Кобець, UNITY-BARS LLC

Інженер

Посилання

Alimuradov, A.K. and Churakov, P.P., 2015. Obzor i klassifikatciia metodov obrabotki rechevykh signalov v sistemakh raspoznavaniia rechi [Review and classification of methods for processing speech signals in speech recognition systems]. Izmerenie. Monitoring. Upravlenie. Kontrol, 2 (12), pp.27-34.

AT&T database of faces. [online] Avialable at: <https://www.kaggle.com/datasets/kasikrit/att-database-of-faces?resource=download> [Accessed 5 December 2021].

Belhumeur, P.N., Hespanha, J.P. and Kriegman, D.J., 1997. Eigenfaces vs. Fisherfaces: recognition using class specific linear projection. IEEE transactions on pattern analysis and machine intelligence, 19 (7), pp.711-720.

Das, T.K. and Nahar Khalid M.O., 2016. A Voice identification system using hidden Markov model. Indian Journal of Science and Technology, 9 (4), pp.1-6.

Distance Learning in 2021: How to make the most of this school year. Lumin. [online] Avialable at: <https://www.luminpdf.com/distance-learning-in-2021/> [Accessed 20 January 2022].

Ernawan, F., Abu, N. and Suryana, N., 2011. Spectrum analysis of speech recognition via discrete Tchebichef transform. International Conference on Graphic and Image Processing (ICGIP 2011), 8285, pp.1619-1626.

Gupta, A., Raibagkar, P. and Palsokar, A., 2017. Speech Recognition Using Correlation Technique. International Journal of Current Trends in Engineering & Research (IJCTER) , 3 (6), pp.82-89.

Huang, X., Acero, A. and Hon, H.-W., 2001. Spoken language processing. Guide to algorithms and system development. United States: Prentice Hall.

Jadoul, Y., Thompson, B. and De Boer, B., 2018. Introducing Parselmouth: a Python interface to Praat. Journal of Phonetics, 71, pp.1-15.

Javed, А., 2013 Face Recognition Based on Principal Component Analysis. International Journal of Image, Graphics and Signal Processing, 2, pp.38-44.

Kobets, N. and Kovaliuk, T., 2020. Method of Recognition and Indexing of People’s Faces in Videos Using Model of Machine Learning. Advances in Intelligent Systems and Computing, 1247, pp.534-544.

Kydyrbekova, A., Othman, M., Mamyrbayev, O., Akhmediyarova, A. and Bagashar, Z., 2020. Identification and authentication of user voice using DNN features and i-vector. Cogent Engineering, 7 (1), pp.1-21.

Lavrynenko, O.Yu, Kocherhin, Y.A. and Konakhovych, G.F., 2018. Voice Control Command Recognition System of UAV Based on Steganographic-Cepstral Analysis. Electronics and Control Systems, 2 (56), pp.11-17.

Librosa: Audio and Music Processing in Python. [online] Avialable at: <https://librosa.org/> [Ac¬cessed 26 March 2022].

Lokesh, S. and Devi, M.R., 2019. Speech recognition system using enhanced mel frequency cepstral coefficient with windowing and framing method. Cluster Computing, 22, pp.11669-11679.

Mauch, M. and Dixon, S., 2014. PYIN: a fundamental frequency estimator using probabilistic threshold distributions. International Conference on Acoustics, Speech, & Signal Processing, pp.659-663.

Nair, S.R. and Shah, M.S., 2015. Applications of wavelet transform in speech processing: a review. International Journal of Engineering Research & Technology, 3 (1), pp.1-5.

Pandiaraj, S. and Kumar, K.R.S., 2015. Speaker identification using discrete wavelet transform. Journal of Computer Science, 11 (1), pp.53-56.

Pissarenko, D., 2003. Eigenface-Based Facial Recognition. [online] Avialable at: <https://www.researchgate.net/publication/2563672_Eigenface-Based_Facial_Recognition> [Accessed 20 January 2022].

Pramanik, A. and Raha, R., 2012. Automatic Speech Recognition using correlation analysis. 2012 World Congress on Information and Communication Technologies, pp.670-674.

Sochman, J. and Matas, J., 2010. AdaBoost. Prague: Center for Machine Perception, Czech Technical University. [online] Avialable at: <https://cmp.felk.cvut.cz/~sochmj1/adaboost_talk.pdf> [Accessed 10 March 2022]

Sorokin, V.N., Viugin, V.V. and Tananykin, A.A., 2012. Raspoznavanie lichnosti po golosu: analiticheskii obzor [Personality Recognition by Voice: An Analytical Review]. Informatcionnye protcessy, 12 (1), pp.1-30.

Tin, H. and Htake, H., 2012. Perceived gender classification from face images. International Journal of Modern Education and Computer Science, 1, pp.12-18.

Uchat, N.S., 2006. Hidden Markov Model and Speech Recognition. Indian Institute of Technology Mumbai.

Viola, P. and Jones, M.J., 2001. Rapid Object Detection using a Boosted Cascade of Simple Features. Proceedings IEEE Conference on Computer Vision and Pattern Recognition, pp.1-9.

Viola, P. and Jones, M.J., 2004. Robust real-time face detection. International Journal of Computer Vision, 57 (2), pp.137-154.

VoxForge. [online] Avialable at: <http://www.voxforge.org/> [Accessed 5 December 2021].

Wang, Y-Q., 2014. An Analysis of the Viola-Jones Face Detection Algorithm. Image Processing On Line, 4, pp.128-148.

Wu, J.-D. and Lin, B.-F., 2009. Speaker identification based on the frame linear predictive coding spectrum technique. Expert Systems with Applications, 36 (4), pp.8056-8063.

Ye, F. and Yang, J., 2021. A Deep Neural Network Model for Speaker Identification. Applied Sciences, 11 (3603), pp.2-18.

Yudin, O.K. and Ziubina, R.V., 2017. Analiz suchasnykh system ta metodiv rozpiznavannia audiosyhnaliv u zadachakh identyfikatsii ta veryfikatsii [Analysis of modern systems and methods of recognition of audio signals in the problems of identification and verification]. Problemy informatyzatsii ta upravlinnia, 3 (59), pp.75-79.