Preview

Известия высших учебных заведений. Приборостроение

Расширенный поиск
Доступ открыт Открытый доступ  Доступ закрыт Только для подписчиков

Многомодальный корпус данных взаимодействия участников виртуальной коммуникации ENERGI

https://doi.org/10.17586/0021-3454-2025-68-12-1011-1019

Аннотация

Выполнен статистический анализ многомодального корпуса данных ENERGI (ENgagement and Emotion Russian Gathering Interlocutors), содержащего аудиовидеозаписи коммуникации на русском языке группы людей, полученные с использованием системы телеконференций Zoom. Данные корпуса размечены по трем классам: вовлеченности (высокий, средний, низкий) участников в разговор, эмоционального возбуждения (высокий, средний, низкий) и валентности эмоций (положительный, нейтральный, негативный), а также десяти классам коммуникативных жестов. Корпус содержит 6,4 часов видеозаписей групповых коммуникаций участников, всего 18 уникальных дикторов; разметка данных выполнена на 10-секундных временных интервалах. Преимущества ENERGI относительно других корпусов заключаются в многомодальности, русскоязычности, разнообразии дикторов, естественных условиях записи данных и расширенной аннотации по нескольким параметрам поведения участников коммуникации. Корпус может быть использован для разработки многомодальной автоматической системы анализа поведенческих аспектов участников групповой виртуальной коммуникации.

Об авторах

А. А. Двойникова
Санкт-Петербургский Федеральный исследовательский центр Российской академии наук
Россия

Анастасия Александровна Двойникова - лаборатория речевых и многомодальных интерфейсов, младший научный сотрудник

Санкт-Петербург



А. Н. Величко
Санкт-Петербургский Федеральный исследовательский центр Российской академии наук
Россия

Алёна Николаевна Величко — канд. техн. наук, лаборатория речевых и многомодальных интерфейсов; старший научный сотрудник

Санкт-Петербург



А. А. Карпов
Санкт-Петербургский Федеральный исследовательский центр Российской академии наук
Россия

Алексей Анатольевич Карпов — д-р техн. наук, профессор; лаборатория речевых и многомодальных интерфейсов; руководитель лаборатории

Санкт-Петербург



Список литературы

1. Уздяев М. Ю., Карпов А. А. Создание и анализ многомодального корпуса данных для автоматического распознавания агрессивного поведения людей // Научно-технический вестник информационных технологий, механики и оптики. 2024. Т. 24, № 5. С. 834–842.

2. Gupta A., Balasubramanian V. Daisee: Towards user engagement recognition in the wild // arXiv preprint arXiv:1609.01885. 2016.

3. Ben-Youssef A., Clavel C., Essid S. et al. UE-HRI: a new dataset for the study of user engagement in spontaneous human-robot interactions // Proc. of the 19th ACM Intern. Conf. on Multimodal Interaction (ICMI). 2017. P. 464–472. DOI: 10.1145/3136755.3136814.

4. Del Duchetto F., Baxter P., Hanheide M. Are you still with me? Continuous engagement assessment from a robot’s point of view // Frontiers in Robotics and AI. 2020. Vol. 7. DOI: 10.3389/frobt.2020.00116.

5. Kaur A., Mustafa A., Mehta L., Dhall A. Prediction and localization of student engagement in the wild // 2018 Digital Image Computing: Techniques and Applications (DICTA). 2018. P. 1–8. DOI: 10.1109/DICTA.2018.8615851.

6. Delgado K., Origgi J. M., Hasanpoor T. et al. Student engagement dataset // Proc. of the IEEE/CVF Intern. Conf. on Computer Vision. 2021. P. 3628–3636.

7. Чураев Е. Н. Персонализированные модели распознавания психоэмоционального состояния и вовлеченности лиц по видео: автореф. дис. … канд. тех. наук. СПб, 2025. 134 с.

8. Karimah S. N., Hasegawa S. Automatic engagement estimation in smart education/learning settings: a systematic review of engagement definitions, datasets, and methods // Smart Learning Environments. 2022. Vol. 9, N 1. P. 31. DOI: 10.1186/s40561-022-00212-y.

9. Celiktutan O., Skordos E., Gunes H. Multimodal human-human-robot interactions (mhhri) dataset for studying personality and engagement // IEEE Transactions on Affective Computing. 2017. Vol. 10, N 4. P. 484–497. DOI: 10.1109/TAFFC.2017.2737019.

10. Pabba C., Kumar P. An intelligent system for monitoring students’ engagement in large classroom teaching through facial expression recognition // Expert Systems. 2022. Vol. 39, N 1. P. e12839. DOI: 10.1111/exsy.12839.

11. Chatterjee I., Goršič M., Clapp J. D., Novak D. Automatic estimation of interpersonal engagement during naturalistic conversation using dyadic physiological measurements // Frontiers in Neuroscience. 2021. Vol. 15. P. 757381. DOI: 10.3389/fnins.2021.757381.

12. Sümer Ö., Goldberg P., D Mello S. et al. Multimodal engagement analysis from facial videos in the classroom // IEEE Transactions on Affective Computing. 2021. Vol. 14, N 2. P. 1012–1027. DOI: 10.1109/TAFFC.2021.3127692.

13. Vanneste P., Oramas J., Verelst T. et al. Computer vision and human behaviour, emotion and cognition detection: A use case on student engagement // Mathematics. 2021. Vol. 9, N 3. P. 287. DOI: 10.3390/math9030287.

14. Dresvyanskiy D., Sinha Y., Busch M. et al. DyCoDa: A multi-modal data collection of multi-user remote survival game recordings // Speech and Computer. SPECOM 2022. Lecture Notes in Computer Science. 2022. P. 163–177. DOI: 10.1007/978-3-031-20980-2_15.

15. Cafaro A., Wagner J., Baur T. et al. The NoXi database: multimodal recordings of mediated novice-expert interactions // Proc. of the ICMI. 2017. P. 350–359. DOI: 10.1145/3136755.3136780.

16. Busso C., Bulut M., Lee C. C. et al. IEMOCAP: Interactive emotional dyadic motion capture database // Language resources and evaluation. 2008. Vol. 42, N 4. P. 335–359. DOI: 10.1007/s10579-008-9076-6.

17. Ringeval F., Sonderegger A., Sauer J., Lalanne D. Introducing the RECOLA multimodal corpus of remote collaborative and affective interactions // 10th IEEE Intern. Conf. and Workshops on Automatic Face and Gesture Recognition (FG). 2013. P. 1–8. DOI: 10.1109/FG.2013.6553805.

18. Kossaifi J., Walecki R., Panagakis Y. et al. Sewa db: A rich database for audio-visual emotion and sentiment research in the wild // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2019. Vol. 43, N 3. P. 1022–1040. DOI: 10.1109/TPAMI.2019.2944808.

19. Двойникова А. А. Аналитический обзор многомодальных корпусов данных для распознавания эмоций // Альманах научных работ молодых ученых Университета ИТМО. 2023. Т. 1. С. 251–256.

20. Свид. о рег. № 2023624954. База данных проявлений вовлеченности и эмоций русскоязычных участников телеконференций (ENERGI — ENgagement and Emotion Russian Gathering Interlocutors), А. А. Карпов, А. А. Двойникова. 03.11.2023.

21. Двойникова А. А., Карпов А. А. Методика создания многомодальных корпусов данных для аудиовизуального анализа вовлеченности и эмоций участников виртуальной коммуникации // Изв. вузов. Приборостроение. 2024. Т. 67, № 11. С. 984–993. DOI: 10.17586/0021-3454-2024-67-11-984-993.

22. Sloetjes H., Wittenburg P. Annotation by category-ELAN and ISO DCR // Proc. of the 6th Intern. Conf. on Language Resources and Evaluation (LREC 2008). 2008.

23. Люсин Д. В. Новая методика для измерения эмоционального интеллекта: опросник ЭмИн // Психологическая диагностика. 2006. Т. 4. С. 3–22.


Рецензия

Для цитирования:


Двойникова А.А., Величко А.Н., Карпов А.А. Многомодальный корпус данных взаимодействия участников виртуальной коммуникации ENERGI. Известия высших учебных заведений. Приборостроение. 2025;68(12):1011-1019. https://doi.org/10.17586/0021-3454-2025-68-12-1011-1019

For citation:


Dvoynikova A.A., Velichko A.N., Karpov A.A. ENERGI: a multimodal data corpus of interaction of participants in virtual communication. Journal of Instrument Engineering. 2025;68(12):1011-1019. (In Russ.) https://doi.org/10.17586/0021-3454-2025-68-12-1011-1019

Просмотров: 9

JATS XML

ISSN 0021-3454 (Print)
ISSN 2500-0381 (Online)