Многомодальный корпус данных взаимодействия участников виртуальной коммуникации ENERGI
https://doi.org/10.17586/0021-3454-2025-68-12-1011-1019
Аннотация
Выполнен статистический анализ многомодального корпуса данных ENERGI (ENgagement and Emotion Russian Gathering Interlocutors), содержащего аудиовидеозаписи коммуникации на русском языке группы людей, полученные с использованием системы телеконференций Zoom. Данные корпуса размечены по трем классам: вовлеченности (высокий, средний, низкий) участников в разговор, эмоционального возбуждения (высокий, средний, низкий) и валентности эмоций (положительный, нейтральный, негативный), а также десяти классам коммуникативных жестов. Корпус содержит 6,4 часов видеозаписей групповых коммуникаций участников, всего 18 уникальных дикторов; разметка данных выполнена на 10-секундных временных интервалах. Преимущества ENERGI относительно других корпусов заключаются в многомодальности, русскоязычности, разнообразии дикторов, естественных условиях записи данных и расширенной аннотации по нескольким параметрам поведения участников коммуникации. Корпус может быть использован для разработки многомодальной автоматической системы анализа поведенческих аспектов участников групповой виртуальной коммуникации.
Ключевые слова
Об авторах
А. А. ДвойниковаРоссия
Анастасия Александровна Двойникова - лаборатория речевых и многомодальных интерфейсов, младший научный сотрудник
Санкт-Петербург
А. Н. Величко
Россия
Алёна Николаевна Величко — канд. техн. наук, лаборатория речевых и многомодальных интерфейсов; старший научный сотрудник
Санкт-Петербург
А. А. Карпов
Россия
Алексей Анатольевич Карпов — д-р техн. наук, профессор; лаборатория речевых и многомодальных интерфейсов; руководитель лаборатории
Санкт-Петербург
Список литературы
1. Уздяев М. Ю., Карпов А. А. Создание и анализ многомодального корпуса данных для автоматического распознавания агрессивного поведения людей // Научно-технический вестник информационных технологий, механики и оптики. 2024. Т. 24, № 5. С. 834–842.
2. Gupta A., Balasubramanian V. Daisee: Towards user engagement recognition in the wild // arXiv preprint arXiv:1609.01885. 2016.
3. Ben-Youssef A., Clavel C., Essid S. et al. UE-HRI: a new dataset for the study of user engagement in spontaneous human-robot interactions // Proc. of the 19th ACM Intern. Conf. on Multimodal Interaction (ICMI). 2017. P. 464–472. DOI: 10.1145/3136755.3136814.
4. Del Duchetto F., Baxter P., Hanheide M. Are you still with me? Continuous engagement assessment from a robot’s point of view // Frontiers in Robotics and AI. 2020. Vol. 7. DOI: 10.3389/frobt.2020.00116.
5. Kaur A., Mustafa A., Mehta L., Dhall A. Prediction and localization of student engagement in the wild // 2018 Digital Image Computing: Techniques and Applications (DICTA). 2018. P. 1–8. DOI: 10.1109/DICTA.2018.8615851.
6. Delgado K., Origgi J. M., Hasanpoor T. et al. Student engagement dataset // Proc. of the IEEE/CVF Intern. Conf. on Computer Vision. 2021. P. 3628–3636.
7. Чураев Е. Н. Персонализированные модели распознавания психоэмоционального состояния и вовлеченности лиц по видео: автореф. дис. … канд. тех. наук. СПб, 2025. 134 с.
8. Karimah S. N., Hasegawa S. Automatic engagement estimation in smart education/learning settings: a systematic review of engagement definitions, datasets, and methods // Smart Learning Environments. 2022. Vol. 9, N 1. P. 31. DOI: 10.1186/s40561-022-00212-y.
9. Celiktutan O., Skordos E., Gunes H. Multimodal human-human-robot interactions (mhhri) dataset for studying personality and engagement // IEEE Transactions on Affective Computing. 2017. Vol. 10, N 4. P. 484–497. DOI: 10.1109/TAFFC.2017.2737019.
10. Pabba C., Kumar P. An intelligent system for monitoring students’ engagement in large classroom teaching through facial expression recognition // Expert Systems. 2022. Vol. 39, N 1. P. e12839. DOI: 10.1111/exsy.12839.
11. Chatterjee I., Goršič M., Clapp J. D., Novak D. Automatic estimation of interpersonal engagement during naturalistic conversation using dyadic physiological measurements // Frontiers in Neuroscience. 2021. Vol. 15. P. 757381. DOI: 10.3389/fnins.2021.757381.
12. Sümer Ö., Goldberg P., D Mello S. et al. Multimodal engagement analysis from facial videos in the classroom // IEEE Transactions on Affective Computing. 2021. Vol. 14, N 2. P. 1012–1027. DOI: 10.1109/TAFFC.2021.3127692.
13. Vanneste P., Oramas J., Verelst T. et al. Computer vision and human behaviour, emotion and cognition detection: A use case on student engagement // Mathematics. 2021. Vol. 9, N 3. P. 287. DOI: 10.3390/math9030287.
14. Dresvyanskiy D., Sinha Y., Busch M. et al. DyCoDa: A multi-modal data collection of multi-user remote survival game recordings // Speech and Computer. SPECOM 2022. Lecture Notes in Computer Science. 2022. P. 163–177. DOI: 10.1007/978-3-031-20980-2_15.
15. Cafaro A., Wagner J., Baur T. et al. The NoXi database: multimodal recordings of mediated novice-expert interactions // Proc. of the ICMI. 2017. P. 350–359. DOI: 10.1145/3136755.3136780.
16. Busso C., Bulut M., Lee C. C. et al. IEMOCAP: Interactive emotional dyadic motion capture database // Language resources and evaluation. 2008. Vol. 42, N 4. P. 335–359. DOI: 10.1007/s10579-008-9076-6.
17. Ringeval F., Sonderegger A., Sauer J., Lalanne D. Introducing the RECOLA multimodal corpus of remote collaborative and affective interactions // 10th IEEE Intern. Conf. and Workshops on Automatic Face and Gesture Recognition (FG). 2013. P. 1–8. DOI: 10.1109/FG.2013.6553805.
18. Kossaifi J., Walecki R., Panagakis Y. et al. Sewa db: A rich database for audio-visual emotion and sentiment research in the wild // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2019. Vol. 43, N 3. P. 1022–1040. DOI: 10.1109/TPAMI.2019.2944808.
19. Двойникова А. А. Аналитический обзор многомодальных корпусов данных для распознавания эмоций // Альманах научных работ молодых ученых Университета ИТМО. 2023. Т. 1. С. 251–256.
20. Свид. о рег. № 2023624954. База данных проявлений вовлеченности и эмоций русскоязычных участников телеконференций (ENERGI — ENgagement and Emotion Russian Gathering Interlocutors), А. А. Карпов, А. А. Двойникова. 03.11.2023.
21. Двойникова А. А., Карпов А. А. Методика создания многомодальных корпусов данных для аудиовизуального анализа вовлеченности и эмоций участников виртуальной коммуникации // Изв. вузов. Приборостроение. 2024. Т. 67, № 11. С. 984–993. DOI: 10.17586/0021-3454-2024-67-11-984-993.
22. Sloetjes H., Wittenburg P. Annotation by category-ELAN and ISO DCR // Proc. of the 6th Intern. Conf. on Language Resources and Evaluation (LREC 2008). 2008.
23. Люсин Д. В. Новая методика для измерения эмоционального интеллекта: опросник ЭмИн // Психологическая диагностика. 2006. Т. 4. С. 3–22.
Рецензия
Для цитирования:
Двойникова А.А., Величко А.Н., Карпов А.А. Многомодальный корпус данных взаимодействия участников виртуальной коммуникации ENERGI. Известия высших учебных заведений. Приборостроение. 2025;68(12):1011-1019. https://doi.org/10.17586/0021-3454-2025-68-12-1011-1019
For citation:
Dvoynikova A.A., Velichko A.N., Karpov A.A. ENERGI: a multimodal data corpus of interaction of participants in virtual communication. Journal of Instrument Engineering. 2025;68(12):1011-1019. (In Russ.) https://doi.org/10.17586/0021-3454-2025-68-12-1011-1019
JATS XML






















