Архитектурные и технологические решения для систем сбора и управления потоками неструктурированных данных
https://doi.org/10.17586/0021-3454-2025-68-11-919-926
Аннотация
Рассмотрена задача обработки больших объемов неструктурированных данных, получаемых из открытых веб-источников, в условиях ограниченных ресурсов хранения и роста доли спам-контента. Цель исследования — разработка архитектурных и технологических решений для эффективного управления потоками неструктурированных данных, включая поддержание актуального состояния ядра документов, релевантных предметной области. Предложены варианты реализации технологий вытесняющего хранения данных и отложенного веб-скрейпинга. Вытесняющее хранение позволяет управлять данными в системах с фиксированным объемом памяти, используя критерии значимости документов: время создания, соответствие предметной области и уровень дублирования. Технология отложенного скрейпинга предназначена для обогащения данных путем дополнения и уточнения информации из открытых источников без создания пиковой нагрузки на внешние ресурсы. Предложен вариант решения задачи поддержания в актуальном состоянии ядра документов, релевантных состоянию предметной области. Предложена архитектура системы вытесняющего хранения и отложенного скрейпинга, которая позволяет эффективно управлять данными при экспоненциальном росте контента. Полученные результаты могут применяться для совершенствования методов обработки агрегированного и синтетического контента, получаемого из открытых источников.
Ключевые слова
Об авторах
С. В. КулешовРоссия
Сергей Викторович Кулешов — д-р техн. наук, профессор РАН; СПИИРАН, лаборатория автоматизации научных исследований; главный научный сотрудник
Санкт-Петербург
А. А. Зайцева
Россия
Александра Алексеевна Зайцева — канд. техн. наук, доцент; СПИИРАН, лаборатория автоматизации научных исследований; старший научный сотрудник
Санкт-Петербург
Список литературы
1. [Электронный ресурс]: <https://www.gazeta.ru/tech/news/2024/03/06/22489231.shtml>. (дата обращения: 23.05.2025)
2. [Электронный ресурс]: <https://blog.google/products/search/google-search-update-march-2024/>. (дата обращения: 23.05.2025)
3. Tao F. et al. Doc2cube: Allocating documents to text cube without labeled data // 2018 IEEE Intern. Conf. on Data Mining (ICDM). IEEE, 2018. P. 1260–1265.
4. Agichtein E., Gravano L. Snowball: Extracting relations from large plain-text collections // Proc. of the 5th ACM Conf. on Digital libraries. 2000. P. 85–94.
5. Kuleshov S., Zaytseva A., Aksenov A. Natural Language Search and Associative-Ontology Matching Algorithms Based on Graph Representation of Texts // Intelligent Systems Applications in Software Engineering. Advances in Intelligent Systems and Computing. Springer, Cham, 2019. Vol. 1046. Р. 285–294. DOI 10.1007/978-3-030-30329-7_26.
6. Отчет о НИР „Разработка теоретических и технологических основ анализа неструктурированных данных и многомодального взаимодействия пользователей, интеллектуальной поддержки целенаправленного коллективного поведения участников в человеко-машинных сообществах (промежуточный, 2 этап)“, шифр FFZF-2022- 0005, номер госрегистрации 224021200089-4.
7. Кулешов С. В. Технологии управления потоками неструктурированных данных при анализе макросистем // Матер. XV Всерос. науч.-практ. конф. „Методологические проблемы управления макросистемами“. Апатиты, 01–04 апреля 2024.
8. Кулешов С. В., Зайцева А. А. Феноменологическое описание процессов сбора и обработки интернет-документов // Изв. вузов. Приборостроение. 2023. Т. 66, № 12. С. 1002–1010. DOI: 10.17586/0021-3454-2023-66-12-1002-1010.
9. Кулешов С. В., Зайцева А. А., Аксенов А. Ю. Формирование ядра документов в системах интернет-мониторинга в условиях ресурсных ограничений // Изв. вузов. Приборостроение. 2022. Т. 65, № 11. С. 826–832. DOI: 10.17586/0021-3454-2022-65-11-826-832.
10. Александров В. В., Кулешов С. В. Аналитический мониторинг Internet контента. Инфологический подход // Качество. Инновации. Образование. 2008. № 3(34). С. 68–70.
11. Тришин И. Г. База данных в исследовании истории усадеб Подмосковья: наполнение, обогащение и аналитика // Исторический журнал: научные исследования. 2023. № 3. С. 29–39. DOI 10.7256/2454-0609.2023.3.39859.
12. Апанович З. В., Марчук А. Г. Проблемы использования данных из облака LOD для обогащения контента научных баз данных и знаний // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Тр. XV Всерос. науч. конф. RCDL’2013. Ярославль, 14–17 октября 2013 года. Ярославль: ЯрГУ им. П. Г. Демидова, 2013. С. 300–305.
13. Chen H. et al. Hierarchy-aware label semantics matching network for hierarchical text classification // Proc. of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th Intern. Joint Conf. on Natural Language Processing (Vol. 1. Long Papers). 2021. P. 4370–4379.
14. Dumais S., Chen H. Hierarchical classification of web content // Proc. of the 23rd Ann. Intern. ACM SIGIR Conf. on Research and Development in Information Retrieval. 2000. P. 256–263.
Рецензия
Для цитирования:
Кулешов С.В., Зайцева А.А. Архитектурные и технологические решения для систем сбора и управления потоками неструктурированных данных. Известия высших учебных заведений. Приборостроение. 2025;68(11):919-926. https://doi.org/10.17586/0021-3454-2025-68-11-919-926
For citation:
Kuleshov S.V., Zaytseva A.A. Architectural and technological solutions to systems for collecting and managing unstructured data flows. Journal of Instrument Engineering. 2025;68(11):919-926. (In Russ.) https://doi.org/10.17586/0021-3454-2025-68-11-919-926






















