Формирование ядра документов в системах интернет-мониторинга в условиях ресурсных ограничений
https://doi.org/10.17586/0021-3454-2022-65-11-826-832
Аннотация
Рассматриваются особенности разработки систем интернет-мониторинга открытого типа с неограниченным количеством источников в условиях ограниченного объема систем хранения собранных данных. Цель работы — решение задачи формирования множества документов минимально необходимого размера (ядра документов), отвечающего требованиям репрезентативности и вариативности тем при мониторниге сети Интернет. Для формализации и решения поставленной задачи разработана теоретико-множественная модель ядра документов. Предложенный подход отличается использованием вытесняющего алгоритма, поддерживающего в базе данных наличие только актуальных документов в пределах доступного объема системы хранения данных. Приведены результаты эксперимента с использованием реальных данных, подтверждающие применимость разработанной модели. Предложенный подход может быть использован в ряде практических задач, в частности для поиска в сети Интернет сведений (документов, страниц), по которым отсутствует априорная информация, необходимая для поиска по ключевым словам.
Об авторах
С. В. КулешовРоссия
Сергей Викторович Кулешов — д-р техн. наук, профессор; лаборатория автоматизации научных исследований; гл. научный сотрудник
Санкт-Петербург
А. А. Зайцева
Россия
Александра Алексеевна Зайцева — канд. техн. наук; лаборатория автоматизации научных исследований; ст. научный сотрудник
Санкт-Петербург
А. Ю. Аксенов
Россия
Алексей Юрьевич Аксенов — канд. техн. наук; лаборатория автоматизации научных исследований; ст. научный сотрудник
Санкт-Петербург
Список литературы
1. Zachlod C., Samuel O., Ochsner A., Werthmüller S. Analytics of social media data – state of characteristics and application // Journal of Business Research. 2022. Vol. 144, P. 1064—1076. DOI: 10.1016/j.jbusres.2022.02.016.
2. Fink C., Toivonen T., Correia R. A., Di Minin E. Mapping the online songbird trade in Indonesia // Applied Geography. 2021. P. 134. DOI:10.1016/j.apgeog.2021.102505.
3. Han H., Wang C., Zhao Y., Shu M., Wang W., Min Y. SSLE: A framework for evaluating the “Filter bubble” effect on the news aggregator and recommenders // World Wide Web. 2022. N 25(3). P. 1169—1195. DOI: 10.1007/s11280-022-01031-4.
4. Krewinkel A., Sünkler S., Lewandowski D. et al. Concept for automated computer-aided identification and evaluation of potentially non-compliant food products traded via electronic commerce // Food Control. 2016. N 61, P. 204—212. DOI:10.1016/j.foodcont.2015.09.039.
5. Беляевский К. О. Формирование октодерева по облаку точек при ограничении объема оперативной памяти // Научно-технический вестник СПбПУ. Информатика. Телекоммуникации. Управление. 2019. Т. 12, № 4. С. 97—110.
6. Puzak T.R. Analysis of Cache Replacement-Algorithms: Doctor’s Thesis. 1985.
7. Wilson P. R. et al. Dynamic storage allocation: A survey and critical review // Lecture Notes in Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 1995. Vol. 986. P. 1—116.
8. Laliwala Z., Shaikh A. Web Crawling and Data Mining with Apache Nutch. Packt Publ., 2013.
9. Nasraoui O. Web data mining: exploring hyperlinks, contents, and usage data // ACM SIGKDD Explorations Newsletter. 2008.
10. Van den Broucke S., Baesens B. From Web Scraping to Web Crawling. Practical Web Scraping for Data Science. Berkeley, CA: Apress, 2018. P. 155—172.
11. Alkalbani A. M., Hussain W., Kim J. Y. A Centralised Cloud Services Repository (CCSR) Framework for Optimal Cloud Service Advertisement Discovery from Heterogenous Web Portals // IEEE Access. 2019. Vol. 7. P. 128213—128223. DOI: 10.1109/ACCESS.2019.2939543.
12. Wu Z., Cai Z., Tang, X., Xu Y., Deng T. A forward and backward private oblivious RAM for storage outsourcing on edge-cloud computing // Journal of Parallel and Distributed Computing. 2022. Vol. 166. P. 1—14. DOI: 10.1016/j.jpdc.2022.04.008.
13. Зайцева А. А., Кулешов С. В., Михайлов С. Н. Метод оценки качества текстов в задачах аналитического мониторинга информационных ресурсов // Тр. СПИИРАН. 2014. Вып. 37. C. 144—155.
14. Кулешов С. В., Зайцева А. А., Левашкин С. П. Технологии и принципы сбора и обработки неструктурированных распределенных данных с учетом современных особенностей предоставления медиа-контента // Информатизация и связь. 2020. № 4. С. 62—66.
15. Kuleshov S., Zaytseva A., Aksenov A. Natural Language Search and Associative-Ontology Matching Algorithms Based on Graph Representation of Texts // Intelligent Systems Applications in Software Engineering, CoMeSySo 2019; Advances in Intelligent Systems and Computing. 2019. Vol. 1046. P. 7—26. DOI 10.1007/978-3-030-30329-7_26.
Рецензия
Для цитирования:
Кулешов С.В., Зайцева А.А., Аксенов А.Ю. Формирование ядра документов в системах интернет-мониторинга в условиях ресурсных ограничений. Известия высших учебных заведений. Приборостроение. 2022;65(11):826-832. https://doi.org/10.17586/0021-3454-2022-65-11-826-832
For citation:
Kuleshov S.V., Zaytseva A.A., Aksenov A.Yu. Formation of the core of documents in Internet monitoring systems under resource constraints. Journal of Instrument Engineering. 2022;65(11):826-832. (In Russ.) https://doi.org/10.17586/0021-3454-2022-65-11-826-832