Preview

Известия высших учебных заведений. Приборостроение

Расширенный поиск

Феноменологическое описание процессов сбора и обработки интернет-документов

https://doi.org/10.17586/0021-3454-2023-66-12-1002-1010

Аннотация

Проанализировано состояние сети Интернет как хранилища информационных ресурсов с точки зрения бота — программы, занимающейся сбором данных в целях мониторинга ресурсов, наполнения поисковой системы или других коммерческих или исследовательских целях. Предложен подход к описанию исследуемой проблемы через совокупность феноменов, возникающих при сборе документов в Интернете. Описанные феномены необходимо учитывать при построении систем мониторинга либо поисковых систем. Приведен ряд особенностей, возникающих при веб-скрейпинге, харвестинге и в других случаях использования ботов для сбора данных в сети Интернет. Описаны проблемы использования поддоменов, рекурсивных поддоменов, технологий динамически загружаемого контента, поисковой оптимизации текстового контента и других. Пока    зано, что задача сбора данных с интернет-ресурсов является не только технологической, но и в большей степени наукоемкой, а поскольку исследования находятся в активной фазе, для них не существует „коробочного“ решения. Статья будет полезна исследователям в области развития Интернета, разработчикам поисковых систем, специалистам по дата-ретривингу и интернет-технологиям, а также специалистам в области создания и поддержки интернет-ресурсов и в области интернет-маркетинга.

 

Об авторах

С. В. Кулешов
Санкт-Петербургский Федеральный исследовательский центр Российской академии наук
Россия

Сергей Викторович Кулешов — д-р техн. наук, профессор РАН; Санкт-Петербургский Федеральный
исследовательский центр РАН, лаборатория автоматизации научных исследований, Санкт-Петербургский институт информатики и автоматизации РАН; гл. научный сотрудник



А. В. Зайцева
Санкт-Петербургский Федеральный исследовательский центр Российской академии наук
Россия

Александра Алексеевна Зайцева — канд. техн. наук; Санкт-Петербургский Федеральный исследовательский центр РАН, лаборатория автоматизации научных исследований, Санкт-Петербургский институт информатики и автоматизации РАН; ст. научный сотрудник



Список литературы

1. Berners-Lee T. Information Management: A Proposal. CERN, March 1989, May 1990 [Электронный ресурс]: <https://www.dcs.gla.ac.uk/~wpc/grcs/bernerslee.pdf>.

2. RFC 1945 [Электронный ресурс]: <https://datatracker.ietf.org/doc/html/rfc1945>.

3. Barnet B. Memory Machines: The Evolution of Hypertext. Anthem Press, 2013.

4. Olston C. and Najork M. Web Crawling, Foundation and Trends // Information Retrieval. 2010. Vol. 4, N 3. P. 175—246.

5. Najork M., Heydon A. High-Performance Web Crawling // Handbook of Massive Data Sets. Massive Computing / Ed. by J. Abello, P. M. Pardalos, M. G. C. Resende. Springer, Boston, MA, 2002. Vol. 4. https://doi.org/10.1007/978-1-4615-0005-6_2.

6. Laliwala Z., Shaikh A. Web Crawling and Data Mining with Apache Nutch. Packt Publishing, 2013.

7. Nasraoui O. Web data mining: exploring hyperlinks, contents, and usage data // ACM SIGKDD Explorations Newsletter, 2008. DOI: https://doi.org/10.1145/1540276.1540281.

8. Chakrabarti S. Mining the Web: Discovering knowledge from hypertext data. Elsevier, 2003.

9. Castillo C. Effective web crawling // ACM SIGIR Forum. 2005. DOI: https://doi.org/10.1145/1067268.1067287.

10. Boeing G., Waddell P. New Insights into Rental Housing Markets across the United States: Web Scraping and Analyzing Craigslist Rental Listings // Journal of Planning Education and Research. 2017. Vol. 37, N 4. DOI:10.2139/ssrn.2781297.

11. Practical Web Scraping for Data Science. Apress, Berkeley, CA, 2018. https://doi.org/10.1007/978-1-4842-3582 9_6.

12. Bloch J. How to design a good API and why it matters // Companion to the 21st ACM SIGPLAN Symp. on Object-oriented Programming Systems, Languages, and Applications. 2006. Р. 506—507.

13. Robillard M. P. et al. Automated API property inference techniques // IEEE Transactions on Software Engineering. 2012. Vol. 39, N 5. Р. 613—637.

14. Ofoeda J., Boateng R., Effah J. Application programming interface (API) research: A review of the past to inform the future // Intern. J. of Enterprise Information Systems (IJEIS). 2019. Vol. 15, N 3. Р. 76—95.

15. Qi L. et al. Data-driven web APIs recommendation for building web applications // IEEE Transactions on Big Data. 2020. Vol. 8, N 3. Р. 685—698.

16. Единый реестр доменных имен, указателей страниц сайтов в сети „Интернет“ и сетевых адресов, позволяющих идентифицировать сайты в сети „Интернет“, содержащие информацию, распространение которой в Российской Федерации запрещено [Электронный ресурс]: <https://eais.rkn.gov.ru/>.

17. HTML::LinkExtor Extract links from an HTML document [Электронный ресурс]: <http://search.cpan.org/dist/ HTML-Parser/lib/HTML/LinkExtor.pm>.

18. Немного на тему разработки веб-архивов [Электронный ресурс]: <http://habrahabr.ru/post/185816/>

19. Насколько умны поисковые роботы? // Типичные ошибки внутренней оптимизации. Вып. 76 [Электронный ресурс]: <http://seopult.ru/subscribe.html?id=76>.

20. Google пытается проиндексировать Невидимую Сеть [Электронный ресурс]: <http://habrahabr.ru/ post/23456/>.

21. Googlebot начал делать POST-запросы через Ajax [Электронный ресурс]: <http://habrahabr.ru/post/130258/>.

22. Якушев А. В., Дейкстра Л. Сетецентрические технологии сбора данных в Интернет [Электронный ресурс]: <http://socio.escience.ifmo.ru/content/files/file/network+centered.pdf>.

23. Поисковые технологии Яндекса [Электронный ресурс]: <http://download.yandex.ru/company/ techno/YandexTech_1.pdf>.

24. Поисковые технологии или в чем загвоздка написать свой поисковик [Электронный ресурс]: <http://habrahabr.ru/post/123671/>.

25. HtmlUnit – JavaScript Tutorial [Электронный ресурс]: <https://htmlunit.sourceforge.io/javascript-howto.html>.

26. Поддомены: что это такое и зачем они нужны? [Электронный ресурс]: <https://timeweb.com/ru/community/ articles/poddomeny-chto-eto-takoe-i-zachem-oni-nuzhny>.

27. RFC1035: Domain Names – Implementation And Specification. Network Working Group, November 1987 [Электронный ресурс]: <http://www.faqs.org/rfcs/rfc1035.html>.

28. Большой гайд по UTM-меткам: как узнать, откуда приходят пользователи [Электронный ресурс]: <https://habr.com/ru/company/click/blog/478758/>.

29. A Standard for Robot Exclusion [Электронный ресурс]: <http://www.robotstxt.org/orig.html>.

30. Kuleshov S., Zaytseva A., Aksenov A. Natural Language Search and Associative-Ontology Matching Algorithms Based on Graph Representation of Texts // Intelligent Systems Applications in Software Engineering. Advances in Intelligent Systems and Computing / Ed. by R. Silhavy, P. Silhavy, Z. Prokopova. Springer, Cham, 2019. Vol. 1046. P. 285—294. DOI 10.1007/978-3-030-30329-7_26.

31. Михайлов С. Н., Кулешов С. В. Экспертный мониторинг неструктурированных информационных ресурсов в интересах информационно-аналитического обеспечения космических исследований // Изв. Юго-Западного государственного университета. 2013. № 6-2(51). С. 40—43.

32. Зайцева А. А., Кулешов С. В., Михайлов С. Н. Метод оценки качества текстов в задачах аналитического мониторинга информационных ресурсов // Тр. СПИИРАН. 2014. Вып. 37. C. 144—155.

33. Москаленко А. А., Лапонина О. Р., Сухомлин В. А. Разработка приложения веб-скрапинга с возможностями обхода блокировок // Современные информационные технологии и ИТ-образование. 2019. Т. 15, № 2. С. 413—420.

34. Игнатьев А. Г., Линдре Ю. А. Актуальные тренды регулирования Интернета: от открытого пространства безграничной свободы к региональной и страновой фрагментации. М.: Центр компетенций по глобальной ИТ-кооперации, 2023. 30 с. EDN EHZLLW.

35. Куликова А. В. О фрагментации интернета: старые вопросы и новые вызовы // Индекс безопасности. 2015. Т. 21, № 1(112). С. 115—120. EDN XBFPKZ.


Рецензия

Для цитирования:


Кулешов С.В., Зайцева А.В. Феноменологическое описание процессов сбора и обработки интернет-документов. Известия высших учебных заведений. Приборостроение. 2023;66(12):1002-1010. https://doi.org/10.17586/0021-3454-2023-66-12-1002-1010

For citation:


Kuleshov S.V., Zaytseva A. Phenomenological Description of Internet Documents Collecting and Processing. Journal of Instrument Engineering. 2023;66(12):1002-1010. (In Russ.) https://doi.org/10.17586/0021-3454-2023-66-12-1002-1010

Просмотров: 15


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 0021-3454 (Print)
ISSN 2500-0381 (Online)