#Heritrix

爬虫技术框架——Heritrix

Heritrix是一个由Java开发的开源Web爬虫系统,用来获取完整的、精确的站点内容的深度复制,具有强大的可扩展性,运行开发者任意选择或扩展各个组件,实现特定的抓取逻辑。一、Heritrix介绍Heritrix采用了模块化的设计,用户可以在运行时选择要用的模块。它由核心类(coreclasses)和插件模块(plu...
代码星球 ·2020-04-15