Encog是一个高等神经网络和机器人/爬虫开拓类库。Encog供应的这两种功能可以单独分开利用来创建神经网络或HTTP机器人程序,同时Encog还支持将这两种高等功能联合起来利用。Encog支持创建前馈神经网络、Hopfield神经网络、自组织图。Encog供应高等HTTP机器人/爬虫编程功能。支持将多线程爬虫产生的内容存在内存或数据库中。支持HTM解析和高等表单与Cookie处理。
Web-Harvest
Web-Harvest 是一个用Java 写的开源的Web 数据提取工具。它供应了一种从所需的页面上提取有用数据的方法。Web-Harvest 的紧张目的是加强现有数据提取技能的运用。它的目标不是创造一种新方法,而是供应一种更好地利用和组合现有方法的办法。它供应了一个处理器集用于处理数据和掌握流程,每一个处理器被看作是一个函数,它拥有参数和实行后同样有结果返回。而且处理是被组合成一个管道的形式,这样使得它们可以以链式的形式来实行,此外为了更易于数据操作和重用,Web-Harvest 还供应了变量高下方用于存储已经声明的变量。

JSpider
JSpider是一个完备可配置和定制的Web Spider引擎.你可以利用它来检讨网站的缺点(内在的做事器缺点等),网站内外部链接检讨,剖析网站的构造(可创建一个网站舆图),下载全体Web站点,你还可以写一个JSpider插件来扩展你所须要的功能。
Heritrix
Heritrix 是一个由 java 开拓的、开源的网络爬虫,用户可以利用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。它能获取完全的、精确的、站点内容的深度复制。包括获取图像以及其他非文本内容。抓取并存储干系的内容。对内容来者不拒,不对页面进行内容上的修正。重新爬行对相同的URL不针对先前的进行更换。爬虫紧张通过Web用户界面启动、监控和调度,许可弹性的定义要获取的url。
末了
为帮助那些往想互联网方向转行想学习,却由于韶光不足,资源不敷而放弃的人。我搜集整理了一套完全的IT学习资料,包括Java、SEO优化、Python入门书本等等等,比自己在网上零散网络的构造性和连贯性更强,只为帮助那些想学习的人!
须要的同学可私信!
私信!
回答“学习”