10

自己动手写网络爬虫PDF+源码

上传者:yjip456

发布时间:2014-11-06 20:33:31

大小:49 M

简介:本书介绍了网络爬虫开发中的关键问题与java实现。主要包括从互联网获取信息与提取信息和对web信息挖掘等内容。本书在介绍基本原理的同时注重辅以具体代码实现来帮助读者加深理解,书中部分代码甚至可以直接使用。本书适用于有java程序设计基础的开发人员。同时也可以作为计算机相关专业本科生或研究生的参考教材。 你知道百度、Google 是如何获取数以亿计的网页并且实时更新的吗?你知道在搜索引擎领域人们常说的Spider 是什么吗?本章将全面介绍网络爬虫的方方面面。读完之后,你将完全有能力自己写一个网络爬虫,随意抓取互联网上任何感兴趣的东西。既然百度、Google 这些搜索引擎巨头已经帮我们抓取了互联网上的大部分信息,为什么还要自己写爬虫呢?因为深入整合信息的需求是广泛存在的。在企业中,爬虫抓取下来的信息可以作为数据仓库多维展现的数据源,也可以作为数据挖掘的来源。甚至有人为了炒股,专门抓取股票信息。既然从美国中情局到普通老百姓都需要,那还等什么,让我们快开始吧。

网络爬虫
下 载 1474人已下载
分享