用爬虫采集当当网图书商品信息
本文主要介绍了如何批量采集当当网图书商品信息
工具/原料
电脑一台windows系统即可
ForeSpider数据采集系统5.2.0.18
新建采集任务
1、选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可,点击下一步。

获取分类链接
1、采集预览,查看页面所有链接,查找计算机分类链接的规律,发现所有与计算机相关的分类的链接规律为:http://category.dangdang.com/cp01.54.+数字串+.00.00.00.html

抽取图书商品链接
1、新建一层模板02,并新建两个链接抽取,第一个链接抽取抽取商品页链接,第二个抽取翻页链接。

3、选择任意一条分类链接,并粘贴到模板02的示例地址处,点击右上角保存按钮。

5、采集预览,双击任意一条分类链接,进入图书商品列表殳陌抻泥页,查看页面链接,观察图书链接规律,发现图书商品链接规律为:茑霁酌绡http://product.dangdang.com/+数字串+.html设置地址过滤,过滤规律为http://product.dangdang.com/\d.html\e的链接,其中\d表示数字串,\e表示链接结束。采集预览,图书商品链接已抽取到。

抽取图书商品数据
1、新建一个抽取模板,在其下新建一个数据抽取,具体操作如下所示:

3、将新建好的数据表,关联到模板中去,如下图所示:

5、将链接粘贴到本模板示例地址中,并双击内置浏览器空白部分,加载本链接。

7、模板02中的翻页链接抽取,关联模板02,这样采集到的翻页链接会继续在模板02中进行列表链接抽取。


10、Introduct、Autho、publish、pubtime、price取值同上



12、发现拉悟有仍该请求的链接是:http://product.dangdang.com/index.php?r=call芟鲠阻缒back%2Fdetail&productId=29267036&templateType=publish&describeMap=01000031459%3A1&shopId=0&categoryPath=01.54.06.23.00.00观察发现其规律为:http://product.dangdang.com/index.php?r=callback%2Fdetail&productId=+id+&templateType=publish&describeMap=01000031459%3A1&shopId=0&categoryPath=01.54.20.00.00.00";查看请求中的返回内容,发现文本内容都被Unicode转译。

14、在源码中,发现id为【abstract-all】的内容是编辑推荐(recommend字段)。

16、采集预览,双击进入下一层,知道打开数据页,抽取到数据,表示配置成功。

2、选择【数据采集】,勾选任务名称,点击【开始采集】,则正式开始采集。

