不用写代码webscraper30秒抓取任意公众号文章
1、Chrome浏览器就是谷歌浏览器,大家自己百度搜索下载即可。下载好之后,直接打开网页是打不开的,大家再百度搜索下“谷歌浏览器账号助手”,这是一个扩展程序,添加进去,就可以和其它浏览器一样,正常使用了。


4、打开 微信,进入某个公众号,点开历史文章页面,点击 全部消息,然后点击右上角的三个点,分享,点击发送给朋友,这里可以选择自己的朋友发,也可以选择文件传输助手,然后回到发微信聊天页面,打开刚分享的链接就会自动在谷歌浏览器上打开了。

6、最右边的那个,就是webscraper。

8、如图1,第一个大方框,填写抓取的用的代码{如图2}。下面是命名,这个随意写个就可以了。抓取公众号标题、时间、内容链接(以下就是代码,大家直接复制使用即可){"_id":"gongzhonghao","startUrl":["https://mp.weixin.qq.com/s/YkQyrnDt6e_Sn7oj2JaHyA"],"selectors":[{"id":"total","type":"SelectorElementScroll","parentSelectors":["_root"],"selector":"div.weui_msg_card:nth-of-type(n+2)","multiple":true,"delay":"1000"},{"id":"title","type":"SelectorText","parentSelectors":["total"],"selector":"h4.weui_media_title","multiple":false,"regex":"","delay":0},{"id":"date","type":"SelectorText","parentSelectors":["total"],"selector":"p.weui_media_extra_info","multiple":false,"regex":"","delay":0},{"id":"link","type":"SelectorElementAttribute","parentSelectors":["total"],"selector":"h4.weui_media_title","multiple":false,"extractAttribute":"hrefs","delay":0}]}

9、粘贴代码。2.命名。3.点击最下面的“import sitemap”

10、此时出现下图中的这个页面,点击中间那项右边的倒三角,点击 edit metadata.

11、出来的这个页面里,start URL是要抓取的链接。这里我就去复制刚刚打开的公众号页面的链接,然后粘贴进来,最后,点击下面的”save sitemap“即可。


12、接着出来的页面里,还是选择中间那项,点击右边的倒三角,点击”scraper"。

14、这时就会跳出,自动抓取的页面,并自动抓取。

16、就会出来抓取的数据预览页面了。


18、打开电脑里面的表格文件,就可以看到抓取到的内容了。到此为止,基本上算完成了。

19、但是,下载下来的排序是错乱的。这里,需要自己手动去筛选排序即可。非常简单:将标题栏进行筛选,第一个标题栏里面的数字就有大小顺序的,大家按升序或者降序排序就可以了。如果不明白的,可以多看几遍,我也是实操了很多次,才会熟练的。祝大家成功!