最近因为工作需要,写了个采集网站数据的小程序。
主要功能是首先采集网站列表頁的链接存入数据库(需要排除重复采集的可能),第一次,采集全部,之后只采集最新数据,接着,获取采集到的链接地址,保存页面信息。
程序的主要爬取的数据有两部分,一个是列表的链接,一个是内容页的内容
首先采集网站不可避免的会用到正则表达式,所以就需要在XML中配置每个站点的相关采集信息和正则匹配内容等
XML模板文件如下:
|
|
配置文件搞定后,就是解析列表页的链接,把每一页的链接取出來,
读取一个配置文件,获取需要采集的站点信息,
首先是获取这个站点列表页的初始页面,可以得到总记录数和总页数
|
|
得到了总记录数和总页数后,就可以模拟翻页,获取列表链接了,
目前网络上的网站列表显示有两种(我只知道两种,不知道的我就不管了╮(╯_╰)╭ )
一种是静态生成,就是一个页面就是一个HTML文件
还有一种是动态的,比如通过AJAX获取部分数据并刷新局部页面
|
|
地址采集的OK了,内容页的明天贴。