hi,all。因为公司业务问题,需要抓取一批静态网站的内容,要求是文章的图片、段落文字、视频都要原封不动的抓下来。
我看了下scrapy的selector,xpath和css好像都是按照元素类型来进行内容的筛选的,没办法表现每个元素之间的位置关系。比如我用`selector.css(p::text).extract()`抓取出来的是一个文字的list结构,通过`selector.css(img).xpath('@src').extract()`是能抓取所有的图片,但这两个列表的元素之间顺序关系,我无法确认。
不知道大家在爬网站的时候,是怎么做到保证原文内容顺序的呢?
我看了下scrapy的selector,xpath和css好像都是按照元素类型来进行内容的筛选的,没办法表现每个元素之间的位置关系。比如我用`selector.css(p::text).extract()`抓取出来的是一个文字的list结构,通过`selector.css(img).xpath('@src').extract()`是能抓取所有的图片,但这两个列表的元素之间顺序关系,我无法确认。
不知道大家在爬网站的时候,是怎么做到保证原文内容顺序的呢?