想存贮一个网站的某些网页作为自己的备份。文字倒是很好建立数据库存储。但是不知道拿图片怎么办。比如网页源码正文里面直接有"http://xxx.xxx/xxx.jpg"。图片是很容易下载下来,但是怎么和文字保持一致性呢(对应关系)?
不知道有什么好的解决方案?
谢谢。
不知道有什么好的解决方案?
谢谢。
1
Sunyanzi Nov 18, 2014
对于初心者用户来说 ... 直接网页另存为就好 ...
对于非初心用户可以使用一个叫 webzip 的神器 ... 对于上级者用户来说 ... 自己写一个爬虫也不是什么难事吧 ... |
2
tts OP @Sunyanzi 我的意思是图片下载下来之后,不知道怎么和数据库里面的文字对应起来。比如用mongodb,每篇帖子一个dic,但是帖子中的图片怎么放到这个dic中去?
|
3
hicdn Nov 18, 2014
@tts 你要是内存够大,可以把图片转成 base64 编码,直接存数据库。
https://stackoverflow.com/questions/6150289/how-to-convert-image-into-base64-string-using-javascript |
4
BinbinWang Nov 18, 2014
evernote
|
5
Sunyanzi Nov 18, 2014
|
6
tts OP |
7
xinyingyin Nov 19, 2014
数据库多个图片地址字段吧,省得那么麻烦
|
8
cszhiyue Nov 19, 2014
直接爬虫,文字通过数据保存,建立一个图片池,爬虫把图片下载到图片池,对网页内的图片链接进行替换就可以了
|
11
SunLn Nov 20, 2014
evernote 应该会把这些图片收集起来吧。
|