如何完美备份(离线)静态站点?
有时候想把一些不错的静态站点的内容离线下来,然后制作成为Docset放在Dash里面便于管理查看。将站点,其实就是带有索引(一般是index.html)的html文件转换为docset格式这一步已经用python实现自动化了。剩下的问题就是如何离线静态站点。
目前主要有两种方法:
-
用wget下载资源,一般用
wget -r -p -k -np [site_root_path]
命令; - 用SiteSucker下载。
但是这两种方法都不是很完美,因为上面两种方法下载页面时,只下载: site_root_path以及子目录下的html文件,这样会导致一些引用的js脚本,css样式表以及图片等都下载不了。比如 The Django Book 这个网站,如果用
wget -r -p -k -np http://djangobook.py3k.cn/2.0/
就无法下载到
http://djangobook.py3k.cn/sitemedia/css/djangobook.css
以及其它的一些资源,这就导致在Dash中查看时失去一些样式。
所以问题来了,有没有现成的傻瓜方法可以让我完美的备份静态站点?(完美就是指下载某个目录时,要下载它的所有子目录,并且也要选择性的下载要使用到的但不在该目录下的css、js以及图片文件。)
不在对你说爱
10 years, 1 month ago