Python的HTMLParser真是灰常强大,简单实用。

放文两篇自己看吧。总的来说就是基于事件响应,有点像SAX。

http://canofy.javaeye.com/blog/352419

http://diveintopython.org/html_processing/index.html

其实吧,还有个工具wkhtmltopdf是用来HTML转PDF的,支持CSS,做出来的东西超漂亮。用法也很简单:

wkhtmltopdf --user-style-sheet style.css --image-quality 100 chap1.html chap2.html chap3.html output.pdf

这俩东西放一起能干啥,就不用说了吧?

哦哈哈不要这么邪恶~其实还是鼓励大家买正版~或者看完了给作者donate一下也好嘛~donate多好啊,觉得有用再付钱,先尝后买,垃圾书再也赚不到钱,哦哈哈