使用lynx来获取网页文本, 效果就相当于在一个网页上面输入ctrl+a ctrl+c,然后ctrl+v保存到一个文本文件中,当然写到脚本里就可以自动化操作了。
lynx -notitle -nomargins -nolist -width=4096 -verbose -display_charset=gb2312 -dump http://baike.baidu.com/view/396668.htm?hh=255 | iconv -f gb2312 -t utf8//IGNORE
排下版 wang@wang-desktop:~/script/notsobad/shell/tool$ cat get_url.sh
#!/bin/sh
# File: get_url.sh
# Author: notsobad
# Description:
# Created: 2009-12-14 15:53:02
# Last modified: 2009-12-14 15:53:02
url=$1
lynx -notitle\
-nomargins\
-nolist\
-width=4096\
-verbose\
-display_charset=gb2312\
-dump\
"$url"\
| iconv -f gb2312 -t utf8//IGNORE