使用lynx来获取网页文本, 效果就相当于在一个网页上面输入ctrl+a ctrl+c,然后ctrl+v保存到一个文本文件中,当然写到脚本里就可以自动化操作了。

lynx -notitle -nomargins -nolist -width=4096 -verbose -display_charset=gb2312 -dump http://baike.baidu.com/view/396668.htm?hh=255 | iconv -f gb2312 -t utf8//IGNORE

排下版 wang@wang-desktop:~/script/notsobad/shell/tool$ cat get_url.sh

#!/bin/sh
# File: get_url.sh
# Author: notsobad
# Description:
# Created: 2009-12-14 15:53:02
# Last modified: 2009-12-14 15:53:02

url=$1

lynx -notitle\
    -nomargins\
    -nolist\
    -width=4096\
    -verbose\
    -display_charset=gb2312\
    -dump\
    "$url"\
    | iconv -f gb2312 -t utf8//IGNORE