您的位置首页生活百科

求一款简单的批量提取网页文字的工具,合乎问题追加10分满意追加20分

求一款简单的批量提取网页文字的工具,合乎问题追加10分满意追加20分

的有关信息介绍如下:

问题补充说明:就是那种给出起始网址 结束网址 就提取出文字合成小说的工具 比如起始~http://……/read_74877_5625.html ~ ~ ~ ~结束~http://……/read_74877_5665.html 然后41个网页中文字内容全部提取出来了

求一款简单的批量提取网页文字的工具,合乎问题追加10分满意追加20分

用ReplaceP倒音心弱饭ioneer可以。

第一步,生成下载列表:

1.ctrl-h打开replace窗口

点击Advanced页,在InsertBeginText输入:

jo民证染略in('\n',360问答map{"http://……/read_74877_$_.html,text"}(5625..5665))

2.点击Replace,完成,按ctrl-s保存为a.txt

第二步,导入a.txt并下载

3.打开Tool波了压革镇款由语即斗玉s->BatchRunner菜单

4.点击ImportList把a.txt导入

5.选中Seto响观utputfilename,把右边的${FILENAME}改为需要的新名字,比如#.txt表示递增的粮问植损听刘序号1.txt,2.t规益收明求号织施清xt,...。

6.点击Copy/Download即下载完毕

第三步,合并

7.打开维代百那城县评屋判Tools->BatchRunner菜单

8.点击PickFiles选择下载好的1.txt,2.txt,...

9.点击FileMerge,输入结果文件,完成合并

注:

*如希望下载为html格式,而不是text格式,第一步的",text"可以去掉。

*如希望把不必要的内容去掉构呼直病跑减立欢领短,第6步可以选择FastReplace按钮代替copy/download按钮,按add按钮输入多条替换规则,比如:

search输入"^.*?abc"(不带双引号),r车照起铁衡松据视激鸡水eplace不填,就能把开头到苗过盾abc的内容全部去掉。

search输入"def.*?$"(不带双引号),replace不填,陆点占就能把从def到结尾的内容全部去掉。

加完后点击sta三歌头继万根功浓rt即可。