前两讲我们别离介绍了帝国cms收集根基流程和帝国cms如何收集内容分页,最后这一讲主要介绍帝国cms收集过滤与替换,还有些技能。
一、过滤
1、帝国cms收集过滤分为两种:
(1)"整体页面过滤正则":
(2)"过滤告白正则":
我们有些疑惑,这两种过滤到底有什么区别?"整体页面过滤正则"是过滤整个网页的html代码。"过滤告白正则"是过滤文章内容,仅对文章内容([!--newstext--])起作用。
2、过滤实例:
过滤实例(1):
我们收集后发现信息内容底部多了行代码:"<div style="clear:both;height:0;visibility:hiddden;overflow:hidden;">&bnsp;</div>",按照格局"告白起头[!--ad--]告白结束"取得"过滤告白正则":
过滤实例(2):
要过滤链接代码怎么办,注意"过滤告白正则"右边有堆代码:
鼠标先点击A,系统自动生成过滤链接代码"<a[!--ad--]>,</a>,<A[!--ad--]>,</A>",这样便可以把收集后的内容链接过滤失落了。同理,如果想过滤其他html代码就点击相应的标签代码。
注意事项:当内容分页包含在内容([!--newstext--])里时,要过滤失落内容分页,不然会重复呈现内容分页。
2、替换
1、帝国cms收集替换也分为两种:
(1)"整体页面替换":
(2)"替换":
他们两种区别:"整体页面替换"是替换整个网页的html代码。"替换"是替换文章题目和内容,仅对题目([!--title--])和([!--newstext--])起作用。
2、替换实例:
我们要把内容里的"新华网"替换成"中华网":
预览下:
没有问题,替换过来了。
三、图片收集
(1)我们收集时会碰到信息内容可以正常收集,可是里面的图片却不显示,例子:
信息内容可以正常收集,就是图片不显示出来,这是由于内容图片的路径不对,图片的路径为相对地址。
(2)查看源代码:
图片是相对地址,要换成绝对地址才能收集成功。
(3)替换成绝对地址:
先在目标站的图片右键查看属性: