Welcome to the website navigation,本站只接受合法正规的企业网站,欢迎站长们提交你的网站获得展示和流量有任何问题请联系站长,欢迎大家加入本站。

                
提交网站
  • 网站:76083
  • 待审:5
  • APP:577
  • 文章:304411
  • 会员:56004
文字内链包年1000元 文字内链包年1000元 文字内链包年1000元 AI办公网站 AI绘画工具 AIchat

名站网址导航为大驾家提供DedeCMS站点程序站点教程相关的知识,比如织梦程序安装教程,织梦程序系统故障等教程。

前言:本文是“含有分页的普通文章的采集相关具体操作方法“的第三节,在前两节的基础上,将会对“如何采集指定节点”和“如何导出采集网站内容”做详细的介绍。为了与前文保持一致,本文将延续使用前文的章节标记。yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

上接第二节。yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

 yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

3.1采集指定节点yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

单击“保存并开始采集“后,将会进入”采集指定节点“界面,如(图29)所示,yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

图29-采集指定节点yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

 yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

每页采集:这是设置每页所需采集的条数,并可根据站点是否有防刷新功能,设置采集间隔时间。yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

 yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

特殊选项:设置是否检测重复图片,默认为“检测”。yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

 yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

附加选项:此选项一共有3种采集模式可供选择:第一种为“监控采集模式(检测当前或所有节点是否有新网站内容)”,选取后,系统只会采集指定节点中更新的网站内容;第二种为“重新下载全部网站内容”,选取后,系统会采集指定节点中的全部网站内容;第三种为“下载种子站点的未下载网站内容”,选取后,系统只会采集指定节点中未下载过的网站内容,包括以前没下载的和更新的网站内容。yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

 yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

设置完成并确定无误后,可单击“开始采集网页”或者“查看种子网址”。此时,如果单击“查看种子网址”会看到站点列表是空的,这是因为新建立的采集节点从未采集过,如(图30)所示,yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

图30-查看节点的种子网址yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

 yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

单击“开始采集网页”后,系统便会开始采集节点中设置的网址,并出现相关提示,如(图31)所示,yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

图31-采集进程中提示信息yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

 yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

采集结束后,再次单击“查看种子网址”或者单击页面右上角的“查看已下载”,便可看到已采集到的网址信息,如(图32)所示,yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

图32-查看节点的种子网址yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

 yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

成功采集以后,可以根据实际需要选择页面右上角的单击“采集节点管理”或者“导出数据”。单击“导出数据“后,便可进入” 采集管理> 采集网站内容导出“界面,如(图33)所示,yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

图33-采集网站内容导出yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

 yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

“默认导出栏目“:设置要把采集到的网站内容导入到的栏目yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

 yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

“批量采集选项”:如果在采集规则中已指定栏目ID,则可使用此功能,若指定的栏目ID为0,系统会把采集网站内容导入到“默认导出栏目”所选择的栏目中。yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

 yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

“发布选项“:有发布成“普通文档”和“保存为草稿”可供选择。yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

 yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

“每批导入“:设置每批导入的条数,此数不宜过大。yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

 yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

“附带选项“:此处为多选。如果不希望采集到重复的文章文章标题,可选中“排除重复文章标题”;如果希望被采集到的网站内容直接生成hTML的话,可选中“完成后自动生成导入网站内容hTML”;如果希望系统在采集站点列表页时自动识别文章标题名,可选中“使用站点列表索引的文章标题”,一般不建议勾选。yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

 yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

“随机推荐”:填入一个数字,代表文档篇数。在所填入的文档篇数内随机出现一篇推荐文档,若填入“0”,则表示为不推荐。yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

 yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

设置完成后,可单击“确定”,就可以把下载的导入到所选的栏目中了,如(图34)所示,yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

图34-设置完成后的采集网站内容导出页面yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

 yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

同时,系统将会有导出进程提示,如(图35)所示,yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

图35-采集网站内容导出中的提示信息yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

 yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

导出采集网站内容提示“完成所有栏目站点列表更新”后,单击“浏览栏目”,便可进入站点的相关页面查看到采集到的文章站点列表及其具体网站内容。也可在网站的后台管理界面的主菜单中单击“核心”,然后单击“普通文章”,进入“文档站点列表”页面,查看所采集到的文章站点列表,如(图36)所示,yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

图36-文档站点列表yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

 yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

在文档站点列表中,单击“用最简单网络 学习IP和ARP协议”的预览按钮,可打开文章网站内容页面,找到页面的换页部分,如(图37)所示,yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

图37-分页yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

 yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

由此可知,含有分页文章网站内容已经被成功采集到了。yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

总结,本文详细地叙述了如何采集一个含有分页的普通文章类型的页面,并简单地涉及到了过滤规则。对于采集更为复杂的普通文章类型的页面和使用过滤规则,将会在今后文章中介绍。yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

 yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

本文的采集规则:yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

{dede:listconfig}
{dede:noteinfo notename="采集测试(二)" channelid="1" macthtype="string"
    refurl="http://www.bitscn.com/network/protocol/201105/193110.html" sourcelang="gb2312" cosort="asc"
  isref="no" exptime="10" usemore="0" /}
{dede:listrule sourcetype="batch" rssurl="http://" regxurl="http://www.bitscn.com/network/protocol/list_(*).html"
startid="1" endid="1" addv="1" urlrule="area" musthas=""
 nothas="" listpic="1" usemore="0"}
    {dede:addurls}{/dede:addurls}
    {dede:batchrule}{/dede:batchrule}
    {dede:regxrule}{/dede:regxrule}
    {dede:areastart}<div class="list-cc">{/dede:areastart}
    {dede:areaend}</div>{/dede:areaend}
{/dede:listrule}
{/dede:listconfig}
{dede:itemconfig}
{dede:sppage sptype='full' srul='1' erul='5'}<div class="page next-page">[网站内容]</div>{/dede:sppage}
{dede:previewurl}http://www.bitscn.com/network/protocol/201105/193110.html{/dede:previewurl}
{dede:keywordtrim}{/dede:keywordtrim}
{dede:descriptiontrim}{/dede:descriptiontrim}
{dede:item field='title' value='' isunit='' isdown=''}
   {dede:match}<h1 class="title">[网站内容]</h1>{/dede:match}
   
   {dede:function}{/dede:function}
{/dede:item}{dede:item field='writer' value='' isunit='' isdown=''}
   {dede:match}{/dede:match}
   
   {dede:function}{/dede:function}
{/dede:item}{dede:item field='source' value='' isunit='' isdown=''}
   {dede:match}<span>来源:[网站内容]</span>{/dede:match}
   
   {dede:function}{/dede:function}
{/dede:item}{dede:item field='pubdate' value='' isunit='' isdown=''}
   {dede:match}时间:[网站内容]  <span>{/dede:match}
   
   {dede:function}{/dede:function}
{/dede:item}{dede:item field='body' value='' isunit='1' isdown='1'}
   {dede:match}<!--文章块开始-->[网站内容]<!--文章内分页结束-->{/dede:match}
   {dede:trim replace=""}<div class="contentgg">(.*)</div>{/dede:trim}
{dede:trim replace=""}<div align="center" >(.*)</div>{/dede:trim}
{dede:trim replace=""}<div class="page next-page">(.*)</div>{/dede:trim}
   {dede:function}{/dede:function}
{/dede:item}
{/dede:itemconfig}

Dedecms织梦程序采集功能的使用教程-含有分页的普通文章的采集(二)yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

yqYAIChat_企业网址导航_网址分类目录_企业黄页网址提交查询专业网站!

关于DedeCMS站点程序站点教程相关的知识,就说到这里了希望能帮助朋友们。

标签:

分享到:

  网友投稿

注册时间:

网站:0 个   APP:0 个  文章:0 篇

  • 76083

    网站

  • 577

    APP

  • 304411

    文章

  • 56004

    会员

赶快注册账号,推广您的网站吧!
文章分类
热门网站
最新入驻APP小程序

宝贝市场2023-02-08

宝贝市场——买手和卖家商品展示

夺宝助手2023-02-08

夺宝助手小程序,查看每日快夺宝平

查诚信2023-02-08

查诚信是一款免费的商业查询工具

车价天天报2023-02-08

快速连接汽车销售,获知汽车最新报

考勤助理小程序2023-02-08

上班签到考勤,实时定位,后台轻松

汽车报价大全查询2023-02-08

汽车报价大全查询提供最新汽车市