主题 : 新闻采集 |
级别: 解元
|
1# 发表于:2019-04-15 18:46:32 IP:61.86.*.*
|
||||
---|---|---|---|---|---|
级别: 解元
|
3# 发表于:2019-04-16 08:52:32 IP:61.86.*.*
|
||
---|---|---|---|
级别: 论坛管理员
|
5# 发表于:2019-04-16 09:15:24 IP:117.152.*.*
http://www.jeecms.com/jinlei/550.htm
这个是视频的地址 您可以学习下 |
||
---|---|---|---|
级别: 解元
|
6# 发表于:2019-04-16 09:59:21 IP:61.86.*.*
我这边按照视频配置后 已采集时间 就报错 不添加
具体配置如下: 采集名称:test 入库类型:普通 入库栏目:新闻 页面编码:utf-8 暂停时间:700 是否采集图片:是 发布时间格式:yyyy/MM/dd 是否默认类型图片:否 采集地址:https://www.xian-janssen.com.cn/en/news/type/corporate-news?page=0 动态地址:https://www.xian-janssen.com.cn/en/news/type/corporate-news?page=[page] 页码从 1 到 3 内容补全url: 空 分页补全url:空 图片补全url:https://www.xian-janssen.com.cn 内容地址集 开始 <div class="news-type-list row-1133"> 结束</ul> 内容地址 开始 <span class="field-content"><a href=" 结束 "> 类型图 开始 <img alt="" src=" 结束" style=" 标题 开始 <meta name="keywords" content=" 结束 " /> 内容 开始 <div class="content-middle clearfix center-auto">结束</article> 来源 开始 <link rel="canonical" href=" 结束" /> 发布时间 开始 <span class="date-display-single" 结束 </span> |
||
---|---|---|---|
级别: 解元
|
7# 发表于:2019-04-16 09:59:38 IP:61.86.*.*
麻烦看下是否有问题
|
||
---|---|---|---|
级别: 论坛管理员
|
8# 发表于:2019-04-16 10:06:25 IP:117.152.*.*
您这个内容地址集和内容地址有问题 内容地址集是获取您的内容栏目的 内容地址是用来获取您内容哪里的a链接的 我没记错的话我们的授权版本都是有个默认的采集的 您可以结合哪个采集视频和我们的哪个事例来写
|
||
---|---|---|---|
级别: 解元
|
9# 发表于:2019-04-22 16:23:56 IP:13.85.*.*
您好 我现在有个优化采集质量的需求
一些网页会内嵌一些分享按钮 我想要在采集的时候回避分享按钮相关的源代码 示例如下 用采集中的添加屏蔽和添加替换能否实现 我目前这么配置的话 还是无法屏蔽掉相关源码 示例网页如下 https://www.jnj.com.cn/news/press-releases/20180626063534 我想要屏蔽标签 <div class="PressReleasePage-sharebar"> 下的内容 谢谢 |
||
---|---|---|---|