主题 : 新闻采集
级别: 解元
UID: 127187
积分:209 加为好友
威望: 0 精华: 0
主题:14 回复:142
注册时间:2018-12-10
在线时长:0
1#   发表于:2019-04-15 18:46:32  IP:61.86.*.*
目前采集来源与来源地址 是写死的吗?
级别: 论坛管理员
UID: 122721
积分:57884 加为好友
威望: 2 精华: 1
主题:5 回复:50085
注册时间:2018-05-07
在线时长:0
2#   发表于:2019-04-16 08:30:42  IP:117.140.*.*
您好   是的   目前采集的地址是写死的
每天告诉自己一次,“我真的很不错”。
级别: 解元
UID: 127187
积分:209 加为好友
威望: 0 精华: 0
主题:14 回复:142
注册时间:2018-12-10
在线时长:0
3#   发表于:2019-04-16 08:52:32  IP:61.86.*.*
级别: 论坛管理员
UID: 122721
积分:57884 加为好友
威望: 2 精华: 1
主题:5 回复:50085
注册时间:2018-05-07
在线时长:0
4#   发表于:2019-04-16 08:54:24  IP:117.152.*.*
您好   我这边可以给您一个采集方面的视频您可以学习下采集的配置
每天告诉自己一次,“我真的很不错”。
级别: 论坛管理员
UID: 122721
积分:57884 加为好友
威望: 2 精华: 1
主题:5 回复:50085
注册时间:2018-05-07
在线时长:0
5#   发表于:2019-04-16 09:15:24  IP:117.152.*.*
http://www.jeecms.com/jinlei/550.htm
这个是视频的地址  您可以学习下
每天告诉自己一次,“我真的很不错”。
级别: 解元
UID: 127187
积分:209 加为好友
威望: 0 精华: 0
主题:14 回复:142
注册时间:2018-12-10
在线时长:0
6#   发表于:2019-04-16 09:59:21  IP:61.86.*.*
我这边按照视频配置后 已采集时间 就报错 不添加 
具体配置如下:
采集名称:test    入库类型:普通
入库栏目:新闻 页面编码:utf-8
暂停时间:700 是否采集图片:是
发布时间格式:yyyy/MM/dd 是否默认类型图片:否
采集地址:https://www.xian-janssen.com.cn/en/news/type/corporate-news?page=0
动态地址:https://www.xian-janssen.com.cn/en/news/type/corporate-news?page=[page]
页码从 1 到 3 
内容补全url:  空
分页补全url:空
图片补全url:https://www.xian-janssen.com.cn
内容地址集 开始 <div class="news-type-list row-1133"> 结束</ul>
内容地址 开始 <span class="field-content"><a href=" 结束 ">
类型图 开始 <img alt="" src=" 结束" style="
标题 开始 <meta name="keywords" content=" 结束 " />
内容 开始 <div class="content-middle clearfix center-auto">结束</article>
来源 开始 <link rel="canonical" href=" 结束" />
发布时间 开始 <span class="date-display-single" 结束 </span>
级别: 解元
UID: 127187
积分:209 加为好友
威望: 0 精华: 0
主题:14 回复:142
注册时间:2018-12-10
在线时长:0
7#   发表于:2019-04-16 09:59:38  IP:61.86.*.*
麻烦看下是否有问题
级别: 论坛管理员
UID: 122721
积分:57884 加为好友
威望: 2 精华: 1
主题:5 回复:50085
注册时间:2018-05-07
在线时长:0
8#   发表于:2019-04-16 10:06:25  IP:117.152.*.*
您这个内容地址集和内容地址有问题   内容地址集是获取您的内容栏目的  内容地址是用来获取您内容哪里的a链接的    我没记错的话我们的授权版本都是有个默认的采集的   您可以结合哪个采集视频和我们的哪个事例来写
每天告诉自己一次,“我真的很不错”。
级别: 解元
UID: 127187
积分:209 加为好友
威望: 0 精华: 0
主题:14 回复:142
注册时间:2018-12-10
在线时长:0
9#   发表于:2019-04-22 16:23:56  IP:13.85.*.*
您好 我现在有个优化采集质量的需求
一些网页会内嵌一些分享按钮
我想要在采集的时候回避分享按钮相关的源代码
示例如下


用采集中的添加屏蔽和添加替换能否实现

 我目前这么配置的话 还是无法屏蔽掉相关源码

示例网页如下
https://www.jnj.com.cn/news/press-releases/20180626063534

我想要屏蔽标签
<div class="PressReleasePage-sharebar"> 下的内容

谢谢
级别: 版主
UID: 121385
积分:34048 加为好友
威望: 0 精华: 0
主题:0 回复:32073
注册时间:2018-03-20
在线时长:0
10#   发表于:2019-04-22 16:27:09  IP:115.233.*.*
您好   您使用哪个内容屏蔽无法屏蔽掉吗?
世间没有一种具有真正价值的东西,可以不经过艰苦辛勤劳动而能够得到的。
1 2 > >| 共2页