主题 : 采集的问题:未知错误
级别: 童生
UID: 35139
积分:27 加为好友
威望: 0 精华: 0
主题:1 回复:17
注册时间:2012-06-15
在线时长:0
1#   发表于:2013-10-16 14:19:02  IP:58.200.*.*

http://www.mlr.gov.cn/zwgk/zcjd/index.htm

设置信息如下:


运行信息:
采集完成

第5条 http://www.mlr.gov.cn/../xwdt/jrxw/201307/t20130729_1246170.htm 采集失败!原因: 未知错误
第4条 http://www.mlr.gov.cn/../xwdt/jrxw/201307/t20130715_1240485.htm 采集失败!原因: 未知错误
第3条 http://www.mlr.gov.cn/../xwdt/jrxw/201307/t20130710_1239023.htm 采集失败!原因: 未知错误
第2条 http://www.mlr.gov.cn/../xwdt/jrxw/201302/t20130201_1180246.htm 采集失败!原因: 未知错误
第1条 http://www.mlr.gov.cn/../xwdt/jrxw/201211/t20121127_1160272.htm 采集失败!原因: 未知错误 

采集的时候一直抛未知错误,后台抛
org.apache.http.client.HttpResponseException: Bad Request
级别: 状元
UID: 33380
积分:50625 加为好友
威望: 21 精华: 3
主题:88 回复:30687
注册时间:2012-05-07
在线时长:0
2#   发表于:2013-10-16 14:20:15  IP:111.204.*.*
你那是采集的那个网站的新闻?现在你使用的版本是?
功成由勤,业精于勤。
级别: 童生
UID: 35139
积分:27 加为好友
威望: 0 精华: 0
主题:1 回复:17
注册时间:2012-06-15
在线时长:0
3#   发表于:2013-10-16 14:37:11  IP:58.200.*.*
国土资源部滴网站,现在版本V5
级别: 状元
UID: 33380
积分:50625 加为好友
威望: 21 精华: 3
主题:88 回复:30687
注册时间:2012-05-07
在线时长:0
4#   发表于:2013-10-16 14:39:31  IP:111.204.*.*
那您网站参数配置错了会采集报错呀?也不是每一个网站都符合采集规则,这您要去看下你的参数和网站配置是否符合规范
功成由勤,业精于勤。
级别: 童生
UID: 35139
积分:27 加为好友
威望: 0 精华: 0
主题:1 回复:17
注册时间:2012-06-15
在线时长:0
5#   发表于:2013-10-16 15:11:05  IP:58.200.*.*
请问哪个网站的配置参数会影响到采集功能的工作?
http://www.mlr.gov.cn/zwgk/zcjd/index.htm 这个新闻列表其他的采集工具都可以工作
JEECMS的采集功能已经解释出来了,现在抛出的错误是 Bad Request ,根本不是parser的过程抛错
麻烦你们能不能认真的看一下问题,我的信息给得已经很完整了
就这么不愿意试一下再给个准确的回复么?
级别: 总版主
UID: 10736
积分:149787 加为好友
威望: 212 精华: 42
主题:297 回复:127674
注册时间:2010-09-08
在线时长:90.1
6#   发表于:2013-10-16 15:14:10  IP:111.204.*.*
您好!我们系统采集里面有新浪新闻的例子,采集是可以的,您哪个是你采集另外的网站,这配置的参数正确会导致不成功
路漫漫其修远兮,吾将上下而求索!
级别: 童生
UID: 35139
积分:27 加为好友
威望: 0 精华: 0
主题:1 回复:17
注册时间:2012-06-15
在线时长:0
7#   发表于:2013-10-16 15:57:07  IP:58.200.*.*
特例能成功不能说明所有的都可以用啊,我现在提供一个会导致错误的样本给你们,结果完全不当回事嘛
这个网站做得很好,ID定义很清晰,不存在不能抓取的可能性,因为其他的工具都能很好的工作
我的配置参数都在截图中,不能抓取就是因为有BUG,
你们自己解析的出来的URI在get的时候反馈了BAD request就是因为URI解释错误。
再发一下地址
http://www.mlr.gov.cn/zwgk/zcjd/index.htm 
文章地址
http://www.mlr.gov.cn/xwdt/jrxw/201307/t20130729_1246170.htm
其中描述TITLE的相关HTML为:
<td class="zw_title" height="25" align="center" style="padding:12px 0">“空城”与“地王”并存背后</td>
使用
<td class="zw_title" height="25" align="center" style="padding:12px 0">以及</td>匹配
不知道还要多么规范的页面才能够被抓取
级别: 总版主
UID: 10736
积分:149787 加为好友
威望: 212 精华: 42
主题:297 回复:127674
注册时间:2010-09-08
在线时长:90.1
8#   发表于:2013-10-16 15:58:43  IP:111.204.*.*
路漫漫其修远兮,吾将上下而求索!
级别: 总版主
UID: 10736
积分:149787 加为好友
威望: 212 精华: 42
主题:297 回复:127674
注册时间:2010-09-08
在线时长:90.1
9#   发表于:2013-10-16 15:59:16  IP:111.204.*.*
有新的修复包,我们更新过了,您去下载
路漫漫其修远兮,吾将上下而求索!
级别: 童生
UID: 35139
积分:27 加为好友
威望: 0 精华: 0
主题:1 回复:17
注册时间:2012-06-15
在线时长:0
10#   发表于:2013-10-16 16:04:07  IP:58.200.*.*
我已经将地址整理成没有相对路径的地址,一样失败
第5条 http://www.mlr.gov.cn/xwdt/jrxw/201307/t20130729_1246170.htm 采集失败!原因: 未知错误
第4条 http://www.mlr.gov.cn/xwdt/jrxw/201307/t20130715_1240485.htm 采集失败!原因: 未知错误
第3条 http://www.mlr.gov.cn/xwdt/jrxw/201307/t20130710_1239023.htm 采集失败!原因: 未知错误
第2条 http://www.mlr.gov.cn/xwdt/jrxw/201302/t20130201_1180246.htm 采集失败!原因: 未知错误
第1条 http://www.mlr.gov.cn/xwdt/jrxw/201211/t20121127_1160272.htm 采集失败!原因: 未知错误 
个人表示你们愿意处理就处理吧,不跟贴了
1 2 > >| 共2页