主题 : 采集的问题:未知错误 |
级别: 童生
![]() |
1# 发表于:2013-10-16 14:19:02 IP:58.200.*.*
|
||||
---|---|---|---|---|---|
级别: 状元
![]() |
4# 发表于:2013-10-16 14:39:31 IP:111.204.*.*
那您网站参数配置错了会采集报错呀?也不是每一个网站都符合采集规则,这您要去看下你的参数和网站配置是否符合规范
|
||
---|---|---|---|
级别: 童生
![]() |
5# 发表于:2013-10-16 15:11:05 IP:58.200.*.*
请问哪个网站的配置参数会影响到采集功能的工作?
http://www.mlr.gov.cn/zwgk/zcjd/index.htm 这个新闻列表其他的采集工具都可以工作 JEECMS的采集功能已经解释出来了,现在抛出的错误是 Bad Request ,根本不是parser的过程抛错 麻烦你们能不能认真的看一下问题,我的信息给得已经很完整了 就这么不愿意试一下再给个准确的回复么? |
||
---|---|---|---|
级别: 总版主
![]() |
6# 发表于:2013-10-16 15:14:10 IP:111.204.*.*
您好!我们系统采集里面有新浪新闻的例子,采集是可以的,您哪个是你采集另外的网站,这配置的参数正确会导致不成功
|
||
---|---|---|---|
级别: 童生
![]() |
7# 发表于:2013-10-16 15:57:07 IP:58.200.*.*
特例能成功不能说明所有的都可以用啊,我现在提供一个会导致错误的样本给你们,结果完全不当回事嘛
这个网站做得很好,ID定义很清晰,不存在不能抓取的可能性,因为其他的工具都能很好的工作 我的配置参数都在截图中,不能抓取就是因为有BUG, 你们自己解析的出来的URI在get的时候反馈了BAD request就是因为URI解释错误。 再发一下地址 http://www.mlr.gov.cn/zwgk/zcjd/index.htm 文章地址 http://www.mlr.gov.cn/xwdt/jrxw/201307/t20130729_1246170.htm 其中描述TITLE的相关HTML为: <td class="zw_title" height="25" align="center" style="padding:12px 0">“空城”与“地王”并存背后</td> 使用 <td class="zw_title" height="25" align="center" style="padding:12px 0">以及</td>匹配 不知道还要多么规范的页面才能够被抓取 |
||
---|---|---|---|
级别: 总版主
![]() |
8# 发表于:2013-10-16 15:58:43 IP:111.204.*.*
|
||
---|---|---|---|
级别: 童生
![]() |
10# 发表于:2013-10-16 16:04:07 IP:58.200.*.*
我已经将地址整理成没有相对路径的地址,一样失败
第5条 http://www.mlr.gov.cn/xwdt/jrxw/201307/t20130729_1246170.htm 采集失败!原因: 未知错误 第4条 http://www.mlr.gov.cn/xwdt/jrxw/201307/t20130715_1240485.htm 采集失败!原因: 未知错误 第3条 http://www.mlr.gov.cn/xwdt/jrxw/201307/t20130710_1239023.htm 采集失败!原因: 未知错误 第2条 http://www.mlr.gov.cn/xwdt/jrxw/201302/t20130201_1180246.htm 采集失败!原因: 未知错误 第1条 http://www.mlr.gov.cn/xwdt/jrxw/201211/t20121127_1160272.htm 采集失败!原因: 未知错误 个人表示你们愿意处理就处理吧,不跟贴了 |
||
---|---|---|---|