主题 : 新闻采集问题!
级别: 解元
UID: 60155
积分:251 加为好友
威望: 0 精华: 0
主题:23 回复:69
注册时间:2014-04-04
在线时长:0
1#   发表于:2014-04-21 10:09:27  IP:110.148.*.*


我现在想采集 http://news.163.com/domestic/ 这个网址的内容,
级别: 解元
UID: 60155
积分:251 加为好友
威望: 0 精华: 0
主题:23 回复:69
注册时间:2014-04-04
在线时长:0
2#   发表于:2014-04-21 10:10:15  IP:110.148.*.*

但是上图的内容不会填!
级别: 状元
UID: 33380
积分:50625 加为好友
威望: 21 精华: 3
主题:88 回复:30687
注册时间:2012-05-07
在线时长:0
3#   发表于:2014-04-21 10:13:58  IP:115.66.*.*
内容也是你内容列表页查看源码,找到内容的启始和结束标签填写
功成由勤,业精于勤。
级别: 解元
UID: 60155
积分:251 加为好友
威望: 0 精华: 0
主题:23 回复:69
注册时间:2014-04-04
在线时长:0
4#   发表于:2014-04-21 10:19:29  IP:110.203.*.*


这俩数据项我有点混,你说下具体的含义1
级别: 状元
UID: 33380
积分:50625 加为好友
威望: 21 精华: 3
主题:88 回复:30687
注册时间:2012-05-07
在线时长:0
5#   发表于:2014-04-21 10:22:18  IP:115.66.*.*
功成由勤,业精于勤。
级别: 状元
UID: 33380
积分:50625 加为好友
威望: 21 精华: 3
主题:88 回复:30687
注册时间:2012-05-07
在线时长:0
6#   发表于:2014-04-21 10:23:08  IP:115.66.*.*
这个上图是表示所有内容列表的开通
功成由勤,业精于勤。
级别: 状元
UID: 33380
积分:50625 加为好友
威望: 21 精华: 3
主题:88 回复:30687
注册时间:2012-05-07
在线时长:0
7#   发表于:2014-04-21 10:25:21  IP:115.66.*.*
这个是表示单个内容的标题的开始与结束的抓取
功成由勤,业精于勤。
级别: 解元
UID: 60155
积分:251 加为好友
威望: 0 精华: 0
主题:23 回复:69
注册时间:2014-04-04
在线时长:0
8#   发表于:2014-04-21 11:29:34  IP:110.203.*.*


麻烦帮我看看哪里有问题,现在这样配置采集后台报错呢








######################### 控制台错误日志################################################
java.net.URISyntaxException: Illegal character in fragment at index 60: http://news.163.com/14/0418/10/9Q3U9G4L00014JB6.html#f=dlist">云南一法院组织数十名干警赴三亚公款旅游被通报</a></h2>
                                                                <p>中新网4月18日电 据最高人民法院官方微博消息,最高人民法院通报七起法院干警违*央八项规定精神典型案件。这七起案件分别是:云南省昆明市盘龙区人民法院组织公款旅游案2013年1月18日至24日,该院党组成员、执行局局长邓新萍组织该院在海南省海口市参加培训的39名干警赴三亚市  ...<br />
                    <span class="time">2014-04-18 10:16:04</span>
                </p>
            </div>
        </div>
                   <div class="list-item clearfix">
            <div class="item-top">
                <h2><a href="http://news.163.com/14/0418/09/9Q3T2B2N00014JB5.html#f=dlist">国务院食品安全委员会专家委员会在京成立</a></h2>
                                                                <p>为进一步提高食品安全工作决策的科学化、民主化水平,推动形成社会共治格局,4月15日,国务院食品安全委员会专家委员会在北京成立并召开第一次全体会议。会上,宣读了国务院食品安全委员会关于成立专家委员会的通知,举行了委员聘任仪式,审议通过了《国务院食品安全委员会专家委  ...<br />
                    <span class="time">2014-04-18 09:54:41</span>
                </p>
            </div>
        </div>
                   <div class="list-item clearfix">
            <div class="item-top">
                <h2><a href="http://news.163.com/14/0418/09/9Q3SVJKG00014JB5.html#f=dlist">统计局:3月份70大中城市中69个新房价格同比上涨</a></h2>
                                                                <p>新华网消息 据统计局网站,3月份,我国70个大中城市中,新建商品住宅价格下降的城市有1个,上涨的城市有69个。3月份,同比价格变动中,最高涨幅为1*%,最低为下降4.2%。一、新建商品住宅(不含保障性住房)价格变动情况(详见附表2)(一)与上月相比,70个大中城市中,价格下降 ...<br />
                    <span class="time">2014-04-18 09:53:12</span>
                </p>
            </div>
        </div>
                   <div class="list-item clearfix">
            <div class="item-top">
                <h2><a href="http://view.163.com/14/0418/09/9Q3SHND100012Q9L.html#f=dlist">于立生:红头文件求情令法治蒙羞</a></h2>
                                                                <p>4月16日,有人在湖南红网发帖称,双峰县企业主李定胜在被抓后,利用关系私下说情,最终让县政府以红头文件的形式,向娄底市委政法委“请求”将已逮捕的李定胜取保候审,理由是如果不放人,会影响企业发展。(4月17日《中国青年报》)双峰县领导指示有关部门想办法将李定胜“救”出 ...<br />
                    <span class="time">2014-04-18 09:45:37</span>
                </p>
            </div>
        </div>
                   <div class="list-item clearfix">
            <div class="item-top">
                <h2><a href="http://news.163.com/14/0418/09/9Q3SF6TG00014JB5.html#f=dlist">中央对外宣传办五局副局长高剑云涉严重违纪被查</a></h2>
                                <a href="http://news.163.com/14/0418/09/9Q3SF6TG00014JB5.html#f=dlist
at java.net.URI$Parser.fail(URI.java:2809)
at java.net.URI$Parser.checkChars(URI.java:2982)
at java.net.URI$Parser.parse(URI.java:3028)
at java.net.URI.<init>(URI.java:578)
at com.jeecms.cms.service.AcquisitionSvcImpl$AcquisitionThread.saveContent(AcquisitionSvcImpl.java:238)
at com.jeecms.cms.service.AcquisitionSvcImpl$AcquisitionThread.run(AcquisitionSvcImpl.java:155)
11:16:49.133 ERROR org.hibernate.util.JDBCExceptionReporter - Data truncation: Data too long for column 'content_url' at row 1
Exception in thread "com.jeecms.cms.entity.assist.CmsAcquisition#4" org.hibernate.exception.DataException: could not insert: [com.jeecms.cms.entity.assist.CmsAcquisitionTemp]
at org.hibernate.exception.SQLStateConverter.convert(SQLStateConverter.java:100)
at org.hibernate.exception.JDBCExceptionHelper.convert(JDBCExceptionHelper.java:66)
at org.hibernate.id.insert.AbstractReturningDelegate.performInsert(AbstractReturningDelegate.java:64)
at org.hibernate.persister.entity.AbstractEntityPersister.insert(AbstractEntityPersister.java:2176)
at org.hibernate.persister.entity.AbstractEntityPersister.insert(AbstractEntityPersister.java:2656)
at org.hibernate.action.EntityIdentityInsertAction.execute(EntityIdentityInsertAction.java:71)
at org.hibernate.engine.ActionQueue.execute(ActionQueue.java:279)
at org.hibernate.event.def.AbstractSaveEventListener.performSaveOrReplicate(AbstractSaveEventListener.java:321)
at org.hibernate.event.def.AbstractSaveEventListener.performSave(AbstractSaveEventListener.java:204)
at org.hibernate.event.def.AbstractSaveEventListener.saveWithGeneratedId(AbstractSaveEventListener.java:130)
at org.hibernate.event.def.DefaultSaveOrUpdateEventListener.saveWithGeneratedOrRequestedId(DefaultSaveOrUpdateEventListener.java:210)
at org.hibernate.event.def.DefaultSaveEventListener.saveWithGeneratedOrRequestedId(DefaultSaveEventListener.java:56)
at org.hibernate.event.def.DefaultSaveOrUpdateEventListener.entityIsTransient(DefaultSaveOrUpdateEventListener.java:195)
at org.hibernate.event.def.DefaultSaveEventListener.performSaveOrUpdate(DefaultSaveEventListener.java:50)
at org.hibernate.event.def.DefaultSaveOrUpdateEventListener.onSaveOrUpdate(DefaultSaveOrUpdateEventListener.java:93)
at org.hibernate.impl.SessionImpl.fireSave(SessionImpl.java:563)
at org.hibernate.impl.SessionImpl.save(SessionImpl.java:551)
at org.hibernate.impl.SessionImpl.save(SessionImpl.java:547)
at com.jeecms.cms.dao.assist.impl.CmsAcquisitionTempDaoImpl.save(CmsAcquisitionTempDaoImpl.java:38)
at com.jeecms.cms.manager.assist.impl.CmsAcquisitionTempMngImpl.save(CmsAcquisitionTempMngImpl.java:30)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at org.springframework.aop.support.AopUtils.invokeJoinpointUsingReflection(AopUtils.java:309)
at org.springframework.aop.framework.ReflectiveMethodInvocation.invokeJoinpoint(ReflectiveMethodInvocation.java:183)
at org.springframework.aop.framework.ReflectiveMethodInvocation.proceed(ReflectiveMethodInvocation.java:150)
at org.springframework.transaction.interceptor.TransactionInterceptor.invoke(TransactionInterceptor.java:110)
at org.springframework.aop.framework.ReflectiveMethodInvocation.proceed(ReflectiveMethodInvocation.java:172)
at org.springframework.aop.framework.JdkDynamicAopProxy.invoke(JdkDynamicAopProxy.java:202)
at $Proxy65.save(Unknown Source)
at com.jeecms.cms.service.AcquisitionSvcImpl$AcquisitionThread.handerResult(AcquisitionSvcImpl.java:448)
at com.jeecms.cms.service.AcquisitionSvcImpl$AcquisitionThread.handerResult(AcquisitionSvcImpl.java:440)
at com.jeecms.cms.service.AcquisitionSvcImpl$AcquisitionThread.saveContent(AcquisitionSvcImpl.java:397)
at com.jeecms.cms.service.AcquisitionSvcImpl$AcquisitionThread.run(AcquisitionSvcImpl.java:155)
Caused by: com.mysql.jdbc.MysqlDataTruncation: Data truncation: Data too long for column 'content_url' at row 1
at com.mysql.jdbc.MysqlIO.checkErrorPacket(MysqlIO.java:3534)
at com.mysql.jdbc.MysqlIO.checkErrorPacket(MysqlIO.java:3468)
at com.mysql.jdbc.MysqlIO.sendCommand(MysqlIO.java:1957)
at com.mysql.jdbc.MysqlIO.sqlQueryDirect(MysqlIO.java:2107)
at com.mysql.jdbc.ConnectionImpl.execSQL(ConnectionImpl.java:2648)
at com.mysql.jdbc.PreparedStatement.executeInternal(PreparedStatement.java:2086)
at com.mysql.jdbc.PreparedStatement.executeUpdate(PreparedStatement.java:2371)
at com.mysql.jdbc.PreparedStatement.executeUpdate(PreparedStatement.java:2289)
at com.mysql.jdbc.PreparedStatement.executeUpdate(PreparedStatement.java:2274)
at com.mchange.v2.c3p0.impl.NewProxyPreparedStatement.executeUpdate(NewProxyPreparedStatement.java:105)
at org.hibernate.id.IdentityGenerator$GetGeneratedKeysDelegate.executeAndExtract(IdentityGenerator.java:94)
at org.hibernate.id.insert.AbstractReturningDelegate.performInsert(AbstractReturningDelegate.java:57)
... 32 more
级别: 状元
UID: 33380
积分:50625 加为好友
威望: 21 精华: 3
主题:88 回复:30687
注册时间:2012-05-07
在线时长:0
9#   发表于:2014-04-21 11:31:47  IP:115.66.*.*
配的采集参数你多配置几次,把开始与结束标签换下
功成由勤,业精于勤。
级别: 解元
UID: 60155
积分:251 加为好友
威望: 0 精华: 0
主题:23 回复:69
注册时间:2014-04-04
在线时长:0
10#   发表于:2014-04-21 11:32:58  IP:116.65.*.*
麻烦能说的具体一点吗?或者给截个图也行!
1 2 > >| 共2页