主题 : jeecms 爬虫 1.3 正式版 (附带整合 jeecms2012工程源码) |
级别: 童生
|
52# 发表于:2012-02-29 03:19:11 IP:58.126.*.*
楼主这个网站题材跟发展方向都不错。支持支持。 希望可以做个朋友啥!加我QQ 296064621
|
||
---|---|---|---|
级别: 白丁
|
55# 发表于:2012-03-01 12:12:55 IP:115.32.*.*
dsfgsfgsdfsdfgsdfsdfgsdfg
|
||
---|---|---|---|
级别: 举人
|
57# 发表于:2012-03-02 10:50:05 IP:182.54.*.*
/**********************2012-03-02 更新*******************************/
新增采集参数:是否去重,是否使用代理,代理服务器地址及端口 新增爬虫配置参数文件,系统启动自动加载 修复采集有分页时,无法停止BUG....等 其他一些小化 程序和SQL已经更新 注意:工程删除了已有的文件夹,如:thirdparty,r,res等以及LIB包 采集参数表SQL CREATE TABLE `jc_acquisition` ( `acquisition_id` int(11) NOT NULL AUTO_INCREMENT, `site_id` int(11) NOT NULL, `channel_id` int(11) NOT NULL, `type_id` int(11) NOT NULL, `user_id` int(11) NOT NULL, `acq_name` varchar(50) NOT NULL COMMENT '采集名称', `start_time` datetime DEFAULT NULL COMMENT '开始时间', `end_time` datetime DEFAULT NULL COMMENT '停止时间', `status` int(11) NOT NULL DEFAULT '0' COMMENT '当前状态(0:静止;1:采集;2:暂停)', `curr_num` int(11) NOT NULL DEFAULT '0' COMMENT '当前号码', `curr_item` int(11) NOT NULL DEFAULT '0' COMMENT '当前条数', `total_item` int(11) NOT NULL DEFAULT '0' COMMENT '每页总条数', `pause_time` int(11) NOT NULL DEFAULT '0' COMMENT '暂停时间(毫秒)', `page_encoding` varchar(20) NOT NULL DEFAULT 'GBK' COMMENT '页面编码', `plan_list` longtext COMMENT '采集列表', `dynamic_addr` varchar(255) DEFAULT NULL COMMENT '动态地址', `dynamic_start` int(11) DEFAULT NULL COMMENT '页码开始', `dynamic_end` int(11) DEFAULT NULL COMMENT '页码结束', `linkset_start` varchar(255) DEFAULT NULL COMMENT '内容链接区开始', `linkset_end` varchar(255) DEFAULT NULL COMMENT '内容链接区结束', `link_start` varchar(255) DEFAULT NULL COMMENT '内容链接开始', `link_end` varchar(255) DEFAULT NULL COMMENT '内容链接结束', `title_start` varchar(255) DEFAULT NULL COMMENT '标题开始', `title_end` varchar(255) DEFAULT NULL COMMENT '标题结束', `keywords_start` varchar(255) DEFAULT NULL COMMENT '关键字开始', `keywords_end` varchar(255) DEFAULT NULL COMMENT '关键字结束', `description_start` varchar(255) DEFAULT NULL COMMENT '描述开始', `description_end` varchar(255) DEFAULT NULL COMMENT '描述结束', `content_start` varchar(255) DEFAULT NULL COMMENT '内容开始', `content_end` varchar(255) DEFAULT NULL COMMENT '内容结束', `pagination_start` varchar(255) DEFAULT NULL COMMENT '内容分页开始', `pagination_end` varchar(255) DEFAULT NULL COMMENT '内容分页结束', `pagination_repair_url` varchar(255) DEFAULT NULL COMMENT '内容分页补全URL', `queue` int(11) NOT NULL DEFAULT '0' COMMENT '队列', `repeat_check_type` varchar(20) NOT NULL DEFAULT 'NONE' COMMENT '重复类型', `use_proxy` varchar(20) DEFAULT 'false' COMMENT '是否使用代理', `proxy_port` varchar(100) DEFAULT NULL COMMENT '代理地址端口', `proxy_address` varchar(100) DEFAULT NULL COMMENT '代理地址', PRIMARY KEY (`acquisition_id`), KEY `fk_jc_acquisition_channel` (`channel_id`), KEY `fk_jc_acquisition_contenttype` (`type_id`), KEY `fk_jc_acquisition_site` (`site_id`), KEY `fk_jc_acquisition_user` (`user_id`), CONSTRAINT `fk_jc_acquisition_channel` FOREIGN KEY (`channel_id`) REFERENCES `jc_channel` (`channel_id`), CONSTRAINT `fk_jc_acquisition_contenttype` FOREIGN KEY (`type_id`) REFERENCES `jc_content_type` (`type_id`), CONSTRAINT `fk_jc_acquisition_site` FOREIGN KEY (`site_id`) REFERENCES `jc_site` (`site_id`), CONSTRAINT `fk_jc_acquisition_user` FOREIGN KEY (`user_id`) REFERENCES `jc_user` (`user_id`) ) ENGINE=InnoDB AUTO_INCREMENT=19 DEFAULT CHARSET=utf8 COMMENT='CMS采集表'; 采集参数效果图 |
||
---|---|---|---|