采集程序会在指定的时刻自动按照系统流程采集网页信息

发布日期：2014-08-04 来源：中国自动化网作者：admin

核心提示：　　合理的使用模式能大大提高程序的可重复使用率，同时也减少了后期维护的成本。在对应某一个网站的信息抓取时，主要分为3步：（1）首先根据要抓取的新闻类型的地址，通过相应的HTMLParser表达式，从而获得特定新闻类型的URL

　　合理的使用模式能大大提高程序的可重复使用率，同时也减少了后期维护的成本。在对应某一个网站的信息抓取时，主要分为3步：（1）首先根据要抓取的新闻类型的地址，通过相应的HTMLParser表达式，从而获得特定新闻类型的URL地址；（2）把该URL地址集合传递给信息提取模块，该信息提取模块根据新闻模板的规则抓取具体的新闻信息；（3）每个网站都有新闻类信息，但对应一些特定的信息，如视频新闻，供求信息，则不是每个网站都会开设，也就是说在抓取的时候要根据需要给抓取程序的实例中初始化特定的接口，来实现特定的功能。在抓取时，步骤（1）和（2）构成了修饰模式，因为在步骤（2）的程序中，需要处理相应的URL，而此URL正产生于步骤（1）。以上是单个Seed的提取流程。当程序启动时，会依次读入Seed表的触发器，触发相对应新闻地址提取类实例，这样就可以将多个类的实例化任务交给工厂程序来完成，也就是把多个Seed自动放到任务队列里。这样做是为了提高系统的可维护性，一旦需要抓取新的Seed的时候，只需要修改工厂程序即可。

　　利用工厂模式来初始化每个网站对应的抓取实例，不仅降低了程序的耦合性，同时可以根据每个网站的特点，设一些特殊信息的抓取接口，极大地提高系统的个性化抽取这个特点，信息提取的时候根据此模式策略来提取信息。Spring2.x的XMLSchema方式提供了简洁的事务配置策略，借助于aop，tx两个命名空间的帮助，系统可以非常方便地为业务逻辑组件配置事务管理。借助于Spring2.x的事务管理，当在抓取时候抛出异常，Spring事务框架就会自动回归事务，使数据库信息返回到抓取前的状态。当程序在Tomcat容器内配置成功后，启动Tomcat服务器，采集程序会在指定的时刻自动按照系统流程采集网页信息，并持久化到数据库中对应的数据表。在此需要说明的是，本系统保存了正文内的一些html标签，这是为了让正文信息在新的页面生成时能够自动组织。

下一篇：小型PLC开放平台驱动工业生产信息化
上一篇：水压变频控制系统水压变频控制系统原理

[ 新闻中心搜索 ] [ 加入收藏 ] [ 告诉好友 ] [ 打印本文 ] [ 关闭窗口 ]

同类新闻中心

共0条 [查看全部] 相关评论

推荐图文

科勒公司浴缸成型机顺	2025惠州国际工业博览
2025第二十届中山小榄	材料成型及控制工程
2025CMES华机展 \| 东	2025 CMES华机展\|佛山

推荐新闻中心

点击排行

友情链接申请链接保存本站桌面快捷方式 ↓

会刊	5G展会之星	3G网站专家	中国自动化网	自动化设备网	太阳能光伏发电站	易达自动化设备	易达自动化淘宝店	易达自动化阿里店
中山坚美拉弯加工	中山新永丰铜铝业	中山市荣美线切割	昌达输送机	中山佳能电热电器	中山傅氏起重搬运	万邦企业管理咨询	蛋挞大王	坦洲坚美铝材门窗
坦洲镇展图拉弯厂	中山群协机械设备	驭龙输送机械配件	康瑞智能化科技	中山永信铝业公司	圣狮龙狮武术团	中山碧居智能装备	广东科舰知识产权	亚力菲自动化设备
伊特莱健康家居	行者法务机构	中山科创专利代理	中山市鑫发五金	奇异世界收藏品	诚信机械工程部	中山新创意五金	中山益盛精工制造

• 2025中部（株洲）国际工业博览会	• 科勒公司浴缸成型机顺利投产
• 怎么推导出白矮星的钱德拉塞卡极限？	• FLIR热像仪：实时监控食品安全全流程，助力提升
• 自动托盘更换线托盘翻转机	• 数控钻铣床的5个主要特点
• 工业机器人的核心部件：精密减速机，究竟难在哪	• 通信企协：ICT技术防控疫情优秀案例征集现已开
• 2天时间！教你掌握2020年最新机床智能制造技术	• 人机交互掌控未来 2019深圳国际全触与显示展领