基于搜索代理的纺织企业信息库的自动获取系统与通用搜索引擎不同的是,它用搜索代理替代了搜索引擎中的“网络蜘蛛”软件,该代理除了能完成网页收集和自动“爬行”外,还能利用专业关键词和用户的反馈信息自动过滤相关网页,这样使收集来的页面均与专业相关,较大地缩小了对存储空间的要求。
此外还增加了反馈信息、专业信息数据库,以及收集这些信息的代理模块。
纺织企业信息的自动获取系统的工作原理代理又称Agent,是一个具有自治能力的实体,一般表现为由软件支持下的系统。在所设计的系统中,搜索代理是一个面向特定专业领域的信息获取引擎。
与一般搜索引擎相比,它使用自动获得的专业特征信息(如专业关键字、专业信息资源、页面结构信息等)、用户反馈信息(如专业信息格式、用户兴趣等)知识进行网页信息搜集、过滤,并将自动提取网页基本结构信息。