全线产品

i-Search全文检索系统

I-Dsearch全文检索引擎是一个功能强大、高性能、灵活的全文索引和检索引擎,核心功能是实现对结构化、非结构化信息的全文检索和统一存储。i-Search全文检索引擎的主要目标是实现文本索引的快速构建(Index Construction),动态文档集的索引维护(Index Maintenance),短语查询(Phrase Query),Top-k查询的快速处理(Top-k Query Process)以及各种检索模型(IR Model)等。高性能和灵活的架构也使i-Search全文检索引擎可以应用在内外网检索、专业系统资料检索、行业专业数据库检索、政企资料库建设等领域。 i-Search全文检索引擎支持办公文档、动静态网页、多种数据库等格式、支持多语言,灵活的架构也可以方便地扩展支持其他语言和编码;检索语法丰富,支持多字段检索,日期范围检索,检索结果自定义排序,数据统计等;系统也可以通过插件无限扩展。
 

功能说明


1.检索速度快
 一般的非专业的检索系统都是采用数据库系统完成的,这种系统的响应时间一般都在10秒左右(对于大数据量)。而本系统的响应时间一般都在0.02秒左右,网络传输时间一般在1秒左右,因此总体响应时间在1-2秒内。这种速度显然是非常快的。
 
2.支持复合检索
通常情况下用户的检索是复合条件的,例如检索"新闻中心+主任",用户想了解新闻中心的主任的一些信息。本系统支持"+、-、|、* @"等操作符,完全可以满足用户的检索需求。在这一点上,我们的系统同通用的搜索引擎系统是一致的。
 
 
3.支持分类检索
目前上规模的网站一般都会将网站的信息划分为若干个频道,例如:www.chinaedu.edu.cn--中国教育信息网主要分为教育产品、招考中心、教育图书、科普长廊、教育动态、科研天地、学生社区、家长时段、职业培训、海外视窗、信息化成就展等几个主要的频道。这样就给站内全文检索系统提出了新的要求,应该不仅能够在整个网站内部进行检索,而且还能够将检索的范围限制在某个频道内部。基于这种需求,i-Search提供了分频道检索的功能。
 
4.支持多种排序方式
传统的搜索引擎一般都是按照相关度进行排序的,i-Search不仅在结果相关度排序上进行性能上的改进,而且提供了对检索结果按照更新时间升序、按照更新时间降序、相关度、随机等多种排序方式。这样一来,用户可以在最重要的检索结果中轻松地挑选出自己感兴趣的时间段的结果。
 
5.支持模糊检索
由于数据量非常大,一般的搜索引擎系统都没有模糊检索的功能,但是用户往往有这方面的需求,如用户打算了解一本书的作者的一些信息,但是他仅仅记得这个人叫张X京,这里的"X"代表用户不知道这中间的字是什么了。如果对于传统的搜索引擎,肯定无能为力了,但是在我们这个系统里面,只要存在这个信息,那么就可以检索出来。检索方式如下:用户可以输入"北京天安门",系统就会自动会对检索词分为“北京天安门”、“北京+天安门”、“北京”、“天安门”等多种组合方式进行检索出满足条件的纪录。
 
系统还支持"*"通配符,该操作符代表0个或者多个字符。有什么好处呢?一般的搜索引擎仅仅检索出那些只要在同一个页面里面出现的就算成结果,不论这两个检索词在文中出现的相对位置有多么远。例如用户打算搜索"IBM+笔记本",对于一般的搜索引擎来说只要页面里面同时出现了"IBM"和"笔记本",那么它就会认为这是结果,很多情况下这样的页面并非用户需要的;而对于本系统来说,用户可以输入"IBM*笔记本",那么检索的结果一定是"IBM"这个词在前面,"笔记本"这个词在后面,并且两个词之间距离很近。显然,这种检索结果的准确率要高很多。
 
6.结果相关度高
本系统通过对网页本身的分析结合权威页面的分析,能够保证检索结果中越重要的页面排放在最前面。例如:我们打算检索清华大学"新闻中心",通过测试其他的搜索引擎系统,发现检索结果是一些页面内含有"新闻中?quot;这个词多的页面排放在前面,而这些页面都是无关紧要的一些小新闻,真正重要的清华大学新闻中心首页却没有出现在检索结果里面。本系统完全解决了这个问题,保证最权威的页面排放在最前面。
 
7.动态生成文摘
一般的搜索引擎产品的文摘部分仅仅是抽取了页面的前200-300个字节,很多情况下这部分内容同检索结果没有任何关系,用户根本无法从中获取什么有用的信息,从而不得不先访问这些页面才能知道真正的内容是什么。本系统可以根据检索词的位置,从该检索词附近动态抽取文本作为文摘,从而极大地提高了用户的检索效率。
 
8.支持网页快照功能
系统会将网页保存到本地硬盘中,这样用户在检索的时候可以直接察看系统硬盘中保存的页面,这样做的好处是:第一:如果该页面已经不存在了,用户依然可以查阅该页面的信息;第二:该页面将动态标记关键字,便于用户查找最感兴趣的信息。
 
9.信息搜集、索引建立时间短
一般来说,对于一个包含一万个页面的站点的信息搜集和索引建立总体需要的时间约一个小时左右,不需要人工的干预。
 
10.支持关键字标引
支持查询关键字描红,标引。
 
11.多语言支持
支持中文、英文、中文繁体、蒙文、藏文、韩语、日语等多种编码方式的的信息。如“UTF-8、GBK、GB2312等。

       12.支持多种文本挖掘和数据统计功能
支持distinct、cube、word cloud、wam、cluster等多纬度的文本、各类电子文档和图像、音频、视频等数据挖掘、数据统计功能,可根据已有数据出具不同规格的统计报表数据。

       13.多数据库支持
支持DB2、Oracle、SQL Server、Mysql等多种数据库信息的加载合并。

       14.多权限管理功能
可以设定不同管理权限的人员,检索数据的范围,安全性更高。

       15.完善的API接口
采用通用的JAVA接口,基于JAVA该接口您可以搭建任意个性化的应用。

 

性能指标及优势


1. 采用云计算技术架构,可满足海量数据高传输、高并发、高吞吐的特点
2. 核心技术自主研发,有较高的数据保密、安全性
3. 单机预处理能力达到10Mbps
4. 上亿级数据,20个并发查询,平均检索速度可达到秒级。
5. 字词检索查全率可达到95%,查准率可达到95%以上
6. 摘要准确度达90%以上
7. 智能分类、聚类技术,节点机学习120篇文章(360KB)速率不超过1秒,自动分类速率达到200篇(600KB)/秒;召回率达到85%,分类准确率达到95%。
8. 200万中文词库
9. 二次开发接口完善,支持Windows、Linux操作系统、多种数据库。
 

 

应用领域


站内检索系统 / 企业搜索引擎系统 / 文件资料检索引擎系统 / 企业搜索引擎系统 / 海量信息处理系统 / 警务信息检索系统 / 工商信息检索系统 / 检察院信息检索系统 / 新闻检索系统 / 舆情监测系统 / 医学检索系统 / 学术文献检索系统 / 图书检索系统 / 专利检索系统 / 公司黄页检索系统
 

 

服务方式


客户独立部署,支持定制化开发。
 
相较于开源系统具有:
1.中文检索有较好的支持
2.海量数据检索性能更优
3.核心模块完善的二次开发支持
4.丰富的检索方式、统计分析功能