SEOSEO
全文检索全文检索全文检索全文检索

全文检索


全文检索



转载:

  现实社会中,大量的信息主要以文本文件、超文本文件、多媒体文件等非结构化文件形式存在,如何管理如此海量的信息呢? 首先,必须解决信息的有序存储问题;其次,要解决信息的快速检索问题。



  TBS分布式全文检索系统



  分布式全文检索系统适用于各种全文数据库资料的检索。它的逻辑结构如上图所示,分外网和内网两个部分。外网与Internet连接,提供www服务,内网提供控制和数据服务。两网之间通过TCP/IP协议进行通信,从外网进来的请求不能直接到达内网,确保了内网数据的安全。



  Web Server与TBS Server 采用Client/Server的结构。EBS Server负责整个系统的调度、用户及权限控制的工作,管理所有的数据库资源,对数据的输出进行流量统计,对用户的操作进行日志记录。用户访问本系统时首先由Web服务器WWW-0进入,而为了提高用户的访问速度,Web服务器WWW-1、WWW-2、WWW-3是可由EBS进行统一调度和任意扩展的。TBS-1、TBS-2、TBS-3、TBS--1、TBS--2、TBS--3是系统的后台全文数据库服务器。横向三个用于存放不同的信息内容,纵向两个用于存放相同内容的备份。用户既可从本地也可远程通过浏览器方式或操作数据库方式进行录入,同时,还可以通过浏览器来远程进行信息的浏览、检索和维护。该系统检索速度快,支持字、词、长句子的混合检索,对新增信息能够实时、自动追加索引,且能保证空间膨胀率为零。



  多媒体全文检索光盘制作及出版系统



  多媒体全文检索光盘出版系统适用于文件资料选编、报纸杂志合订以及网站页面打包。它支持多种操作系统平台(Win95/97/98/NT/2000)和多种Web浏览器(如Netscape、MS、IE),提供全部配套软件,即装即用,还可开发以下三种不同模式的光盘应用:



  1.完全基于浏览器(CDWeb/CBS)的模式。特别适用于图文资料检索。
  2.IE浏览器和ActiveX控件结合(InfoView/ Edit)的模式。特别适用于数据库检索。
  3.Win32程序(CDMake/CDRun)模式。特别适用于文字、图形、多媒体资料的检索。



  该系统具有以下特点:



  * 所有页面均可由用户灵活调整,便于与HTML页面挂接;



  * 支持字段/全文检索、组合检索等,并可以进行二次检索、多库检索;



  * 支持字段、层次、代码等多种浏览方式,并可在浏览时进行二次检索;



  * 支持图文混排,支持图像、视频、动画等多媒体信息的直接播出;



  * 支持各种排版格式的WORD/EXCEL/PDF文件,可按原版面风格浏览;



  * 系统词表(11万)与专业词表相结合;   * 对于特殊应用CBScript模板语言,可支持编程级的开发;



  * 提供底层全文数据库DLL扩展接口,用户可通过 VC/VB扩展应用。



  Internet信息发布及全文检索系统



  针对一般传统数据库对字段、结构、标题、关键词等内容定义的限制和检索速度慢的缺陷,Internet信息发布及全文检索系统采用快速模糊检索算法,将结构化数据库与非结构化全文信息库完美地结合在一起。它在内网可构筑单位办公自动化管理系统、文档资料管理系统,在外网可用于构筑Internet信息发布、电子商务网站平台。



  该系统的功能特点如下:   



  * 响应速度快,实现海量数据库毫秒级、亚秒级查询;



  * 一次检索可以跨至1024个数据库;



  * 对于中文可字词结合索引,支持中英文(全角/半角)混合检索;



  * 具有停用词( Stop-list )处理和检索词逻辑运算(与、或、非、差、优先、相邻、异或)功能;



  * 支持渐次逼近检索、部分一致匹配、距离检索、同义词扩检;



  * 具有Web数据库管理功能;



  * 支持字段内容加密/解密和压缩/解压缩;



  * 提供系统级、数据库级、记录级、字段级、内容级五级安全控。



  TBS全文检索数据库



  "金信桥"从信息管理的最基础做起,首先成功开发了TBS全文数据库。



  该数据库主要针对非结构化文件管理设计,能够在单库中管理42亿条记录(每条记录/字段都可容纳任意长度的信息);定义多种字段类型;建立多种索引方法(字段索引、全文索引、层次索引、代码索引)。另外,它还独具多值字段、字段加密、内容压缩、自动编码、用户词典等功能。



  对不同类型的文件,TBS数据库系统还自带数据转换工具,既可将标准格式、特殊格式的文本信息装入到全文数据库中,也可将各种关系数据库(如DBF、SQL Server、Oracle、DB2、Sybase等)中的信息直接装入。



  智能全文搜索引擎



  在TBS全文数据库的基础上,"金信桥"又建立了Internet 网站全文搜索引擎(NetBot),主要用于对指定网站中的静态页面进行页面信息收集、全文信息提取和索引,允许前台用户在浏览器中按页面中的任意字词进行全文检索,并提供给用户进行分类浏览的导航工具。



  NetBot是一个智能化的中英文网页搜索器,它自动周期性地扫描网站和页面URL,以便及时发现更新的页面,并去除已经失效的URL连接,对数据进行实时更新。另外,它还对设定的URL集合进行定时搜集、分析和加工整理,并自动将有关信息入库、索引,为在浏览器上的全文搜索提供后台数据



  网页模板编写语言



  为了配合全文检索系统的运用,"金信桥"采用了标准的JavaScript、C、ASP、JSP等语言的语法,开发出了一套语法精练的CBScript网页模板编写语言。它使得编译执行的速度极快,并且提供了大量的页面模板可直接调用,还内置了全文数据库管理、全文检索引擎、电子邮件收发、新闻文件管理、远程文件传输、加密/解密、压缩/解压缩、身份验证、资源管理、动态调度等模块,藉此用户可进行极具个性化的二次开发。



  金信桥全文检索系统是目前国内唯一具有三层结构、分布式动态负载均衡、多机并行检索、超大容量、多语种、多媒体、高可靠性的全文检索系统。以下几个它派生出的应用系统都是基于Web开发的,均采用模板技术,使用户可在不编程的情况下对Web页面进行灵活修改,并支持多用户并发检索及同时维护(没有用户数限制)。




全文检索
 
  • Google遗漏了什么2004/02/07
  • 综述:2003年的中国网络营销2004/02/07
  • 如何在GOOGLE上投放广告2004/02/07
  • 百度排名2004/02/07
  • Alexa 世界网站排名研究(下)2004/02/07
  • Alexa 世界网站排名研究(上)2004/02/07
  • Google:涉嫌商标侵权?2004/02/07
  • 警惕《揭穿Google关键词广告服务的暴利内幕! 》的更大骗局!2004/02/07
  • Google广告服务暴利内幕!2004/02/07
  • Alexa数据在中国被“强奸”2004/02/07
  • 马云:明年初进入搜索市场2004/02/06
  • 综述:大鱼Google面对问题2004/02/06
  • 评论:《黑客帝国3》之Google2004/02/06
  • 链接流行度(Link Popularity)2004/02/06
  • 几款搜索引擎优化检测工具2004/02/06
  • 别把GOOGLE太当真2004/02/06
  • 搜索引擎市场酝酿大并购2004/02/06
  • Google的技术剖析2004/02/06
  • Google的原罪--网页序列等级2004/02/06
  • 国外英文目录索引---Yahoo2004/02/06
  • 国外英文目录索引----[ODP/Dmoz]2004/02/06
  • 国外英文目录索引---ASK Jeeves2004/02/06
  • 国外英文目录索引---LookSmart2004/02/06
  • 国外英文目录索引---ABOUT2004/02/06
  • 国外搜索引擎介绍---Alltheweb2004/02/06
  • 国外搜索引擎介绍---AltaVista2004/02/06
  • 国外搜索引擎介绍----Overture2004/02/06
  • 国外搜索引擎介绍---Lycos2004/02/06
  • 国外搜索引擎介绍---HotBot2004/02/06
  • 国内目录索引--sohu搜狐2004/02/06
  • 国内目录索引 ---sina新浪2004/02/06
  • 国内目录索引-----163网易2004/02/06
  • 国内搜索引擎介绍---百度2004/02/06
  • 收费环境下的搜索引擎推广策略2004/02/06
  • 谁敢夸口跟google比?2004/02/06
  • 网络推广的效果评估标准2004/02/06
  • IBM统一人工智能学术2004/02/06
  • 雅虎收购Overture意味着什么?2004/02/06
  • 关于SEO写作中五个最常问的问题2004/02/06
  • 中文搜索引擎的十大误区2004/02/06
  • 微软看好网络搜索服务市场2004/02/06
  • 影响网站排名的一些问题2004/02/06
  • 如何使用关键字才算适当呢?2004/02/06
  • 创建有意义的链接人气度(链接数)2004/02/06
  • 桥页之道2004/02/06
  • Robots Meta Tag的使用2004/02/06
  • Robots.txt指南2004/02/06
  • 搜索引擎和网站的目录结构2004/02/06
  • 如何选择合适的域名2004/02/06
  • 拥有自己的域名的重要性2004/02/06
  • 关于搜索引擎提交的问题2004/02/06
  • 如何建立网站地图(site map)2004/02/06
  • 框架型网页的优化技巧2004/02/06
  • 怎样避免被搜索引擎视为作弊2004/02/06
  • 为网站的Web Robot 设计路标2004/02/06
  • HTML文档中小meta的大作用2004/02/06
  • 实战中文搜索引擎推广2004/02/06
  • 搜索引擎排名算法新趋势2004/02/06
  • 动态网站的搜索引擎策略2004/02/06
  • 从三个方面提高网站的链接广泛度2004/02/06
  • 搜索引擎的十大秘密2004/02/06
  • 如何在搜寻结果名中名列前茅2004/02/06
  • 搜索引擎与spam2004/02/06
  • robots.txt和Robots META标签2004/02/06
  • 用户搜索常见问题及解决方法小结2004/02/06
  • 恋上百度2004/02/06
  • 简谈搜索引擎工作流程2004/02/06
  • 什么是搜索引擎2004/02/06
  • 高级搜索指南2004/02/06
  • 搜索引擎控制关系2004/02/06
  • Google中site:的使用方法总结2004/02/06
  • 学习搜索的网站2004/02/06
  • 网络搜索引擎与智能代理技术2004/02/06
  • 全文检索2004/02/06
  • 从中国人网看搜索引擎的ASP服务2004/02/06
  • 自动分词与中文搜索引擎2004/02/06
  • 搜索引擎的技术发展趋势2004/02/06
  • 目前搜索引擎提供的主要检索服务2004/02/06
  • Google快速锁定内容技巧一瞥2004/02/06
  • 创建Google关键词广告的12高招2004/02/06
  • 对Google更新过程的最终解释2004/02/06
  • Googleplex-Google情结2004/02/06
  • 浅谈Google网页级别2004/02/06
  • 深度分析:Google毁了Web?2004/02/06
  • google中文关键词广告效果测试2004/02/06
  • 搜索引擎使用技巧2004/02/06
  • 搜索引擎跟踪2004/02/06
  • 搜索引擎技术及趋势2004/02/06
  • 如何提高网站的Google PR值2004/02/06
  • 了解Google Dance工具2004/02/06
  • 感动一广告 2004/02/06

  • SEO | Google排名 | Google左侧排名 | 网站设计 | 网站优化 | 网站建设 | 网页设计 | 网页制作 | 排名策略 | 网站排名
    国际Google排名 | Google优化排名 | Google推广 | 网站推广 | 网页推广 | Google排名研究 | Google搜索引擎排名 | 推广服务
    搜索引擎推广 | 搜索引擎排名 | 网络营销 | 中国SEO | 网页优化 | 国际网站推广 | Google排名推广
    搜索引擎注册 | Google广告 | 网站宣传 | 网络宣传 | 网络营销


    ©2004 66t.net 路路通营销网 Our Site Map
    2004/02/06