垂直搜索引擎系统介绍

SOPI 垂直搜索引擎系统介绍

SOPI 垂直搜索引擎2.0是一个从信息采集到分析到索引的整套解决方案,让你也可以轻松拥有一个搜索引擎。可以针用于行业垂直信息进行搜索,网站搜索等各类应用。 SOPI 垂直搜索引擎系统的应用特点

● 外网搜索引擎:众多内容型网站为了保持数据的最新,不得不花费大量的人力进行内容更新。 SOPI 系统可以锁定需要的网站,进行定时采集此网站的最新内容;可以节省大量的人力成本,而且可以保证信息的全面性,同时结合搜索技术在海量的信息库中快速找到需要的信息。

● 高应用扩展性,可以根据用户需求快速配置成为不同类型的垂直搜索引擎,如成为商机搜索、产品信息及其他各类需要的信息。只需普通技术人员便可以实现。

● 极少量的人工干预,系统管理员仅通过管理界面即可自动实现各类信息的搜索。大部分工作由系统自动完成。

● 自动生成对网站的配置,提高工作效率及降低工作难度,垂直搜索引擎对不同网站进行不同配置是必然的,本系统应用自动化技术将人工工作降到最低,将工作人员的技术要求降至最低。

● 可以从多个界而采集信息,系统进行自动合并,如从一个页面搜索产品信息,另一个网页搜索公司信息,将两个页面的内容自动合并。

● 站内搜索引擎:可以轻松将内部网站的内容进行索引,为企业提供企业知识管理,或为网站用户提供自身网站的搜索服务。

● SOPI 搜索系统采用先进的索引机制,高效对全文进行索引及搜索,可以产生与百度和 GOOGLE 相同的准确结果,而且快速;

SOPI 搜索引擎系统的技术特点

● 使用与GOOGLE 相同的数据库系统Oralce Berkeley DB 嵌入式数据库,千万级数据状况下操作数据仍保持在毫秒级,与使用ORACLE 或SqlServer 数据库性能提升数百倍。 ● 系统结构的合理分离有利于分布式架构,适应未来大量的搜索工作,可以轻易在多服务器环境中进行应用。

● 各子系统相互独立,任一子系统的停止运行不影响其他系统,有效保证稳定性;

● 先进的文章及图片指纹技术,超低重复率。由于不同网站有大量重复信息,如果不能有

效辨别文章是否存在将会有大量重复信息存在,图片一样会有大量重复存在。 SOPI 系统采用先进的文章和图片识别系统有效保障超低重复率;

● 对文章和图片的超强提取能力,系统可以在各种复杂的网页中提取标题正文和时间等参

数,可以高智能的提取有用的信息,过虑无用信息;

● 高性能的分词组件,字典词库高质量,保证索引和搜索的准确性;

● 优秀的管理平台,可以方便管理进行信息采集的站点列表,及对下载的层级进行自定义; ● 可便捷对系统进行扩展,以满足不同的需求

系统架构图

SOPI 垂直搜索引擎子系统

WEB 管理主要功能

功能

分析类型管理

自动匹配管理

域搜索信息类型管理 定义分析类型 定义自动匹配分类及定义分类项 定义域要搜索的信息类型(可自动生成表达式) 说明

SOPI 垂直搜索引擎系统介绍

SOPI 垂直搜索引擎2.0是一个从信息采集到分析到索引的整套解决方案,让你也可以轻松拥有一个搜索引擎。可以针用于行业垂直信息进行搜索,网站搜索等各类应用。 SOPI 垂直搜索引擎系统的应用特点

● 外网搜索引擎:众多内容型网站为了保持数据的最新,不得不花费大量的人力进行内容更新。 SOPI 系统可以锁定需要的网站,进行定时采集此网站的最新内容;可以节省大量的人力成本,而且可以保证信息的全面性,同时结合搜索技术在海量的信息库中快速找到需要的信息。

● 高应用扩展性,可以根据用户需求快速配置成为不同类型的垂直搜索引擎,如成为商机搜索、产品信息及其他各类需要的信息。只需普通技术人员便可以实现。

● 极少量的人工干预,系统管理员仅通过管理界面即可自动实现各类信息的搜索。大部分工作由系统自动完成。

● 自动生成对网站的配置,提高工作效率及降低工作难度,垂直搜索引擎对不同网站进行不同配置是必然的,本系统应用自动化技术将人工工作降到最低,将工作人员的技术要求降至最低。

● 可以从多个界而采集信息,系统进行自动合并,如从一个页面搜索产品信息,另一个网页搜索公司信息,将两个页面的内容自动合并。

● 站内搜索引擎:可以轻松将内部网站的内容进行索引,为企业提供企业知识管理,或为网站用户提供自身网站的搜索服务。

● SOPI 搜索系统采用先进的索引机制,高效对全文进行索引及搜索,可以产生与百度和 GOOGLE 相同的准确结果,而且快速;

SOPI 搜索引擎系统的技术特点

● 使用与GOOGLE 相同的数据库系统Oralce Berkeley DB 嵌入式数据库,千万级数据状况下操作数据仍保持在毫秒级,与使用ORACLE 或SqlServer 数据库性能提升数百倍。 ● 系统结构的合理分离有利于分布式架构,适应未来大量的搜索工作,可以轻易在多服务器环境中进行应用。

● 各子系统相互独立,任一子系统的停止运行不影响其他系统,有效保证稳定性;

● 先进的文章及图片指纹技术,超低重复率。由于不同网站有大量重复信息,如果不能有

效辨别文章是否存在将会有大量重复信息存在,图片一样会有大量重复存在。 SOPI 系统采用先进的文章和图片识别系统有效保障超低重复率;

● 对文章和图片的超强提取能力,系统可以在各种复杂的网页中提取标题正文和时间等参

数,可以高智能的提取有用的信息,过虑无用信息;

● 高性能的分词组件,字典词库高质量,保证索引和搜索的准确性;

● 优秀的管理平台,可以方便管理进行信息采集的站点列表,及对下载的层级进行自定义; ● 可便捷对系统进行扩展,以满足不同的需求

系统架构图

SOPI 垂直搜索引擎子系统

WEB 管理主要功能

功能

分析类型管理

自动匹配管理

域搜索信息类型管理 定义分析类型 定义自动匹配分类及定义分类项 定义域要搜索的信息类型(可自动生成表达式) 说明


相关文章

  • 中国搜索引擎市场调查市场调查报告目录
  • 中国市场调研在线 行业市场研究属于企业战略研究范畴,作为当前应用最为广泛的咨询服务,其研究成果以报告形式呈现,通常包含以下内容: 一份专业的行业研究报告,注重指导企业或投资者了解该行业整体发展态势及经济运行状况,旨在为企业或投资者提供方向性 ...查看


  • Web2.0环境下的网络信息检索
  • 作者:张自然金燕 2007年05期 2004年以来,随着Web2.0及其相关的典型应用 Blog.wiki.RSS.Tag.SNS等的发展,用户成为信息制造和利用的中心,他们拥有了更多点对点传递信息的渠道.这种发展和变化不仅带来了网络产业的 ...查看


  • 去哪儿网案例分析
  • 去哪儿网案例分析 一.基本情况 去哪儿网(Qunar.com )总部位于北京,于2005年5月, 由庄辰超与戴福瑞(Fritz Demopoulos).道格拉斯(Douglas Khoo)共同创立.作为中国第一个旅游搜索引擎, 使中国旅行者 ...查看


  • 第8章互联网金融门户
  • 第八章 互联网金融门户 [学习目标] 通过本章的学习,了解我国互联网金融门户兴起的背景,了解其定义和特点,掌握几种基本的类别及其运营模式,并结合具体门户网站的案例,理解其功能与作用. 第一节 互联网金融门户概况 一.互联网金融门户的定义及发 ...查看


  • 1.3因特网信息资源检索[教学设计]
  • "教学中的互联网搜索" 教案设计 徐州市城东中学 王 志 烨 2012年3月20日 "教学中的互联网搜索" 教案设计 一. 教案背景 1. 面向学生:高中 2. 学科:信息技术 3. 课时:2课时 4 ...查看


  • 知识图谱技术原理介绍
  • 知识图谱技术原理介绍 近两年来,随着Linking Open Data 1等项目的全面展开,语义Web 数据源的数量激增,大量RDF 数据被发布.互联网正从仅包含网页和网页之间超链接的文档万维网(Document Web )转变成包含大量描 ...查看


  • 电子商务网站运作与管理模式
  • 电子商务网站运作与管理模式 -------以优购商务网站为例 摘要 1.我国电子商务市场发展趋势 随着网络技术的成熟,电子商务的概念已经深入人心,而电子商务的快速发展逐渐地改变了传统商业模式,其发展模式有B2B.B2C.B2G和C2C等. ...查看


  • 国际联运中集装箱单据及集装箱装箱软件算法介绍
  • doc文档可能在WAP端浏览体验不佳.建议您优先选择TXT,或下载源文件到本机查看.国际联运中集装箱单据及集装箱装箱 国际联运中集装箱单据及集装箱装箱软件介绍[大纲] 大纲]一.国际联运中集装箱单据介绍 (一)相关概念 (二)国际联运中集装 ...查看


  • 虚拟社区新浪微博电商案例分析
  • 虚拟社区电商案例分析 --新浪微博 组长:1137125孙雪宁 组员:1137118何增冉 1137121张旖婷 1137131王昱丁 1137202施聪华 1137230朱蝶 1137233李易蝶 时间:2016年3月23日 目录 一. ...查看


热门内容