SF FTP Search Engine

来自开放百科 - 灰狐
跳转到: 导航, 搜索
哈工大 SF FTP Search Engine

目录

系统简介

SF超高速FTP搜索引擎是全国新一代超高速FTP全站搜索引擎之一,索引速度远高于同类产品,在两千万候选项中查询两百万结果只在毫秒量级即可完成。并且支持多种排序方式、站点快照等贴近用户使用的功能。

本搜索引擎由哈尔滨工业大学学生利用业余时间开发,采用GPL开源协议全球公开发行,面向全国提供FTP站点文件检索服务,拥有相当的声誉及客流量,现在定位为成为全亚洲头号FTP搜索引擎,还在不断的发展与完善中。

SF搜索引擎为回报学校,激励学子刻苦学习,特用其广告收入设立了“SF奖学金”第一期奖学金已经发到了学子手中。

“开源、高速、友好、交流、共进”是SF所秉行的宗旨;以技术为先,共同学习进步,为技术的发展尽一份力是SF的最终使命。愿您能了解SF、使用SF、熟悉SF、并最终喜爱上SF。

系统特点

  • 拥有极快的超高速索引引擎,可在一秒内从两千万文件中检索出两百万个排序后的结果
  • 查询结果可按“IP距离”、“文件日期”、“文件大小”、“文件名长度”进行排序,排序可按升序也可按降序进行
  • 搜索关键字高亮显示
  • 分页显示
  • 可通过浏览器进行安装设置以及后台管理
  • 数据更新可完全后台运行,数据更新期间无需停止服务
  • 分布式计算结构支持,前台界面与后台程序完全分离,方便DIY,凡安装SF系统,均可以从其它SF系统上获得并向其它SF系统提供数据
  • 搜索信息可以通过RSS进行订阅
  • 如果未找到结果,用户可以通过电子邮件订阅自动通知。当可以找到结果时,系统将自动通知用户
  • 支持VIP站点设置,重要站点的结果可以排在前面
  • 支持指定站点,指定类别搜索
  • 支持用户偏好设定,用户可以自行定义一些默认的查询参数,这样不需要在每次查询时额外指定
  • 支持非匿名及使用非标准端口的FTP服务器,能在搜索结果中显示服务器的位置所在(通过纯真IP数据库)
  • 支持站点快照
  • 支持24小时无人职守运行,自动完成数据采集更新
  • 详细的访客来源分析
  • 详细的搜索排名统计
  • POSIX兼容,可以在linux及windows(使用cygwin)平台上使用
  • 纯C++内核,源代码采用GPL协议,开源、免费
  • 冗错支持,不会因偶然的网络链接故障而导致原先的数据丢失
  • 详细的日志系统,可以很方便的知道哪个服务器在抓取数据的时候出了问题,出了什么问题
  • 支持是否可以下载的指示功能,一眼便知是否可以使用SF所提供的帐户名及密码进行下载,大大节约了用户尝试的时间。

获取源码

获取SF的源代码有两种方式:

  • 通过下载发行版获得源码,建议普通用户使用这种方式。下载地址:http://gf.cs.hit.edu.cn/frs/?group_id=28
  • 通过Subversion获得源码,建议高级用户使用此方式,可以获得最新的SF代码:

获得稳定版代码

svn checkout http://svn.gf.cs.hit.edu.cn/svn/sfsearch/stable

获得正在开发中的代码,仅做参考,不能用来搭建系统

svn checkout http://svn.gf.cs.hit.edu.cn/svn/sfsearch/dev

Main_page_icon3.gif 系统文档

超音速版

亚音速版

安装帮助

  • Q:安装时出现“fopen(/path/somedir/*path.h) failed to open stream: Permission denied ..”错误
  • A:权限问题,请执行:chmod -R 777 /path/somedir/
  • Q:安装完成后,查询时出现“map memory is error!”错误
  • A:这主要是由于没有任何可检索的文件造成的,请检查/sf/data/file_info这个文件的大小是否是0。请重新运行/sf/bin/flashdata.sh抓取FTP服务器数据。

使用帮助

  • Q:如何进行指定站点查询
  • A:可以在查询框内输入通过“site”子句,指定站点,语法如下:
site:[ip]
site:[dns]

如:查询202.118.224.241这个IP地址的站点: site:202.118.224.241

查询run.hit.edu.cn这个IP地址的站点: site:run.hit.edu.cn

  • Q:如何进行指定类型查询
  • A:可以在查询框内输入通过“type”子句,指定站点,语法如下:
type:[类型]

如:查询“电影”类文件:

type:电影

查询“音乐”类文件:

type:音乐

局限性

  • 当某个站点N多次都连不上时,collect程序应从站点列表中将此站点删除,以减少以后抓取数据时做重复而无用的动作,但目前collect程序未完成此工作。
  • 当某服务器的密码及用户名含有“:”、“@”、“/”、……等特殊字符时,可能出现错误显示
  • 每个关键字的长度不能小于2
  • 当某服务器上的目录名以空格开头,则无法检索此目录
  • 当某关键字全为汉字的时候,可能出现多检的情况,即检出的结果中的某些结果可能不是正确结果(不过不会漏检)

常用连接

发行版本变迁历史

分享您的观点
个人工具
名字空间

变换
操作
导航
工具箱