欢迎大家赞助一杯啤酒🍺 我们准备了下酒菜:Formal mathematics/Isabelle/ML, Formal verification/Coq/ACL2, C++/F#/Lisp
SF FTP Search Engine
目录 |
系统简介
SF超高速FTP搜索引擎是全国新一代超高速FTP全站搜索引擎之一,索引速度远高于同类产品,在两千万候选项中查询两百万结果只在毫秒量级即可完成。并且支持多种排序方式、站点快照等贴近用户使用的功能。
本搜索引擎由哈尔滨工业大学学生利用业余时间开发,采用GPL开源协议全球公开发行,面向全国提供FTP站点文件检索服务,拥有相当的声誉及客流量,现在定位为成为全亚洲头号FTP搜索引擎,还在不断的发展与完善中。
SF搜索引擎为回报学校,激励学子刻苦学习,特用其广告收入设立了“SF奖学金”第一期奖学金已经发到了学子手中。
“开源、高速、友好、交流、共进”是SF所秉行的宗旨;以技术为先,共同学习进步,为技术的发展尽一份力是SF的最终使命。愿您能了解SF、使用SF、熟悉SF、并最终喜爱上SF。
系统特点
- 拥有极快的超高速索引引擎,可在一秒内从两千万文件中检索出两百万个排序后的结果
- 查询结果可按“IP距离”、“文件日期”、“文件大小”、“文件名长度”进行排序,排序可按升序也可按降序进行
- 搜索关键字高亮显示
- 分页显示
- 可通过浏览器进行安装设置以及后台管理
- 数据更新可完全后台运行,数据更新期间无需停止服务
- 分布式计算结构支持,前台界面与后台程序完全分离,方便DIY,凡安装SF系统,均可以从其它SF系统上获得并向其它SF系统提供数据
- 搜索信息可以通过RSS进行订阅
- 如果未找到结果,用户可以通过电子邮件订阅自动通知。当可以找到结果时,系统将自动通知用户
- 支持VIP站点设置,重要站点的结果可以排在前面
- 支持指定站点,指定类别搜索
- 支持用户偏好设定,用户可以自行定义一些默认的查询参数,这样不需要在每次查询时额外指定
- 支持非匿名及使用非标准端口的FTP服务器,能在搜索结果中显示服务器的位置所在(通过纯真IP数据库)
- 支持站点快照
- 支持24小时无人职守运行,自动完成数据采集更新
- 详细的访客来源分析
- 详细的搜索排名统计
- POSIX兼容,可以在linux及windows(使用cygwin)平台上使用
- 纯C++内核,源代码采用GPL协议,开源、免费
- 冗错支持,不会因偶然的网络链接故障而导致原先的数据丢失
- 详细的日志系统,可以很方便的知道哪个服务器在抓取数据的时候出了问题,出了什么问题
- 支持是否可以下载的指示功能,一眼便知是否可以使用SF所提供的帐户名及密码进行下载,大大节约了用户尝试的时间。
获取源码
获取SF的源代码有两种方式:
- 通过下载发行版获得源码,建议普通用户使用这种方式。下载地址:http://gf.cs.hit.edu.cn/frs/?group_id=28
- 通过Subversion获得源码,建议高级用户使用此方式,可以获得最新的SF代码:
- 获得稳定版代码
- svn checkout http://svn.gf.cs.hit.edu.cn/svn/sfsearch/stable
- 获得正在开发中的代码,仅做参考,不能用来搭建系统
- svn checkout http://svn.gf.cs.hit.edu.cn/svn/sfsearch/dev
系统文档
- 超音速版
- 亚音速版
</td> </tr>
<tr> <td style="margin:0; margin-top:10px; margin-right:10px; border:1px solid #dfdfdf; padding:0 1em 1em 1em; background-color:#E6F9E6; align:right;vertical-align:top;">
安装帮助
- Q:安装时出现“fopen(/path/somedir/*path.h) failed to open stream: Permission denied ..”错误
- A:权限问题,请执行:chmod -R 777 /path/somedir/
- Q:安装完成后,查询时出现“map memory is error!”错误
- A:这主要是由于没有任何可检索的文件造成的,请检查/sf/data/file_info这个文件的大小是否是0。请重新运行/sf/bin/flashdata.sh抓取FTP服务器数据。
</td> </tr>
<tr> <td style="margin:0; margin-top:10px; margin-right:10px; border:1px solid #dfdfdf; padding:0 1em 1em 1em; background-color:#E6F9E6; align:right;vertical-align:top;">
使用帮助
- Q:如何进行指定站点查询
- A:可以在查询框内输入通过“site”子句,指定站点,语法如下:
site:[ip] site:[dns]
如: 查询202.118.224.241这个IP地址的站点:
site:202.118.224.241
查询run.hit.edu.cn这个IP地址的站点:
site:run.hit.edu.cn
- Q:如何进行指定类型查询
- A:可以在查询框内输入通过“type”子句,指定站点,语法如下:
type:[类型]
如: 查询“电影”类文件:
type:电影
查询“音乐”类文件:
type:音乐
</td> </tr>
<tr> <td style="margin:0; margin-top:10px; margin-right:10px; border:1px solid #dfdfdf; padding:0 1em 1em 1em; background-color:#E6F9E6; align:right;vertical-align:top;">
局限性
- 当某个站点N多次都连不上时,collect程序应从站点列表中将此站点删除,以减少以后抓取数据时做重复而无用的动作,但目前collect程序未完成此工作。
- 当某服务器的密码及用户名含有“:”、“@”、“/”、……等特殊字符时,可能出现错误显示
- 每个关键字的长度不能小于2
- 当某服务器上的目录名以空格开头,则无法检索此目录
- 当某关键字全为汉字的时候,可能出现多检的情况,即检出的结果中的某些结果可能不是正确结果(不过不会漏检)
</td> </tr>
<tr> <td style="margin:0; margin-top:10px; margin-right:10px; border:1px solid #dfdfdf; padding:0 1em 1em 1em; background-color:#E6F9E6; align:right;vertical-align:top;">
常用连接
</td> </tr>
<tr> <td style="margin:0; margin-top:10px; margin-right:10px; border:1px solid #dfdfdf; padding:0 1em 1em 1em; background-color:#E6F9E6; align:right;vertical-align:top;">
发行版本变迁历史
- 2006.03.28 音 速 版 Patch 1
- 2006.03.26 音 速 版
- 2006.02.18 音 速 版 Beta 1 Patch2
- 2006.02.10 音 速 版 Beta 1 Patch1
- 2006.02.09 音 速 版 Beta 1
- 2006.01.09 亚音速版 正式版
- 2005.12.20 亚音速版 Beta 1
- 2005.11.11 飞 船 版 Beta 1
- 2005.11.10 火 箭 版 Fix 1
- 2005.11.09 火 箭 版
- 2005.11.06 大数据版
</td> </tr>