SF FTP Search Engine

来自开放百科 - 灰狐
(版本间的差异)
跳转到: 导航, 搜索
第1行: 第1行:
 +
{{top news}}
 +
 
<div style="text-align:center"><span style="color:#005288; font-size:200%;">'''哈工大 SF FTP Search Engine'''</span></div>
 
<div style="text-align:center"><span style="color:#005288; font-size:200%;">'''哈工大 SF FTP Search Engine'''</span></div>
  
== 系统简介 ==
+
==系统简介==
  SF超高速FTP搜索引擎是全国新一代超高速FTP全站搜索引擎之一,索引速度远高于同类产品,在两千万候选项中查询两百万结果只在毫秒量级即可完成。并且支持多种排序方式、站点快照等贴近用户使用的功能。
+
SF超高速FTP搜索引擎是全国新一代超高速FTP全站搜索引擎之一,索引速度远高于同类产品,在两千万候选项中查询两百万结果只在毫秒量级即可完成。并且支持多种排序方式、站点快照等贴近用户使用的功能。
  
  本搜索引擎由哈尔滨工业大学学生利用业余时间开发,采用GPL开源协议全球公开发行,面向全国提供FTP站点文件检索服务,拥有相当的声誉及客流量,现在定位为成为全亚洲头号FTP搜索引擎,还在不断的发展与完善中。
+
本搜索引擎由哈尔滨工业大学学生利用业余时间开发,采用GPL开源协议全球公开发行,面向全国提供FTP站点文件检索服务,拥有相当的声誉及客流量,现在定位为成为全亚洲头号FTP搜索引擎,还在不断的发展与完善中。
  
  SF搜索引擎为回报学校,激励学子刻苦学习,特用其广告收入设立了“SF奖学金”第一期奖学金已经发到了学子手中。
+
SF搜索引擎为回报学校,激励学子刻苦学习,特用其广告收入设立了“SF奖学金”第一期奖学金已经发到了学子手中。
  
  “开源、高速、友好、交流、共进”是SF所秉行的宗旨;以技术为先,共同学习进步,为技术的发展尽一份力是SF的最终使命。愿您能了解SF、使用SF、熟悉SF、并最终喜爱上SF。
+
“开源、高速、友好、交流、共进”是SF所秉行的宗旨;以技术为先,共同学习进步,为技术的发展尽一份力是SF的最终使命。愿您能了解SF、使用SF、熟悉SF、并最终喜爱上SF。
  
 +
==系统特点==
 +
*拥有极快的超高速索引引擎,可在一秒内从两千万文件中检索出两百万个排序后的结果
 +
*查询结果可按“IP距离”、“文件日期”、“文件大小”、“文件名长度”进行排序,排序可按升序也可按降序进行
 +
*搜索关键字高亮显示
 +
*分页显示
 +
*可通过浏览器进行安装设置以及后台管理
 +
*数据更新可完全后台运行,数据更新期间无需停止服务
 +
*分布式计算结构支持,前台界面与后台程序完全分离,方便DIY,凡安装SF系统,均可以从其它SF系统上获得并向其它SF系统提供数据
 +
*搜索信息可以通过RSS进行订阅
 +
*如果未找到结果,用户可以通过电子邮件订阅自动通知。当可以找到结果时,系统将自动通知用户
 +
*支持VIP站点设置,重要站点的结果可以排在前面
 +
*支持指定站点,指定类别搜索
 +
*支持用户偏好设定,用户可以自行定义一些默认的查询参数,这样不需要在每次查询时额外指定
 +
*支持非匿名及使用非标准端口的FTP服务器,能在搜索结果中显示服务器的位置所在(通过纯真IP数据库)
 +
*支持站点快照
 +
*支持24小时无人职守运行,自动完成数据采集更新
 +
*详细的访客来源分析
 +
*详细的搜索排名统计
 +
*POSIX兼容,可以在linux及windows(使用cygwin)平台上使用
 +
*纯C++内核,源代码采用GPL协议,开源、免费
 +
*冗错支持,不会因偶然的网络链接故障而导致原先的数据丢失
 +
*详细的日志系统,可以很方便的知道哪个服务器在抓取数据的时候出了问题,出了什么问题
 +
*支持是否可以下载的指示功能,一眼便知是否可以使用SF所提供的帐户名及密码进行下载,大大节约了用户尝试的时间。
  
== 系统特点 ==
+
==获取源码==
#拥有极快的超高速索引引擎,可在一秒内从两千万文件中检索出两百万个排序后的结果
+
#查询结果可按“IP距离”、“文件日期”、“文件大小”、“文件名长度”进行排序,排序可按升序也可按降序进行
+
#搜索关键字高亮显示
+
#分页显示
+
#可通过浏览器进行安装设置以及后台管理
+
#数据更新可完全后台运行,数据更新期间无需停止服务
+
#分布式计算结构支持,前台界面与后台程序完全分离,方便DIY,凡安装SF系统,均可以从其它SF系统上获得并向其它SF系统提供数据
+
#搜索信息可以通过RSS进行订阅
+
#如果未找到结果,用户可以通过电子邮件订阅自动通知。当可以找到结果时,系统将自动通知用户
+
#支持VIP站点设置,重要站点的结果可以排在前面
+
#支持指定站点,指定类别搜索
+
#支持用户偏好设定,用户可以自行定义一些默认的查询参数,这样不需要在每次查询时额外指定
+
#支持非匿名及使用非标准端口的FTP服务器,能在搜索结果中显示服务器的位置所在(通过纯真IP数据库)
+
#支持站点快照
+
#支持24小时无人职守运行,自动完成数据采集更新
+
#详细的访客来源分析
+
#详细的搜索排名统计
+
#POSIX兼容,可以在linux及windows(使用cygwin)平台上使用
+
#纯C++内核,源代码采用GPL协议,开源、免费
+
#冗错支持,不会因偶然的网络链接故障而导致原先的数据丢失
+
#详细的日志系统,可以很方便的知道哪个服务器在抓取数据的时候出了问题,出了什么问题
+
#支持是否可以下载的指示功能,一眼便知是否可以使用SF所提供的帐户名及密码进行下载,大大节约了用户尝试的时间。
+
 
+
 
+
== 获取源码 ==
+
 
获取SF的源代码有两种方式:
 
获取SF的源代码有两种方式:
#通过下载发行版获得源码,建议普通用户使用这种方式。下载地址:http://gf.cs.hit.edu.cn/frs/?group_id=28
+
*通过下载发行版获得源码,建议普通用户使用这种方式。下载地址:http://gf.cs.hit.edu.cn/frs/?group_id=28
#通过Subversion获得源码,建议高级用户使用此方式,可以获得最新的SF代码:
+
*通过Subversion获得源码,建议高级用户使用此方式,可以获得最新的SF代码:
:*获得稳定版代码
+
获得稳定版代码
::svn checkout http://svn.gf.cs.hit.edu.cn/svn/sfsearch/stable
+
svn checkout http://svn.gf.cs.hit.edu.cn/svn/sfsearch/stable
:*获得正在开发中的代码,仅做参考,不能用来搭建系统
+
获得正在开发中的代码,仅做参考,不能用来搭建系统
::svn checkout http://svn.gf.cs.hit.edu.cn/svn/sfsearch/dev
+
svn checkout http://svn.gf.cs.hit.edu.cn/svn/sfsearch/dev
 
+
  
 
== http://gpwiki.org/images/3/3d/Main_page_icon3.gif 系统文档 ==
 
== http://gpwiki.org/images/3/3d/Main_page_icon3.gif 系统文档 ==
# 超音速版
+
超音速版
## [http://blog.sohu.com/members/xieyubo/1192757.html 注意一些细节,让程序运行得更快(1/5)]
+
*[http://blog.sohu.com/members/xieyubo/1192757.html 注意一些细节,让程序运行得更快(1/5)]
## [http://blog.sohu.com/members/xieyubo/1193914.html 注意一些细节,让程序运行得更快(2/5)]
+
*[http://blog.sohu.com/members/xieyubo/1193914.html 注意一些细节,让程序运行得更快(2/5)]
## [http://blog.sohu.com/members/xieyubo/1194935.html 注意一些细节,让程序运行得更快(3/5)]
+
*[http://blog.sohu.com/members/xieyubo/1194935.html 注意一些细节,让程序运行得更快(3/5)]
## [http://blog.sohu.com/members/xieyubo/1194948.html 注意一些细节,让程序运行得更快(4/5)]
+
*[http://blog.sohu.com/members/xieyubo/1194948.html 注意一些细节,让程序运行得更快(4/5)]
## [http://blog.sohu.com/members/xieyubo/1532211.html 注意一些细节,让程序运行得更快(5/5)]
+
*[http://blog.sohu.com/members/xieyubo/1532211.html 注意一些细节,让程序运行得更快(5/5)]
## [http://blog.sohu.com/members/xieyubo/1588722.html SF超音速版的数据结构(1/3)]
+
*[http://blog.sohu.com/members/xieyubo/1588722.html SF超音速版的数据结构(1/3)]
## [http://blog.sohu.com/members/xieyubo/1669079.html SF超音速版的数据结构(2/3)]
+
*[http://blog.sohu.com/members/xieyubo/1669079.html SF超音速版的数据结构(2/3)]
## [http://blog.sohu.com/members/xieyubo/1710702.html SF超音速版的数据结构(3/3)]
+
*[http://blog.sohu.com/members/xieyubo/1710702.html SF超音速版的数据结构(3/3)]
# 亚音速版
+
亚音速版
## [http://blog.sohu.com/members/xieyubo/645958.html SF 亚音速版 系统架构 (1 / 3)]
+
*[http://blog.sohu.com/members/xieyubo/645958.html SF 亚音速版 系统架构 (1/3)]
## [http://blog.sohu.com/members/xieyubo/646148.html SF 亚音速版 系统架构 (2 / 3)]
+
*[http://blog.sohu.com/members/xieyubo/646148.html SF 亚音速版 系统架构 (2/3)]
## [http://blog.sohu.com/members/xieyubo/646364.html SF 亚音速版 系统架构 (3 / 3)]
+
*[http://blog.sohu.com/members/xieyubo/646364.html SF 亚音速版 系统架构 (3/3)]
## [http://student.mblogger.cn/clarkhit/posts/173908.aspx SF 搜索引擎 - IP来源统计开发文档]
+
* [http://student.mblogger.cn/clarkhit/posts/173908.aspx SF 搜索引擎 - IP来源统计开发文档]
</td>
+
</tr>
+
  
<tr>
+
==安装帮助==
<td style="margin:0; margin-top:10px; margin-right:10px; border:1px solid #dfdfdf; padding:0 1em 1em 1em; background-color:#E6F9E6; align:right;vertical-align:top;">
+
 
+
== http://gpwiki.org/images/4/47/Main_page_icon4.gif 安装帮助 ==
+
 
*'''Q:安装时出现“fopen(/path/somedir/*path.h) failed to open stream: Permission denied ..”错误'''
 
*'''Q:安装时出现“fopen(/path/somedir/*path.h) failed to open stream: Permission denied ..”错误'''
 
*'''A:'''权限问题,请执行:chmod -R 777 /path/somedir/
 
*'''A:'''权限问题,请执行:chmod -R 777 /path/somedir/
 
 
 
*'''Q:安装完成后,查询时出现“map memory is error!”错误'''
 
*'''Q:安装完成后,查询时出现“map memory is error!”错误'''
 
*'''A:'''这主要是由于没有任何可检索的文件造成的,请检查/sf/data/file_info这个文件的大小是否是0。请重新运行/sf/bin/flashdata.sh抓取FTP服务器数据。
 
*'''A:'''这主要是由于没有任何可检索的文件造成的,请检查/sf/data/file_info这个文件的大小是否是0。请重新运行/sf/bin/flashdata.sh抓取FTP服务器数据。
</td>
 
</tr>
 
  
<tr>
+
==使用帮助==
<td style="margin:0; margin-top:10px; margin-right:10px; border:1px solid #dfdfdf; padding:0 1em 1em 1em; background-color:#E6F9E6; align:right;vertical-align:top;">
+
== http://gpwiki.org/images/a/ae/Main_page_icon5.gif 使用帮助 ==
+
 
*'''Q:如何进行指定站点查询'''
 
*'''Q:如何进行指定站点查询'''
 
*'''A:'''可以在查询框内输入通过“site”子句,指定站点,语法如下:
 
*'''A:'''可以在查询框内输入通过“site”子句,指定站点,语法如下:
 
  site:[ip]
 
  site:[ip]
 
  site:[dns]
 
  site:[dns]
如:
+
如:查询202.118.224.241这个IP地址的站点: site:202.118.224.241
查询202.118.224.241这个IP地址的站点:
+
site:202.118.224.241
+
查询run.hit.edu.cn这个IP地址的站点:
+
site:run.hit.edu.cn
+
  
 +
查询run.hit.edu.cn这个IP地址的站点: site:run.hit.edu.cn
  
 
*'''Q:如何进行指定类型查询'''
 
*'''Q:如何进行指定类型查询'''
 
*'''A:'''可以在查询框内输入通过“type”子句,指定站点,语法如下:
 
*'''A:'''可以在查询框内输入通过“type”子句,指定站点,语法如下:
 
  type:[类型]
 
  type:[类型]
如:
+
如:查询“电影”类文件:
查询“电影”类文件:
+
 
  type:电影
 
  type:电影
 
查询“音乐”类文件:
 
查询“音乐”类文件:
 
  type:音乐
 
  type:音乐
</td>
 
</tr>
 
 
<tr>
 
<td style="margin:0; margin-top:10px; margin-right:10px; border:1px solid #dfdfdf; padding:0 1em 1em 1em; background-color:#E6F9E6; align:right;vertical-align:top;">
 
== http://gpwiki.org/images/6/6b/Main_page_icon6.gif 局限性 ==
 
# 当某个站点N多次都连不上时,collect程序应从站点列表中将此站点删除,以减少以后抓取数据时做重复而无用的动作,但目前collect程序未完成此工作。
 
# 当某服务器的密码及用户名含有“:”、“@”、“/”、……等特殊字符时,可能出现错误显示
 
# 每个关键字的长度不能小于2
 
# 当某服务器上的目录名以空格开头,则无法检索此目录
 
# 当某关键字全为汉字的时候,可能出现多检的情况,即检出的结果中的某些结果可能不是正确结果(不过不会漏检)
 
</td>
 
</tr>
 
 
<tr>
 
<td style="margin:0; margin-top:10px; margin-right:10px; border:1px solid #dfdfdf; padding:0 1em 1em 1em; background-color:#E6F9E6; align:right;vertical-align:top;">
 
  
== http://gpwiki.org/images/2/23/Main_page_icon7.gif 常用连接  ==
+
==局限性==
# [http://bbs.sflab.org/ SF 开发论坛]
+
*当某个站点N多次都连不上时,collect程序应从站点列表中将此站点删除,以减少以后抓取数据时做重复而无用的动作,但目前collect程序未完成此工作。
# [http://sf.hit.edu.cn/ SF Search 官方演示站点]
+
*当某服务器的密码及用户名含有“:”、“@”、“/”、……等特殊字符时,可能出现错误显示
# [http://gf.cs.hit.edu.cn/projects/sfsearch/ SF 在线开发平台]
+
*每个关键字的长度不能小于2
# [mailto:[email protected] 联系信箱([email protected])]
+
*当某服务器上的目录名以空格开头,则无法检索此目录
# [[SF-TODO|后续开发事项(SF-TODO)]]
+
*当某关键字全为汉字的时候,可能出现多检的情况,即检出的结果中的某些结果可能不是正确结果(不过不会漏检)
</td>
+
</tr>
+
  
<tr>
+
==常用连接==
<td style="margin:0; margin-top:10px; margin-right:10px; border:1px solid #dfdfdf; padding:0 1em 1em 1em; background-color:#E6F9E6; align:right;vertical-align:top;">
+
*[http://bbs.sflab.org/ SF 开发论坛]
 +
*[http://sf.hit.edu.cn/ SF Search 官方演示站点]
 +
*[http://gf.cs.hit.edu.cn/projects/sfsearch/ SF 在线开发平台]
 +
*[mailto:[email protected] 联系信箱([email protected])]
 +
*[[SF-TODO|后续开发事项(SF-TODO)]]
  
== http://gpwiki.org/images/2/23/Main_page_icon7.gif 发行版本变迁历史 ==
+
==发行版本变迁历史==
# [http://gf.cs.hit.edu.cn/frs/?group_id=28 '''2006.03.28 音 速 版 Patch 1''']
+
*[http://gf.cs.hit.edu.cn/frs/?group_id=28 '''2006.03.28 音 速 版 Patch 1''']
# [http://gf.cs.hit.edu.cn/frs/?group_id=28 2006.03.26 音 速 版]
+
*[http://gf.cs.hit.edu.cn/frs/?group_id=28 2006.03.26 音 速 版]
# [http://gf.cs.hit.edu.cn/frs/?group_id=28 2006.02.18 音 速 版 Beta 1 Patch2]
+
*[http://gf.cs.hit.edu.cn/frs/?group_id=28 2006.02.18 音 速 版 Beta 1 Patch2]
# [http://gf.cs.hit.edu.cn/frs/?group_id=28 2006.02.10 音 速 版 Beta 1 Patch1]
+
*[http://gf.cs.hit.edu.cn/frs/?group_id=28 2006.02.10 音 速 版 Beta 1 Patch1]
# [http://gf.cs.hit.edu.cn/frs/?group_id=28 2006.02.09 音 速 版 Beta 1]
+
*[http://gf.cs.hit.edu.cn/frs/?group_id=28 2006.02.09 音 速 版 Beta 1]
# [http://gf.cs.hit.edu.cn/frs/?group_id=28 2006.01.09 亚音速版 正式版]
+
*[http://gf.cs.hit.edu.cn/frs/?group_id=28 2006.01.09 亚音速版 正式版]
# [http://gf.cs.hit.edu.cn/frs/?group_id=28 2005.12.20 亚音速版 Beta 1]
+
*[http://gf.cs.hit.edu.cn/frs/?group_id=28 2005.12.20 亚音速版 Beta 1]
# [http://gf.cs.hit.edu.cn/frs/?group_id=28 2005.11.11 飞 船 版 Beta 1]
+
*[http://gf.cs.hit.edu.cn/frs/?group_id=28 2005.11.11 飞 船 版 Beta 1]
# [http://gf.cs.hit.edu.cn/frs/?group_id=28 2005.11.10 火 箭 版 Fix 1]
+
*[http://gf.cs.hit.edu.cn/frs/?group_id=28 2005.11.10 火 箭 版 Fix 1]
# [http://gf.cs.hit.edu.cn/frs/?group_id=28 2005.11.09 火 箭 版]
+
*[http://gf.cs.hit.edu.cn/frs/?group_id=28 2005.11.09 火 箭 版]
# [http://gf.cs.hit.edu.cn/frs/?group_id=28 2005.11.06 大数据版]
+
*[http://gf.cs.hit.edu.cn/frs/?group_id=28 2005.11.06 大数据版]
</td>
+
</tr>
+

2010年9月26日 (日) 12:04的版本

哈工大 SF FTP Search Engine

目录

系统简介

SF超高速FTP搜索引擎是全国新一代超高速FTP全站搜索引擎之一,索引速度远高于同类产品,在两千万候选项中查询两百万结果只在毫秒量级即可完成。并且支持多种排序方式、站点快照等贴近用户使用的功能。

本搜索引擎由哈尔滨工业大学学生利用业余时间开发,采用GPL开源协议全球公开发行,面向全国提供FTP站点文件检索服务,拥有相当的声誉及客流量,现在定位为成为全亚洲头号FTP搜索引擎,还在不断的发展与完善中。

SF搜索引擎为回报学校,激励学子刻苦学习,特用其广告收入设立了“SF奖学金”第一期奖学金已经发到了学子手中。

“开源、高速、友好、交流、共进”是SF所秉行的宗旨;以技术为先,共同学习进步,为技术的发展尽一份力是SF的最终使命。愿您能了解SF、使用SF、熟悉SF、并最终喜爱上SF。

系统特点

  • 拥有极快的超高速索引引擎,可在一秒内从两千万文件中检索出两百万个排序后的结果
  • 查询结果可按“IP距离”、“文件日期”、“文件大小”、“文件名长度”进行排序,排序可按升序也可按降序进行
  • 搜索关键字高亮显示
  • 分页显示
  • 可通过浏览器进行安装设置以及后台管理
  • 数据更新可完全后台运行,数据更新期间无需停止服务
  • 分布式计算结构支持,前台界面与后台程序完全分离,方便DIY,凡安装SF系统,均可以从其它SF系统上获得并向其它SF系统提供数据
  • 搜索信息可以通过RSS进行订阅
  • 如果未找到结果,用户可以通过电子邮件订阅自动通知。当可以找到结果时,系统将自动通知用户
  • 支持VIP站点设置,重要站点的结果可以排在前面
  • 支持指定站点,指定类别搜索
  • 支持用户偏好设定,用户可以自行定义一些默认的查询参数,这样不需要在每次查询时额外指定
  • 支持非匿名及使用非标准端口的FTP服务器,能在搜索结果中显示服务器的位置所在(通过纯真IP数据库)
  • 支持站点快照
  • 支持24小时无人职守运行,自动完成数据采集更新
  • 详细的访客来源分析
  • 详细的搜索排名统计
  • POSIX兼容,可以在linux及windows(使用cygwin)平台上使用
  • 纯C++内核,源代码采用GPL协议,开源、免费
  • 冗错支持,不会因偶然的网络链接故障而导致原先的数据丢失
  • 详细的日志系统,可以很方便的知道哪个服务器在抓取数据的时候出了问题,出了什么问题
  • 支持是否可以下载的指示功能,一眼便知是否可以使用SF所提供的帐户名及密码进行下载,大大节约了用户尝试的时间。

获取源码

获取SF的源代码有两种方式:

  • 通过下载发行版获得源码,建议普通用户使用这种方式。下载地址:http://gf.cs.hit.edu.cn/frs/?group_id=28
  • 通过Subversion获得源码,建议高级用户使用此方式,可以获得最新的SF代码:

获得稳定版代码

svn checkout http://svn.gf.cs.hit.edu.cn/svn/sfsearch/stable

获得正在开发中的代码,仅做参考,不能用来搭建系统

svn checkout http://svn.gf.cs.hit.edu.cn/svn/sfsearch/dev

Main_page_icon3.gif 系统文档

超音速版

亚音速版

安装帮助

  • Q:安装时出现“fopen(/path/somedir/*path.h) failed to open stream: Permission denied ..”错误
  • A:权限问题,请执行:chmod -R 777 /path/somedir/
  • Q:安装完成后,查询时出现“map memory is error!”错误
  • A:这主要是由于没有任何可检索的文件造成的,请检查/sf/data/file_info这个文件的大小是否是0。请重新运行/sf/bin/flashdata.sh抓取FTP服务器数据。

使用帮助

  • Q:如何进行指定站点查询
  • A:可以在查询框内输入通过“site”子句,指定站点,语法如下:
site:[ip]
site:[dns]

如:查询202.118.224.241这个IP地址的站点: site:202.118.224.241

查询run.hit.edu.cn这个IP地址的站点: site:run.hit.edu.cn

  • Q:如何进行指定类型查询
  • A:可以在查询框内输入通过“type”子句,指定站点,语法如下:
type:[类型]

如:查询“电影”类文件:

type:电影

查询“音乐”类文件:

type:音乐

局限性

  • 当某个站点N多次都连不上时,collect程序应从站点列表中将此站点删除,以减少以后抓取数据时做重复而无用的动作,但目前collect程序未完成此工作。
  • 当某服务器的密码及用户名含有“:”、“@”、“/”、……等特殊字符时,可能出现错误显示
  • 每个关键字的长度不能小于2
  • 当某服务器上的目录名以空格开头,则无法检索此目录
  • 当某关键字全为汉字的时候,可能出现多检的情况,即检出的结果中的某些结果可能不是正确结果(不过不会漏检)

常用连接

发行版本变迁历史

分享您的观点
个人工具
名字空间

变换
操作
导航
工具箱