Apache Tika

来自开放百科 - 灰狐
(版本间的差异)
跳转到: 导航, 搜索
(链接)
 
(未显示1个用户的5个中间版本)
第1行: 第1行:
Apache Tika is a toolkit for detecting and extracting metadata and structured text content from various documents using existing parser libraries.
+
Apache Tika:通用的内容分析工具箱,通过现有的解析器库检测以及从各种文档提取元数据以及结构化的文本内容。
  
http://lucene.apache.org/lucy/
+
Apache Tika 可以和 [[Apache Nutch]]、[[Apache Lucene]]、[[Apache Solr]] 结合,提供完整的搜索引擎基础设施。
 +
 
 +
==图集==
 +
<gallery>
 +
image:apache-tika-framework.png|框架
 +
image:apche-tika-in-machine-learning.png|机器学习
 +
image:apache-tika-parser-method.png|Parse方法
 +
image:apache-tika-parser-interface-implementations.png|接口实现
 +
image:apache-nutch2-architecture.png|Nutch2框架
 +
image:apache-tika-metadata.png|元数据
 +
</gallery>
 +
 
 +
==链接==
 +
*[http://tika.apache.org/ Apache Tika官网]
 +
*[http://www.ibm.com/developerworks/cn/opensource/tutorials/os-apache-tika/index.html 用 Apache Tika 理解信息内容]
 +
*[http://blog.csdn.net/pelick/article/details/8520352 Apache Tika:通用的内容分析工具]
  
 
[[category:search engine]]
 
[[category:search engine]]
 
[[category:apache]]
 
[[category:apache]]
 
[[category:metadata]]
 
[[category:metadata]]
 +
[[category:OSGi]]

2016年2月12日 (五) 00:41的最后版本

Apache Tika:通用的内容分析工具箱,通过现有的解析器库检测以及从各种文档提取元数据以及结构化的文本内容。

Apache Tika 可以和 Apache NutchApache LuceneApache Solr 结合,提供完整的搜索引擎基础设施。

[编辑] 图集

[编辑] 链接

分享您的观点
个人工具
名字空间

变换
操作
导航
工具箱