Tesseract

来自开放百科 - 灰狐
(版本间的差异)
跳转到: 导航, 搜索
(项目)
 
(未显示1个用户的15个中间版本)
第1行: 第1行:
 +
{{SeeWikipedia|Tesseract (software)}}
 +
 
Google在几个月前,静悄悄地向开源合作伙伴们发布了一款新OCR识别引擎--事实上,是重新发布--这款名为Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。然而,HP不久便决定放弃OCR业务,Tesseract也从从此尘封。
 
Google在几个月前,静悄悄地向开源合作伙伴们发布了一款新OCR识别引擎--事实上,是重新发布--这款名为Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。然而,HP不久便决定放弃OCR业务,Tesseract也从从此尘封。
  
第7行: 第9行:
 
Google已经开始在网站上招聘高级OCR技术工程师,值得我们注意的是,Google在这段招聘启示下写道:“Google currently "reads" almost every web page in the world. Come help us read all the printed material as well!”(Google现在已经能够“阅读”世界上几乎所有网页,你的到来将让Google阅读所有印刷信息!)
 
Google已经开始在网站上招聘高级OCR技术工程师,值得我们注意的是,Google在这段招聘启示下写道:“Google currently "reads" almost every web page in the world. Come help us read all the printed material as well!”(Google现在已经能够“阅读”世界上几乎所有网页,你的到来将让Google阅读所有印刷信息!)
  
http://www.google.com/support/jobs/bin/answer.py?answer=23733
+
==指南==
 +
===OS X===
 +
brew install tesseract --all-languages
 +
===Debian===
 +
apt-get install tesseract-ocr
 +
apt-get install tesseract-ocr-fra // 支持 French
 +
apt-get install libleptonica-dev
 +
find . -name eng.traineddata
 +
./usr/share/tesseract-ocr/tessdata/eng.traineddata
 +
export TESSDATA_PREFIX=/usr/share/tesseract-ocr/tessdata
 +
 
 +
==项目==
 +
*[https://github.com/tesseract-ocr/tesseract Tesseract @ GitHub]
 +
*[https://github.com/gali8/Tesseract-OCR-iOS Tesseract OCR iOS]
 +
*[https://github.com/garnele007/SwiftOCR SwiftOCR] Why should I choose SwiftOCR instead of Tesseract?
 +
 
 +
==图集==
 +
<gallery>
 +
image:tesseract-multi-languages.png|多语种
 +
image:etiquette_3.jpg|法国红酒
 +
image:tesseract-wine-label-scan.png|酒标扫描
 +
</gallery>
 +
 
 +
==链接==
 +
*http://www.google.com/support/jobs/bin/answer.py?answer=23733
 +
*http://sourceforge.net/projects/tesseract-ocr
  
http://sourceforge.net/projects/tesseract-ocr
+
[[category:natural language processing]]
 +
[[category:computer vision]]
 +
[[category:c++]]
 +
[[category:google]]
 +
[[category:wine]]
 +
[[category:Huihoo Foundation]]

2023年3月24日 (五) 04:01的最后版本

Wikipedia-35x35.png 您可以在Wikipedia上了解到此条目的英文信息 Tesseract Thanks, Wikipedia.

Google在几个月前,静悄悄地向开源合作伙伴们发布了一款新OCR识别引擎--事实上,是重新发布--这款名为Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。然而,HP不久便决定放弃OCR业务,Tesseract也从从此尘封。

数年以后,HP意识到,与其将Tesseract束之高阁,不如贡献给开源软件业,让其重焕新生--2005年,Tesseract由美国内华达州信息技术研究所获得,并求诸于Google对Tesseract进行改进、消除Bug、优化工作。

在修复了最重要的数个漏洞后,Google两个月前认为,Tesseract OCR已经足够稳定,可以重新以开源软件方式发布。

Google已经开始在网站上招聘高级OCR技术工程师,值得我们注意的是,Google在这段招聘启示下写道:“Google currently "reads" almost every web page in the world. Come help us read all the printed material as well!”(Google现在已经能够“阅读”世界上几乎所有网页,你的到来将让Google阅读所有印刷信息!)

目录

[编辑] 指南

[编辑] OS X

brew install tesseract --all-languages

[编辑] Debian

apt-get install tesseract-ocr
apt-get install tesseract-ocr-fra // 支持 French
apt-get install libleptonica-dev
find . -name eng.traineddata
./usr/share/tesseract-ocr/tessdata/eng.traineddata
export TESSDATA_PREFIX=/usr/share/tesseract-ocr/tessdata

[编辑] 项目

[编辑] 图集

[编辑] 链接

分享您的观点
个人工具
名字空间

变换
操作
导航
工具箱