PHP / MySQL其他Posted on 2022-12-24
摘要 : Ubuntu 安装 tesseract-ocr,并在 php 中直接使用。
默认都是安装在了/usr/share文件夹下。
可以在识别图片之前,先用Imagemagick 处理一下图片对比度,再识别文字。
默认安装的是稳定版3.4,如果想安装4.0,需要再最开始加上这2句代码:
sudo add-apt-repository ppa:alex-p/tesseract-ocr
sudo apt-get update
如果出现"没有该命令"的提示,则需要再前面先加上这行代码安装命令:
sudo apt-get install software-properties-common
❱ Ubuntu 安装 tesseract-ocr:
sudo apt-get install tesseract-ocr
❱ 安装语言包:
安装 英文(可能已经自带),简体中文:
sudo apt-get install tesseract-ocr-eng tesseract-ocr-chi-sim
安装 繁体中文:
sudo apt-get install tesseract-ocr-chi-tra
安装 简体中文(竖直)语言包、繁体中文(竖直)语言包:
sudo apt-get install tesseract-ocr-chi-sim-vert tesseract-ocr-chi-tra-vert
安装 所有语言包:
sudo apt-get install tesseract-ocr-chi-sim-vert tesseract-ocr-chi-tra-vert
❱ 识别图片命令:
sudo tesseract [图片文件] [导出txt文件名]
❱ 结果存成pdf
sudo tesseract [图片文件] [导出文件名] pdf
❱ 识别图片命令,选定语言,也可以选择自己训练的字体训练库
sudo tesseract [图片文件] [导出txt文件] -l eng
sudo tesseract [图片文件] [导出txt文件] -l chi_sim
sudo tesseract [图片文件] [导出txt文件] -l chi-tra
❱ 加上参数 psm
sudo tesseract num.png result -l chi_sim -psm 6
参数 :
0 定向脚本监测(OSD)
1 使用OSD自动分页
2 自动分页,但是不使用OSD或OCR(Optical Character Recognition,光学字符识别)
3 全自动分页,但是没有使用OSD(默认)
4 假设可变大小的一个文本列。
5 假设垂直对齐文本的单个统一块。
6 假设一个统一的文本块。
7 将图像视为单个文本行。
8 将图像视为单个词。
9 将图像视为圆中的单个词。
10 将图像视为单个字符
❱ 在php中使用 linux 命令直接识别文字
exec("tesseract 1.jpg 1.txt");
可以在识别图片之前,先用Imagemagick 处理一下图片对比度,再识别文字。Ubuntu 图像处理命令 Imagemagick训练教程
https://yy-programer.blogspot.com/2012/08/training-tesseract-ocr-301.html
教程
https://www.howtoing.com/tesseract-ocr-installation-and-usage-on-ubuntu-16-04
https://www.zhuxianfei.com/perl/39692.html
https://www.jianshu.com/p/f0f05ff2dc2e
https://fxtphp.com/view/270.html
https://segmentfault.com/a/1190000004504203
https://blog.csdn.net/h330531987/article/details/87094694
https://blog.csdn.net/pangyunsheng/article/details/79372845
http://blog.itpub.net/26736162/viewspace-2285595/
http://blog.csdn.net/yimingsilence/article/details/51276138
https://blog.csdn.net/yimingsilence/article/details/51353772