光学字符识别 (OCR)
ocr 模块用于识别图像中的文本.
AutoJs6 的 OCR 特性支持 Google ML Kit, Baidu PaddlePaddle Paddle Lite 以及 Rapid OCR 相关实现.
6.7.0 源码校对
本页已按 AutoJs6 6.7.0 (ed3eb10e88db5a8425fd94bdddefa4176e5e1c94) 对照以下源码路径校对:
app/src/main/java/org/autojs/autojs/runtime/ScriptRuntime.ktapp/src/main/java/org/autojs/autojs/runtime/api/augment/ocr/Ocr.ktapp/src/main/java/org/autojs/autojs/runtime/api/augment/ocr/OcrMLKit.ktapp/src/main/java/org/autojs/autojs/runtime/api/augment/ocr/OcrPaddle.ktapp/src/main/java/org/autojs/autojs/runtime/api/augment/ocr/OcrRapid.kt
运行时中 ocr / $ocr 由 augment 注入, ocr 本身可调用, 等价于 ocr.recognizeText(...). 当前模式包括 mlkit, paddle, rapid, unknown; 嵌套对象 ocr.mlkit, ocr.paddle, ocr.rapid 也都可调用, 并公开 recognizeText / detect.
ocr.tap(mode) 可通过字符串或嵌套模式对象切换模式; 未知模式会抛出异常. recognizeText / detect 最多接受 3 个参数: 第一个参数为字符串时读取图片路径; 第一个参数不是 ImageWrapper 时会尝试截屏; 第二参数为区域时会包装为 { region }, 否则按选项对象处理.
设置 region 时, 源码会先裁剪图片再 OCR, 并把 detect 的边界坐标偏移回原图坐标. detect 返回 OcrResult[], recognizeText 返回字符串数组.
ML Kit 与 Rapid 的 options 当前除 region / 模式分派外基本保留; Paddle 选项包括 cpuThreadNum, useSlim, useOpenCL, detLongSize, scoreThreshold, mergeLine, splitWords, useWordSegmentation, useRaw / raw, imageQuality, imageFormat 等. 非 INRT 环境会选择 Paddle OCR 插件, 无插件时抛错; INRT 环境使用内置引擎.
ocr
[@] ocr
ocr 可作为全局对象使用:
typeof ocr; // "function"
typeof ocr.detect; // "function"
typeof ocr.recognizeText; // "function"ocr(options?)
6.4.0 Overload [1-2]/9
- [ options ] { OcrOptions } - OCR 识别选项
- returns { string[] }
识别当前屏幕截图中包含的所有文本, 返回文本数组.
ocr() 相当于以下代码的整合:
images.requestScreenCapture();
let img = images.captureScreen();
ocr(img);同时也是 ocr.recognizeText(options?) 的别名方法.
ocr(region)
6.4.0 Overload 3/9
- region { OmniRegion } - OCR 识别区域
- returns { string[] }
识别当前屏幕截图指定区域内包含的所有文本, 返回文本数组.
ocr(region) 相当于以下代码的整合:
images.requestScreenCapture();
let img = images.captureScreen();
ocr(img, region);同时也是 ocr({ region: region }) 的便捷方法,
以及 ocr.recognizeText(region) 的别名方法.
关于 OCR 区域参数 region 的更多用法, 参阅 OcrOptions#region 小节.
ocr(img, options?)
6.3.0 Overload [4-5]/9
- img { ImageWrapper } - 包装图像对象
- [ options ] { OcrOptions } - OCR 识别选项
- returns { string[] }
识别图像包含的所有文本, 返回文本数组.
ocr.recognizeText(img, options?) 的别名方法.
/* 申请屏幕截图权限. */
images.requestScreenCapture();
/* 截屏并获取包装图像对象. */
let img = images.captureScreen();
/* OCR 识别并获取结果, 结果为字符串数组. */
let results = ocr(img);
/* 结果过滤, 筛选出文本中可部分匹配 "app" 的结果, 如 "apple", "disappear" 等. */
results.filter(text => text.includes('app'));ocr(img, region)
6.3.0 Overload 6/9
- img { ImageWrapper } - 包装图像对象
- region { OmniRegion } - OCR 识别区域
- returns { string[] }
识别指定区域内图像包含的所有文本, 返回文本数组.
ocr(img, { region: region }) 的便捷方法.
ocr.recognizeText(img, region) 的别名方法.
/* 申请屏幕截图权限. */
images.requestScreenCapture();
/* 截屏并获取包装图像对象. */
let img = images.captureScreen();
/* 在区域 [ 0, 0, 100, 150 ] 内进行 OCR 识别并获取结果, 结果为字符串数组. */
let results = ocr(img, [ 0, 0, 100, 150 ]);
/* 结果过滤, 筛选出文本中可部分匹配 "app" 的结果, 如 "apple", "disappear" 等. */
results.filter(text => text.includes('app'));关于 OCR 区域参数 region 的更多用法, 参阅 OcrOptions#region 小节.
ocr(imgPath, options?)
6.3.0 Overload [7-8]/9
- imgPath { string } - 图像路径
- [ options ] { OcrOptions } - OCR 识别选项
- returns { string[] }
识别指定路径对应图像包含的所有文本, 返回文本数组.
当指定路径无法解析为包装图像对象时, 将抛出 TypeError 异常.
ocr.recognizeText(imgPath, options?) 的别名方法.
ocr('./picture.jpg'); /* 获取本地图像文件中的所有文本. */ocr(imgPath, region)
6.3.0 Overload 9/9
- imgPath { string } - 图像路径
- region { OmniRegion } - OCR 识别区域
- returns { string[] }
识别指定路径对应图像在指定区域内包含的所有文本, 返回文本数组.
当指定路径无法解析为包装图像对象时, 将抛出 TypeError 异常.
ocr(imgPath, { region: region }) 的便捷方法.
ocr.recognizeText(imgPath, region) 的别名方法.
/* 获取本地图像文件在区域 [ 0, 0, 100, 150 ] 内的所有文本. */
ocr('./picture.jpg', [ 0, 0, 100, 150 ]);关于 OCR 区域参数 region 的更多用法, 参阅 OcrOptions#region 小节.
[p] mode
6.3.4 Getter/Setter
- [ <get> =
'mlkit'] { OcrModeName } - <set> { OcrModeName }
获取或设置 OCR 的工作模式名称.
/* AutoJs6 OCR 默认采用 MLKit 工作模式. */
console.log(ocr.mode); // "mlkit"
ocr.mode = 'paddle'; /* 切换到 Paddle 工作模式. */
console.log(ocr.mode); // "paddle"
ocr.mode = 'rapid'; /* 切换到 Rapid OCR 工作模式. */
console.log(ocr.mode); // "rapid"
ocr.mode = 'mlkit'; /* 再次切换到 MLKit 工作模式. */
console.log(ocr.mode); // "mlkit"当使用不同的工作模式名称时, ocr 全局方法及其相关方法 (如 ocr.detect) 将使用不同的引擎, 进而可能获得不同的识别速度和结果.
注: 使用 Paddle 工作模式时, 建议开启 AutoJs6 的 "忽略电池优化" 开关, 并降低对 AutoJs6 节电及后台运行等方面的限制, 否则可能导致应用崩溃.
[m] recognizeText
用于识别图像中的全部文本.
recognizeText 方法与工作模式有关, 例如当工作模式为 paddle 时, ocr.recognizeText(...) 与 ocr.paddle.recognizeText(...) 等价.
ocr.recognizeText(...) 相关方法均可简写为 ocr(...).
recognizeText(options?)
6.4.0 Overload [1-2]/9
- [ options ] { OcrOptions } - OCR 识别选项
- returns { string[] }
识别当前屏幕截图中包含的所有文本, 返回文本数组.
ocr.recognizeText() 相当于以下代码的整合:
images.requestScreenCapture();
let img = images.captureScreen();
ocr.recognizeText(img);ocr.recognizeText(options?) 与 ocr(options?) 等价.
recognizeText(region)
6.4.0 Overload 3/9
- region { OmniRegion } - OCR 识别区域
- returns { string[] }
识别当前屏幕截图指定区域内包含的所有文本, 返回文本数组.
ocr.recognizeText(region) 相当于以下代码的整合:
images.requestScreenCapture();
let img = images.captureScreen();
ocr.recognizeText(img, region);ocr.recognizeText({ region: region }) 的便捷方法.
ocr.recognizeText(region) 与 ocr(region) 等价.
关于 OCR 区域参数 region 的更多用法, 参阅 OcrOptions#region 小节.
recognizeText(img, options?)
6.3.0 Overload [4-5]/9
- img { ImageWrapper } - 包装图像对象
- [ options ] { OcrOptions } - OCR 识别选项
- returns { string[] }
识别图像包含的所有文本, 返回文本数组.
ocr.recognizeText(img, options?) 与 ocr(img, options?) 等价.
images.requestScreenCapture(); /* 申请屏幕截图权限. */
let img = images.captureScreen(); /* 截屏并获取包装图像对象. */
ocr.recognizeText(img).filter(text => text.includes('app')); /* 过滤结果. */recognizeText(img, region)
6.3.0 Overload 6/9
- img { ImageWrapper } - 包装图像对象
- region { OmniRegion } - OCR 识别区域
- returns { string[] }
识别指定区域内图像包含的所有文本, 返回文本数组.
ocr.recognizeText(img, { region: region }) 的便捷方法.
ocr.recognizeText(img, region) 与 ocr(img, region) 等价.
images.requestScreenCapture(); /* 申请屏幕截图权限. */
let img = images.captureScreen(); /* 截屏并获取包装图像对象. */
ocr.recognizeText(img, [ 0, 0, 100, 150 ]).filter(text => text.includes('app')); /* 过滤结果. */关于 OCR 区域参数 region 的更多用法, 参阅 OcrOptions#region 小节.
recognizeText(imgPath, options?)
6.3.0 Overload [7-8]/9
- imgPath { string } - 图像路径
- [ options ] { OcrOptions } - OCR 识别选项
- returns { string[] }
识别指定路径对应图像包含的所有文本, 返回文本数组.
当指定路径无法解析为包装图像对象时, 将抛出 TypeError 异常.
ocr.recognizeText(imgPath, options?) 与 ocr(imgPath, options?) 等价.
ocr.recognizeText('./picture.jpg'); /* 获取本地图像文件中的所有文本. */recognizeText(imgPath, region)
6.3.0 Overload 9/9
- imgPath { string } - 图像路径
- region { OmniRegion } - OCR 识别区域
- returns { string[] }
识别指定路径对应图像在指定区域内包含的所有文本, 返回文本数组.
当指定路径无法解析为包装图像对象时, 将抛出 TypeError 异常.
ocr.recognizeText(imgPath, { region: region }) 的便捷方法.
ocr.recognizeText(imgPath, region) 与 ocr(imgPath, region) 等价.
/* 获取本地图像文件在区域 [ 0, 0, 100, 150 ] 内的所有文本. */
ocr.recognizeText('./picture.jpg', [ 0, 0, 100, 150 ]);关于 OCR 区域参数 region 的更多用法, 参阅 OcrOptions#region 小节.
[m] detect
用于识别图像中的全部文本.
detect 方法与工作模式有关, 例如当工作模式为 paddle 时, ocr.detect(...) 与 ocr.paddle.detect(...) 等价.
与 recognizeText 不同, detect 返回的结果包含更多信息, 包括 [ 文本标签, 置信度, 位置矩形 ] 等, recognizeText 精简了 detect 返回的结果, 仅包含文本标签数据.
detect(options?)
6.4.0 Overload [1-2]/9
- [ options ] { OcrOptions } - OCR 识别选项
- returns { OcrResult[] }
识别当前屏幕截图中包含的所有文本, 返回 OcrResult 数组.
ocr.detect() 相当于以下代码的整合:
images.requestScreenCapture();
let img = images.captureScreen();
ocr.detect(img);detect(region)
6.4.0 Overload 3/9
- region { OmniRegion } - OCR 识别区域
- returns { OcrResult[] }
识别当前屏幕截图指定区域内包含的所有文本, 返回 OcrResult 数组.
ocr.detect(region) 相当于以下代码的整合:
images.requestScreenCapture();
let img = images.captureScreen();
ocr.detect(img, region);同时也是 ocr.detect({ region: region }) 的便捷方法.
关于 OCR 区域参数 region 的更多用法, 参阅 OcrOptions#region 小节.
detect(img, options?)
6.3.0 Overload [4-5]/9
- img { ImageWrapper } - 包装图像对象
- [ options ] { OcrOptions } - OCR 识别选项
- returns { OcrResult[] }
识别图像包含的所有文本, 返回 OcrResult 数组.
/* 申请屏幕截图权限. */
images.requestScreenCapture();
/* 截屏并获取包装图像对象. */
let img = images.captureScreen();
/* 获取本地图像文件中的所有识别结果. */
let result = ocr.detect(img);
/* 筛选置信度高于 0.8 的结果. */
result.filter(o => o.confidence >= 0.8);detect(img, region)
6.3.0 Overload 6/9
- img { ImageWrapper } - 包装图像对象
- region { OmniRegion } - OCR 识别区域
- returns { OcrResult[] }
识别指定路径对应图像在指定区域内包含的所有文本, 返回 OcrResult 数组.
ocr.detect(img, { region: region }) 的便捷方法.
/* 申请屏幕截图权限. */
images.requestScreenCapture();
/* 截屏并获取包装图像对象. */
let img = images.captureScreen();
/* 获取本地图像文件在区域 [ 0, 0, 100, 150 ] 内的所有识别结果. */
let result = ocr.detect(img, [ 0, 0, 100, 150 ]);
/* 筛选置信度高于 0.8 的结果. */
result.filter(o => o.confidence >= 0.8);关于 OCR 区域参数 region 的更多用法, 参阅 OcrOptions#region 小节.
detect(imgPath, options?)
6.3.0 Overload [7-8]/9
- imgPath { string } - 图像路径
- [ options ] { OcrOptions } - OCR 识别选项
- returns { OcrResult[] }
识别指定路径对应图像包含的所有文本, 返回 OcrResult 数组.
当指定路径无法解析为包装图像对象时, 将抛出 TypeError 异常.
let result = ocr.detect('./picture.jpg'); /* 获取本地图像文件中的所有识别结果. */
result.filter(o => o.confidence >= 0.8); /* 筛选置信度高于 0.8 的结果. */detect(imgPath, region)
6.3.0 Overload 9/9
- imgPath { string } - 图像路径
- region { OmniRegion } - OCR 识别区域
- returns { OcrResult[] }
识别指定路径对应图像在指定区域内包含的所有文本, 返回 OcrResult 数组.
当指定路径无法解析为包装图像对象时, 将抛出 TypeError 异常.
ocr.detect(imgPath, { region: region }) 的便捷方法.
/* 获取本地图像文件在区域 [ 0, 0, 100, 150 ] 内的所有识别结果. */
let result = ocr.detect('./picture.jpg', [ 0, 0, 100, 150 ]);
/* 筛选置信度高于 0.8 的结果. */
result.filter(o => o.confidence >= 0.8);关于 OCR 区域参数 region 的更多用法, 参阅 OcrOptions#region 小节.
[m] tap
tap(mode)
6.3.4
- mode { OcrModeName } - OCR 工作模式
- returns { void }
用于切换 OCR 工作模式, 相当于 ocr.mode 的 setter 形式.
ocr.tap('paddle');
ocr.mode = 'paddle'; /* 同上. */[m] summary
summary()
6.4.0
获取 AutoJs6 OCR 功能的摘要.
摘要中表述了 OCR 功能当前使用的工作模式, 以及全部可用的工作模式.
/* e.g. [ OCR summary ]
* Current mode: mlkit
* Available modes: [ mlkit, paddle, rapid ]
*/
console.log(ocr.summary());工作模式与代码形式
截至 AutoJs6 6.7.0, ocr 支持 mlkit, paddle, rapid 三种主要工作模式.
工作模式的获取或设置可通过 ocr.mode 实现.
下面以 mlkit 为例, 总结 mlkit 工作模式可用的全部代码形式.
- ocr.mlkit.detect(...)
- ocr.mlkit.recognizeText(...)
- ocr.mlkit(...)
- ocr.detect(...)
- ocr.recognizeText(...)
- ocr(...)
上述 6 种代码形式均可实现使用 mlkit 引擎进行光学字符识别.
其中, [ 3 ] 是 [ 2 ] 的简便写法, [ 6 ] 是 [ 5 ] 的简便写法.
另外, [ 4, 5, 6 ] 三种形式的条件, 是 OCR 工作模式为 mlkit, 即 ocr.mode 返回 mlkit. 否则需要调用 ocr.mode = 'mlkit' 切换工作模式.
下面再以 paddle 为例, 总结 paddle 工作模式可用的全部代码形式.
- ocr.paddle.detect(...)
- ocr.paddle.recognizeText(...)
- ocr.paddle(...)
- ocr.detect(...)
- ocr.recognizeText(...)
- ocr(...)
同样, [ 4, 5, 6 ] 三种形式的条件, 是 OCR 工作模式为 paddle, 即 ocr.mode 返回 paddle. 否则需要调用 ocr.mode = 'paddle' 切换工作模式.
rapid 工作模式同样支持:
- ocr.rapid.detect(...)
- ocr.rapid.recognizeText(...)
- ocr.rapid(...)
- ocr.detect(...)
- ocr.recognizeText(...)
- ocr(...)
同样, [ 4, 5, 6 ] 三种形式的条件, 是 OCR 工作模式为 rapid, 即 ocr.mode 返回 rapid. 否则需要调用 ocr.mode = 'rapid' 切换工作模式.
由此可见, ocr(...) 和 ocr.detect(...) 等方法是动态变化的, 其功能取决于工作模式. 这种形式的优点是写法简单, 但可读性相对较差, 可能难以辨识 OCR 的具体工作引擎. 如需兼顾可读性, 则可使用 ocr.mlkit(...), ocr.paddle(...), ocr.rapid(...) 和对应 detect(...) 等形式.
