自然场景下的文本区域检测

乔帮主 · 发表于 2025-2-27 11:23

登陆有奖并可浏览互动！

您需要登录才可以下载或查看，没有账号？立即注册

×

数据集
主要数据集基本信息如下：
(23条消息) 文字识别/文本检测数据集_Sesen的木屋-CSDN博客_文字识别数据集
算法

CRAFT 本论文为2019年韩国学者提出的一种字符级的文本检测算法

主要思想：
1、图像分割的思想, 采用u-net结构, 先下采样再上采样；
2、非像素级分割, 而是将一个character视为一个检测目标对象；
3、本文提出了一种弱监督学习思路, 先利用合成样本进行预训练, 再将预训练模型对真实数据集进行检测, 得到预测结果, 经过处理后得到高斯热度图作为真实数据集的字符级标签。
模型结构：

最终输出两个通道的结果，尺寸为原图1/2，本文件建议使用32的整数倍作为输入尺寸，防止出现像素漂移。两个通道可以认为是region score map和affinity score map，两个图类似于高斯热点图。示意如下：

Region代表的是每个字符的中心，affinity代表的是字符连接中心，两个联合起来就能代表哪些是字符和哪些字符是属于同一个词。
训练过程比较复杂，如下图所示：

对真实数据会进行处理，将bbox内字符拉伸为较正的文本框，然后利用分水岭的方式获得分割字符，然后用特殊评分方式判断分割效果。

真实数据集基本都标注了其文本框对应的识别结果.所以其文本框对应的字符长度信息是知道的. 比如对于文本框w, 假如其识别标签为"label", 那么l(w)=5.而分水岭算法分割出字符后也可以知道其字符长度信息lc(w), 可以计算得到其标签评分s, 假如分水岭算法分割得到的字符长度和真实字符长度一致, 那么s=1, 长度相差越大, 评分越低, 说明分水岭分割出来的结果越不可信。

DBNet 算法论文于2019年发布

如图所示，网络利用不同stage进行特征融合，然后再转换到统一尺寸，然后输出文本概率图P和阈值图T，利用这两个图得到最终的二值图B。
训练时二值图无法微分，因此利用近似二值图替换二值图，从梯度传播上也可以解释为何二值交叉熵效果更差。
训练中对数据的处理如下：

P与B的label一致，都是由Gt缩小一定偏移生成；T的label相对复杂一点，最终效果是Gt附近一定距离内的空间，类似下图，

亮线为Gt。
推理时，利用P或B（B更准确）获得二值图，然后用二值图获得文本连通域，最后将连通域做一定放大即是文本框。

PANNet 2019年8月旷视在ICCV上的一篇论文

该网络主要包括低成本的分割模块与可学习的后处理方法。
低成本的分割模块由特征金字塔增强模块（Feature Pyramid Enhance Module，FPEM）和特征融合模块（Feature Fusion Module，FFM）组成。
FPEM是可级联的U形模块，可引入多级信息以及指导更好的分割。FFM可将不同深度的FPEM给出的特征汇合到最终的分割特征中。
可学习的后处理由像素聚合（Pixel Aggregation，PA）部分实现。通过预测的相似性向量（similar vector）聚合文本像素。
文章中采用resnet18作为主干网络，该轻量级的主干网络感受野较小，表达能力也不足，因此提出了FPEM和FFM。FPEM的模块结构如下：

FFM结构如下：

最后，使用1x1 conv得到6通道的输出。网络的输出包括：
text region, 1个通道
kernel, 1个通道
similar vector, 4个通道
关于后处理：
原理就是利用学习到的similar vector 1. 通过连通阈获得初始的kernel(即文本实例的骨架)及其实例可能的像素 2. 对于Ki,按四个方向融合像素，判断依据为该像素p与Ki的similar vector之间的距离d = 3, 则认为该像素属于该类。 3. 重复2操作，直至Ki都融合到自己的像素。（(23条消息) pannet文本检测网络模型和后处理详解_ethonyLight的博客-CSDN博客对本部分有详细解释）
其中有个先到先得的原则。

TextFuseNet：2020年

该算法在ICDAR2013上取得F1分数94.3%，在ICDAR2015上F1分数92.1%，在Total-Text上87.1%，在CTW-1500上86.6%。

TextFuseNet网络结构主要分为三个分支:
第一个是语义分割分支( semantic segmentation branch)，该分支用来提取液全局级别的特征；
另外二个是检测分支和mask分支(detection and mask branches)，用来提取字符级别和单词级别的特征；
在得到三种层次的特征后，使用多路径特征融合体系结构(Multi-path Fusion Architecture)，融合三者特征，生成更具代表性的特征表示，从而产生更准确的文本检测结果。
根据以上原理，不太适合用于中文文本检测，因此暂时不详细介绍。

原文地址：https://zhuanlan.zhihu.com/p/363561976

图文播报

[分享] 自然场景下的文本区域检测

登陆有奖并可浏览互动！

发表回复

浏览过的版块

官方推荐 /3

个人中心