技术应用
关于组合型方案的印刷模式符号区分
2011-11-29 10:00  

  公式符号切分是公式符号识别的基础,它是在一幅完整的公式图像中定位单个符号的图像,以便识别()器进行识别,正确的符号识别依赖于正确的符号切分。数学公式中符号的分布属于二维嵌套结构,相邻符号的大小和位置的变化频繁,无明显规律可循,给符号切分带来很大困难。公式符号的切分分为水平切分、垂直切分、右上角切分、右下角切分和包含关系的切分等,使得普通OCR切分算法无法适应公式的情况,有必要研究专门的公式符号切分方法。虽然公式识别问题于1968年即由Anderson在其博士论文中首次提出,但数学公式自身的特点导致公式识别技术发展缓慢。现有的公式识别文献中,大多假设公式中的符号已经切分出来,直接对符号识别和公式结构分析进行研究。为数不多的涉及公式符号切分的文献,一般采用投影切分的方法,利用行与行或者字与字之间的空白间隙对图像进行分割,分为水平投影和垂直投影。如Okamoto等人采用递归的水平和垂直投影切割方法对符号进行基于像素的切分。

  利用基于边界框的x y切分方法分割公式中的符号。投影法对一维结构的字符切分效果很好,但对于二维分布并且具有包含符号的数学公式图像,由于缺乏清晰的投影特征,效果欠佳。改进的方案是搜索图像中连通区域,将每个连通区域视为待识别符号的图。这种方法虽然可以正确切分公式中具有二维嵌套结构的符号 ,但那些由多个连通区域构成的符号 ,会被误认为多个待识别符号,从而降低了符号识别率,需要进行额外处理。针对数学公式的特点和传统切分方法所存在的问题,本文归纳、总结了公式符号的分布规律,提出迭代自组织的字符切分方法,将符号分离与符号合并策略相结合,提取公式符号。对具有包含关系的符号进行分离操作,而对由多个连通部件构成的符号进行合并处理初始切分采用连通区域搜索算法,通过连通区域标号的方法,按照从左到右、自上而下的顺序扫描图像,找到图像中所有的连通部件。将得到的各个连通部件,视为切分假设,作为单个待识别符号图像。对于公式中的大部分符号,该方法都能将其正确切分,特别是对于包含关系的符号。但是,该方法会将由多个连通部件组成的符号切分成多个待识别符号。

  对于由多个连通区域构成的符号,通过建立符号合并规则进行合并处理。一部分规则是基于符号间的几何关系的相关知识;另外一些规则是根据语义信息对符号进行合并。设为通过连通区域搜索得到的待识别符号的连通区域,为各连通区域所包含的像素集合,为连通区域的4个边界坐标,为连通区域的宽度,为连通区域的高度,为连通区域的宽高比,为连通区域的识别结果,为连通区域与在垂直方向上的间距。

  根号是公式中存在的特殊符号,其特点是根号中包含运算符号。采用连通域搜索算法得到根号的区域,在识别根号之前需要去除根号中的运算符号像素。这里根据根号与运算符连通区的位置关系,引入分离规则。规则4:分离规则。以600Dpi的分辨率扫描样张并输入计算机,对在VC+ +环境下实现的程序进行了实验。将测试样张分成初中、高中和大学数学材料3类。结果表明,系统的符号切分正确率与样张质量、排版风格等有关,随着公式复杂性的增大,符号切分正确率会有所下降。

  通过实验发现,提出的切分方法能够较好地适应公式符号特点,取得较高的符号切分正确率。公式中的粘连和断笔符号是造成切分错误的主要原因。公式中符号大小不一,在样张扫描时,容易使较小的符号(如上下标等)产生断笔。公式符号排列成二维结构,而且符号正斜体变化交叉出现,使得有些符号间距很小甚至粘连。加上样张的印刷质量低,使得公式中粘连的符号很多。下一步将主要研究对公式粘连符号的处理,进一步提高符号切分正确率。

  • 相关资讯