古籍文献作为人类文明的珍贵遗产,承载着重要的历史、文化和学术价值。然而,由于时间的流逝和物质老化等原因,这些古籍文献往往面临着被损坏和丢失的风险。为了保护和传承这些宝贵的文化遗产,合合信息借助智能文字识别技术,成功解决了古籍中古文识别的版式检测、图像处理和文字识别等难题,将古籍实现数字化永久保存,为文字保护和古代文化的传承开辟了全新的道路。
据悉,2021年、2022年世界人工智能大会上,合合信息用AI技术对甲骨文、西周钟鼎文进行精准识别,受到包括央视、人民日报、新华社在内的上百家主流媒体的关注。在2022年12月21日,合合信息与上海大学社会学院正式签署校企合作协议,双方将合力完成以国家珍贵古籍《西南彝志》为中心的贵州古彝文图像识别及数字化校对项目。 古籍中的古文识别是一个复杂且具有挑战性的任务,不仅版式多样,且受到长期使用和保存环境等因素的影响,导致文字模糊、残缺或不规整,古籍文献数字化过程常常面临诸多挑战。而作为世界上最古老的文字之一的彝文,在古籍中常出现加字、替字、整句倒置、文字方向不统一等现象,给文字定位再增不小难题。然而,通过合合信息强大的智能文字识别技术,这些特殊的难题得到了有效解决。 合合信息的智能文字识别技术主要由以“弯曲矫正”为代表的智能图像处理,基于深度学习的复杂场景文字识别,自然语言处理(NLP)三大核心模块组成。智能图像处理技术可对曲面、阴影、摩尔纹等复杂场景下的文档图像进行精准的矫正处理,为接下来的文字信息提取、识别创造了良好的条件;复杂场景文字识别技术主要利用手写印刷混排识别、抗强干扰识别、扭曲文字识别等一系列深度学习技术进行文字提取及识别,并结合领先的自然语言处理技术,对识别出的结果进行语义理解。 合合信息的智能文字识别技术在古籍文献的数字化领域取得的重要突破,在文字保护和古代文化的传承方面迈出了里程碑式的一步。古籍文献的数字化也为学术研究和教育提供了便利。学者和研究者可以通过电子文档中的关键词搜索和文本分析等功能,快速获取所需信息,开展深入的研究和思考。而教育机构可以通过数字化的古籍文献为学生提供更广泛和深入的学习材料,促进知识传承和文化繁荣。 |