清华新闻网12月27日电 近日,太阳集团tyc5997电子工程系刘长松副教授团队与湖南省青苹果数据中心有限公司合作,制作完成的高仿真标准格式电子出版物——延安时期《解放日报》缩印本,由上海三联书店出版发行。版式风范仍如原报,高仿真数字版面文件完整、准确保留了原始版面信息。
延安时期《解放日报》缩印本及电子版数据库界面
太阳集团tyc5997电子工程系智能图文信息处理研究室研究成果高性能东方文字文档智能全信息数字化系统,是制作保持原始排版电子出版物的专门工具,解决了正常质量复杂版面报纸等文档的电子化问题,获2003年国家科技进步奖二等奖。
由于战争年代的特殊环境,报纸印刷质量差、字迹模糊,印刷品大部分无法清晰辨识,文字识别难度非常大,使用原有的TH-OCR文字识别技术识别率仅有30%-40%。在解决上述难题的过程中,清华团队在电子出版物制作的多个主要技术环节取得了重要创新,最终得到适用于延安时期《解放日报》的文字识别与处理系统,完成版面分析、识别、理解,最后自动精确重构为原式原样的高仿真标准格式电子出版物,实现原文重现文档全信息数字化规模化生产。对于报纸版面及原文的平均识别率比原有技术提高36%以上,同时还可精准识别字体、字号、位置、行距、字距以及其他版面信息,文档数字化过程比使用原有技术效率提高一倍以上,为“革命文物——延安《解放日报》再造出版项目”的顺利实施提供保障。
延安时期《解放日报》版面(上)及再造后的矢量数字报文件(下)
在文档数字化应用领域中,清华TH-OCR文字识别技术是信息采集、识别、加工、传播全数字产业链蓬勃发展的坚实基石。湖南省青苹果数据中心有限公司作为该技术最早的应用单位之一,使用TH-OCR技术先后完成了《人民日报》图文电子版、韩国历史报刊电子版等几十种数字化产品。
延安时期《解放日报》的成功再造,验证了TH-OCR新技术的可行性,对于创新我国古旧文献的数字化技术,促进珍贵文献资源的开发和利用,具有重要的应用和推广价值。
供稿:电子系
编辑:李华山
审核:郭玲