研究成果

当古籍修复遇上人工智能
日期:2022年4月21日    浏览量:136

北京大学数字人文研究中心、北京大学-字节跳动数字人文开放实验室、北京大学人工智能研究院联合主办的“古籍智能信息处理”系列研讨会日前在线上举办。

  在研讨会上,北京大学数字人文研究中心主任王军算了一笔账:我国现存古籍约有20万种,从1949年到2019年,共修复整理出版了近38000种,照此速度,要将现存古籍全部修复整理出来,可能需要三百年的时间。不过,若利用人工智能技术辅助修复整理,大概二三十年就能完成。

  王军所说的“利用人工智能技术修复古籍”,并非遥远的科学设想,它正在成为现实中的生动实践。“古籍智能信息处理”系列研讨会第一讲开讲后不久,字节跳动宣布向北大教育基金会提供捐赠,支持北京大学—字节跳动数字人文开放实验室研发“古籍数字化平台”,利用智能技术加速中华古籍资源的数字化建设,预计三年内完成10000种精选古籍的智能化修复整理。

  古籍文本转化正在智能化

  很长一段时间里,古籍保护主要采用原生性保护方式,即把古籍当作“文物”保护起来。后来出现再生性保护方式,对古籍进行影印再造和影像保存,让古籍得以以纸本或缩微胶片的形式存在。现有的数字化古籍很多是由缩微胶片转换而成,分辨率较低且影像多为黑白色。

  即便将所有古籍用数字化手段影印出版,古籍也是“死”的,人们无法方便地使用。北京大学中文系教授杨海峥举了个简单的例子——影印的古籍没有标点符号,非常不便于阅读。另外,这也不利于对古籍内容进行检索,想查阅某个内容,得逐篇逐页阅读原文,很难快速找到想要的知识。因此,要提升传统古籍的利用率,必须将古籍内容转化为数字文本。过去,这种转化主要依靠专家人工录入,时间成本极高。

  “信息技术的发展,尤其是人工智能和大数据技术的出现,为古籍的修复整理带来了革命性变化。”王军说,近年来,包括北京大学在内的不少高校、科研机构在古籍数字化上开展了不少开拓性的工作,在OCR(光学字符识别)、AI句读、实体识别等方面积累了比较成熟的技术和经验。以OCR应用为例,用电子设备对纸本古籍一扫,古籍上的内容就会转录到计算机中,并生成相应的数字文档,效率比人工录入提升了不止千万倍。

  据了解,利用人工智能和大数据技术,北京大学数字人文中心在从先秦到明清跨时代的大规模古籍文本语料整理上,已实现对古文本的自动句读,平均准确率达到94%,同时还实现了对人名、地名、时代名、职官名、书名的自动识别,在中古史料上的准确率接近98%。

  在这些方面,字节跳动等互联网公司也有很多经验和技术积累。例如,OCR技术在今日头条、抖音等平台的图片文字识别、字幕翻译,以及商业化业务中的各类卡证票据及行业文档识别等领域均有广泛应用。“这些技术可以逐渐向古籍智能数字化的方向上迁移。我们在古籍数字化平台开发中,与北大在技术上能优势互补,进行有效的打通与融合。”字节跳动人工智能实验室总监李航表示。

  王军介绍,“古籍数字化平台”将会进一步提升古籍整理的准确率、智能化水平和开放度。一方面,可以对重点文本进行精校,满足专家学者对资料准确度的要求;另一方面,利用智能平台上的文字识别、校对工具,学者和古籍爱好者可以在线上一站式完成古籍整理工作,而不用像以前那样先在word文档中进行整理编辑,再传递相关的文档,在提高效率的同时,也方便公众参与。

  古籍利用有望智慧化

  四川大学中国文化全球传播大数据中心教授王兆鹏认为,技术的进步为古籍修复整理智能化带来两个面向:一是古籍文本转化智能化,二是古籍利用智慧化。

  把纸质古籍上的内容转化成数字文本,只是古籍修复整理的第一步。在此基础上,要解决的另一个问题是,如何将海量晦涩难懂的古籍内容进行整理归类,形成可交互、可触摸、可视化的数字人文作品,以方便人们查阅使用。否则,录入计算机的古籍依然会继续“沉睡”。

  基于人工智能技术,目前我国已建立多个古籍整理自动化和可视化平台。比如,王军主持设计和研发的“《宋元学案》知识图谱可视化系统”,对240万字的《宋元学案》进行了文本处理和分析,将2000多位宋元理学学者、近100个学术流派所涉及的人物、时间、地点、著作等提取出来构造成知识图谱。然而,不少平台的智能化水平仍然较低,比如输入关键词,搜索出的内容各自孤立、凌乱无序。王兆鹏认为,更智慧的古籍整理利用平台,应该从1.0版向2.0版演进,比如内容检索应“以类相从”,检索出的内容应彼此关联,且由人工智能进行有机分类。

  北京大学与字节跳动合作研发“古籍数字化平台”是提升古籍整理和利用智慧化水平的一次尝试。“我们合作的技术核心是将人工智能和大数据应用在海量的古籍文献上,实现古文本知识图谱的自动生成和对古籍内容的智能化整理,让古籍能够以文本的形态加以检索、关联阅读和深度挖掘利用。”李航说,未来,“古籍数字化平台”不仅是一个古籍智能整理平台,还将是一个面向读者的数字化阅读工具,将提供免费开放的访问服务。

  王军预计,随着人工智能技术的运用,古籍文献中所蕴藏的古代历史文化知识将不断被抽取出来,构造成各种各样的知识库,并将会以知识图谱的形式支持互联网前端应用。

  由于在互联网产品研发、设计方面存在优势,互联网公司等社会力量的加入会进一步保障古籍数字化平台的服务质量。“我们有优秀的产品经理、设计师、软件工程师,能够不断优化、创新古籍数字化平台的产品功能,提供更好的用户体验。”北京字节跳动企业社会责任部产品总经理唐垲鑫表示,目前今日头条的设计团队和抖音的开发、测试团队已经加入“古籍数字化平台”的开发工作。

  需要跨学科通力合作

  随着人工智能技术在古籍修复整理领域的广泛应用,作为古典文献专业的老师,杨海峥经常被学生们问到一个问题:“学古典文献的同时,还要学人工智能吗?”虽然杨海峥不能确定,但一个事实是,人工智能技术与古籍修复整理的结合,将开辟出全新的交叉学科领域,利用人工智能技术修复整理古籍肯定需要更多复合型人才。

  王军认为,在这种情况下,高校古典文献学等相关专业如何培养兼具技术与学术能力的古典文献学人才,如何形成多学科交叉的课程体系等,都是亟待解决的问题。

  此外,人工智能并非“绝顶聪明”。在华南理工大学电子与信息学院教授金连文看来,古籍图像增强、修复,复杂版式古籍文档图像版面分析等问题都有待解决。而在对古籍内容的分析整理中,目前最大的技术难点是人工智能对古籍中人名、地名等专有名词识别后,如何进一步实现关系提取,从而为古代历史文化知识图谱的自动生成准备技术条件。

  因此,杨海峥认为,在古籍整理中,人文社科学者还是要积极介入,并加强与技术人员的合作,那样才能更好地利用机器而不是被机器牵着鼻子走,从而保证结果的准确性。

  人工智能技术的发展带来了古籍整理研究方法、思路的根本改变。业内的一个共识是,利用人工智能推进古籍修复整理需要进行跨学科、跨环境、跨文化、跨地区合作。正如王军所言,“古籍保护需要社会各界的共同努力,应欢迎更多古籍收藏机构、研究机构和热心古籍事业的个人加入,这样才能打造出一个开放的‘古籍数字化平台’”。(韩业庭 《光明日报》2022年04月11日 09版)