南华真经.南宋孝宗江西刻本.法国国图馆藏 数字化文本

先上链接:

https://github.com/tobeabooker/ChuangTzu-text

https://wwiz.lanzn.com/iESYs2bak3fc

github里面只有html与img文件,pdf文件需要去书格下载。可以点击html文件中使用说明的链接直达。蓝奏云里面包含了一个黑白版的pdf。

长图为使用说明的截图,因为纯文本无法显示某些字形。

最终文本得出流程如下:

  1. 看典古籍ocr,一校
  2. 导出文本,标点,二校
  3. 三校

二校是导出的文本与《南华真经注疏》文本互校,没有对照原pdf。二校的重心在标点,所以出错才比较多。

标点还参考了《庄子汇校考订》《庄子集释》。

数字化的指导思想是:最大限度还原古籍原字的同时,方便检索与查找。但因为各种原因,还有一些问题。比如:有些字一笔一划都计较,有些字的差别则忽略;有些字没添加图片(因为懒),字图标准还未统一;异体字转正字的设置不完备。发布出来,也是希望大家能多提意见,免得自己一个人鼓捣,费时费力,还有可能是无用功。

此次体验,对校对之难有了更深层次的体会。首先是对个人能力的不信任,不再觉得自己挑错的能力很厉害,一两次校对就能弄得比较好。这次刚二校完就发现很严重的错误,因此三校时将文字竖排,与pdf上的字一一对应,修改了不少。其次,既然自己的错误也不少,以后对点校古籍中的错误会更宽容一点。

今年的计划就算是完成了,明年打算弄 日藏宋本庄子音义,从样式上来说,又是挑战。

FireShot Capture 008