道藏庄子白文数字化

两年前的毕业总结里,我为自己画了个顿号,希望自己能不断进步。

2021年12月末,我搭建了个人网站。

2022年,我做了The Collection of Chuangtzu(文献篇),并尽可能找齐目录中的电子资源。

2023年,依托前两年的成果,我结识了一些同好,并一起做了些东西出来,特在此做个分享:《道藏》庄子白文的数字化。

github链接:https://github.com/tobeabooker/ChuangTzu-text

所有内容包括6个pdf文件,一个html文件,以及一个img文件夹。以下是html文件中的使用说明。

使用说明

  • 原始文本来自Kanripo漢籍正統道藏三家本 《南華真經》

    Kanripo漢籍的图像与文字不能对应。国学大师用的是Kanripo漢籍的数据,有同样的问题。瀚堂典藏的文本质量很差。 zigangchen的道藏续道藏全文检索系统文本质量亦不佳,且似乎没法对应到原pdf每一页。学衡数据则缺少这一文本。

    最终文本的得出过程如下:1.校对Kanripo漢籍的文本(二校到《胠篋》);2.校对看典古籍的ocr文本;3.将前两者的文本进行对比。

  • pdf图像来自国图藏道藏。我所找到的涵芬楼道藏为djvu格式,此格式的不足可参看老马的帖子。djvu是有损的,可能会导致与原书图像不一致。此外,涵芬楼本影印时有描改,与国图本有多处字形不一致。

  • 国图的道藏与涵芬楼道藏跳转页码可以互通,需要设置pdf的baseNum、更改pdf路径,同时将国图的5卷按照涵芬楼的顺序组合成3个pdf(也可以将国图与涵芬楼都合并为1个pdf)。三家本道藏进行了拼版,因此页码不可以互换。

  • 国图的道藏与涵芬楼道藏互换页码时,如果想要改变显示的页码数字,可以使用js或其他方式,对每个页码数字加上一个固定数。

  • pdf页面的跳转功能只有在火狐浏览器上才能实现。

  • 文本每行与道藏原本一致。当某句话断为两行/两页,会检索不到。因此要减少检索的字符数。如果想去除换行符,可以在html文件中查找删除</p><p>

  • 对于有编码的异体字(如𡨋、𣗳),以异体字的形式呈现。检索模式,可以一键将有编码的异体字转为正字。

  • 有编码的异体字字体采用中华书局字体全字库字体。如果未安装以上字体,异体字会无法正常显示。

  • 对于无编码的异体字(如),以正字的形式呈现,同时鼠标悬浮时可显示文字截图。这类异体字以蓝色标注。

  • 对于一些无编码,但又因为各种原因没加图片的字,汇总如下:

    髙高类:嗃謞蒿槁享淳郭蜳孰熟槨膏毫豪譹鬻停

    巳㔾类:卷勌捲卮扼阨危峗詭跪怨服(犯有编码)

    𫝕辰类:鎒震唇振脣(𫝕、𭔱、𭆒有编码)

    過类:骨滑蝸禍體

    毋母类:母晦敏繁侮海誨拇(󶝍、󱖜有编码)

    󸚎冉类:再構稱聃講溝

    󷗞昜类:陽揚賜湯暢觴傷蕩

    羽类:躍藋羿翟繆寥瘳戮謬翣蓼擢膠

    黒黑类:墨薰黨黔黜黥矰儵熏(黙、曽有编码)

    今类:琴含貪矜

    害类:害犗割

    某类:某媒謀

    土士类:結(𡉟有编码)

    上匕类:指

    𮍌臣类:臣臧藏賢卧(这类字字形几乎没差别,不改为𮍌)

    巳已己类:已己忌起(古籍中已己常写为巳,这类字直接用原字)

    值得说明的是,其中有些字有多种字形。如:母字末笔有出头的,也有未出头的。“豚子食於其𭮀者”,“所愛其者”,两种字形出现相差仅一页。

  • 对于一些本人认为比较重要的字(与版本有关、与其他本相差较大、可能写错),以红色标注。

  • 在校对过程中,使用了字统网中华书局字符查询看典古籍的ocr与校对系统(校对界面很方便,可以导出文本pdf,但存在异体字无法保存的问题)、如是古籍的多文本对比系统。在此感谢各位开发者的付出。

  • 网友noodles促成了此项目的开始,并校对了看典古籍的ocr文本,订正了许多我漏校的字。在此万分感谢。

  • 由于个人时间与能力有限,仍存在许多不足之处,因此欢迎任何人指教。本人邮箱:jiangxuan77@qq.com。