快速發展的AI技術,正在提升古籍的整理效率與推廣成果。
3月26日,“我用AI校古籍——我是‘校書官’古籍大眾智慧整理計劃(2025年)”啟動儀式暨“古籍數位化前沿論壇”在武漢大學召開。活動由全國高等院校古籍整理研究工作委員會、北京大學數位人文研究中心和位元組跳動公益聯合主辦,將徵集全國高校大學生和社會公眾,利用“識典古籍”整理平臺,共同參與古籍數位化整理工作。
“我用AI校古籍”啟動儀式合影。圖/活動主辦方
啟動儀式上,位元組跳動公益相關負責人介紹了活動的整體規劃。本次活動面向對古籍整理感興趣的高校大學生和社會上的古籍整理愛好者開放,覆蓋春季(3月26日—5月31日)、夏季(7月1日—8月20日)、秋季(9月22日—11月30日)三個階段,分為初階和進階兩類任務。初階組參與“識典古籍”自動古籍文字識別(OCR)結果的文字校對,進階組負責文字精校和標點校對等高階任務。目前已有22所院校承辦,參與者將獲得實踐證書、徽章、校書俑周邊等獎勵。
【1】AI賦能古籍整理與高效利用
活動將依託“識典古籍”平台進行。該平台結合了位元組跳動的AI技術優勢、產品研發能力,以及北京大學數位人文研究中心的學術能力,具備分詞檢索、AI助手等閱讀功能,以及自動古籍文字識別(OCR)、自動標點等古籍整理功能,可有效提升古籍的閱讀、理解、研究和利用效率。“識典古籍”平臺對公眾免費開放,已上線超16000部古籍資源,累計有上億人次通過該平台閱讀和利用古籍。
本次活動中,參與者將充分利用“識典古籍”的古籍整理功能,對人工智慧根據古籍圖片自動生成的文字、標點等進行校對。據介紹,“識典古籍”可對自動識別過程中不確定的文本進行顏色標記,快速定位可能存在問題的文字和圖片位置,自動命名人名、地名、書名、時間、職官等實體,並支援撰寫數位校勘記。根據實際使用反饋,“識典古籍”AI技術可以數倍提升古籍的整理效率。
“識典古籍”整理平台截圖。圖/活動主辦方
“AI技術不僅會對古籍中的文字圖像進行掃描和識別,其還會利用大模型進一步處理內容,例如添加標點符號,並且能夠識別文中的專有名詞等,這使得古籍的整理工作變得更加高效和規範。”北京大學數位人文研究中心主任王軍在接受九派新聞採訪時表示。
【2】AI助力古籍整理“分層協作”
除了提升了古籍的數位化效率,AI技術的加持也降低了參與古籍整理的門檻,普通大學生乃至社會愛好者均可參與其中。王軍介紹,人工參與主要分為三層:第一層是大眾整理。AI校對刻板文字時,其識別可以達到98%準確率。但對於手寫文字,識別準確率可能會稍低一些。AI不確定的字會高亮顯示,這時需要人工介入,對比圖像上的原字,確認AI識別的文字是否準確。
第二層是專業審核,如果文字是異體字,且字庫里沒有收錄該字,AI也會將其標出。專業人士會進行進一步標記和處理,以確保文字的準確性和完整性。
第三層就是古籍專家。古籍包羅萬象,既有地域性文獻,面臨方言用字、特殊書寫格式,還有不同朝代、版式的古籍時,這裡就需要專業的古籍專家深入把關校驗,保證準確率。
本次活動將對參與者進行專業化、體系化的實操培訓,並精選與現代生活、現代學科體系緊密相連的古籍進行整理。隨著古籍整理任務的進行,參與者還有機會接觸並深入了解諸如哈佛燕京藏書、敦煌文獻、永樂大典等極具影響力和文化價值的古籍,在校對過程中瞭解古籍中蘊含的文化與智慧。
“我是‘校書官’古籍大眾智慧整理計劃”已舉辦至第二屆,2024年舉辦的首屆活動吸引了1210所高校學生報名,整理古籍1643部。參與者中,大學本科占絕大多數,包含漢語言文學、歷史學等古籍整理相關專業學生。在AI技術的加持下,許多醫學、金融學專業學生乃至社會人士也加入其中。活動滿足了大學生和社會愛好者對於古籍閱讀的需求,降低了古籍整理的門檻,也促進了古籍數位化。
作為此次活動的主辦方之一,位元組跳動公益從2021年6月起就開始通過公益捐贈助力古籍修復,並持續投入技術、平臺資源來開展古籍數位化與活化。2022年10月,由位元組跳動公益聯合北京大學數位人文研究中心共建的“識典古籍”平台上線,為整理和閱讀古籍提供了便捷管道。此外,位元組跳動公益還通過“尋找古籍守護人”“識典杯·古籍內容創意季”等活動,推出《穿越時空的古籍》紀錄片、《重回永樂大典》短劇等方式推動古籍活化,讓古籍更好地走向大眾。
九派新聞記者 李愷
編輯 王佳箐 李楊
【爆料】請聯繫記者微信:linghaojizhe