10分鐘校對40萬字,《大辭海》AI審校還有哪些強項?
更新于:2025-03-26 13:33:37

AI在各領域嶄露頭角之時,《大辭海》也加入其中,推出AI審校系統。3月25日,上海辭書出版社與百度、鯨湯(上海)智慧科技有限公司在滬正式發佈最新產品“辭文智慧知識審校系統”。該產品是《大辭海》權威知識庫與百度文心大模型深度融合的創新成果,標誌著出版行業智能化轉型邁入新階段。

上海世紀出版集團副總裁、上海辭書出版社社長秦志華介紹,“辭文智慧知識審校系統”系統目前可以在10分鐘之內完成40萬字文本量的審校,錯誤識別準確率達到80%,審校工作效率成倍提升,有效解決傳統文本審校在知識性、邏輯性方面的痛點。

國內首個融合權威工具書資源的智慧審校解決方案

作為國內首個融合權威工具書資源的智慧審校解決方案,“辭文”實現了四大技術突破:一是精準的知識溯源能力,當發現錯誤時,系統不僅能指出問題所在,更能通過Agent技術精準定位到《大辭海》中的相關條目,展示完整的知識鏈條,讓用戶不僅知道“錯在哪裡”,更明白“正確的應該是什麼”;二是強大的多輪推理能力,可深入驗證文本多維度合理性,找出隱藏的邏輯謬誤,比如當審核一篇關於歷史人物的文章時,系統不僅是簡單地核對年代,而是會通過多重推理,驗證人物關係、歷史背景、事件順序等多個維度的合理性;三是動態的知識更新機制,確保核查結果緊跟學術發展前沿,當《大辭海》資料庫有更新時,系統能自動完成知識的同步;四是智慧的互動式審校流程,通過有效控制大模型的發散、幻覺問題,提供個性化的審校建議,這種人機協作的方式既保留人工審校的專業判斷,又發揮AI的效率優勢。

與市面上現存智慧審校系統相比,“辭文智慧知識審校系統”的優勢在於其依託的《大辭海》資料庫。

《大辭海》共收詞近30萬條,5000多萬字,涵蓋目前所有的一級和二級學科,是自然科學、人文社會科學、語言文字等學科名詞、術語、概念等各方面知識的集大成者。

“《大辭海》猶如為 AI配備了‘權威知識的放大鏡、顯微鏡’。”秦志華表示,在人工智慧在知識審校領域,內容數據的準確性決定整個建築的穩固程度。依託《大辭海》,“辭文”智慧知識審校系統能夠快速、準確地識別各類文本中的細微知識謬誤,精確考證歷史年代、嚴格遵循木語規範、確保人物事實準確。

實現從“文字糾錯”到“知識審校”的能力跨越

近幾年,文本審校工具如雨後春筍不斷湧現,從早期的黑馬校對、方正審校,到i校對、鳳凰智慧校對系統、蜜度校對通、果麥AI校對王等產品各擅勝場。

“辭文”系統依託《大辭海》,將定位瞄準“知識審校”。“2023年8月起執行的《圖書編校品質差錯判定和計算方法》中規定,一般性錯字、別字,每處計1個差錯;知識性、邏輯性差錯,每處計2個差錯,由此可見知識性、邏輯性差錯對編校品質管理而言極為重要。然而,隨著知識專業化分工的日益精細,單個審校人員難以完全掌握跨學科知識,市場迫切需要一套智慧、高效、準確的知識審校系統。這不僅是新聞出版機構、內容發佈平臺的把關利器,也將是整個內容創作行業的前置工具。”秦志華表示。

在這樣的背景下,上海辭書出版社很早就關注到了“智慧審校”。“‘辭文智慧知識審校系統’並不是我們一時興起趕潮流的數字產品。最初產生開發智慧審校系統的想法,可能要追溯到2019年。”秦志華介紹,當時上海辭書出版社正圍繞《辭海》數位出版雲平台的建設,開發工具書協同編纂的子系統,其中就包括歷史紀年、古今地名、規範漢字、引文和譯名統一等自動核查功能。當時,他們就將智慧審校這一知識服務方向放在了出版融合的“代辦清單”中。

2023年6月,上海辭書出版社與百度文心一言合作,正式立項“辭文”智慧審校專案,後來,鯨湯(上海)智慧科技有限公司加入,在數據、演算法、算力方面密切配合,推動大辭典與大模型深度融合。經過3輪外部測試,“辭文智慧知識審校系統”正式推出,實現從“文字糾錯”到“知識審校”的能力跨越。

“AI的質量與差異主要來自於數據,站在《大辭海》權威基礎上做出的這個智慧審校產品,基礎非常好。”百度 AI 技術生態副總經理周奇表示,大模型時代,軟體產品是“火的”,可以根據數據、用戶反饋和大模型本身成長不斷反覆運算,依託文心+飛槳的核心技術,百度致力於希望和硬體夥伴、技術夥伴、數據夥伴等共建生態,架起技術和行業專業知識的橋樑,打通大模型垂直領域應用的工程化“最後一公里”。

秦志華介紹“辭文”系統

守護知識傳播的準確性與嚴肅性

發佈會上,秦志華展示了部分“辭文”應用的案例。上海辭書出版社針對該社一部50多萬字的關於上海歷史主題的付型稿件,採用“辭文”進行深度檢測,系統共標記471處潛在錯誤,經專業編輯團隊逐條複核,最終確認採納87處知識性差錯(含歷史事件誤記、人物關係錯位、地理沿革錯誤等),錯誤類型覆蓋上海開埠史、租界制度、地方文獻等專業領域。橫向對比測試數據顯示,“辭文”系統檢出471處,確認採納87處;市場上另一審校產品檢出262處,確認採納0處。

王敏分享使用體驗

《咬文嚼字》編輯部也體驗了這一產品。上海咬文嚼字文化傳播有限公司總經理王敏介紹試用情況,通過對一些已知錯誤的文本進行測試,“辭文”系統的修訂值得參考。例如一段文本中錯將“多情總被無情惱”這句蘇轼的詞作寫成是“出自元好問之手”,“辭文”系統第一次將其改成“並非出自元好問之手”,第二次則直接糾錯為“出自蘇轼之手”。

“智慧校改兩次內容不一樣,第二次修訂內容還有進步。”王敏認為,在大模型助力下,通過人機協同,這一產品有很大潛力。

“我做新聞20多年,最怕白紙黑字印出去的知識出錯。” 經濟日報社上海記者站站長 李治國感慨,在做新聞報導時,記者編輯面對海量信息難免有疏漏,比如歷史事件的日期、科技概念的界定等都是跨領域的內容,“‘辭文’系統既具備AI的高效,又紮根於《大辭海》權威知識體系,能在幾秒內完成交叉驗證,幫助我們守住事實底線。媒體的價值在於權威性和準確性,通過前沿的技術,我們能提高工作效率,專注於更有創造性的工作。”

秦志華表示,“辭文”突破以往各類文本審校工具的局限,實現了從“文字糾錯”到“知識審校”的能力跨越,但其價值更在於守護知識傳播的準確性與嚴肅性。據悉,目前該產品已成功應用於人文社科、科學技術等出版領域的文本審校,未來還將拓展至新聞傳媒、教育科研等場景,致力於成為內容生產領域的“數位質檢員”。