国产高清av首播原创麻豆_麻豆黄色网_成人AV毛片无码免费网站_久色精品_国产色精品_国产成人无码aa片免费看

深瞳丨AI出手,破解“整理國故”百年難題

2025-05-08 07:52:19 來源: 科技日報 點擊數:

深瞳工作室出品

科技日報記者 楊雪 策劃 劉恕 李坤

1919年,胡適在《新青年》雜志上發起了著名的“整理國故”運動,旨在“研究問題、輸入學理、整理國故、再造文明”。一個世紀過去了,整理古籍任務仍然艱巨。書卷浩如煙海,人才門檻高筑,無不令專家感嘆:“想完成全部古書的整理,可能得300年。”

而當古老的文化載體遇見最年輕的技術手段,偉大的奇跡或許就會顯現。在機器學習和成千上萬志愿者助力下,一本本塵封的古書被一一翻開。

近日,“我用AI校古籍——我是‘校書官’古籍大眾智能整理計劃(2025年)”(以下簡稱“我是‘校書官’”項目)在武漢大學啟動。該項目吸納了上萬名志愿者,預計將在一年內整理數千萬字的古籍,并將整理結果在“識典古籍”平臺上向大眾免費呈現。

如果說修復和整理古籍是與時間賽跑,AI就好比戴宗的“神行甲馬”,實現了整理速度的幾何級提升。

從小作坊到流水線,整理速度提升20倍

華東師范大學古典文獻學在讀博士生劉帥曾經懷疑過AI。2017年他用過古籍整理軟件,感覺其頗為雞肋。然而,2024年9月,當聽到“我是‘校書官’”項目借助“識典古籍”平臺,一個月整理了5000多萬字的古籍時,他震驚了:“我一年能整理幾十萬字就很了不起了。”

“識典古籍”整合了國內頂尖AI研發團隊的開發能力和北京大學深厚的學術積淀。古籍整理被拆分成許多環節,主要包括文字識別、文字校對、結構整理、標點校對等。這些環節借助AI,大大節省了人力。

打開“識典古籍”平臺,上傳一張古籍圖片后,光學字符識別(OCR)技術將對圖片中的人名、地名、書名、時間和職官,平臺可以自動標記。對于OCR不確定的字,會用不同顏色標記出來,便于定位這些文字,然后參照底本修改。在文字精校環節,可以匹配兩套不同的文本,在文字校勘環節,可以比較差異、撰寫數字校勘記……

北京大學數字人文中心副主任楊浩做過測試,AI自動標點準確率超90%,翻譯古文也達到專家水平。“古籍標點是一大難點。”劉帥說,如今他遇到疑問,就會去對照“識典古籍”的自動標點——有點像圍棋愛好者向AlphaGo學棋。

楊浩說,傳統的古籍整理以出版為目的,正確率要求極高,相應門檻也高,即便古籍專業的學生也經常出錯,難以獨立承擔項目。大部分項目都是一個專家負責一種書,從頭做到尾,因此效率很低。

現在有了機器學習,AI在閱讀大量人類成果后,對古文具備了相當的“語感”。在“我是‘校書官’”項目中,AI先初步整理古籍,逐字校對,再由大眾志愿者來校對,最后把難點提交給專家。“AI改變了工作流程,分包制度降低了門檻,傳統的手工作坊變成流水線工廠了。”劉帥說。

AI的應用讓對古籍感興趣的人都可以參與進來。“我是‘校書官’”項目依托“識典古籍”平臺,由全國22所高校承辦,現已有數以萬計的學生報名,許多人的專業可能與古籍無關。在去年的“我是‘校書官’”項目中,志愿者按水平被分為大眾組和進階組,前者負責粗校,后者負責精校。大眾組已粗校整理了1643部古籍,進階組精校整理了共計2451萬字。

2024年9月,劉帥也參加了“我是‘校書官’”項目,頭一個月初步整理出200萬字的古籍,這是過去速度的20倍。接下來他每天抽出兩三個小時,一個月就整理完一部49萬字難度頗大的古籍,而且整理質量很高。整個項目3個月,劉帥校點、標注、排版、審閱的書一共191種,總字數達500萬以上。

辨識“廬山真面目”,正確率節節攀升

把古籍從圖書館庫房搬到電子資源平臺,實現整理速度幾何級提升,主要歸功于AI“識古”的智慧——它能讀出黯淡缺損的古書,或解讀晦澀難辨的符號。

以前,古書很難數字化。傳統的文字識別軟件是為打印材料設計的。對于識別古書,機器經常“傻眼”:一個字往往有不同寫法,字體風格不一樣,書中還有并非漢字的筆畫符號。另外,古書經常有折痕和破損缺字,墨跡黯淡,這也是為什么各大圖書館的古籍數字化多年來進度緩慢、嚴重依賴人工的重要原因。

培育專業“識字匠”往往需要多年時間,但有了機器學習,一些有難度的辨識工作,可由AI代勞。

國際上,AI復原龐貝古卷的成就,讓人們對其潛力充滿信心。公元79年被火山灰掩埋的赫庫蘭尼姆莎草卷軸已經碳化,無法展開。通過CT影像,人們得到了卷軸上微弱的墨水痕跡圖像,但仍然無法識別。3位年輕人通過機器學習技術,從圖像里推斷出超2000個字符,連起來是一段與伊壁鳩魯哲學有關的文字。這一消息2024年發布后,讓國際古典學界非常興奮。

AI辨識那些塵封已久的破舊古籍,有點像AI修復老照片。2024年,“我是‘校書官’”項目采用AI技術修復上千年前的敦煌古卷《漢書·刑法志》。AI學習了原版古籍的文字、筆畫風格和頁面紋理,把缺損文字按原來的字體、色彩、背景修復還原,最大程度確保與原古卷一致。另一個AI項目則補全了殘缺的《蘭亭序》清晰樣貌,其筆畫細節遵照王羲之的技巧風格。

“我們設置了‘追溯原本’功能,有疑問的話可以一鍵找到原文進行人工比對、校準。”抖音集團企業社會責任部古籍項目產品負責人王宇介紹,他們正在針對識別手寫字、異體字、復雜版式、插圖等精進算法,力求不斷提升正確率。

全國高等院校古籍整理研究工作委員會副秘書長吳國武說,提高AI水平還需要更優質的訓練數據。比如,一些已有的整理本,版權在整理者、出版社。“要想提升AI辨識力,需進一步建立共享合作機制,促進數據的開發與利用。”

目前,國內已有針對甲骨文整理識別的AI項目:通過閱讀現存的海量甲骨文圖像,AI整理出幾千個甲骨文字符,并在不同甲骨文材料之間找到聯系,為解讀工作提供基礎。

實際上,越是鮮有人問津的生僻符號,越適合AI展露身手。我國少數民族先后創制和使用過30多種古文字,國務院公布的六批《國家珍貴古籍名錄》中,收錄了少數民族古籍1133部,國家圖書館收藏的民族古文獻就有18個文種,共34000多冊件。這些古籍的數字化和整理工作更缺專業人才,也更需要AI的加持。“這些材料的數字化與整理,今后有望大量依靠AI來完成。”王宇說。

加快人才培養,讓古籍走出“高閣”

國家古籍保護中心調查結果顯示,我國現存20多萬種古籍,存世50萬個版本,古籍數量達3200多萬冊。我國從20世紀80年代就開始嘗試古籍數字化,但受技術、資金、版權等因素限制,海量文獻中實現數字化的不超過八萬種,而且許多書只是完成了初步的影像掃描,真正實現文本數字化的不足四萬種。

吳國武告訴記者,目前全國范圍內專業從事古籍整理的人員僅有一萬人左右。

海量古籍面前,現有的整理方式如同愚公移山。古籍整理專業人才匱乏,生產力低下,一直是阻礙“整理國故”進程的世紀難題。

百年前胡適痛感,古籍缺乏系統性導致“一般青年,對于中國本來的文化和學術,都缺乏研究的興趣”,這一問題至今未得到很好解決。古籍研究仍是冷僻的學問,許多古籍從未向大眾開放。

2022年,中共中央辦公廳、國務院辦公廳印發的《關于推進新時代古籍工作的意見》明確提出,推進古籍數字化。全國古籍整理出版規劃領導小組印發的《2021—2035年國家古籍工作規劃》則將“國家古籍數字化工程”列為四項重大工程之一,對相關工作進行詳細規劃。

“使用AI完成古籍整理的前期基礎工作,效果很好。”吳國武把AI視為合作者,而不是簡單的工具。在他看來,AI的加盟讓全民得以了解甚至參與古籍整理這件事,可以說是廣植“整理國故”的沃土。

例如,“識典古籍”平臺已免費上線超16000部古籍資源,累計吸引上億人次了解和閱讀古籍,為1300余個外部團隊的古籍整理工作提供幫助。這已成為文獻學界近年來最矚目的大事。

2024年底,著名的古籍整理工程《儒藏》與“識典古籍”平臺展開合作。《儒藏》是新中國成立以來最大規模的儒學典籍整理工程,旨在收錄自先秦至清末的所有儒學文獻,預計總體達到10億字。它沒有采取相對容易的影印方式,而是志在整理出便于現代人閱讀的文本,這給參與項目的學者帶來了難以想象的工作量。引入AI后,影印文獻的整理標注將大大加速,相關整理成果也會公布在“識典古籍”平臺上,實現全民共享。

“AI可以幫學者快速定位到需要的材料,還支持同時比對10個以內的校本,讓專家把寶貴時間都用來干技術含量高的活兒。”王宇介紹。同時,“我是‘校書官’”項目的進階組志愿者,也有機會與《儒藏》工程的專家團隊交流。這個以在校生為主的項目,或許能使他們中的一些人未來走上“整理國故”的專業道路。

AI的加盟也創新了古籍整理人才培養模式。吳國武介紹,目前高校里古典文獻專業大多開設了數字人文相關的交叉培養課程;有7所高校已經申請了數字人文的本科專業,古籍整理也是重要方向。“交叉融合專業培養出來的人才,未來有望填補古籍專業大模型的人才缺口。”

去年以來,國內許多著名圖書館、博物館也積極引入AI技術,保護和挖掘自己的館藏古典資源。國家圖書館藏現存最早版本的元大德三山郡庠刻本《通志》、首都圖書館藏《皇朝禮器圖》、浙江圖書館藏文瀾閣《四庫全書》……一系列珍貴典籍,將通過AI的修復,重光臨世。

面對這一波熱潮,劉帥很興奮。他希望AI吸引更多的愛好者嘗試整理古籍。“公眾對古籍的關注、熱愛和參與程度,決定了古籍整理的天花板有多高。我覺得自己站在一個時代改變的前夜。”他說。

AI的速度,人類無法企及,劉帥也曾擔憂過自己會不會失業。但如今他認為,AI的“識古”基礎是人工整理的高質量數據,無論技術如何發展,仍需要人去參透古書的秘密,使文化遺產薪火相傳。

“降低古籍的閱讀和整理門檻,始終是文獻學的核心目的。”劉帥說。

【記者手記】

AI激活古籍,也激活了慕古之心

楊雪

盡管高中語文不算差,古文閱讀仍然讓我頭疼。閱讀試卷上的古文節選都頗為吃力,更不敢研究繁難古奧的原本了。

古籍傳播受困于“三重門”:古字難認,古文難懂,古書難尋。可喜的是,AI正在拆除這“三重門”,讓沉睡在藏書閣的古書,轉化成人人可享用的文化盛宴。

機器的嘀嗒聲中,一卷卷斑駁的文卷正被掃描成像,蟲蛀嚴重的刻本被逐幀修復,墨跡深淺與刻本刀痕高度還原……一個古籍修整的黃金時代已經來臨。未來幾年,將有成千上萬冊古籍被納入大眾的知識圖譜,這必將提升普通人對古老文明的認知與感情。

目前全國古籍修復從業者僅千人。去年,國家圖書館聯合抖音集團等推出微短劇《重回永樂大典》,講述了塵封在古籍中的“書靈”輔助初入行“小白”一路成長為優秀古籍修復師的故事。借微短劇的熱度,古籍修復師這個冷門職業被呈現在大眾特別是年輕人面前。

古籍修復一般需經過10年以上的專業訓練,用毛筆、糨糊、鑷子等工具完成“一頁一策”的修復,工作很精細,過程很慢。如今,AI的加持打開了古籍整理事業新局面,也希望能夠由此讓更多人看見古籍修復師“擇一事終一生”的匠人精神,給這個人才稀缺的“冷板凳”一些照拂。

AI修復和整理古籍帶來的社會效應,讓古籍真正走向大眾,降低了普通人摩挲中華文脈的門檻。不論是用AI修復敦煌壁畫,還是拼接文書殘片,不論是機器學習理解甲骨文的占卜邏輯,還是用知識圖譜重現《山海經》的地理脈絡,抑或是化典籍為視頻,這些工作讓我們看到《齊民要術》的勞動細節,大宋汴梁城的日常生活……就像錢鐘書先生曾說過:“古典誠然是過去的東西,但是我們的興趣和研究是現代的。”

AI激活了古籍,也種下熱愛古老文化的種子。這些種子不再休眠于古老的地層之下,而是長成我們精神家園里的常青藤。

責任編輯:孫瑩

抱歉,您使用的瀏覽器版本過低或開啟了瀏覽器兼容模式,這會影響您正常瀏覽本網頁

您可以進行以下操作:

1.將瀏覽器切換回極速模式

2.點擊下面圖標升級或更換您的瀏覽器

3.暫不升級,繼續瀏覽

繼續瀏覽
主站蜘蛛池模板: 国产日韩精品视频 | 国产一级成人片免费视频野外 | 成人hd| 欧美国产中文动漫日韩欧美在线 | 久久久久久久久久久久久久久国产 | 2021天堂中文幕一二区在线观 | 色99热久久偷拍 | www久久久天天com | 日本xxxx色视频在线观看免费 | 精品成人一区二区 | 日日夜夜香蕉 | 国产91极品福利手机观看 | 久久99久久98精品免观看软件 | 国产精品美女久久久久久不卡 | 一二三四五社区在线高清观看 | 天天操很很操 | 亚洲精品国产精品国自产在线 | 亚洲成人天堂 | 日日夜夜天天操 | 国产一国产二国三视频在线看 | 少妇无码太爽了在线播放 | 蜜臀AV无码精品人妻色欲 | 亚洲欧美国产日韩一区夜色 | 日韩欧美国产另类 | 免费在线国产 | aa国产视频一区二区 | 国产麻豆剧传媒精品国产AV | 国产一级片av | 亚洲一二三在线 | 国产成人免费高清视频 | av天堂中文字幕在线播放 | 国产精品日韩久久 | 精品一区二区综合 | 99视频免费 | 国产精品一区二区三区在线播放 | 精品无码aⅤ无码免费专区 99久久久国产精品免费观看 | 中文字幕精品一区二区三区精品 | 日本黄色视频在线网址 | 68精品久久久久久欧美 | 久久毛片视频 | 别揉我奶头~嗯~啊~免费网站 |