在遙遠的三千年前,那時候的人們用他們粗糙的筆觸在龜甲和獸骨上記錄下了一筆古老的文字。這便是被譽為華夏文明瑰寶的甲骨文。如今,隨著科技的進步,華中科技大學未來技術學院的團隊正運用人工智能技術,試圖揭開這些神秘文字背后的奧秘。
這個團隊致力于探索如何將現(xiàn)代科技與古代文化相結合,利用大數(shù)據(jù)、機器學習等先進手段來輔助甲骨文的解讀。甲骨文,作為我國已知最古老的成熟文字系統(tǒng),不僅是構成漢字的基礎,更是承載著中華民族豐富歷史記憶和深厚文化的源泉。自1899年甲骨文被首次發(fā)現(xiàn)以來,已有超過125年的歷史。至今,我們已經(jīng)辨識出大約4500個沒有重復的單字,其中約1600個字已經(jīng)得到破譯。然而,還有約三分之二的甲骨文仍深藏不露,等待著學者們?nèi)ネ诰蚱浔澈蟮臍v史故事和文化內(nèi)涵。
為什么這么難?中國國家圖書館館藏研究中心副主任劉浩曾說,甲骨文中含有大量的表意成份,而且是隨機性的,要按照特定的規(guī)律進行對應,這是一項非常困難的工作。就算是人工智能,也不可能破解。
今年,華中理工大學未來研究院的科研人員深入“無人區(qū)”,進行了一年多的實地考察,并通過一年多的努力,建立起了甲骨文開放數(shù)據(jù)庫,其中包括1600多個甲骨文種類,以及大量尚未破譯的甲骨文單字,以及13000多個甲骨文演化過程中出現(xiàn)的其它文字。更重要的是,團隊還訓練模型OBSD,并且發(fā)展了一個基于人工智能的多路徑輔助解碼系統(tǒng)——Open-Oracle。在此基礎上,我們將逐步掌握甲骨文的演化模式,并對其未來可能出現(xiàn)的形態(tài)進行預測。
本項目擬以甲骨文為研究對象,首先對甲骨文圖像進行建模,使之經(jīng)過多個時期的演化,使之逐漸轉化為與當代漢字相似的圖形;然后,采用彌散模型對其進行校正,使之更接近于當代漢字的書寫規(guī)則。

在此期間,管海粟與團隊其它成員開展了4項申請,其中包括:基于條件擴散模型的甲骨卜辭識別方法;基于分類模型的甲骨卜辭分類方法與體系。與此同時,兩人還共同開發(fā)了一套基于人工智能技術的多路徑翻譯軟件——Open-Oracle,以滿足古代漢字愛好者及研究人員的需求。
目前,這個站點主要有部首拆分、文本演化和自然語言處理五個方面的內(nèi)容。接下來,還將以甲骨文普及為重點,力爭推出甲骨文數(shù)字動畫制作、甲骨文表情包、甲骨文 Chat以及甲骨文元宇宙等一系列甲骨文周邊產(chǎn)品。
新技術的出現(xiàn),為我們解讀甲骨文,讓我們對歷史有了更多的認識。中國社會科學院學部委員、古代史研究所研究員宋鎮(zhèn)豪曾表示,作為世界上最古老的自源文字之一,漢字是唯一沿用至今的,對破解其他古文字也能起到重要借鑒意義。





