亚洲色无码国产精品网站可下载,亚洲h成年动漫在线观看网站,亚洲av中文无码乱人伦在线观看,亚洲国产一成人久久精品,亚洲av成人精品网站在线播放

以識(shí)別西夏文為例,聊聊人工智能如何幫我們認(rèn)識(shí)歷史

   2020-09-01 中國機(jī)器人網(wǎng)中國鑄造網(wǎng)2300
核心提示:  曾記得有一次聊天,有個(gè)朋友描述他對(duì)人工智能的印象,總結(jié)成三個(gè)詞:西方的、商業(yè)的、未來的?! ∥耶?dāng)
   曾記得有一次聊天,有個(gè)朋友描述他對(duì)人工智能的印象,總結(jié)成三個(gè)詞:西方的、商業(yè)的、未來的。
 
  我當(dāng)即表示你說的很好,唯一的問題是一條都沒說對(duì)……
 
  按下我們倆怎么展開斗毆暫且不提。這里希望破除的是大家對(duì)人工智能的某種固有印象。事實(shí)上,人工智能作為一種很早就發(fā)展起來的通用技術(shù),絕不是西方的專利,也絕不僅僅能夠創(chuàng)造商業(yè)價(jià)值。
 
  甚至在某些機(jī)緣巧合下,人工智能能夠成為我們用以認(rèn)識(shí)歷史、認(rèn)識(shí)自身民族、認(rèn)識(shí)祖先與過去的利器。
 
  梁啟超說“學(xué)術(shù)乃天下之公器”,不僅是說學(xué)術(shù)天下人共有,同時(shí)也是說學(xué)術(shù)天下共致。作為一種基礎(chǔ)工具的人工智能,往往能夠在意想不到地方發(fā)生效用。比如說今天為大家介紹的借助人工智能技術(shù),自動(dòng)識(shí)別西夏文——一個(gè)純粹中國的人文社科領(lǐng)域。
以識(shí)別西夏文為例,聊聊人工智能如何幫我們認(rèn)識(shí)歷史
 ?。栏衅嫣氐奈飨奈模?/div>
 
  雖然這項(xiàng)技術(shù)大多數(shù)人永遠(yuǎn)不會(huì)涉足,但這個(gè)案例的價(jià)值在于可以打破我們對(duì)AI的某些偏見。AI不只是集中在那幾個(gè)領(lǐng)域,也不是歐美寡頭的玩具,它甚至可能無處不在。
 
  為什么要識(shí)別西夏文?其中隱含著哪些困難?
 
  我們知道,西夏是與北宋、遼、金先后對(duì)峙的黨項(xiàng)族國家,曾經(jīng)統(tǒng)治河西地區(qū)超過二百年。與大眾認(rèn)知中不同,西夏不是個(gè)茹毛飲血的野蠻文明。他們?cè)?jīng)創(chuàng)立過驚人的文化、藝術(shù)與宗教文明,但隨著1227年蒙古滅西夏,蒙元不為西夏立史,關(guān)于這個(gè)政權(quán)的記錄快速消亡,李元昊立國時(shí)創(chuàng)立的西夏文也隨之湮滅。
 
  西夏文又名河西字、番文、唐古特文,曾在西夏王朝統(tǒng)轄的今寧夏、甘肅、陜西北部、內(nèi)蒙古南部地區(qū)盛行了約兩個(gè)世紀(jì)。但在西夏滅國后,這種參考漢字創(chuàng)立的奇特文字逐漸失傳,最終成為了一種死文字。
 
  直到1804年,武威大云寺發(fā)現(xiàn)了著名的《重修涼州護(hù)國寺感通塔碑》,西夏文才在埋藏了數(shù)百年后重現(xiàn)人世。從此識(shí)讀西夏文開始成為了學(xué)界的重要工作。
以識(shí)別西夏文為例,聊聊人工智能如何幫我們認(rèn)識(shí)歷史
 ?。ā吨匦逈鲋葑o(hù)國寺感通塔碑》局部)
 
  二百年以來,出土的西夏文文獻(xiàn)不斷增多,其中大部分都被英、俄探險(xiǎn)家?guī)У搅司惩?。但各國學(xué)者努力下,西夏文的基礎(chǔ)文字識(shí)別已經(jīng)完成,現(xiàn)階段的工作重點(diǎn)是依據(jù)文字列表,去識(shí)讀大量西夏文文獻(xiàn)的具體內(nèi)容,揭開西夏以及當(dāng)時(shí)中原、西域各國的歷史迷霧。
 
  但在這個(gè)過程里,研究人員認(rèn)讀西夏文必須通過手工翻閱查找,耗費(fèi)時(shí)間異常辛苦不說,由于西夏文是一種相似度極高的文字,人工識(shí)別還可能存在很大的錯(cuò)誤率。
 
  所以就有學(xué)者提出,利用計(jì)算機(jī)來自動(dòng)識(shí)別西夏文。這種設(shè)想很好,但在具體操作中還是有巨大問題。比如西夏文結(jié)構(gòu)復(fù)雜、組成字符各部分要素高度相似,并且平均筆畫達(dá)到25畫,計(jì)算機(jī)識(shí)別難以入手。
 
  此外,西夏時(shí)期雖然已有印刷術(shù),但出土文獻(xiàn)還是以手抄本和刻版文字為主,同一個(gè)字的在不同文獻(xiàn)上的位置不固定、整體布局會(huì)發(fā)生偏移,都給機(jī)器識(shí)別帶來巨大困難。
 
  于是有意思的事出現(xiàn)了,寧夏大學(xué)相關(guān)研究機(jī)構(gòu)為代表的學(xué)術(shù)力量,選擇了以人工智能技術(shù)解決西夏文的自動(dòng)識(shí)別。
 
  并且這個(gè)工作很早就已經(jīng)開始,不斷有成果涌現(xiàn)。從時(shí)間上看,絕不是趕這波AI熱的產(chǎn)物。
 
  人工智能完成西夏文自動(dòng)識(shí)別
 
  其實(shí),用計(jì)算機(jī)技術(shù)處理西夏文很早就已經(jīng)開始。
 
  早在1996年,日本國立亞非語言文化研究所就制作了西夏文字庫和排版系統(tǒng)。1997 年中國學(xué)者李范文和日本學(xué)者中島干起利用該排版系統(tǒng)合作出版了《電腦處理西夏文〈雜字〉研究》。俄羅斯應(yīng)該也都有西夏文數(shù)據(jù)化和計(jì)算機(jī)處理的項(xiàng)目與研究成果。
 
  而使用彈性網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)、AI算法以及深度學(xué)習(xí)來識(shí)別西夏文,則是中國領(lǐng)先完成的一個(gè)創(chuàng)舉。
以識(shí)別西夏文為例,聊聊人工智能如何幫我們認(rèn)識(shí)歷史
 ?。o(jì)錄片《神秘的西夏》創(chuàng)立文字片段)
 
  用AI識(shí)別西夏文,主要依托的是計(jì)算機(jī)字符識(shí)別( optical character recognition,OCR) 技術(shù),這種技術(shù)上世紀(jì)60年代就成為了人工智能研究的主要領(lǐng)域之一。它的核心技術(shù)主張是基于人工智能運(yùn)算來識(shí)別文字符號(hào)的數(shù)字影像,并將其轉(zhuǎn)換為對(duì)應(yīng)的數(shù)字文本,達(dá)到可識(shí)別、可編輯、可轉(zhuǎn)化的目的。
 
  OCR技術(shù)目前在很多領(lǐng)域已經(jīng)相當(dāng)成熟,比如我們經(jīng)常用到的印刷文件文字提取。在OCR識(shí)別領(lǐng)域,更多的應(yīng)用是手寫體內(nèi)容的精準(zhǔn)識(shí)別,而利用OCR識(shí)別考古文獻(xiàn)中的非廣泛使用文字卻基本處于空白。
 
  這里可以結(jié)合論文簡單介紹兩種AI識(shí)別西夏文的案例。
 
  比如在《基于彈性網(wǎng)絡(luò)的西夏文識(shí)別》當(dāng)中,研究人員利用彈性網(wǎng)絡(luò)技術(shù),將西夏文中的筆畫特征進(jìn)行網(wǎng)格化提取。再統(tǒng)計(jì)像素點(diǎn)在每個(gè)網(wǎng)格內(nèi)的概率分布,形成一種可讀取的特征模型。最后使用文檔主題模型方法對(duì)提取的特征降維處理,結(jié)合數(shù)據(jù)庫對(duì)文獻(xiàn)進(jìn)行識(shí)別。
 
  根據(jù)論文這種方法現(xiàn)實(shí),這種方法平均識(shí)別率可達(dá)87.99 %。
 
  再比如《基于Mean Shift算法的西夏文字筆形識(shí)別》,Mean Shift算法,即偏移均值向量,是機(jī)器學(xué)習(xí)領(lǐng)域的一種基本算法。其基礎(chǔ)理論是利用信息密度來完成聚類、圖像分割、跟蹤任務(wù),可應(yīng)對(duì)相似但界限模糊的圖像處理應(yīng)用。利用這種算法,研究人員將原始資料生成概率統(tǒng)計(jì)直方圖,通過相似度來判斷歸類具體的西夏文筆形。
以識(shí)別西夏文為例,聊聊人工智能如何幫我們認(rèn)識(shí)歷史
 ?。ㄎ飨奈闹悄茏R(shí)別算法流程)
 
  這里僅僅是兩個(gè)具體應(yīng)用案例,利用深度學(xué)習(xí)等前沿人工智能技術(shù)識(shí)別西夏文的應(yīng)用還在不斷發(fā)展。
 
  文獻(xiàn)與考古領(lǐng)域的人工智能應(yīng)用
 
  可能識(shí)別西夏文距離我們的日常生活還相對(duì)較遠(yuǎn),但推廣當(dāng)整個(gè)人文社科領(lǐng)域,AI的應(yīng)用可能就會(huì)從另一個(gè)角度無限貼近我們的生活。
 
  從近處來說,AI推動(dòng)學(xué)術(shù)效率,可能會(huì)影響我們的學(xué)科配置、學(xué)術(shù)訓(xùn)練甚至高等教育體系,從遠(yuǎn)處來看,AI推動(dòng)的進(jìn)一步識(shí)別歷史與文獻(xiàn)的能力,是我們窺探自身過去,了解“中國”為何是“中國”的全新工具。
 
  在我們沉浸于未來帶來的快感時(shí),人工智能卻可能在歷史領(lǐng)域快速發(fā)揮它的價(jià)值。通過西夏文識(shí)別的例子,不難發(fā)現(xiàn)在文獻(xiàn)與考古這些社科領(lǐng)域當(dāng)中,人工智能至少可以發(fā)揮以下幾種功效:
 
  1、考古圖像的識(shí)別與歸檔,比如基于算法的文物識(shí)別、文物數(shù)據(jù)化、考古現(xiàn)場數(shù)據(jù)化。
 
  2、文獻(xiàn)文本的識(shí)別與轉(zhuǎn)碼,比如原始文獻(xiàn)的文字識(shí)別讀取、文獻(xiàn)聚類、文獻(xiàn)數(shù)據(jù)化。
 
  3、文獻(xiàn)數(shù)據(jù)庫的知識(shí)圖譜化與機(jī)器學(xué)習(xí)應(yīng)用。比如學(xué)科文獻(xiàn)圖譜化、時(shí)代文獻(xiàn)圖譜化、科研項(xiàng)目數(shù)據(jù)圖譜化,以及基于知識(shí)圖譜訓(xùn)練的人文社科領(lǐng)域智能體。這一點(diǎn)尤其重要,想象力也最為充沛。就像金融、翻譯等領(lǐng)域很可能被AI替代一樣,文獻(xiàn)學(xué)與歷史研究領(lǐng)域大部分依賴考證、???、資料爬梳的工作,也完全可以被AI取代。
 
  類似的人文領(lǐng)域與AI跨界還有很多,有些甚至涉及哲學(xué)與倫理層面的技術(shù)與人文互搏,以后我們會(huì)陸續(xù)介紹。
 
  也許AI就像風(fēng),當(dāng)它是一場風(fēng)暴的時(shí)候,家家戶戶都會(huì)門窗緊鎖小心防護(hù)。但當(dāng)它是清風(fēng)徐來穿屋而過的時(shí)候,在我們不知覺間,AI就已經(jīng)無孔不入了。
只要你關(guān)注機(jī)器人,你就無法錯(cuò)過睿慕課
 
舉報(bào) 收藏 打賞 評(píng)論 0
 
更多>同類資訊
推薦圖文
推薦資訊
點(diǎn)擊排行
網(wǎng)站首頁  |  付款方式  |  關(guān)于我們  |  聯(lián)系方式  |  使用協(xié)議  |  版權(quán)隱私  |  網(wǎng)站地圖  |  排名推廣  |  廣告服務(wù)  |  積分換禮  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報(bào) 營業(yè)執(zhí)照  |  粵ICP備18059797號(hào)-1
×