摘 要**:**基于數(shù)據(jù)驅(qū)動的統(tǒng)計(jì)和深度學(xué)習(xí)模型,難以真正理解語言中的概念和語義。通過建構(gòu)藏文 Hownet 語義知識庫以驗(yàn)證 Hownet 知識的完備性,并以漢藏英多語言知識詳細(xì)梳理了 Hownet 的動態(tài)語義角色知識體系。借重于知識庫的“數(shù)據(jù) + 知識”方法能夠支持從感知智能到認(rèn)知智能的躍遷,應(yīng)該成為今后一段時(shí)期自然語言理解研究的重點(diǎn)任務(wù)之一。
關(guān)鍵詞**:**人工智能;自然語言理解;HowNet;語義
0 引言
(資料圖片僅供參考)
人工智能(AI)是跨越計(jì)算機(jī)科學(xué)、數(shù)學(xué)、認(rèn)知科學(xué)及神經(jīng)科學(xué)等學(xué)科的一門先進(jìn)技術(shù)。自 1956年,在美國達(dá)特茅斯會議上正式提出 AI 之后,其發(fā)展主要經(jīng)歷了三個(gè)時(shí)期。20 世紀(jì) 90 年代以前,采用專家系統(tǒng)和知識工程的方法,構(gòu)建“知識 + 邏輯符號”系統(tǒng)來模擬人類的智能階段,稱為知識(規(guī)則)驅(qū)動的 AI;然而,受限于當(dāng)時(shí)人工知識(規(guī)則)對自然語言的描述能力,這一時(shí)期 AI 基本局限在實(shí)驗(yàn)室研究范疇。從 20 世紀(jì) 90 年代中期直到近幾年,AI 的機(jī)器學(xué)習(xí)相繼跨入到統(tǒng)計(jì)機(jī)器學(xué)習(xí)及深度機(jī)器學(xué)習(xí)時(shí)期,稱之為數(shù)據(jù)驅(qū)動的 AI 時(shí)代。這一階段由于機(jī)器性能的大幅提升,以大規(guī)模真實(shí)語言數(shù)據(jù)訓(xùn)練自然語言處理((NLP) 模型成為可能,并逐步并廣泛進(jìn)入社會應(yīng)用領(lǐng)域。然而,上述方法的缺陷在于,第一代知識驅(qū)動的 AI 主要靠人工從原始數(shù)據(jù)中獲取知識,效率低、規(guī)則描述能力有限等;第二代數(shù)據(jù)驅(qū)動的 AI 可以從訓(xùn)練數(shù)據(jù)中自主地獲取知識,但其性能受到數(shù)據(jù)規(guī)模和質(zhì)量限制,魯棒性差,易受干擾,是“黑箱操作”。為了建立一個(gè)全面反映人類智能的 AI,需要建立魯棒性強(qiáng)、可解釋的 AI 理論與方法,即第三代 AI。2018 年底,張鈸院士公開提出第三代“知識 + 數(shù)據(jù)”雙輪驅(qū)動 AI 的理論框架體系。因此,在基于大數(shù)據(jù)的深度學(xué)習(xí)進(jìn)入發(fā)展的“瓶頸”期后,從 2018 年至今,AI 開始進(jìn)入到發(fā)展的第三個(gè)時(shí)期。這一時(shí)期不再只關(guān)注數(shù)據(jù),知識的獲取重新得到了極大重視。實(shí)現(xiàn)真正的智能系統(tǒng),需要將數(shù)據(jù)和知識進(jìn)行深度融合,在數(shù)據(jù)上要有歸納能力,能夠舉十得一;在知識上,要有邏輯推理能力,能夠舉一反三。
1 從感知到認(rèn)知
目前,隨著算力、算法等技術(shù)發(fā)展,AI 技術(shù)已經(jīng)擁有快速計(jì)算、記憶和儲存的能力?;诖髷?shù)據(jù)驅(qū)動的深度學(xué)習(xí)方法,能夠挖掘高維數(shù)據(jù)復(fù)雜的結(jié)構(gòu)特征,并用人類熟悉的方式溝通和互動,具備了視覺、聽覺和觸覺等感知能力,在語音、圖像、文本和視頻識別等方面已經(jīng)逐漸接近甚至超越了人類的水平。
然而,在數(shù)據(jù)驅(qū)動的感知 AI 框架中,只要輕微變動圖像、文本或語音數(shù)據(jù)就可以欺騙這些已經(jīng)訓(xùn)練好的系統(tǒng),造成感知誤判;盡管機(jī)器能夠識別物體,但其實(shí)它并不認(rèn)識這個(gè)物體。以圖像識別為例,通常給定大規(guī)模規(guī)格化、清晰對齊、無噪聲及正面角度的圖像庫來訓(xùn)練模型,將圖像識別系統(tǒng)應(yīng)用到無人駕駛汽車場景下,破舊的停車標(biāo)志被無視、遠(yuǎn)處的人類被識別成狗、校車被識別成鴕鳥等各種錯(cuò)誤案例層出不窮。因?yàn)閿?shù)據(jù)驅(qū)動的深度學(xué)習(xí)只能學(xué)習(xí)重復(fù)出現(xiàn)的局部特征,無法解決認(rèn)知的問題,也沒有辦法做推理的思維過程,所以機(jī)器學(xué)習(xí)模型具有魯棒性差的缺陷已成為學(xué)界共識。要讓無人駕駛汽車在面對路線、信號、地理、交通、氣象等突發(fā)實(shí)時(shí)狀況,能夠達(dá)到人類的心智水平,具備很強(qiáng)的應(yīng)變、分析和決策能力,并非特定的函數(shù)設(shè)計(jì)所能實(shí)現(xiàn),無法回避的核心是缺失認(rèn)知智能。
人類引以為傲的認(rèn)知能力,都是以語言為載體進(jìn)行的。自然語言理解(NLU),是第三代 AI 的終極目標(biāo),旨在賦予機(jī)器閱讀和理解人類語言的能力。由于人類自然語言的復(fù)雜性,目前的機(jī)器學(xué)習(xí)系統(tǒng)僅能進(jìn)行數(shù)據(jù)處理,并不能真正理解數(shù)據(jù)的含義,通過縮小任務(wù)范圍或擴(kuò)大數(shù)據(jù)集來回避處理語義的問題,機(jī)器只是“記錄”數(shù)據(jù),但沒有“理解”數(shù)據(jù),所以機(jī)器在 NLU 方面的表現(xiàn)遠(yuǎn)不如人類。
現(xiàn)階段面臨的最大挑戰(zhàn)是如何從更豐富的感知識別演變?yōu)樽灾魍评淼恼J(rèn)知理解,以此來打通感知和認(rèn)知之間的隔閡。因此,第三代 AI 開啟新的突破和創(chuàng)新,利用語言知識資源建立對自然語言文本背后的語義預(yù)測,超越對詞語字符識別的范疇,幫助機(jī)器進(jìn)行語義理解和常識推理,實(shí)現(xiàn)機(jī)器對人的模擬,這不是機(jī)理性的,而是功能性的。
2 “數(shù)據(jù) + 知識”雙驅(qū)動的 NLU
2.1 NLU 解難在哪里
自然語言總是涉及對現(xiàn)實(shí)世界事件的描述。實(shí)現(xiàn)對自然語言的理解,需要依賴人類常識及上下文語境,挖掘語言潛在語義的邏輯和因果關(guān)系。由于自然語言本體的一些固有特性,也會導(dǎo)致計(jì)算機(jī)語言理解的困難。
(1)語言的簡潔性
由于說話、書寫、閱讀速度的限制,自然語言表達(dá)非常簡練,形成固定短語表達(dá)或俗語。比如,咿呀學(xué)語、壽終正寢、春華秋實(shí)、落葉歸根等,這些詞語的真實(shí)語義并非語言表層含義。讓計(jì)算機(jī)用程序思維去直接認(rèn)知、理解、推理詞語中深層的動物生老病死、植物自然衰亡等常識知識并不容易。
(2)語言的歧義性
有些語句單獨(dú)看充滿了歧義,例如“雙肩包不要退了”“老王的畫很名貴”。在不同的語氣、語境及對話的上下文邏輯和生活常識條件下,語句會產(chǎn)生不同的理解。
(3)語言的時(shí)代性
自然語言隨著時(shí)代的發(fā)展,不斷引入新的表述概念和語義。諸如“針不戳”“蕪湖起飛”“凡爾賽”“雙十一最該打折的東西,是自己的手”等新詞新語、舊詞語新意、音譯外來詞、多義詞、縮略詞和多音詞等的正確語義都需要結(jié)合時(shí)代性背景知識來幫助理解。
人類理解和生成語言,依賴詞匯、句法、語義等語言本體知識,以及自然常識、人文和自然科學(xué)知識等。對于機(jī)器來說,基本要求是具備一定的邏輯推理能力和認(rèn)知能力。認(rèn)知活動最本質(zhì)的特點(diǎn)是利用知識來指導(dǎo)行為,涉及三個(gè)方面的內(nèi)容,首先是信息的獲取、表示并轉(zhuǎn)化為機(jī)器知識;其次是知識的存儲和提取;最后是運(yùn)用知識進(jìn)行推理等處理過程。認(rèn)知過程主要是知識存儲并利用知識進(jìn)行語義推導(dǎo)。為使計(jì)算機(jī)具備一定的認(rèn)知能力,需要對各類知識進(jìn)行形式化表示,以及用能夠讓計(jì)算機(jī)可以識別的形式加以合理地描述和存貯。
因此,實(shí)現(xiàn)真正的 NLU 需要解決兩個(gè)問題,首先獲取、表示及計(jì)算隱含的、高度多樣化的多源知識;其次,整合這些抽象知識到 AI 系統(tǒng)中,幫助機(jī)器進(jìn)行語義理解和常識推理。回顧第一代、第二代 AI 發(fā)展史,貫穿 NLP 的兩大代表性方法——基于知識的方法和基于統(tǒng)計(jì)的方法。
2.1.1 基于知識的方法
專家系統(tǒng)和知識工程作為認(rèn)知智能的早期代表,學(xué)者們提出“將知識引入 AI 領(lǐng)域”,為計(jì)算機(jī)理解自然語言建造了各種知識庫,此類研究一般以某種語言為主體語言設(shè)計(jì)知識庫的框架結(jié)構(gòu),并以此為基礎(chǔ)添加其他語言。目前,項(xiàng)目開發(fā)成熟、較有影響力的語言知識庫有 WordNet、FrameNet、PropBank、HowNet 等,其信息如表 1 所示。
表 1 語義知識庫項(xiàng)目信息
通過知識庫系統(tǒng)確定句子中每個(gè)單詞的作用,并提取上下文的含義。知識庫提供了良好的邏輯性和可解釋性的語言分析方法,但卻嚴(yán)重依賴人工定義的范疇與規(guī)則。雖然人類是用其全部的經(jīng)驗(yàn)與知識來理解和生成語言的,但是人工知識庫仍然難以完整地表示人類的經(jīng)驗(yàn)和知識并全部編碼進(jìn)入計(jì)算機(jī),這類知識缺少對特征抽象和學(xué)習(xí)的能力。
2.1.2 基于統(tǒng)計(jì)的方法
受限于人工知識庫存在規(guī)模較小、自動構(gòu)建能力不足、知識獲取困難等一系列問題,學(xué)界出現(xiàn)了從大量數(shù)據(jù)的概率分布中學(xué)習(xí)基于統(tǒng)計(jì)的模型和方法。為了讓計(jì)算機(jī)處理語言文本,需要將字、詞、段落等信息轉(zhuǎn)換為機(jī)器可以理解的方式進(jìn)行,以便在計(jì)算機(jī)中表示語言或文本,并能讓計(jì)算機(jī)程序自動處理,這就是語言表示。
早期的語言表示是以詞袋模型、N 元模型為代表的離散表示,僅僅將詞符號化,詞與詞之間沒有距離的概念,兩個(gè)詞只要字面不同就難以刻畫它們之間的聯(lián)系,比如“電腦”和“計(jì)算機(jī)”這樣的同義詞會被看成是兩個(gè)不同詞。因此,導(dǎo)致語義鴻溝、維度災(zāi)難等問題的出現(xiàn)。
與離散表示不同的是連續(xù)表示,將語言表示為連續(xù)空間中的一個(gè)點(diǎn),即連續(xù)向量。這種表示的優(yōu)勢可以把對文本內(nèi)容處理簡化為連續(xù)向量空間中向量運(yùn)算,通過計(jì)算向量空間上的相似度,來表示文本語義上的相似度,計(jì)算機(jī)很容易處理“向量”,因此取得很好效果。Word2Vec 作為詞匯連續(xù)表征的代表性方法,能夠?qū)⑼x詞相互映射,借此對大小、性別、速度等語義進(jìn)行建模;甚至能夠?qū)遗c首都等語義特征關(guān)聯(lián)起來,可以有效地處理傳統(tǒng)離散表示中的“一詞多義”和“一義多詞”問題。但是,將文本以向量形式表示時(shí),忽略了詞語內(nèi)部語義或詞序信息的考量,也出現(xiàn)了不少問題。比如,圖 1中實(shí)驗(yàn),我們通過調(diào)用 Word2Vec 的中文詞向量模塊預(yù)測漢語相似詞,當(dāng)輸入中性詞“理解”時(shí),系統(tǒng)給出的相似詞權(quán)重排序,符合人們認(rèn)知;當(dāng)輸入有感情色彩的詞語“好人”時(shí),Word2Vec 給出的最大相似詞是“壞人”,并且預(yù)測結(jié)果多數(shù)是貶義詞。這是因?yàn)樵?Word2Vec 詞向量映射空間中,采用余弦相似度判斷詞匯之間的相似度,“好人”與“壞人”對應(yīng)的的詞向量距離最近,但是二者卻是兩種語義完全相反的詞匯。
圖 1 Word2Vec 預(yù)測中文相似詞結(jié)果
由于自然語言由詞匯、短語、句子、篇章和文檔等不同粒度的語言單位組成,詞匯是最基本的語言單位,背后關(guān)聯(lián)著豐富的語義信息。Word2Vec 基于上下文學(xué)習(xí)方法的詞向量技術(shù)傾向于把貢獻(xiàn)較多的詞語聚在一起,可以學(xué)習(xí)到上下文語境相似的詞匯,卻難以捕獲到深層詞匯語義的相似性,特別是語料中出現(xiàn)頻次較低的詞語義項(xiàng)的相似性。我們只知道某個(gè)詞可以用幾百維的向量表示,但為什么能表示這個(gè)詞,這個(gè)詞確切有什么含義卻無法解釋。
2.2 “知識 + 數(shù)據(jù)”雙驅(qū)動
近年來,深度學(xué)習(xí)技術(shù)充分利用神經(jīng)網(wǎng)絡(luò)的分布式表示能力和層次結(jié)構(gòu)泛化能力,從大規(guī)模數(shù)據(jù)中自動學(xué)習(xí),顯著提升了對無結(jié)構(gòu)文本、圖像、語音數(shù)據(jù)背后語義信息的表示與學(xué)習(xí)性能,將數(shù)據(jù)驅(qū)動方法推向新高度。另一方面,純數(shù)據(jù)驅(qū)動深度學(xué)習(xí)是輸入和輸出之間的特征關(guān)系,不具備因果推理性,缺少可解釋性。對大規(guī)模數(shù)據(jù)的學(xué)習(xí)與利用,離不開深度學(xué)習(xí)技術(shù),但要實(shí)現(xiàn)有理解能力的 AI,還需要人類認(rèn)知知識作為支撐。
3 語言知識圖譜
不同于傳統(tǒng)知識工程的“小知識”,以知識圖譜為代表的大數(shù)據(jù)時(shí)代各種知識系統(tǒng),受益于海量數(shù)據(jù)、強(qiáng)大算力、最優(yōu)算法,能夠自動構(gòu)建大規(guī)模、多領(lǐng)域、高質(zhì)量的知識庫,形成所謂的“大知識”。知識圖譜把非結(jié)構(gòu)化、離散的知識以圖結(jié)構(gòu)形式組織起來,從而描述關(guān)于世界萬物的概念、實(shí)體、事件及其之間的關(guān)系。知識圖譜包含的背景,賦予機(jī)器精準(zhǔn)查詢、深度理解與邏輯推理等能力,被廣泛運(yùn)用于實(shí)體消歧、推薦系統(tǒng)、問答系統(tǒng)和復(fù)雜問題推理等任務(wù),在認(rèn)知智能實(shí)現(xiàn)中起到非常重要的作用。
今后深度學(xué)習(xí)和知識圖譜將呈現(xiàn)不斷增強(qiáng)、共同發(fā)展的態(tài)勢,一方面,深度學(xué)習(xí)可以從數(shù)據(jù)中(有標(biāo)注數(shù)據(jù)、弱標(biāo)注數(shù)據(jù)及無標(biāo)注數(shù)據(jù))學(xué)習(xí)和挖掘有用信息,為大規(guī)模知識圖譜的補(bǔ)全提供支持;另一方面,知識圖譜技術(shù)的成熟,獲取的知識也可以被用于深度學(xué)習(xí)的知識指導(dǎo),為知識融入深度學(xué)習(xí)框架提供了理論基礎(chǔ)。
知識圖譜根據(jù)所含知識類型的不同,可大致分為三種。① 語言知識圖譜。自然語言具備的詞法、句法、語義、語篇及語用等方面的語言知識,如WordNet、HowNet 是典型的詞法知識圖譜。② 嘗識知識圖譜。人類對自然界事物普遍認(rèn)知的日常共識知識,如Cyc、ConceptNet 是典型的常識知識圖譜。③ 社會知識圖譜?,F(xiàn)實(shí)世界中人類社會活動產(chǎn)生的各實(shí)體之間的事實(shí)知識和關(guān)系,如 WikiDatas、Freebase、DBpedia、YAGO 是典型的社會知識圖譜。
除這些有典型代表的知識圖譜外,還有涵蓋特定專業(yè)及業(yè)務(wù)領(lǐng)域的專業(yè)知識圖譜及商業(yè)知識圖譜。以上知識類型劃分并沒有嚴(yán)格界限,如HowNet 既包含詞法級語言知識,也包含大量的常識知識。本文以基于義原的語義知識圖譜(又稱為“語義知識庫”)-HowNet 為例,探究語義知識庫作為包含“本體知識”“語言知識”的基礎(chǔ)知識工程,在“弱人工智能”轉(zhuǎn)為“強(qiáng)人工智能”中發(fā)揮的關(guān)鍵作用。
3.1 HowNet 語義知識庫
從語義層面講,詞可以具體細(xì)分成義項(xiàng),義項(xiàng)又可以細(xì)分成義原。義原是人類語言最小的語義單位。在 NLU方面,義原更貼近語義本質(zhì),并且語言學(xué)家進(jìn)一步認(rèn)為義原體系在任何語言中都是適用的,并不與特定語言相關(guān)。為了將義原的語言學(xué)理論付諸實(shí)踐,董振東和董強(qiáng)父子用30年之久構(gòu)建了著名的中英義原知識庫——HowNet,突破了詞的屏障,以高度抽象化和形式化的語言描述客觀世界中的概念,是我國首個(gè)從純粹語義角度出發(fā)而構(gòu)建的與具體語言無關(guān)的語義知識庫,是深入了解詞背后語義信息的重要通道,其設(shè)計(jì)理念是以一套形式化的普遍知識系統(tǒng)描寫和解釋自然語言?!傲x原”體系是其核心要素,主要分為兩種,一種為“基本義原”,是對“本體知識”的解析和闡述,主要解決“符號根基問題”;一種為“動態(tài)角色義原”,是對句子成分之間語義關(guān)系的描述和說明,屬于“語言知識”,主要解決“角色指派問題”。
在知識融合方面義原知識庫具有無可比擬的優(yōu)勢,其一,現(xiàn)有深度學(xué)習(xí)算法將詞語對應(yīng)成模型中的處理單元,而 HowNet 關(guān)注義原與詞之間的語義組合關(guān)系,那么該詞的義原就可直接作為語義標(biāo)簽引入對應(yīng)的處理單元中,這是其他詞級別知識庫無法做到的;其二,由于義原數(shù)量有限,一般均可以得到充分訓(xùn)練,將訓(xùn)練好的義原融入深度學(xué)習(xí)模型,可以緩解低資源數(shù)據(jù)情形下模型訓(xùn)練不足的問題。這一特點(diǎn)最典型的應(yīng)用便是詞表示學(xué)習(xí),義原的引入可以提高低頻詞的詞向量效果。
近年來,很多工作將語義知識庫 HowNet 中的義原標(biāo)注信息融入面向 NLP 的機(jī)器學(xué)習(xí)模型中,探索語義表示學(xué)習(xí)、詞匯表示、義原推薦、詞典擴(kuò)展、實(shí)體關(guān)系、詞義消歧和知識圖譜等任務(wù),驗(yàn)證了HowNet人工義原知識庫與深度學(xué)習(xí)模型融合的有效性。3.2 基于HowNet 的藏語語義知識庫研究HowNet 是一個(gè)蘊(yùn)含語義信息最為豐富的大規(guī)模高質(zhì)量中英文常識知識庫,擁有超過10萬條義原標(biāo)注的知識詞典。通過一套統(tǒng)一的義原標(biāo)注體系,能夠直接精準(zhǔn)刻畫詞義的語義信息,其義原體系是基于人類對客觀世界的普遍認(rèn)知;其解釋從概念最本質(zhì)的特征開始,隨后進(jìn)行次要特征的描寫,逐步對概念進(jìn)行解析。在NLU方面,HowNet 更貼近語言本質(zhì)特點(diǎn)。
如“警察”的某一義項(xiàng)被 HowNet 解釋為
{human| 人:HostOf={Occupation| 職位 },
domain={police| 警 }}
“ 警察”的本質(zhì)特征為“人”;隨后是次要特征——“ 職位(Occupation)” 之“ 宿主HostOf”“ 警” 的“領(lǐng)域(domain)”。其次,HowNet 是中英雙語,這不僅表現(xiàn)在概念上中英文的對應(yīng),還表現(xiàn)在義原解釋上中英文的結(jié)合。還是以“警察”為例,其英文對應(yīng)為 police officer,義原解釋采取了中英結(jié)合的方式,能夠有效避免單一語言詞形所產(chǎn)生的“歧義”問題。
HowNet和義原的優(yōu)勢近年來經(jīng)過大量的實(shí)證研究得以驗(yàn)證。但令人遺憾的是,尚未有研究人員對HowNet知識體系的本身架構(gòu)和相關(guān)理論進(jìn)行深度探討。HowNet目前僅有英語和漢語兩種語言作為支撐,對其是否具備語言適應(yīng)性和解釋充分性的知識庫,以及HowNet“本體知識”的基本義原和作為“句法 -語義接口”的“動態(tài)角色”定義的完備性和適應(yīng)性研究尚未得到足夠的重視。
因此,我們在HowNet 語義知識庫的深層結(jié)構(gòu)和語言適應(yīng)性方面進(jìn)行了初步探索研究。其中,藏語作為一種有格標(biāo)記語言,其語義信息顯于句法表層,和漢語在語法、語義上差別較大,將藏語納入HowNet 是非常值得嘗試的工作。不同于漢語,藏語的語義特征同句法結(jié)構(gòu)有明顯映射關(guān)系,如何科學(xué)地將其納入 HowNet 系統(tǒng)并驗(yàn)證義原體系的普適性是研究重點(diǎn)。目前我們已完成 HowNet 框架下藏語語義知識庫的構(gòu)建工作。
3.2.1 動態(tài)角色義原體系的再厘定
HowNet 對基本義原的研究較為深入,其體系構(gòu)建十分完整,但對代表句子成分之間語義關(guān)系動態(tài)角色義原的研究并不如前者。在實(shí)際處理中,我們發(fā)現(xiàn)動態(tài)角色在跨語言使用中遇到了一些問題,如在添加藏語時(shí)無法用 HowNet 動態(tài)角色對藏語的句法結(jié)構(gòu)和語義特征進(jìn)行充分地描寫和解釋。我們的研究結(jié)合藏語的特征,從多個(gè)視角對 HowNet 的動態(tài)角色義原進(jìn)行分析和討論,重新厘定部分存在問題和疑義的動態(tài)角色,并將原先零散、體系不清晰的動態(tài)角色納入到確定層級和系統(tǒng)中。具體做了三項(xiàng)工作。① 對部分較為重要、存在問題的動態(tài)角色進(jìn)行了再定義,對其本身的語義特征和限定范圍進(jìn)行了初步劃分。② 指出動態(tài)角色義原之間存在對應(yīng)關(guān)系,對其進(jìn)行了討論和分析,并對不同動態(tài)角色義原之間存在的對應(yīng)關(guān)系進(jìn)行了歸納。③ 指出動態(tài)角色義原之間的地位是不平等的,動態(tài)角色是具有層級性的、典型性漸弱的系統(tǒng)。
將核心的主客體動態(tài)角色納入到與其相關(guān)的、特定的事件中進(jìn)行考察,并從語義分類、藏語語法、認(rèn)知等幾個(gè)角度雙向檢驗(yàn)動態(tài)角色及其關(guān)聯(lián)事件的“合法性”。
以藏語格助詞和藏語傳統(tǒng)文法在語義層面上對動詞范疇的劃分方式為參照,對 HowNet“動態(tài)角色”的定義、語義特征和限定范圍進(jìn)行了討論,并明確了“動態(tài)角色”與“事件類基本義原”之間的關(guān)聯(lián)關(guān)系,建立起結(jié)構(gòu)化、分層次的“動態(tài)角色義原體系”。
3.2.2 藏語句法 - 語義一體化
根據(jù)建立的“動態(tài)義原角色義原”體系,使動態(tài)角色與藏語格助詞相對應(yīng),并將其與特定事件相關(guān)聯(lián),實(shí)現(xiàn)了HowNet 框架下的藏語句法-語義一體化,為藏語語義知識庫的構(gòu)建提供了一種新思路。
3.2.3 構(gòu)建藏漢知識詞典
HowNet 知識系統(tǒng)描述語言在對概念進(jìn)行解釋時(shí),缺乏一定的上下文語境,且 HowNet 采用人工構(gòu)建方式,耗時(shí)耗力。我們使用基于統(tǒng)計(jì)和基于跨語言詞向量的方法自動構(gòu)建藏漢知識詞典,并為其提供了豐富的上下文語境。
HowNet 本體知識的有效性和完備性,尚未在大規(guī)模語料中受到檢驗(yàn)。我們利用大規(guī)模平行句對,從“符號根基問題”這一角度,對 HowNet 知識詞典的有效性和完備性進(jìn)行了評價(jià)和檢驗(yàn)。由于篇幅所限,上述內(nèi)容在此不再贅述,請關(guān)注作者相關(guān)論文研究。
4 結(jié)束語
本文探討了后深度學(xué)習(xí)時(shí)代“知識 + 數(shù)據(jù)”驅(qū)動的NLU 模式,闡釋將 HowNet 義原知識體系融入數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)模型中具有不可比擬的優(yōu)勢,它也許會成為突破從感知智能到認(rèn)知智能的NLU瓶頸的一把鑰匙。在后續(xù)工作中我們會繼續(xù)以多民族語言義原知識庫構(gòu)建為主要研究對象,擴(kuò)大義原標(biāo)注語種的范圍,增強(qiáng) HowNet 義原知識庫在跨語言自然語言處理、語義理解和自動問答、文本生成等任務(wù)的適用性。
標(biāo)簽:
凡本網(wǎng)注明“XXX(非現(xiàn)代青年網(wǎng))提供”的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和其真實(shí)性負(fù)責(zé)。
原標(biāo)題:迪麗熱巴佟大為領(lǐng)銜主演(引題)《公訴》聚焦“打擊網(wǎng)絡(luò)犯罪”(主題)今晚報(bào)訊(記者劉桂芳)首部
2023-05-30 17:40
原標(biāo)題:音樂劇《綻放》再現(xiàn)“燃燈校長”感人故事廣西日報(bào)記者趙娟?5月25日、26日晚,大型原創(chuàng)音樂劇《綻
2023-05-30 16:55
原標(biāo)題:國家文物局“考古中國”重大項(xiàng)目通報(bào)商代最新發(fā)現(xiàn)成果中新網(wǎng)北京5月30日電(記者應(yīng)妮)國家文物局3
2023-05-30 16:45
原標(biāo)題:AI繪畫與畫師沖擊還是促進(jìn)?天津日報(bào)記者郭曉瑩隨著人工智能技術(shù)的不斷發(fā)展,人工智能時(shí)代到來,人
2023-05-30 16:44
原標(biāo)題:十國影片入圍第25屆上海國際電影節(jié)金爵獎主競賽單元新華社上海5月29日電(記者許曉青、孫麗萍)上
2023-05-30 16:32
原標(biāo)題:“中國歷代繪畫大系”之宋畫特別展覽在新加坡舉辦新華社新加坡5月28日電(記者蔡蜀亞)丹青吟詠·
2023-05-30 16:36
原標(biāo)題:周思武以影像播撒溫暖的力量天津日報(bào)記者胡春萌周思武,生活里他是天津美術(shù)學(xué)院攝影藝術(shù)系的研究生
2023-05-30 10:51
原標(biāo)題:國內(nèi)戲劇名家齊聚長沙傾情開唱中新網(wǎng)長沙5月29日電(記者楊華峰)29日,第二屆“非遺名家聚橘洲·
2023-05-30 10:41
原標(biāo)題:江蘇淮安:送戲下鄉(xiāng)文化惠民5月28日,江蘇省文化和旅游廳送戲下鄉(xiāng)活動在淮安市漣水縣保灘街道肖渡
2023-05-30 10:43
原標(biāo)題:河北石家莊:“南腔北調(diào)”聯(lián)袂獻(xiàn)藝5月29日,剛獲得第31屆中國戲劇梅花獎的廣州粵劇院演員李嘉宜(
2023-05-30 10:50
原標(biāo)題:國道之行從雪山奔向大海|這么可愛的國寶,你見過嗎?這是5月26日拍攝的皮央石窟壁畫中的大象像。
2023-05-30 10:53
原標(biāo)題:十余年整理研究,內(nèi)容完整公布出版——(引題)北大秦簡展示一幅秦代社會鮮活圖景(主題)光明日報(bào)
2023-05-30 09:47
“非遺煥彩新時(shí)代”原標(biāo)題:映秀茶香飄萬里“五一”假期,位于四川省汶川縣映秀鎮(zhèn)非遺文化創(chuàng)意園的茶祥子映
2023-05-30 09:42
原標(biāo)題:通訊:在內(nèi)蒙古探訪“無字天書”陰山巖畫中新網(wǎng)巴彥淖爾5月29日電?中新網(wǎng)記者李愛平過去兩天間,
2023-05-30 09:32
原標(biāo)題:演唱會門票秒罄“黃牛黨”撈錢術(shù)升級(主題)北京青年報(bào)記者調(diào)查發(fā)現(xiàn)非公開銷售的渠道票是黃牛票的
2023-05-30 09:49
原標(biāo)題:第七屆圖像小說節(jié)長春站開幕中新社長春5月29日電(記者郭佳)第七屆圖像小說節(jié)長春站暨第六屆“24
2023-05-30 08:54
“文化產(chǎn)業(yè)賦能鄉(xiāng)村”原標(biāo)題:河南蘭考發(fā)展民族樂器產(chǎn)業(yè),帶動鄉(xiāng)村振興(引題)悠遠(yuǎn)琴音富民潤心(主題)人
2023-05-30 08:40
原標(biāo)題:上海國際電影節(jié)金爵獎入圍名單揭曉廣州日報(bào)訊(全媒體記者黃岸)昨日,第二十五屆上海國際電影節(jié)金
2023-05-30 08:47
原標(biāo)題:雙面“繡”姑蘇(主題)人文經(jīng)濟(jì)視野下的蘇州觀察(副題)從蘇州古城最高點(diǎn)北寺塔環(huán)視,河街相鄰、
2023-05-30 08:49
原標(biāo)題:科幻作家劉慈欣:中國科幻影視未來前景光明中新社北京5月29日電(記者陳杭)中國科幻作家劉慈欣29
2023-05-30 08:42
新華全媒+原標(biāo)題:2023中國科幻大會用40場活動打造“科幻盛宴”新華社北京5月29日電(記者陽娜、溫競?cè)A)作
2023-05-30 07:46
原標(biāo)題:逾300名專家學(xué)者匯聚澳門探討中國語言學(xué)人民日報(bào)海外版澳門5月29日電(記者富子梅)為期3天的國際
2023-05-30 07:47
原標(biāo)題:大型中文說唱音樂劇《愚公移山》在京首演5月27日,大型說唱音樂劇《愚公移山》在位于北京的中央歌
2023-05-30 05:40
原標(biāo)題:“哆啦A夢”陪觀眾過“六一”北京晚報(bào)訊(記者袁云兒)6月1日,至今仍風(fēng)靡全球的“藍(lán)胖子”又要在
2023-05-30 05:40
原標(biāo)題:“非遺技藝人人可學(xué)”(主題)——記通遼市奈曼旗白音杭蓋炭烤牛肉干制作技藝非遺工坊(副題)董亮
2023-05-29 16:41