您現(xiàn)在的位置：首頁 > 科技 > 正文

今日快訊：基于詞串的小語種預(yù)訓(xùn)練語言模型及語言分析技術(shù)

時(shí)間：2023-05-30 17:44:17 來源：科普中國網(wǎng)

摘要**：**基于數(shù)據(jù)驅(qū)動的統(tǒng)計(jì)和深度學(xué)習(xí)模型，難以真正理解語言中的概念和語義。通過建構(gòu)藏文 Hownet 語義知識庫以驗(yàn)證 Hownet 知識的完備性，并以漢藏英多語言知識詳細(xì)梳理了 Hownet 的動態(tài)語義角色知識體系。借重于知識庫的“數(shù)據(jù) + 知識”方法能夠支持從感知智能到認(rèn)知智能的躍遷，應(yīng)該成為今后一段時(shí)期自然語言理解研究的重點(diǎn)任務(wù)之一。

關(guān)鍵詞**：**人工智能；自然語言理解；HowNet；語義

0 引言

(資料圖片僅供參考)

人工智能（AI）是跨越計(jì)算機(jī)科學(xué)、數(shù)學(xué)、認(rèn)知科學(xué)及神經(jīng)科學(xué)等學(xué)科的一門先進(jìn)技術(shù)。自 1956年，在美國達(dá)特茅斯會議上正式提出 AI 之后，其發(fā)展主要經(jīng)歷了三個(gè)時(shí)期。20 世紀(jì) 90 年代以前，采用專家系統(tǒng)和知識工程的方法，構(gòu)建“知識 + 邏輯符號”系統(tǒng)來模擬人類的智能階段，稱為知識（規(guī)則）驅(qū)動的 AI；然而，受限于當(dāng)時(shí)人工知識（規(guī)則）對自然語言的描述能力，這一時(shí)期 AI 基本局限在實(shí)驗(yàn)室研究范疇。從 20 世紀(jì) 90 年代中期直到近幾年，AI 的機(jī)器學(xué)習(xí)相繼跨入到統(tǒng)計(jì)機(jī)器學(xué)習(xí)及深度機(jī)器學(xué)習(xí)時(shí)期，稱之為數(shù)據(jù)驅(qū)動的 AI 時(shí)代。這一階段由于機(jī)器性能的大幅提升，以大規(guī)模真實(shí)語言數(shù)據(jù)訓(xùn)練自然語言處理（(NLP) 模型成為可能，并逐步并廣泛進(jìn)入社會應(yīng)用領(lǐng)域。然而，上述方法的缺陷在于，第一代知識驅(qū)動的 AI 主要靠人工從原始數(shù)據(jù)中獲取知識，效率低、規(guī)則描述能力有限等；第二代數(shù)據(jù)驅(qū)動的 AI 可以從訓(xùn)練數(shù)據(jù)中自主地獲取知識，但其性能受到數(shù)據(jù)規(guī)模和質(zhì)量限制，魯棒性差，易受干擾，是“黑箱操作”。為了建立一個(gè)全面反映人類智能的 AI，需要建立魯棒性強(qiáng)、可解釋的 AI 理論與方法，即第三代 AI。2018 年底，張鈸院士公開提出第三代“知識 + 數(shù)據(jù)”雙輪驅(qū)動 AI 的理論框架體系。因此，在基于大數(shù)據(jù)的深度學(xué)習(xí)進(jìn)入發(fā)展的“瓶頸”期后，從 2018 年至今，AI 開始進(jìn)入到發(fā)展的第三個(gè)時(shí)期。這一時(shí)期不再只關(guān)注數(shù)據(jù)，知識的獲取重新得到了極大重視。實(shí)現(xiàn)真正的智能系統(tǒng)，需要將數(shù)據(jù)和知識進(jìn)行深度融合，在數(shù)據(jù)上要有歸納能力，能夠舉十得一；在知識上，要有邏輯推理能力，能夠舉一反三。

1 從感知到認(rèn)知

目前，隨著算力、算法等技術(shù)發(fā)展，AI 技術(shù)已經(jīng)擁有快速計(jì)算、記憶和儲存的能力?；诖髷?shù)據(jù)驅(qū)動的深度學(xué)習(xí)方法，能夠挖掘高維數(shù)據(jù)復(fù)雜的結(jié)構(gòu)特征，并用人類熟悉的方式溝通和互動，具備了視覺、聽覺和觸覺等感知能力，在語音、圖像、文本和視頻識別等方面已經(jīng)逐漸接近甚至超越了人類的水平。

然而，在數(shù)據(jù)驅(qū)動的感知 AI 框架中，只要輕微變動圖像、文本或語音數(shù)據(jù)就可以欺騙這些已經(jīng)訓(xùn)練好的系統(tǒng)，造成感知誤判；盡管機(jī)器能夠識別物體，但其實(shí)它并不認(rèn)識這個(gè)物體。以圖像識別為例，通常給定大規(guī)模規(guī)格化、清晰對齊、無噪聲及正面角度的圖像庫來訓(xùn)練模型，將圖像識別系統(tǒng)應(yīng)用到無人駕駛汽車場景下，破舊的停車標(biāo)志被無視、遠(yuǎn)處的人類被識別成狗、校車被識別成鴕鳥等各種錯(cuò)誤案例層出不窮。因?yàn)閿?shù)據(jù)驅(qū)動的深度學(xué)習(xí)只能學(xué)習(xí)重復(fù)出現(xiàn)的局部特征，無法解決認(rèn)知的問題，也沒有辦法做推理的思維過程，所以機(jī)器學(xué)習(xí)模型具有魯棒性差的缺陷已成為學(xué)界共識。要讓無人駕駛汽車在面對路線、信號、地理、交通、氣象等突發(fā)實(shí)時(shí)狀況，能夠達(dá)到人類的心智水平，具備很強(qiáng)的應(yīng)變、分析和決策能力，并非特定的函數(shù)設(shè)計(jì)所能實(shí)現(xiàn)，無法回避的核心是缺失認(rèn)知智能。

人類引以為傲的認(rèn)知能力，都是以語言為載體進(jìn)行的。自然語言理解（NLU），是第三代 AI 的終極目標(biāo)，旨在賦予機(jī)器閱讀和理解人類語言的能力。由于人類自然語言的復(fù)雜性，目前的機(jī)器學(xué)習(xí)系統(tǒng)僅能進(jìn)行數(shù)據(jù)處理，并不能真正理解數(shù)據(jù)的含義，通過縮小任務(wù)范圍或擴(kuò)大數(shù)據(jù)集來回避處理語義的問題，機(jī)器只是“記錄”數(shù)據(jù)，但沒有“理解”數(shù)據(jù)，所以機(jī)器在 NLU 方面的表現(xiàn)遠(yuǎn)不如人類。

現(xiàn)階段面臨的最大挑戰(zhàn)是如何從更豐富的感知識別演變?yōu)樽灾魍评淼恼J(rèn)知理解，以此來打通感知和認(rèn)知之間的隔閡。因此，第三代 AI 開啟新的突破和創(chuàng)新，利用語言知識資源建立對自然語言文本背后的語義預(yù)測，超越對詞語字符識別的范疇，幫助機(jī)器進(jìn)行語義理解和常識推理，實(shí)現(xiàn)機(jī)器對人的模擬，這不是機(jī)理性的，而是功能性的。

2 “數(shù)據(jù) + 知識”雙驅(qū)動的 NLU

2.1 NLU 解難在哪里

自然語言總是涉及對現(xiàn)實(shí)世界事件的描述。實(shí)現(xiàn)對自然語言的理解，需要依賴人類常識及上下文語境，挖掘語言潛在語義的邏輯和因果關(guān)系。由于自然語言本體的一些固有特性，也會導(dǎo)致計(jì)算機(jī)語言理解的困難。

（1）語言的簡潔性

由于說話、書寫、閱讀速度的限制，自然語言表達(dá)非常簡練，形成固定短語表達(dá)或俗語。比如，咿呀學(xué)語、壽終正寢、春華秋實(shí)、落葉歸根等，這些詞語的真實(shí)語義并非語言表層含義。讓計(jì)算機(jī)用程序思維去直接認(rèn)知、理解、推理詞語中深層的動物生老病死、植物自然衰亡等常識知識并不容易。

（2）語言的歧義性

有些語句單獨(dú)看充滿了歧義，例如“雙肩包不要退了”“老王的畫很名貴”。在不同的語氣、語境及對話的上下文邏輯和生活常識條件下，語句會產(chǎn)生不同的理解。

（3）語言的時(shí)代性

自然語言隨著時(shí)代的發(fā)展，不斷引入新的表述概念和語義。諸如“針不戳”“蕪湖起飛”“凡爾賽”“雙十一最該打折的東西，是自己的手”等新詞新語、舊詞語新意、音譯外來詞、多義詞、縮略詞和多音詞等的正確語義都需要結(jié)合時(shí)代性背景知識來幫助理解。

人類理解和生成語言，依賴詞匯、句法、語義等語言本體知識，以及自然常識、人文和自然科學(xué)知識等。對于機(jī)器來說，基本要求是具備一定的邏輯推理能力和認(rèn)知能力。認(rèn)知活動最本質(zhì)的特點(diǎn)是利用知識來指導(dǎo)行為，涉及三個(gè)方面的內(nèi)容，首先是信息的獲取、表示并轉(zhuǎn)化為機(jī)器知識；其次是知識的存儲和提取；最后是運(yùn)用知識進(jìn)行推理等處理過程。認(rèn)知過程主要是知識存儲并利用知識進(jìn)行語義推導(dǎo)。為使計(jì)算機(jī)具備一定的認(rèn)知能力，需要對各類知識進(jìn)行形式化表示，以及用能夠讓計(jì)算機(jī)可以識別的形式加以合理地描述和存貯。

因此，實(shí)現(xiàn)真正的 NLU 需要解決兩個(gè)問題，首先獲取、表示及計(jì)算隱含的、高度多樣化的多源知識；其次，整合這些抽象知識到 AI 系統(tǒng)中，幫助機(jī)器進(jìn)行語義理解和常識推理。回顧第一代、第二代 AI 發(fā)展史，貫穿 NLP 的兩大代表性方法——基于知識的方法和基于統(tǒng)計(jì)的方法。

2.1.1 基于知識的方法

專家系統(tǒng)和知識工程作為認(rèn)知智能的早期代表，學(xué)者們提出“將知識引入 AI 領(lǐng)域”，為計(jì)算機(jī)理解自然語言建造了各種知識庫，此類研究一般以某種語言為主體語言設(shè)計(jì)知識庫的框架結(jié)構(gòu)，并以此為基礎(chǔ)添加其他語言。目前，項(xiàng)目開發(fā)成熟、較有影響力的語言知識庫有 WordNet、FrameNet、PropBank、HowNet 等，其信息如表 1 所示。

表 1 語義知識庫項(xiàng)目信息

通過知識庫系統(tǒng)確定句子中每個(gè)單詞的作用，并提取上下文的含義。知識庫提供了良好的邏輯性和可解釋性的語言分析方法，但卻嚴(yán)重依賴人工定義的范疇與規(guī)則。雖然人類是用其全部的經(jīng)驗(yàn)與知識來理解和生成語言的，但是人工知識庫仍然難以完整地表示人類的經(jīng)驗(yàn)和知識并全部編碼進(jìn)入計(jì)算機(jī)，這類知識缺少對特征抽象和學(xué)習(xí)的能力。

2.1.2 基于統(tǒng)計(jì)的方法

受限于人工知識庫存在規(guī)模較小、自動構(gòu)建能力不足、知識獲取困難等一系列問題，學(xué)界出現(xiàn)了從大量數(shù)據(jù)的概率分布中學(xué)習(xí)基于統(tǒng)計(jì)的模型和方法。為了讓計(jì)算機(jī)處理語言文本，需要將字、詞、段落等信息轉(zhuǎn)換為機(jī)器可以理解的方式進(jìn)行，以便在計(jì)算機(jī)中表示語言或文本，并能讓計(jì)算機(jī)程序自動處理，這就是語言表示。

早期的語言表示是以詞袋模型、N 元模型為代表的離散表示，僅僅將詞符號化，詞與詞之間沒有距離的概念，兩個(gè)詞只要字面不同就難以刻畫它們之間的聯(lián)系，比如“電腦”和“計(jì)算機(jī)”這樣的同義詞會被看成是兩個(gè)不同詞。因此，導(dǎo)致語義鴻溝、維度災(zāi)難等問題的出現(xiàn)。

與離散表示不同的是連續(xù)表示，將語言表示為連續(xù)空間中的一個(gè)點(diǎn)，即連續(xù)向量。這種表示的優(yōu)勢可以把對文本內(nèi)容處理簡化為連續(xù)向量空間中向量運(yùn)算，通過計(jì)算向量空間上的相似度，來表示文本語義上的相似度，計(jì)算機(jī)很容易處理“向量”，因此取得很好效果。Word2Vec 作為詞匯連續(xù)表征的代表性方法，能夠?qū)⑼x詞相互映射，借此對大小、性別、速度等語義進(jìn)行建模；甚至能夠?qū)遗c首都等語義特征關(guān)聯(lián)起來，可以有效地處理傳統(tǒng)離散表示中的“一詞多義”和“一義多詞”問題。但是，將文本以向量形式表示時(shí)，忽略了詞語內(nèi)部語義或詞序信息的考量，也出現(xiàn)了不少問題。比如，圖 1中實(shí)驗(yàn)，我們通過調(diào)用 Word2Vec 的中文詞向量模塊預(yù)測漢語相似詞，當(dāng)輸入中性詞“理解”時(shí)，系統(tǒng)給出的相似詞權(quán)重排序，符合人們認(rèn)知；當(dāng)輸入有感情色彩的詞語“好人”時(shí)，Word2Vec 給出的最大相似詞是“壞人”，并且預(yù)測結(jié)果多數(shù)是貶義詞。這是因?yàn)樵?Word2Vec 詞向量映射空間中，采用余弦相似度判斷詞匯之間的相似度，“好人”與“壞人”對應(yīng)的的詞向量距離最近，但是二者卻是兩種語義完全相反的詞匯。

圖 1 Word2Vec 預(yù)測中文相似詞結(jié)果

由于自然語言由詞匯、短語、句子、篇章和文檔等不同粒度的語言單位組成，詞匯是最基本的語言單位，背后關(guān)聯(lián)著豐富的語義信息。Word2Vec 基于上下文學(xué)習(xí)方法的詞向量技術(shù)傾向于把貢獻(xiàn)較多的詞語聚在一起，可以學(xué)習(xí)到上下文語境相似的詞匯，卻難以捕獲到深層詞匯語義的相似性，特別是語料中出現(xiàn)頻次較低的詞語義項(xiàng)的相似性。我們只知道某個(gè)詞可以用幾百維的向量表示，但為什么能表示這個(gè)詞，這個(gè)詞確切有什么含義卻無法解釋。

2.2 “知識 + 數(shù)據(jù)”雙驅(qū)動

近年來，深度學(xué)習(xí)技術(shù)充分利用神經(jīng)網(wǎng)絡(luò)的分布式表示能力和層次結(jié)構(gòu)泛化能力，從大規(guī)模數(shù)據(jù)中自動學(xué)習(xí)，顯著提升了對無結(jié)構(gòu)文本、圖像、語音數(shù)據(jù)背后語義信息的表示與學(xué)習(xí)性能，將數(shù)據(jù)驅(qū)動方法推向新高度。另一方面，純數(shù)據(jù)驅(qū)動深度學(xué)習(xí)是輸入和輸出之間的特征關(guān)系，不具備因果推理性，缺少可解釋性。對大規(guī)模數(shù)據(jù)的學(xué)習(xí)與利用，離不開深度學(xué)習(xí)技術(shù)，但要實(shí)現(xiàn)有理解能力的 AI，還需要人類認(rèn)知知識作為支撐。

3 語言知識圖譜

不同于傳統(tǒng)知識工程的“小知識”，以知識圖譜為代表的大數(shù)據(jù)時(shí)代各種知識系統(tǒng)，受益于海量數(shù)據(jù)、強(qiáng)大算力、最優(yōu)算法，能夠自動構(gòu)建大規(guī)模、多領(lǐng)域、高質(zhì)量的知識庫，形成所謂的“大知識”。知識圖譜把非結(jié)構(gòu)化、離散的知識以圖結(jié)構(gòu)形式組織起來，從而描述關(guān)于世界萬物的概念、實(shí)體、事件及其之間的關(guān)系。知識圖譜包含的背景，賦予機(jī)器精準(zhǔn)查詢、深度理解與邏輯推理等能力，被廣泛運(yùn)用于實(shí)體消歧、推薦系統(tǒng)、問答系統(tǒng)和復(fù)雜問題推理等任務(wù)，在認(rèn)知智能實(shí)現(xiàn)中起到非常重要的作用。

今后深度學(xué)習(xí)和知識圖譜將呈現(xiàn)不斷增強(qiáng)、共同發(fā)展的態(tài)勢，一方面，深度學(xué)習(xí)可以從數(shù)據(jù)中（有標(biāo)注數(shù)據(jù)、弱標(biāo)注數(shù)據(jù)及無標(biāo)注數(shù)據(jù)）學(xué)習(xí)和挖掘有用信息，為大規(guī)模知識圖譜的補(bǔ)全提供支持；另一方面，知識圖譜技術(shù)的成熟，獲取的知識也可以被用于深度學(xué)習(xí)的知識指導(dǎo)，為知識融入深度學(xué)習(xí)框架提供了理論基礎(chǔ)。

知識圖譜根據(jù)所含知識類型的不同，可大致分為三種。① 語言知識圖譜。自然語言具備的詞法、句法、語義、語篇及語用等方面的語言知識，如WordNet、HowNet 是典型的詞法知識圖譜。② 嘗識知識圖譜。人類對自然界事物普遍認(rèn)知的日常共識知識，如Cyc、ConceptNet 是典型的常識知識圖譜。③ 社會知識圖譜?，F(xiàn)實(shí)世界中人類社會活動產(chǎn)生的各實(shí)體之間的事實(shí)知識和關(guān)系，如 WikiDatas、Freebase、DBpedia、YAGO 是典型的社會知識圖譜。

除這些有典型代表的知識圖譜外，還有涵蓋特定專業(yè)及業(yè)務(wù)領(lǐng)域的專業(yè)知識圖譜及商業(yè)知識圖譜。以上知識類型劃分并沒有嚴(yán)格界限，如HowNet 既包含詞法級語言知識，也包含大量的常識知識。本文以基于義原的語義知識圖譜（又稱為“語義知識庫”）-HowNet 為例，探究語義知識庫作為包含“本體知識”“語言知識”的基礎(chǔ)知識工程，在“弱人工智能”轉(zhuǎn)為“強(qiáng)人工智能”中發(fā)揮的關(guān)鍵作用。

3.1 HowNet 語義知識庫

從語義層面講，詞可以具體細(xì)分成義項(xiàng)，義項(xiàng)又可以細(xì)分成義原。義原是人類語言最小的語義單位。在 NLU方面，義原更貼近語義本質(zhì)，并且語言學(xué)家進(jìn)一步認(rèn)為義原體系在任何語言中都是適用的，并不與特定語言相關(guān)。為了將義原的語言學(xué)理論付諸實(shí)踐，董振東和董強(qiáng)父子用30年之久構(gòu)建了著名的中英義原知識庫——HowNet，突破了詞的屏障，以高度抽象化和形式化的語言描述客觀世界中的概念，是我國首個(gè)從純粹語義角度出發(fā)而構(gòu)建的與具體語言無關(guān)的語義知識庫，是深入了解詞背后語義信息的重要通道，其設(shè)計(jì)理念是以一套形式化的普遍知識系統(tǒng)描寫和解釋自然語言?！傲x原”體系是其核心要素，主要分為兩種，一種為“基本義原”，是對“本體知識”的解析和闡述，主要解決“符號根基問題”；一種為“動態(tài)角色義原”，是對句子成分之間語義關(guān)系的描述和說明，屬于“語言知識”，主要解決“角色指派問題”。

在知識融合方面義原知識庫具有無可比擬的優(yōu)勢，其一，現(xiàn)有深度學(xué)習(xí)算法將詞語對應(yīng)成模型中的處理單元，而 HowNet 關(guān)注義原與詞之間的語義組合關(guān)系，那么該詞的義原就可直接作為語義標(biāo)簽引入對應(yīng)的處理單元中，這是其他詞級別知識庫無法做到的；其二，由于義原數(shù)量有限，一般均可以得到充分訓(xùn)練，將訓(xùn)練好的義原融入深度學(xué)習(xí)模型，可以緩解低資源數(shù)據(jù)情形下模型訓(xùn)練不足的問題。這一特點(diǎn)最典型的應(yīng)用便是詞表示學(xué)習(xí)，義原的引入可以提高低頻詞的詞向量效果。

近年來，很多工作將語義知識庫 HowNet 中的義原標(biāo)注信息融入面向 NLP 的機(jī)器學(xué)習(xí)模型中，探索語義表示學(xué)習(xí)、詞匯表示、義原推薦、詞典擴(kuò)展、實(shí)體關(guān)系、詞義消歧和知識圖譜等任務(wù)，驗(yàn)證了HowNet人工義原知識庫與深度學(xué)習(xí)模型融合的有效性。3.2 基于HowNet 的藏語語義知識庫研究HowNet 是一個(gè)蘊(yùn)含語義信息最為豐富的大規(guī)模高質(zhì)量中英文常識知識庫，擁有超過10萬條義原標(biāo)注的知識詞典。通過一套統(tǒng)一的義原標(biāo)注體系，能夠直接精準(zhǔn)刻畫詞義的語義信息，其義原體系是基于人類對客觀世界的普遍認(rèn)知；其解釋從概念最本質(zhì)的特征開始，隨后進(jìn)行次要特征的描寫，逐步對概念進(jìn)行解析。在NLU方面，HowNet 更貼近語言本質(zhì)特點(diǎn)。

如“警察”的某一義項(xiàng)被 HowNet 解釋為

{human| 人：HostOf={Occupation| 職位 }，

domain={police| 警 }}

“ 警察”的本質(zhì)特征為“人”；隨后是次要特征——“ 職位（Occupation）” 之“ 宿主HostOf”“ 警” 的“領(lǐng)域（domain）”。其次，HowNet 是中英雙語，這不僅表現(xiàn)在概念上中英文的對應(yīng)，還表現(xiàn)在義原解釋上中英文的結(jié)合。還是以“警察”為例，其英文對應(yīng)為 police officer，義原解釋采取了中英結(jié)合的方式，能夠有效避免單一語言詞形所產(chǎn)生的“歧義”問題。

HowNet和義原的優(yōu)勢近年來經(jīng)過大量的實(shí)證研究得以驗(yàn)證。但令人遺憾的是，尚未有研究人員對HowNet知識體系的本身架構(gòu)和相關(guān)理論進(jìn)行深度探討。HowNet目前僅有英語和漢語兩種語言作為支撐，對其是否具備語言適應(yīng)性和解釋充分性的知識庫，以及HowNet“本體知識”的基本義原和作為“句法 -語義接口”的“動態(tài)角色”定義的完備性和適應(yīng)性研究尚未得到足夠的重視。

因此，我們在HowNet 語義知識庫的深層結(jié)構(gòu)和語言適應(yīng)性方面進(jìn)行了初步探索研究。其中，藏語作為一種有格標(biāo)記語言，其語義信息顯于句法表層，和漢語在語法、語義上差別較大，將藏語納入HowNet 是非常值得嘗試的工作。不同于漢語，藏語的語義特征同句法結(jié)構(gòu)有明顯映射關(guān)系，如何科學(xué)地將其納入 HowNet 系統(tǒng)并驗(yàn)證義原體系的普適性是研究重點(diǎn)。目前我們已完成 HowNet 框架下藏語語義知識庫的構(gòu)建工作。

3.2.1 動態(tài)角色義原體系的再厘定

HowNet 對基本義原的研究較為深入，其體系構(gòu)建十分完整，但對代表句子成分之間語義關(guān)系動態(tài)角色義原的研究并不如前者。在實(shí)際處理中，我們發(fā)現(xiàn)動態(tài)角色在跨語言使用中遇到了一些問題，如在添加藏語時(shí)無法用 HowNet 動態(tài)角色對藏語的句法結(jié)構(gòu)和語義特征進(jìn)行充分地描寫和解釋。我們的研究結(jié)合藏語的特征，從多個(gè)視角對 HowNet 的動態(tài)角色義原進(jìn)行分析和討論，重新厘定部分存在問題和疑義的動態(tài)角色，并將原先零散、體系不清晰的動態(tài)角色納入到確定層級和系統(tǒng)中。具體做了三項(xiàng)工作。① 對部分較為重要、存在問題的動態(tài)角色進(jìn)行了再定義，對其本身的語義特征和限定范圍進(jìn)行了初步劃分。② 指出動態(tài)角色義原之間存在對應(yīng)關(guān)系，對其進(jìn)行了討論和分析，并對不同動態(tài)角色義原之間存在的對應(yīng)關(guān)系進(jìn)行了歸納。③ 指出動態(tài)角色義原之間的地位是不平等的，動態(tài)角色是具有層級性的、典型性漸弱的系統(tǒng)。

將核心的主客體動態(tài)角色納入到與其相關(guān)的、特定的事件中進(jìn)行考察，并從語義分類、藏語語法、認(rèn)知等幾個(gè)角度雙向檢驗(yàn)動態(tài)角色及其關(guān)聯(lián)事件的“合法性”。

以藏語格助詞和藏語傳統(tǒng)文法在語義層面上對動詞范疇的劃分方式為參照，對 HowNet“動態(tài)角色”的定義、語義特征和限定范圍進(jìn)行了討論，并明確了“動態(tài)角色”與“事件類基本義原”之間的關(guān)聯(lián)關(guān)系，建立起結(jié)構(gòu)化、分層次的“動態(tài)角色義原體系”。

3.2.2 藏語句法 - 語義一體化

根據(jù)建立的“動態(tài)義原角色義原”體系，使動態(tài)角色與藏語格助詞相對應(yīng)，并將其與特定事件相關(guān)聯(lián)，實(shí)現(xiàn)了HowNet 框架下的藏語句法-語義一體化，為藏語語義知識庫的構(gòu)建提供了一種新思路。

3.2.3 構(gòu)建藏漢知識詞典

HowNet 知識系統(tǒng)描述語言在對概念進(jìn)行解釋時(shí)，缺乏一定的上下文語境，且 HowNet 采用人工構(gòu)建方式，耗時(shí)耗力。我們使用基于統(tǒng)計(jì)和基于跨語言詞向量的方法自動構(gòu)建藏漢知識詞典，并為其提供了豐富的上下文語境。

HowNet 本體知識的有效性和完備性，尚未在大規(guī)模語料中受到檢驗(yàn)。我們利用大規(guī)模平行句對，從“符號根基問題”這一角度，對 HowNet 知識詞典的有效性和完備性進(jìn)行了評價(jià)和檢驗(yàn)。由于篇幅所限，上述內(nèi)容在此不再贅述，請關(guān)注作者相關(guān)論文研究。

4 結(jié)束語

本文探討了后深度學(xué)習(xí)時(shí)代“知識 + 數(shù)據(jù)”驅(qū)動的NLU 模式，闡釋將 HowNet 義原知識體系融入數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)模型中具有不可比擬的優(yōu)勢，它也許會成為突破從感知智能到認(rèn)知智能的NLU瓶頸的一把鑰匙。在后續(xù)工作中我們會繼續(xù)以多民族語言義原知識庫構(gòu)建為主要研究對象，擴(kuò)大義原標(biāo)注語種的范圍，增強(qiáng) HowNet 義原知識庫在跨語言自然語言處理、語義理解和自動問答、文本生成等任務(wù)的適用性。

標(biāo)簽：

上一篇：【5?30全國科技工作者日】韓城市文聯(lián)開展“書畫進(jìn)校園”活動
下一篇：最后一頁

相關(guān)新聞

凡本網(wǎng)注明“XXX（非現(xiàn)代青年網(wǎng)）提供”的作品，均轉(zhuǎn)載自其它媒體，轉(zhuǎn)載目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)和其真實(shí)性負(fù)責(zé)。

特別關(guān)注

迪麗熱巴佟大為領(lǐng)銜主演《公訴》聚焦“打擊網(wǎng)絡(luò)犯罪”

原標(biāo)題：迪麗熱巴佟大為領(lǐng)銜主演（引題）《公訴》聚焦“打擊網(wǎng)絡(luò)犯罪”（主題）今晚報(bào)訊（記者劉桂芳）首部

2023-05-30 17:40
音樂劇《綻放》再現(xiàn)“燃燈校長”感人故事

原標(biāo)題：音樂劇《綻放》再現(xiàn)“燃燈校長”感人故事廣西日報(bào)記者趙娟?5月25日、26日晚，大型原創(chuàng)音樂劇《綻

2023-05-30 16:55
國家文物局“考古中國”重大項(xiàng)目通報(bào)商代最新發(fā)現(xiàn)成果_全球微頭條

原標(biāo)題：國家文物局“考古中國”重大項(xiàng)目通報(bào)商代最新發(fā)現(xiàn)成果中新網(wǎng)北京5月30日電（記者應(yīng)妮）國家文物局3

2023-05-30 16:45
AI繪畫與畫師沖擊還是促進(jìn)？-世界短訊

原標(biāo)題：AI繪畫與畫師沖擊還是促進(jìn)？天津日報(bào)記者郭曉瑩隨著人工智能技術(shù)的不斷發(fā)展，人工智能時(shí)代到來，人

2023-05-30 16:44
十國影片入圍第25屆上海國際電影節(jié)金爵獎主競賽單元

原標(biāo)題：十國影片入圍第25屆上海國際電影節(jié)金爵獎主競賽單元新華社上海5月29日電（記者許曉青、孫麗萍）上

2023-05-30 16:32
焦點(diǎn)播報(bào):“中國歷代繪畫大系”之宋畫特別展覽在新加坡舉辦

原標(biāo)題：“中國歷代繪畫大系”之宋畫特別展覽在新加坡舉辦新華社新加坡5月28日電（記者蔡蜀亞）丹青吟詠·

2023-05-30 16:36
周思武以影像播撒溫暖的力量|世界觀點(diǎn)

原標(biāo)題：周思武以影像播撒溫暖的力量天津日報(bào)記者胡春萌周思武，生活里他是天津美術(shù)學(xué)院攝影藝術(shù)系的研究生

2023-05-30 10:51
每日觀察!國內(nèi)戲劇名家齊聚長沙傾情開唱

原標(biāo)題：國內(nèi)戲劇名家齊聚長沙傾情開唱中新網(wǎng)長沙5月29日電（記者楊華峰）29日，第二屆“非遺名家聚橘洲·

2023-05-30 10:41
訊息：江蘇淮安：送戲下鄉(xiāng) 文化惠民

原標(biāo)題：江蘇淮安：送戲下鄉(xiāng)文化惠民5月28日，江蘇省文化和旅游廳送戲下鄉(xiāng)活動在淮安市漣水縣保灘街道肖渡

2023-05-30 10:43
熱文：河北石家莊：“南腔北調(diào)”聯(lián)袂獻(xiàn)藝

原標(biāo)題：河北石家莊：“南腔北調(diào)”聯(lián)袂獻(xiàn)藝5月29日，剛獲得第31屆中國戲劇梅花獎的廣州粵劇院演員李嘉宜（

2023-05-30 10:50
【環(huán)球快播報(bào)】國道之行從雪山奔向大海｜這么可愛的國寶，你見過嗎？

原標(biāo)題：國道之行從雪山奔向大海｜這么可愛的國寶，你見過嗎？這是5月26日拍攝的皮央石窟壁畫中的大象像。

2023-05-30 10:53
十余年整理研究，內(nèi)容完整公布出版——北大秦簡展示一幅秦代社會鮮活圖景

原標(biāo)題：十余年整理研究，內(nèi)容完整公布出版——（引題）北大秦簡展示一幅秦代社會鮮活圖景（主題）光明日報(bào)

2023-05-30 09:47
映秀茶香飄萬里

“非遺煥彩新時(shí)代”原標(biāo)題：映秀茶香飄萬里“五一”假期，位于四川省汶川縣映秀鎮(zhèn)非遺文化創(chuàng)意園的茶祥子映

2023-05-30 09:42
通訊：在內(nèi)蒙古探訪“無字天書”陰山巖畫-全球最資訊

原標(biāo)題：通訊：在內(nèi)蒙古探訪“無字天書”陰山巖畫中新網(wǎng)巴彥淖爾5月29日電?中新網(wǎng)記者李愛平過去兩天間，

2023-05-30 09:32
天天微頭條丨演唱會門票秒罄“黃牛黨”撈錢術(shù)升級

原標(biāo)題：演唱會門票秒罄“黃牛黨”撈錢術(shù)升級（主題）北京青年報(bào)記者調(diào)查發(fā)現(xiàn)非公開銷售的渠道票是黃牛票的

2023-05-30 09:49
微資訊！第七屆圖像小說節(jié)長春站開幕

原標(biāo)題：第七屆圖像小說節(jié)長春站開幕中新社長春5月29日電（記者郭佳）第七屆圖像小說節(jié)長春站暨第六屆“24

2023-05-30 08:54
悠遠(yuǎn)琴音富民潤心世界微頭條

“文化產(chǎn)業(yè)賦能鄉(xiāng)村”原標(biāo)題：河南蘭考發(fā)展民族樂器產(chǎn)業(yè)，帶動鄉(xiāng)村振興（引題）悠遠(yuǎn)琴音富民潤心（主題）人

2023-05-30 08:40
上海國際電影節(jié)金爵獎入圍名單揭曉

原標(biāo)題：上海國際電影節(jié)金爵獎入圍名單揭曉廣州日報(bào)訊（全媒體記者黃岸）昨日，第二十五屆上海國際電影節(jié)金

2023-05-30 08:47
雙面“繡”姑蘇|世界最資訊

原標(biāo)題：雙面“繡”姑蘇（主題）人文經(jīng)濟(jì)視野下的蘇州觀察（副題）從蘇州古城最高點(diǎn)北寺塔環(huán)視，河街相鄰、

2023-05-30 08:49
重點(diǎn)聚焦!科幻作家劉慈欣：中國科幻影視未來前景光明

原標(biāo)題：科幻作家劉慈欣：中國科幻影視未來前景光明中新社北京5月29日電（記者陳杭）中國科幻作家劉慈欣29

2023-05-30 08:42
全球短訊！新華全媒+丨2023中國科幻大會用40場活動打造“科幻盛宴”

新華全媒+原標(biāo)題：2023中國科幻大會用40場活動打造“科幻盛宴”新華社北京5月29日電（記者陽娜、溫競?cè)A）作

2023-05-30 07:46
世界快消息！逾300名專家學(xué)者匯聚澳門探討中國語言學(xué)

原標(biāo)題：逾300名專家學(xué)者匯聚澳門探討中國語言學(xué)人民日報(bào)海外版澳門5月29日電（記者富子梅）為期3天的國際

2023-05-30 07:47
世界視訊！大型中文說唱音樂劇《愚公移山》在京首演

原標(biāo)題：大型中文說唱音樂劇《愚公移山》在京首演5月27日，大型說唱音樂劇《愚公移山》在位于北京的中央歌

2023-05-30 05:40
“哆啦A夢”陪觀眾過“六一”_環(huán)球今日訊

原標(biāo)題：“哆啦A夢”陪觀眾過“六一”北京晚報(bào)訊（記者袁云兒）6月1日，至今仍風(fēng)靡全球的“藍(lán)胖子”又要在

2023-05-30 05:40
熱文：“非遺技藝人人可學(xué)”

原標(biāo)題：“非遺技藝人人可學(xué)”（主題）——記通遼市奈曼旗白音杭蓋炭烤牛肉干制作技藝非遺工坊（副題）董亮

2023-05-29 16:41

熱文推薦

1什么是“國民好車”?BAW陸付軍率全體北汽制造人用匠心詮釋
23 雀友品牌發(fā)布全新TVC廣告，詮釋“讓快樂傳遞”的品牌核心
4為什么這幾個(gè)運(yùn)動功能品牌經(jīng)常被仿冒？你有經(jīng)歷過嗎？
5飛宇穩(wěn)定器新品火熱來襲，618開門紅大放價(jià)
6一場特別的就業(yè)雙選會在河南交院舉行
7顏值正義內(nèi)功助力，虛擬偶像“奇正相佐”的破圈之路
8三年不孕求子路在成都西南不孕不育?？漆t(yī)院畫上圓滿句號
9中荷人壽適老化改造“管家” 為老年人居家生活系上“安全帶”
10中信銀行鄭州分行落地新鄉(xiāng)市首筆存量房“帶押過戶”業(yè)務(wù)
11喬雅登【V-smile】攜深圳陽光共探口周能量美學(xué)新思路
12濟(jì)源職業(yè)技術(shù)學(xué)院足球隊(duì)榮獲河南省大學(xué)生五人制足球比賽冠軍
13「植愈」地球，「回血」真修護(hù) 妮維雅男士奔赴云南無量山開啟神奇植物探訪之旅
14鄭州財(cái)稅金融職業(yè)學(xué)院雙選會：8000個(gè)高質(zhì)崗位強(qiáng)勢出擊
15實(shí)力彰顯、閃耀全場！跨越速運(yùn)重磅亮相第五屆SEMI-e
16大健康行業(yè)勢頭迅猛，滄海遺珠-LANGMA將要大放異彩
17河南交通職業(yè)技術(shù)學(xué)院榮獲全國職業(yè)院校技能大賽一等獎
18中荷人壽溫情啟動“康養(yǎng)季”服務(wù)給予全方位養(yǎng)老保障
19世上無難事，只要肯比較！羅意威與Fina Ejerique大比拼！
20“秋季腹瀉”在夏季肆虐?接種疫苗，幫助寶寶平安度過輪狀病毒高發(fā)期
21春光無限好！致那些的勇于拼搏的RICHARD MILLE摯友們
22大商之道助力2023中國品牌節(jié)女性論壇·企業(yè)招商增長論壇圓滿舉辦，賦能企業(yè)品牌增長與渠道裂變
23廣東首批優(yōu)秀食品新品目錄發(fā)布官棧鮮燉花膠、燕塘牛奶等134個(gè)新品入選，有你喜歡的么？
24知名招商專家、大商之道招商產(chǎn)業(yè)集團(tuán)聯(lián)合創(chuàng)始人王昕導(dǎo)師榮膺“2023中國招商品牌女性”
25重慶旗艦店落成，幸福千萬家助力司機(jī)群體迎來“幸福”

国产成人茄子视频免费_欧美激情(一区二区三区)_日韩精品亚洲专区_日本高清Av不卡一区二区_国产最火爆美女爽到高潮嗷嗷嗷叫免费网站网站

今日快訊：基于詞串的小語種預(yù)訓(xùn)練語言模型及語言分析技術(shù)

特別關(guān)注

迪麗熱巴佟大為領(lǐng)銜主演《公訴》聚焦“打擊網(wǎng)絡(luò)犯罪”

音樂劇《綻放》再現(xiàn)“燃燈校長”感人故事

國家文物局“考古中國”重大項(xiàng)目通報(bào)商代最新發(fā)現(xiàn)成果_全球微頭條

AI繪畫與畫師沖擊還是促進(jìn)？-世界短訊

十國影片入圍第25屆上海國際電影節(jié)金爵獎主競賽單元

焦點(diǎn)播報(bào):“中國歷代繪畫大系”之宋畫特別展覽在新加坡舉辦

周思武以影像播撒溫暖的力量|世界觀點(diǎn)

每日觀察!國內(nèi)戲劇名家齊聚長沙傾情開唱

訊息：江蘇淮安：送戲下鄉(xiāng) 文化惠民

熱文：河北石家莊：“南腔北調(diào)”聯(lián)袂獻(xiàn)藝

【環(huán)球快播報(bào)】國道之行從雪山奔向大海｜這么可愛的國寶，你見過嗎？

十余年整理研究，內(nèi)容完整公布出版——北大秦簡展示一幅秦代社會鮮活圖景

映秀茶香飄萬里

通訊：在內(nèi)蒙古探訪“無字天書”陰山巖畫-全球最資訊

天天微頭條丨演唱會門票秒罄“黃牛黨”撈錢術(shù)升級

微資訊！第七屆圖像小說節(jié)長春站開幕

悠遠(yuǎn)琴音富民潤心世界微頭條

上海國際電影節(jié)金爵獎入圍名單揭曉

雙面“繡”姑蘇|世界最資訊

重點(diǎn)聚焦!科幻作家劉慈欣：中國科幻影視未來前景光明

全球短訊！新華全媒+丨2023中國科幻大會用40場活動打造“科幻盛宴”

世界快消息！逾300名專家學(xué)者匯聚澳門探討中國語言學(xué)

世界視訊！大型中文說唱音樂劇《愚公移山》在京首演

“哆啦A夢”陪觀眾過“六一”_環(huán)球今日訊

熱文：“非遺技藝人人可學(xué)”

焦點(diǎn)資訊