售前電話(huà)
135-3656-7657
售前電話(huà) : 135-3656-7657
B站:科皮子菊
背景
上一個(gè)實(shí)踐項(xiàng)目是:,這個(gè)屬于入門(mén)級(jí)的項(xiàng)目,可以了解一下neo4j的一些基本操作,以及簡(jiǎn)單的問(wèn)答處理。下面進(jìn)行第二個(gè)實(shí)踐項(xiàng)目,也是對(duì)一個(gè)開(kāi)源項(xiàng)目源碼進(jìn)行解讀和改寫(xiě),最終形成符合自己風(fēng)格的一個(gè)項(xiàng)目。
該項(xiàng)目在是挺受歡迎的,項(xiàng)目地址:[1]。如果喜歡閱讀源碼的友友,可以直接閱讀源碼。
原項(xiàng)目簡(jiǎn)介原項(xiàng)目基本內(nèi)容
在我閱讀這個(gè)項(xiàng)目時(shí)(2022-7-17),該項(xiàng)目的start數(shù)目達(dá)4.2k,fork達(dá)1.6k。從數(shù)據(jù)上來(lái)看,大家是比較認(rèn)可該項(xiàng)目的。
當(dāng)然,原作者也是很厲害的,是中國(guó)科學(xué)院軟件研究所劉煥勇老師。
該項(xiàng)目從無(wú)到有搭建一個(gè)以疾病為中心的一定規(guī)模醫(yī)藥領(lǐng)域知識(shí)圖譜,并以該知識(shí)圖譜完成自動(dòng)問(wèn)答與分析服務(wù)。適合一個(gè)初學(xué)人員了解該類(lèi)項(xiàng)目的過(guò)程。
該項(xiàng)目立足醫(yī)藥領(lǐng)域,以垂直型醫(yī)藥網(wǎng)站為數(shù)據(jù)來(lái)源,以疾病為核心,構(gòu)建起一個(gè)包含7類(lèi)規(guī)模為4.4萬(wàn)的知識(shí)實(shí)體,11類(lèi)規(guī)模約30萬(wàn)實(shí)體關(guān)系的知識(shí)圖譜。項(xiàng)目包括以下兩部分的內(nèi)容:
基于垂直網(wǎng)站數(shù)據(jù)的醫(yī)藥知識(shí)圖譜構(gòu)建基于醫(yī)藥知識(shí)圖譜的自動(dòng)問(wèn)答
該項(xiàng)目的最終效果如下:
看看問(wèn)答的內(nèi)容,感覺(jué)還是挺好玩的。
該項(xiàng)目的技術(shù)架構(gòu)如下:
其中涉及的各個(gè)模塊也是現(xiàn)在當(dāng)前進(jìn)行問(wèn)答的主要流程。只是在不同環(huán)節(jié)有不同的細(xì)分技術(shù)。例如 ,這個(gè)部分通常在不同性質(zhì)的問(wèn)答系統(tǒng)中有不同的叫法,通常也叫做意圖識(shí)別,query 就是query解析,這個(gè)不僅在問(wèn)答中有重要的使用醫(yī)療問(wèn)答系統(tǒng)的應(yīng)用,在搜索中也是如此,如果深究的話(huà),就單憑query 就能夠衍生很多知識(shí),如query錯(cuò)誤糾正,query改寫(xiě)等等。在知識(shí)搜尋中相關(guān)技術(shù)也比較多,有的會(huì)進(jìn)行子圖切分在圖數(shù)據(jù)庫(kù)中匹配,也有使用傳統(tǒng)的規(guī)則匹配等方法去處理。
除此之外,單輪對(duì)話(huà)相對(duì)簡(jiǎn)單,如果涉及任務(wù)型對(duì)話(huà)的,則需要涉及填槽的工作以及對(duì)話(huà)管理等等。
項(xiàng)目源碼閱讀與改寫(xiě)
這段時(shí)間在業(yè)余時(shí)間看完了項(xiàng)目代碼,并對(duì)其進(jìn)行了小小的重構(gòu)。然后實(shí)現(xiàn)效果如下:
做完之后總體感覺(jué)內(nèi)容也不是特別多,但是整個(gè)還是比較清晰的。值得去閱讀一下源碼。
總結(jié)
總的來(lái)說(shuō),這個(gè)項(xiàng)目把使用知識(shí)圖譜進(jìn)行QA的一些流程介紹的比較清楚,但是在完成問(wèn)答的過(guò)程中技術(shù)相對(duì)老舊醫(yī)療問(wèn)答系統(tǒng)的應(yīng)用,不過(guò)效果依然還不錯(cuò)。源碼已經(jīng)放到我的上:[2],有興趣的可以下載運(yùn)行看看哦,上面有運(yùn)行介紹哦。
為了能夠進(jìn)一步提升效果的話(huà)可以引入很多新技術(shù)。例如在問(wèn)題分類(lèi)環(huán)節(jié)可以引入基于深度學(xué)習(xí)的問(wèn)題分類(lèi)方法,在進(jìn)行問(wèn)題解析的時(shí)候,可以引入基于深度學(xué)習(xí)的NER實(shí)體識(shí)別方式以及進(jìn)一步處進(jìn)行實(shí)體對(duì)齊等,這里不作進(jìn)一步展開(kāi)。
除此之外,知識(shí)圖譜在構(gòu)建時(shí)需要結(jié)合業(yè)務(wù)需求,也就是在接到業(yè)務(wù)的時(shí)候以及對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行分析然后構(gòu)建基于業(yè)務(wù)的,再通過(guò)自然語(yǔ)言處理相關(guān)技術(shù)進(jìn)行知識(shí)圖譜的構(gòu)建。在原項(xiàng)目中,使用爬蟲(chóng)的方式進(jìn)行數(shù)據(jù)爬取,其也可以使用NLP相關(guān)的基礎(chǔ),優(yōu)化提取的數(shù)據(jù)等等。