久久精品视,色综合久久无码中文字幕,日韩免费视频一区二区三区,亚洲中文久久精品无码WW16

新聞資訊

醫(yī)院ICU家屬探視系統(tǒng) 基于醫(yī)療大數(shù)據(jù)的臨床文本處理與知識(shí)發(fā)現(xiàn)方法研究

2023-10-18 11:21

性能評(píng)估 需要選擇特定的度量參數(shù),在數(shù)據(jù)挖掘之后,通過(guò)實(shí)驗(yàn)和測(cè)試來(lái)評(píng)估模型的性能。與此同時(shí),預(yù)先選取的度量參數(shù)可用于指導(dǎo)和約束知識(shí)發(fā)現(xiàn)過(guò)程。

交互迭代 知識(shí)發(fā)現(xiàn)是一個(gè)反復(fù)迭代的過(guò)程。對(duì)于數(shù)據(jù)挖掘所得到的模式和知識(shí),需要通過(guò)持續(xù)的分析、反饋與糾正實(shí)現(xiàn)進(jìn)一步優(yōu)化,從而獲得相對(duì)理想的知識(shí)模型。例如,基于數(shù)據(jù)挖掘的結(jié)果,分析是否需要從內(nèi)外部數(shù)據(jù)源獲取更多的數(shù)據(jù),或者需要重新對(duì)數(shù)據(jù)進(jìn)行處理。

知識(shí)表示 利用標(biāo)簽云、熱力圖、樹(shù)狀圖等可視化技術(shù)直觀(guān)展示所發(fā)現(xiàn)的知識(shí),基于關(guān)聯(lián)關(guān)系和時(shí)間序列還可實(shí)現(xiàn)患者畫(huà)像。知識(shí)發(fā)現(xiàn)的結(jié)果可用于病歷檢索、疾病預(yù)測(cè)、藥物發(fā)現(xiàn)、臨床輔助決策、智能問(wèn)答、精準(zhǔn)醫(yī)療以及臨床教學(xué)等醫(yī)學(xué)應(yīng)用。

關(guān)鍵技術(shù)

數(shù)據(jù)預(yù)處理

數(shù)據(jù)清洗 數(shù)據(jù)清洗包括填補(bǔ)空缺值、平滑噪聲數(shù)據(jù)和糾正不一致數(shù)據(jù)來(lái)改善數(shù)據(jù)質(zhì)量等任務(wù)。由于人工填補(bǔ)數(shù)據(jù)工作量大且可行性差,可采用貝葉斯和決策樹(shù)等機(jī)器學(xué)習(xí)方法來(lái)預(yù)測(cè)最佳默認(rèn)值。對(duì)于數(shù)據(jù)源中的異常屬性值,可采用分箱、回歸、聚類(lèi)等平滑噪聲數(shù)據(jù)處理方法。數(shù)據(jù)的不一致性可通過(guò)數(shù)據(jù)之間的相關(guān)性分析來(lái)糾正。

數(shù)據(jù)集成 數(shù)據(jù)集成的作用在于將多來(lái)源的臨床文本數(shù)據(jù)集成至統(tǒng)一的數(shù)據(jù)存儲(chǔ)中,提高數(shù)據(jù)挖掘的準(zhǔn)確性和速度。數(shù)據(jù)集成需要解決異構(gòu)數(shù)據(jù)集成時(shí)的表達(dá)不一致和冗余數(shù)據(jù)問(wèn)題,可通過(guò)相關(guān)分析來(lái)檢測(cè),卡方檢驗(yàn)是常用的分析方法。

數(shù)據(jù)轉(zhuǎn)換 數(shù)據(jù)轉(zhuǎn)換的作用在于將原始數(shù)據(jù)轉(zhuǎn)換成適合于數(shù)據(jù)挖掘的統(tǒng)一形式。數(shù)據(jù)轉(zhuǎn)換方法包括平滑噪聲、數(shù)據(jù)聚合和數(shù)據(jù)規(guī)范化。其中,常用的規(guī)范化方法有最小-最大規(guī)范化、零-均值規(guī)范化和小數(shù)定標(biāo)規(guī)范化。

數(shù)據(jù)歸約 基于醫(yī)療大數(shù)據(jù)的文本處理,需要在確保數(shù)據(jù)完整性的前提下,通過(guò)數(shù)據(jù)歸約可獲得精簡(jiǎn)的數(shù)據(jù)集合,提高數(shù)據(jù)挖掘的效率。數(shù)據(jù)歸約可采用數(shù)據(jù)立方體聚集、維度歸約、數(shù)值歸約和數(shù)據(jù)壓縮等方法。其中,維度歸約通過(guò)去除數(shù)據(jù)集中的無(wú)關(guān)變量或?qū)傩葬t(yī)療智能問(wèn)答系統(tǒng)的作用,可有效控制數(shù)據(jù)處理的數(shù)量,主要技術(shù)包括小波變換、主成分分析等。

隱私保護(hù) 我國(guó)于2011年印發(fā)了《電子病歷系統(tǒng)功能規(guī)范(試行)》醫(yī)療智能問(wèn)答系統(tǒng)的作用,明確了在電子病歷過(guò)程使用過(guò)程中需進(jìn)行隱私保護(hù)。醫(yī)療大數(shù)據(jù)的隱私保護(hù)所涉及的技術(shù)問(wèn)題包括數(shù)據(jù)加密、隱私匿名處理和訪(fǎng)問(wèn)控制等,常用的算法有K-、L-、T-、差分隱私、同態(tài)加密、零知識(shí)證明等。

文本處理與信息抽取

中文分詞 目前分詞技術(shù)較為成熟,開(kāi)源的中文分詞系統(tǒng)包括有NLPIR、Jieba、、LTP、 等。然而,醫(yī)療文本在語(yǔ)言表達(dá)方面具有獨(dú)特性,例如,精煉的語(yǔ)句表達(dá)要求使得其語(yǔ)法成分不完整,存在大量醫(yī)學(xué)術(shù)語(yǔ)、數(shù)學(xué)符號(hào)和英文縮寫(xiě)等。針對(duì)專(zhuān)業(yè)性要求較強(qiáng)的醫(yī)療領(lǐng)域,需要基于先驗(yàn)知識(shí)、權(quán)威詞典、語(yǔ)料庫(kù)來(lái)提高分詞的效果。

文本標(biāo)注 醫(yī)療文本的標(biāo)注需要有標(biāo)注規(guī)范的指導(dǎo),例如,i2b2 2010的標(biāo)注規(guī)范包括有醫(yī)療實(shí)體類(lèi)型、實(shí)體間關(guān)系以及修飾類(lèi)型。語(yǔ)料的標(biāo)注的模式包括傳統(tǒng)模式、眾包模式和團(tuán)體模式,均離不開(kāi)人工的參與,而人工標(biāo)注是一項(xiàng)耗時(shí)耗力的工作,特別是對(duì)于醫(yī)療領(lǐng)域,需要有較強(qiáng)專(zhuān)業(yè)背景知識(shí)的專(zhuān)家指導(dǎo)標(biāo)注?;谏倭咳斯?biāo)注數(shù)據(jù)實(shí)現(xiàn)機(jī)器自動(dòng)標(biāo)注是一種可取的方法,可有效節(jié)約標(biāo)注成本并提高標(biāo)注效率。標(biāo)注的效果可通過(guò)F值和Kappa值等評(píng)價(jià)指標(biāo)來(lái)對(duì)標(biāo)注的一致性進(jìn)行評(píng)估。

命名實(shí)體識(shí)別 命名實(shí)體識(shí)別是信息提取的重要組成部分,也是醫(yī)療文本挖掘的基礎(chǔ)。命名實(shí)體識(shí)別方法主要有基于詞典的方法、基于規(guī)則的方法和基于機(jī)器學(xué)習(xí)的方法。醫(yī)療數(shù)據(jù)包含大量的醫(yī)學(xué)術(shù)語(yǔ),詞典是醫(yī)學(xué)知識(shí)發(fā)現(xiàn)所需的重要資源,基于詞典和規(guī)則的方法適用于規(guī)律性較強(qiáng)的簡(jiǎn)單任務(wù),單純的基于詞典和規(guī)則的方法難以應(yīng)對(duì)復(fù)雜語(yǔ)言的處理要求?;诮y(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法具有較好的健壯性,其中,條件隨機(jī)場(chǎng)( Field,CRF)模型在基于機(jī)器學(xué)習(xí)方法中得到廣泛應(yīng)用。隨著機(jī)器學(xué)習(xí)的發(fā)展,基于CNN、RNN、LSTM等模型的深度學(xué)習(xí)方法備受關(guān)注,該方法同時(shí)具備良好的非線(xiàn)性函數(shù)擬合能力和強(qiáng)大的序列建模能力。

關(guān)系抽取 關(guān)系抽取的方法主要有基于共現(xiàn)的方法、基于模式匹配的方法以及基于機(jī)器學(xué)習(xí)的方法?;诠铂F(xiàn)方法的基本思想是當(dāng)兩個(gè)實(shí)體出現(xiàn)在同一個(gè)句子中時(shí),則這兩個(gè)實(shí)體之間存在關(guān)聯(lián),且共現(xiàn)的頻率越高,則關(guān)系越強(qiáng)。基于模式匹配的方法需要基于語(yǔ)言學(xué)知識(shí)預(yù)先構(gòu)造模式集合,再將經(jīng)過(guò)處理后的醫(yī)療文本與之匹配進(jìn)行關(guān)系抽取。對(duì)于基于機(jī)器學(xué)習(xí)的關(guān)系抽取方法,其中監(jiān)督學(xué)習(xí)方法的基本思路是將醫(yī)療關(guān)系抽取視為分類(lèi)問(wèn)題,半監(jiān)督學(xué)習(xí)方法主要通過(guò)基于少量標(biāo)注語(yǔ)料來(lái)抽取關(guān)系,無(wú)監(jiān)督的方法則主要基于上下文信息對(duì)語(yǔ)義關(guān)系進(jìn)行聚類(lèi),該方法存在一定的盲目性,其性能有待提升。

上一篇:醫(yī)用呼叫器系統(tǒng) “互聯(lián)網(wǎng)+醫(yī)療”嘗試有益,但網(wǎng)絡(luò)問(wèn)診不能“一人一個(gè)說(shuō)法”
返回
下一篇:ICU探視分機(jī)系統(tǒng) 人民日?qǐng)?bào):不能為互聯(lián)網(wǎng)醫(yī)院設(shè)置新的圍墻