久久精品视,精品少妇一区二区三区视频,亚洲码和欧洲码168区,国产乱妇乱子视频在播放

返回欄目

智慧醫(yī)院 > 新聞資訊 >

醫(yī)院ICU家屬探視系統(tǒng) 基于醫(yī)療大數(shù)據(jù)的臨床文本處理與知識發(fā)現(xiàn)方法研究

2023-10-18 11:21

性能評估需要選擇特定的度量參數(shù)，在數(shù)據(jù)挖掘之后，通過實驗和測試來評估模型的性能。與此同時，預先選取的度量參數(shù)可用于指導和約束知識發(fā)現(xiàn)過程。

交互迭代知識發(fā)現(xiàn)是一個反復迭代的過程。對于數(shù)據(jù)挖掘所得到的模式和知識，需要通過持續(xù)的分析、反饋與糾正實現(xiàn)進一步優(yōu)化，從而獲得相對理想的知識模型。例如，基于數(shù)據(jù)挖掘的結果，分析是否需要從內外部數(shù)據(jù)源獲取更多的數(shù)據(jù)，或者需要重新對數(shù)據(jù)進行處理。

知識表示利用標簽云、熱力圖、樹狀圖等可視化技術直觀展示所發(fā)現(xiàn)的知識，基于關聯(lián)關系和時間序列還可實現(xiàn)患者畫像。知識發(fā)現(xiàn)的結果可用于病歷檢索、疾病預測、藥物發(fā)現(xiàn)、臨床輔助決策、智能問答、精準醫(yī)療以及臨床教學等醫(yī)學應用。

關鍵技術

數(shù)據(jù)預處理

數(shù)據(jù)清洗數(shù)據(jù)清洗包括填補空缺值、平滑噪聲數(shù)據(jù)和糾正不一致數(shù)據(jù)來改善數(shù)據(jù)質量等任務。由于人工填補數(shù)據(jù)工作量大且可行性差，可采用貝葉斯和決策樹等機器學習方法來預測最佳默認值。對于數(shù)據(jù)源中的異常屬性值，可采用分箱、回歸、聚類等平滑噪聲數(shù)據(jù)處理方法。數(shù)據(jù)的不一致性可通過數(shù)據(jù)之間的相關性分析來糾正。

數(shù)據(jù)集成數(shù)據(jù)集成的作用在于將多來源的臨床文本數(shù)據(jù)集成至統(tǒng)一的數(shù)據(jù)存儲中，提高數(shù)據(jù)挖掘的準確性和速度。數(shù)據(jù)集成需要解決異構數(shù)據(jù)集成時的表達不一致和冗余數(shù)據(jù)問題，可通過相關分析來檢測，卡方檢驗是常用的分析方法。

數(shù)據(jù)轉換數(shù)據(jù)轉換的作用在于將原始數(shù)據(jù)轉換成適合于數(shù)據(jù)挖掘的統(tǒng)一形式。數(shù)據(jù)轉換方法包括平滑噪聲、數(shù)據(jù)聚合和數(shù)據(jù)規(guī)范化。其中，常用的規(guī)范化方法有最小-最大規(guī)范化、零-均值規(guī)范化和小數(shù)定標規(guī)范化。

數(shù)據(jù)歸約基于醫(yī)療大數(shù)據(jù)的文本處理，需要在確保數(shù)據(jù)完整性的前提下，通過數(shù)據(jù)歸約可獲得精簡的數(shù)據(jù)集合，提高數(shù)據(jù)挖掘的效率。數(shù)據(jù)歸約可采用數(shù)據(jù)立方體聚集、維度歸約、數(shù)值歸約和數(shù)據(jù)壓縮等方法。其中，維度歸約通過去除數(shù)據(jù)集中的無關變量或屬性醫(yī)療智能問答系統(tǒng)的作用，可有效控制數(shù)據(jù)處理的數(shù)量，主要技術包括小波變換、主成分分析等。

隱私保護我國于2011年印發(fā)了《電子病歷系統(tǒng)功能規(guī)范（試行）》醫(yī)療智能問答系統(tǒng)的作用，明確了在電子病歷過程使用過程中需進行隱私保護。醫(yī)療大數(shù)據(jù)的隱私保護所涉及的技術問題包括數(shù)據(jù)加密、隱私匿名處理和訪問控制等，常用的算法有K-、L-、T-、差分隱私、同態(tài)加密、零知識證明等。

文本處理與信息抽取

中文分詞目前分詞技術較為成熟，開源的中文分詞系統(tǒng)包括有NLPIR、Jieba、、LTP、等。然而，醫(yī)療文本在語言表達方面具有獨特性，例如，精煉的語句表達要求使得其語法成分不完整，存在大量醫(yī)學術語、數(shù)學符號和英文縮寫等。針對專業(yè)性要求較強的醫(yī)療領域，需要基于先驗知識、權威詞典、語料庫來提高分詞的效果。

文本標注醫(yī)療文本的標注需要有標注規(guī)范的指導，例如，i2b2 2010的標注規(guī)范包括有醫(yī)療實體類型、實體間關系以及修飾類型。語料的標注的模式包括傳統(tǒng)模式、眾包模式和團體模式，均離不開人工的參與，而人工標注是一項耗時耗力的工作，特別是對于醫(yī)療領域，需要有較強專業(yè)背景知識的專家指導標注。基于少量人工標注數(shù)據(jù)實現(xiàn)機器自動標注是一種可取的方法，可有效節(jié)約標注成本并提高標注效率。標注的效果可通過F值和Kappa值等評價指標來對標注的一致性進行評估。

命名實體識別命名實體識別是信息提取的重要組成部分，也是醫(yī)療文本挖掘的基礎。命名實體識別方法主要有基于詞典的方法、基于規(guī)則的方法和基于機器學習的方法。醫(yī)療數(shù)據(jù)包含大量的醫(yī)學術語，詞典是醫(yī)學知識發(fā)現(xiàn)所需的重要資源，基于詞典和規(guī)則的方法適用于規(guī)律性較強的簡單任務，單純的基于詞典和規(guī)則的方法難以應對復雜語言的處理要求?；诮y(tǒng)計機器學習的方法具有較好的健壯性，其中，條件隨機場（ Field，CRF）模型在基于機器學習方法中得到廣泛應用。隨著機器學習的發(fā)展，基于CNN、RNN、LSTM等模型的深度學習方法備受關注，該方法同時具備良好的非線性函數(shù)擬合能力和強大的序列建模能力。

關系抽取關系抽取的方法主要有基于共現(xiàn)的方法、基于模式匹配的方法以及基于機器學習的方法?；诠铂F(xiàn)方法的基本思想是當兩個實體出現(xiàn)在同一個句子中時，則這兩個實體之間存在關聯(lián)，且共現(xiàn)的頻率越高，則關系越強?；谀Ｊ狡ヅ涞姆椒ㄐ枰谡Z言學知識預先構造模式集合，再將經(jīng)過處理后的醫(yī)療文本與之匹配進行關系抽取。對于基于機器學習的關系抽取方法，其中監(jiān)督學習方法的基本思路是將醫(yī)療關系抽取視為分類問題，半監(jiān)督學習方法主要通過基于少量標注語料來抽取關系，無監(jiān)督的方法則主要基于上下文信息對語義關系進行聚類，該方法存在一定的盲目性，其性能有待提升。

上一篇：醫(yī)用呼叫器系統(tǒng) “互聯(lián)網(wǎng)+醫(yī)療”嘗試有益，但網(wǎng)絡問診不能“一人一個說法”; 返回
下一篇：ICU探視分機系統(tǒng) 人民日報：不能為互聯(lián)網(wǎng)醫(yī)院設置新的圍墻

全國熱線

400-6333-661

售前電話

135-3656-7657

全國熱線 : 400-6333-661

售前電話 : 135-3656-7657

總部地址

廣東省珠海市香洲區(qū)金鼎工業(yè)園金恒一路9號1棟

熱推信息 | 企業(yè)分站

網(wǎng)站地圖 | RSS | TAG標簽

微信客服
瀏覽更多產(chǎn)品 >