
售前電話
135-3656-7657
售前電話 : 135-3656-7657
國家高新技術企業 省級專精特新企業
咨詢熱線:135-3656-7657 400-6333-661
性能評估 需要選擇特定的度量參數,在數據挖掘之后,通過實驗和測試來評估模型的性能。與此同時,預先選取的度量參數可用于指導和約束知識發現過程。
交互迭代 知識發現是一個反復迭代的過程。對于數據挖掘所得到的模式和知識,需要通過持續的分析、反饋與糾正實現進一步優化,從而獲得相對理想的知識模型。例如,基于數據挖掘的結果,分析是否需要從內外部數據源獲取更多的數據,或者需要重新對數據進行處理。
知識表示 利用標簽云、熱力圖、樹狀圖等可視化技術直觀展示所發現的知識,基于關聯關系和時間序列還可實現患者畫像。知識發現的結果可用于病歷檢索、疾病預測、藥物發現、臨床輔助決策、智能問答、精準醫療以及臨床教學等醫學應用。
關鍵技術
數據預處理
數據清洗 數據清洗包括填補空缺值、平滑噪聲數據和糾正不一致數據來改善數據質量等任務。由于人工填補數據工作量大且可行性差,可采用貝葉斯和決策樹等機器學習方法來預測最佳默認值。對于數據源中的異常屬性值,可采用分箱、回歸、聚類等平滑噪聲數據處理方法。數據的不一致性可通過數據之間的相關性分析來糾正。
數據集成 數據集成的作用在于將多來源的臨床文本數據集成至統一的數據存儲中,提高數據挖掘的準確性和速度。數據集成需要解決異構數據集成時的表達不一致和冗余數據問題,可通過相關分析來檢測,卡方檢驗是常用的分析方法。
數據轉換 數據轉換的作用在于將原始數據轉換成適合于數據挖掘的統一形式。數據轉換方法包括平滑噪聲、數據聚合和數據規范化。其中,常用的規范化方法有最小-最大規范化、零-均值規范化和小數定標規范化。
數據歸約 基于醫療大數據的文本處理,需要在確保數據完整性的前提下,通過數據歸約可獲得精簡的數據集合,提高數據挖掘的效率。數據歸約可采用數據立方體聚集、維度歸約、數值歸約和數據壓縮等方法。其中,維度歸約通過去除數據集中的無關變量或屬性醫療智能問答系統的作用,可有效控制數據處理的數量,主要技術包括小波變換、主成分分析等。
隱私保護 我國于2011年印發了《電子病歷系統功能規范(試行)》醫療智能問答系統的作用,明確了在電子病歷過程使用過程中需進行隱私保護。醫療大數據的隱私保護所涉及的技術問題包括數據加密、隱私匿名處理和訪問控制等,常用的算法有K-、L-、T-、差分隱私、同態加密、零知識證明等。
文本處理與信息抽取
中文分詞 目前分詞技術較為成熟,開源的中文分詞系統包括有NLPIR、Jieba、、LTP、 等。然而,醫療文本在語言表達方面具有獨特性,例如,精煉的語句表達要求使得其語法成分不完整,存在大量醫學術語、數學符號和英文縮寫等。針對專業性要求較強的醫療領域,需要基于先驗知識、權威詞典、語料庫來提高分詞的效果。
文本標注 醫療文本的標注需要有標注規范的指導,例如,i2b2 2010的標注規范包括有醫療實體類型、實體間關系以及修飾類型。語料的標注的模式包括傳統模式、眾包模式和團體模式,均離不開人工的參與,而人工標注是一項耗時耗力的工作,特別是對于醫療領域,需要有較強專業背景知識的專家指導標注。基于少量人工標注數據實現機器自動標注是一種可取的方法,可有效節約標注成本并提高標注效率。標注的效果可通過F值和Kappa值等評價指標來對標注的一致性進行評估。
命名實體識別 命名實體識別是信息提取的重要組成部分,也是醫療文本挖掘的基礎。命名實體識別方法主要有基于詞典的方法、基于規則的方法和基于機器學習的方法。醫療數據包含大量的醫學術語,詞典是醫學知識發現所需的重要資源,基于詞典和規則的方法適用于規律性較強的簡單任務,單純的基于詞典和規則的方法難以應對復雜語言的處理要求。基于統計機器學習的方法具有較好的健壯性,其中,條件隨機場( Field,CRF)模型在基于機器學習方法中得到廣泛應用。隨著機器學習的發展,基于CNN、RNN、LSTM等模型的深度學習方法備受關注,該方法同時具備良好的非線性函數擬合能力和強大的序列建模能力。
關系抽取 關系抽取的方法主要有基于共現的方法、基于模式匹配的方法以及基于機器學習的方法。基于共現方法的基本思想是當兩個實體出現在同一個句子中時,則這兩個實體之間存在關聯,且共現的頻率越高,則關系越強。基于模式匹配的方法需要基于語言學知識預先構造模式集合,再將經過處理后的醫療文本與之匹配進行關系抽取。對于基于機器學習的關系抽取方法,其中監督學習方法的基本思路是將醫療關系抽取視為分類問題,半監督學習方法主要通過基于少量標注語料來抽取關系,無監督的方法則主要基于上下文信息對語義關系進行聚類,該方法存在一定的盲目性,其性能有待提升。