
售前電話
135-3656-7657
售前電話 : 135-3656-7657
國家高新技術企業 省級專精特新企業
咨詢熱線:135-3656-7657 400-6333-661
1、項目背景
為通過項目實戰增加對知識圖譜的認識,幾乎找了所有網上的開源項目及視頻實戰教程。
果然,功夫不負有心人,找到了中科院軟件所劉煥勇老師在上的開源項目,基于知識圖譜的醫藥領域問答項目。
項目地址:
用了兩個晚上搭建了兩套,Mac版與版,哈哈,運行成功!!!
從無到有搭建一個以疾病為中心的一定規模醫藥領域知識圖譜,以該知識圖譜完成自動問答與分析服務。該項目立足醫藥領域,以垂直型醫藥網站為數據來源,以疾病為核心,構建起一個包含7類規模為4.4萬的知識實體,11類規模約30萬實體關系的知識圖譜。 本項目將包括以下兩部分的內容:
1、基于垂直網站數據的醫藥知識圖譜構建
2、基于醫藥知識圖譜的自動問答 2、項目環境 2.1 系統
搭建中間有很多坑,且行且注意。
配置要求:要求配置neo4j數據庫及相應的依賴包。neo4j數據庫用戶名密碼記住,并修改相應文件。
安裝neo4j,neo4j 依賴java jdk 1.8版本以上:
java jdk安裝方法可參考: 系統下安裝JDK8,下載地址:
安裝neo4j可參考博文: 安裝neo4j,下載地址:
安裝可參考: 環境下安裝.7
根據neo4j 安裝時的端口、賬戶、密碼配置設置設置項目配置文件:.py&.py(下載項目時根據個人需要也可使用git)
數據導入: .py,導入的數據較多,估計需要幾個小時。
.py導入數據之前,需要在該文件main函數中加入:
.py
啟動問答: .py
2.2 Mac系統
mac本身自帶、java jdk環境,可直接安裝neo4j圖數據庫,項目運行步驟與基本一樣。
問題解答:
安裝過程中如遇問題可聯系: -sbb。 2.3 Neo4j數據庫展示
2.4 問答系統運行效果
3、項目介紹
該項目的數據來自垂直類醫療網站尋醫問藥,使用爬蟲腳本.py,以結構化數據為主,構建了以疾病為中心的醫療知識圖譜,實體規模4.4萬,實體關系規模30萬。的設計根據所采集的結構化數據生成,對網頁的結構化數據進行xpath解析。
項目的數據存儲采用Neo4j圖數據庫,問答系統采用了規則匹配方式完成,數據操作采用neo4j聲明的。
項目的不足之處在于疾病的引發原因、預防等以大段文字返回,這塊可引入事件抽取,可將原因結構化表示出來。
3.1 項目目錄
. ├── README.md ├── __pycache__ \\編譯結果保存目錄 │ ├── answer_search.cpython-36.pyc │ ├── question_classifier.cpython-36.pyc │ └── question_parser.cpython-36.pyc ├── answer_search.py ├── answer_search.pyc ├── build_medicalgraph.py \\知識圖譜數據入庫腳本 ├── chatbot_graph.py \\問答程序腳本 ├── data │ └── medicaln.json \\本項目的全部數據,通過build_medicalgraph.py導neo4j ├── dict │ ├── check.txt \\診斷檢查項目實體庫 │ ├── deny.txt \\否定詞庫 │ ├── department.txt \\醫療科目實體庫 │ ├── disease.txt \\疾病實體庫 │ ├── drug.txt \\藥品實體庫 │ ├── food.txt \\食物實體庫 │ ├── producer.txt \\在售藥品庫 │ └── symptom.txt \\疾病癥狀實體庫 ├── document │ ├── chat1.png \\系統運行問答截圖01 │ ├── chat2.png \\系統運行問答截圖01 │ ├── kg_route.png \\知識圖譜構建框架 │ ├── qa_route.png \\問答系統框架圖 ├── img \\README.md中的所用圖片 │ ├── chat1.png │ ├── chat2.png │ ├── graph_summary.png │ ├── kg_route.png │ └── qa_route.png ├── prepare_data │ ├── build_data.py \\數據庫操作腳本 │ ├── data_spider.py \\網絡資訊采集腳本 │ └── max_cut.py \\基于詞典的最大向前/向后腳本 ├── question_classifier.py \\問句類型分類腳本 ├── question_classifier.pyc ├── question_parser.py \\問句解析腳本 ├── question_parser.pyc
3.2 知識圖譜的實體類型