食源性疾病是全球重要的公共衛(wèi)生和食品安全問題,近年來,食源性疾病呈現出跨區(qū)域傳播、變化快、難預測的特點。依托于國家重點研發(fā)計劃課題“基于多源數據的食源性疾病實時預警技術體系研究”,中國科學院計算機網絡信息中心大數據部將大數據和機器學習技術與食源性疾病預測的實際需求進行深度融合,在該交叉領域取得多項研究成果,相關研究成果分別發(fā)表在Food Control、Foodborne Pathogens and Disease和JMIR Medical Informatics上。
食源性疾病致菌是導致食源性疾病的主要原因,使用數據挖掘、機器學習的方法挖掘食源性疾病因素之間潛在的關聯(lián),從而對致病菌進行識別,能夠對食源性疾病的診療起到輔助作用。課題組提出了一種利用機器學習來識別食源性疾病致病菌的方法,從空間、時間、患者信息、暴露食品等方面提取特征,使用合適的機器學習模型來對特征進行訓練和學習,從而對重要的食源性疾病致病菌進行識別,以對食源性疾病的診療提供輔助支持。進一步,針對食源性疾病發(fā)病情況的時空預測問題,課題組提出了基于多圖結構化LSTM的時空風險預測模型,該模型能夠通過構造多種空間相關性并進行動態(tài)融合,利用基于Encoder-Decoder的結構化LSTM模型同時對數據的時間依賴性和空間依賴性進行建模,實現對疾病風險的多步預測。相關研究成果發(fā)表在JMIR Medical Informatics上。
食源性疾病暴發(fā)是指發(fā)生兩例及以上具有共同暴露和癥狀相似的食源性疾病病例,目前,食源性疾病報告監(jiān)測系統(tǒng)基于篩選規(guī)則來發(fā)現疑似食源性疾病暴發(fā)事件,但該方法普遍存在誤判的現象。為了進一步提高暴發(fā)識別和預測的準確性,課題組設計出一種基于機器學習的食源性疾病暴發(fā)識別模型。在識別暴發(fā)的同時分析各類特征和致病因素對判別結果的影響,這對醫(yī)學工作者具有借鑒意義。相關研究成果發(fā)表在Foodborne Pathogens and Disease上。
基于上述系列研究成果,課題組發(fā)現大數據與機器學習技術可以在病例報告、疾病診斷、暴發(fā)識別和風險預測階段,改善現有的食源性疾病監(jiān)控系統(tǒng),并在此基礎上總結出機器學習驅動的食源性疾病監(jiān)控系統(tǒng)框架,以促進未來對食源性疾病監(jiān)測系統(tǒng)做出更智能的改進。相關研究成果發(fā)表在Food Control上。

圖1.食源性疾病時空風險預測模型架構

圖2.基于機器學習方法的食源性疾病暴發(fā)優(yōu)化
