隨著資訊技術的蓬勃發展,資訊技術也被導入到各項領域的研究之中。由於生醫領域學門眾多、發展快速,內容十分繁雜,因此美國國家醫學圖書館 National Library of Medicine(NLM)早於 1960 年代即著手生醫文獻資訊化,建構出以收集生醫文獻為主的 Medline 資料庫與 PubMed 搜尋引擎供研究者使用。然而,現階段生醫研究者為設計實驗而搜尋資訊時,仍然得從大量未經結構化整理的文獻中,找尋其研究目標與方向,所以我們生醫文獻探勘組,繼續致力於為生醫領域開發更多便捷系統,縮短研究者們繁瑣的搜尋文獻程序,希望能加速整體生醫領域的相關研究發展。
生醫文獻至少有以下主要特性:
-
新創的命名實體繁多:在生物醫學文獻中,無論是基因名稱,蛋白質名稱,細胞名稱或是藥物名稱,皆是命名實體的一種,更是扮演者生醫研究文獻中重要的基本角色。
-
命名實體縮寫沒有命名規則且具有多變性:文獻的命名實體經常由於過於冗長,研究者常採用縮寫的方式來代表命名實體,例如 interleukin 2 可縮寫為 IL-2,或是 p53 常是 protein 53、p53 protein、protein-53等縮寫。
-
一個命名實體可能代表多個實體。
-
文句可能出現複雜巢狀結構。
-
動詞語意會具有強烈的生物獨特性,例如: active、induce等。
想像一下,我們可能會有很多稱呼,像是本名或外號,但每個人都會一個獨一無二的身分證號碼,而文獻中的基因名也是如此,所以如何將這些命名實體找出來,並將其關聯至所代表的資料庫識別號碼便是一個很重要的技術 ! 我們將藉由以下元件,更進一步的精進許多生醫文獻探勘的技術,致力開發完善的文獻前處理器,縮短生物醫學的研究者搜尋文獻時間,使學者快速找到其有興趣的文獻。
本團隊致力於發展各項具語意分析能力的生醫資訊擷取技術,與嘗試生醫新興任務,包含:
-
命名實體辨識技術( Named Entity Recognition, NER ):
於生醫文獻中找到正確的命名實體位置。命名實體包含基因、蛋白質、疾病名稱等等。
-
命名實體正規化( Named Entity Normalization ):
於生醫文獻中的命名實體對應到生醫資料庫識別號碼。
-
關係抽取( Relation Extraction ):
提取生醫文獻內的命名實體之間的關聯作用,並指出該作用的類型。
例如:疾病與疾病的協同作用、蛋白質與蛋白質的交互作用等。
-
問答( Question Answering, QA ):
在 Standard Question Answering Dataset (SQuAD) 成功作為一般領域的問答指標任務後,
建立一個生醫的問答資料集和系統開始蔚為流行。Biomedical Semantic Indexing and Question Answering (BioASQ) 以及 Google 的 PubMed QA 都提供了任務公開的排行榜。
而他們的資料來源都是PubMed的摘要來取代一般的維基百科。