生物醫(yī)學作為一門需要大量論證、實驗、測試的領(lǐng)域,其研制工作需要大量的參考文獻數(shù)據(jù)支撐,各類科學文獻數(shù)據(jù)沒有科學采集、規(guī)范化處理、有效匯集,需要進行更專業(yè)的標準化管理和服務管理以及挖掘數(shù)據(jù)潛在價值,需要一套開放、靈活、可擴展的面向科技文獻數(shù)據(jù)采集及規(guī)范處理的系統(tǒng)。
科技文獻數(shù)據(jù)采集及規(guī)范處理系統(tǒng)涉及多種數(shù)據(jù)處理工具、模塊,需要建設(shè)專業(yè)的數(shù)據(jù)中臺。采用持續(xù)集成方式逐步完成系統(tǒng)整體的構(gòu)建,系統(tǒng)整體以數(shù)據(jù)中臺為基礎(chǔ),向下與用戶的專用服務器相連實現(xiàn)數(shù)據(jù)的存儲和讀取,向上逐步定制研發(fā)并集成數(shù)據(jù)采集工具、數(shù)據(jù)交互工具、數(shù)據(jù)可視化展示工具、數(shù)據(jù)過濾分析工具、權(quán)限管理工具、學科分類工具、主題標引工具、科研實體規(guī)范工具和數(shù)據(jù)更新維護工具,實現(xiàn)對領(lǐng)域內(nèi)科技文獻的數(shù)據(jù)采集、數(shù)據(jù)預處理、數(shù)據(jù)交互、數(shù)據(jù)過濾分析、數(shù)據(jù)分類、數(shù)據(jù)規(guī)范、數(shù)據(jù)更新維護等科技文獻數(shù)據(jù)全生命周期管理。同時,在數(shù)據(jù)中臺對科技文獻數(shù)據(jù)規(guī)范化的基礎(chǔ)上,將標準化的文獻數(shù)據(jù)以API接口的形式對外提供數(shù)據(jù)服務,使相關(guān)單位各系統(tǒng)模塊之間數(shù)據(jù)實現(xiàn)互聯(lián)互通,從而打造一套集數(shù)據(jù)采集、融合、加工、規(guī)范、更新、管理與服務為一體的科技文獻數(shù)據(jù)全流程生態(tài)鏈。
基于數(shù)據(jù)中臺的科技文獻數(shù)據(jù)采集及規(guī)范處理解決方案包括科技文獻基礎(chǔ)數(shù)據(jù)采集、結(jié)構(gòu)化數(shù)據(jù)采集及解析、科技文獻數(shù)據(jù)本地保存與管理、科技文獻數(shù)據(jù)規(guī)范化處理、科技文獻數(shù)據(jù)更新維護。通過大數(shù)據(jù)與人工智能技術(shù)構(gòu)建科技文獻數(shù)據(jù)采集及規(guī)范處理系統(tǒng),搭建一套面向生物醫(yī)學領(lǐng)域科技文獻數(shù)據(jù)管控的數(shù)據(jù)中臺。
目前面向科技文獻數(shù)據(jù)處理的數(shù)據(jù)中臺,以在中國醫(yī)學科學院醫(yī)學信息研究所建設(shè),一期完成生物醫(yī)學科技文獻基礎(chǔ)數(shù)據(jù)采集5000多萬條。完成科技文獻全文數(shù)據(jù)來源分析,結(jié)構(gòu)化數(shù)據(jù)采集及解析,全文數(shù)量達到400多萬條。通過提供數(shù)據(jù)中臺及服務幫助研究所實現(xiàn)對科技文獻數(shù)據(jù)的采集、融合、加工、規(guī)范、更新、管理與服務,構(gòu)建成為一整套面向科技文獻數(shù)據(jù)采集及規(guī)范處理的工具,實現(xiàn)各個模塊之間數(shù)據(jù)的互聯(lián)互通。
針對高水平數(shù)字文獻信息資源的需求,提供一套可借鑒、可復制、具有普適性的科技文獻數(shù)據(jù)治理解決方案,科技文獻數(shù)據(jù)治理形成具有基礎(chǔ)、共性的技術(shù)標準和規(guī)范體系。構(gòu)建開放、靈活、可擴展的面向科技文獻數(shù)據(jù)采集及規(guī)范處理的管理系統(tǒng),支持權(quán)益管理、各類數(shù)據(jù)采集,實現(xiàn)科研論文全文集中管理,覆蓋自主加工、開放獲取、購置等多來源國際高質(zhì)量期刊、文摘數(shù)據(jù)、規(guī)范化引文數(shù)據(jù)的集成文獻數(shù)據(jù)倉儲,為科技文獻智能服務、科研學術(shù)分析提供基礎(chǔ)數(shù)據(jù)支撐,提升科研院所科技文獻數(shù)字化分析水平,全面支撐科研院所相關(guān)領(lǐng)域科學技術(shù)發(fā)展。