一些研究表明,目前已經公布的基因組存在多種污染,隨著這個問題越來越突出,我們需要找出方法來應對
Supratim Mukherjee在進行數據分析的時候,發現數以百計的微生物基因組中會重復出現同一種噬菌體序列,這令他感到很驚訝。這位來自勞倫斯伯克利國家實驗室的生物信息學家開始是為了比對這些微生物的代謝途徑,但后來他發現了幾乎無處不在的序列,“我以為我們發現了一些新的東西,”他回憶道,“在這些不同的微生物中,這整個噬菌體基因組是完整地保留下來的。”
但當Mukherjee一開始分析這個噬菌體序列時,他就知道這就是 PhiX 序列,一種Illumina公司測序試劑盒中用做標準品的噬菌體。PhiX 本來是作為一種質控檢測指標,用于追蹤每個測序過程中出現的錯誤率的,但在上百個案例中,Mukherjee發現研究人員都沒有從其公布的基因組序列中剔除Phi X的序列。
并不是只有Mukherjee一人發現此種情況,近大量的報告表明,發表的基因組出現污染要不之前想象的多得多。那么這些污染是如何出現的呢?我們有能做些什么,避免這些情況的出現呢?
就此The Scientist雜志請教了幾位研究人員,他們分享了他們的一些Tips,可以檢測和預防出現“流-氓序列”。
廣泛的基因污染
在Mukherjee 研究組意識到 PhiX 污染可能會出現了多個公布的微生物基因組中之后,這一研究組覺得量化其出現頻率。通過分析調查,Mukherjee等人發現在已出版的1.8萬個細菌和古細菌基因組(Integrated Microbial Genomes database)中,超過1000個序列被PhiX 序列污染。今年Mukherjee等人已經將這一發現公布在Standards in Genomic Sciences上。而這些其中的10%也出現在了同行評審的期刊雜志中。
PhiX 污染還只是冰山一角——現在問題呈指數級增長,NCBI總監David Lipman說,他也正在篩選過去五年間,呈遞到GenBank中的數據。
“我們檢測到2012年細菌和古細菌的污染情況還只有2%-3%,” Lipman說,“但之后就急速攀升,到2014年,已經接近了10%。今年到目前為止,這一比率達到23%”。
Sanger研究所的科學家們也發現,DNA提取試劑盒、化學試劑和實驗室環境中的雜菌很容易造成污染,影響微生物組分析的結果。
研究人員發現,沒有污染的話對照樣本應該只有一種菌,但有時卻出現了270種不同的細菌。與高生物量的樣本相比(糞便樣本),來自血液或肺部的低生物量樣本尤其容易受到污染。
“現在的DNA測序技術允許人們進行深度測序,被廣泛用于稀少微生物群體的分析。我們發現,這類樣本很容易被其他來源的DNA污染,要么在收集樣品的時候,要么在DNA提取和擴增過程中。污染會對研究結果產生很大的影響,這一點需要研究者們給予足夠的重視,”Sanger研究所的Alan Walker博士說。
而且微生物也不是唯1出現這么多污染的研究領域,去年倫敦大學學院的計算機專家William Langdon發現,千人基因組計劃中至少7%受到了支原體遺傳物質的污染(BioData Mining, 7:3, 2014),因此如果說你對污染的基因組感到頭疼的話,放心,你不是唯1一個。
污染從哪里來?
來自圣地亞哥州立大學的生物信息學家Rob Edwards說,污染出現的來源很多,“首先就是實驗室成員可能混淆了兩個樣品,不小心給文件或者樣本貼上了錯誤的標簽。這些都可以通過加強實驗室管理,提高實驗記錄保存制度等很容易解決。”
另一方面,污染也有可能來自其它本不應該出現在樣品中的外來遺傳物質,又或者來自培養細菌周圍的環境,Edwards說。即使你認為自己測序的是單一培養產物,但是在一個測序循環中出現多個物種的情況,并不少見。
此外,如果正在測序來自人類腸道的微生物,那么樣品中自然會出現人體細胞,還有即使你只想要測序某個生物體的細胞核基因,也會出現細胞內線粒體和葉綠體基因,這些也都是污染。這些污染當然很難*避免,但是可以采取一些措施:在測序之前清理樣品,或者在測序結果中剔除污染的序列。
Edwards的研究組聚焦于來自環境樣品的宏基因組測序,他表示其研究組就常常利用過濾設備,根據大小對病毒和細菌混合物進行分離。如果他們推測樣品中存在人體DNA的污染,那么就會先剔除這些序列,只留下微生物的基因樣本。
同樣如果需要清除系統中的污染,比如PhiX 對照序列,目標基因序列擴增測序用的引物和測序接頭,還有克隆載體等,也可以采用相類似的方法。
考慮完這些,還有一個容易忽略的問題,那就是設備機器在實驗過程中留下的污染,清楚了解這些污染的來源,可以幫助研究人員在測序后選擇方法剔除他們,Edwards說,如果污染重復出現,那么也許就需要改變方法或調試機器了。
然而污染的另一個來源是臟之間實驗,出血,通過讓基因由事先測序運行出現在下一次的機器。愛德華茲說,只被察覺這種污染可能存在于你的實驗可以幫助您選擇將其刪除后測序的方法。或者,如果它反復出現,您可以嘗試geng改協議或故障排除您的機器。
如何檢測?
毫無疑問,在實驗過程中越早剔除污染物越好,“這些污染會增加實驗直接的成本,”來自愛丁堡大學的Dominik Laetsch 說,出現污染,“每分錢理論上你得到的核苷酸信息就越少,”因為需要花時間處理和分析不需要的序列。但也有個好消息——即使序列中充滿了 PhiX、引物、載體和不想要物種的基因,還是能在別人看到你終公布的基因組之前剔除它們。
Laetsch就開發了這樣的一個工具,幫助數據分析之前進行序列清除,這個工具叫Blobtools-light,是目前的-新版本,能將你的contigs(組裝成終序列中的測序DNA重疊部分)與NCBI數據庫中的已知序列進行比對,然后軟件還會通過可視化方式來解釋這種比對——來自相似生物物種的序列會突出來。
“我們利用這作為初步篩選工具,”Laetsch說,她正在進行病原細菌的相關研究。
此外,還有一個類似的程序:ProDeGe (Protocol for fully automated Decontamination of Genomes,全自動凈化基因組協議)(ISME, doi:10.1038/ismej.2015.100, 2015).
與Blobtools一樣,ProDeGe采用的也是公共數據庫,可以檢測一個基因組中的污染,然后將contigs分組歸類到“無污染”組和“污染”組。比價而言,Blobtools-light可以提供可視化序列圖表,ProDeGe則能幫助研究人員識別并鑒定污染物是什么。
“這種方法比較簡單,不用了解太多”,Mukherjee說,“因此對于不擅長此類工具的研究人員來說比較合適。”
當然還有其它方法,如NCBI的VecScreen,這是一種可以快速識別序列中污染載體的方法,晚些時候NCBI網-站還將公布geng多geng先進的工具。
不過所有用來檢測污染物的工具都必須把握住特異性和敏感度之間的平衡,也就是精確識別出污染物,而不刪除靶標序列。因此了解清楚你的整體數據就顯得額外重要,比如說,如果你分析的是新的基因組,那么程序肯定會提示了污染物水平高,因為已有數據庫并未包含你的序列數據。
又或者,如果你知道會出現高污染細菌基因組,那么就能列出污染物清單,Edwards說,“我推薦多運行幾個工具,比對結果。”
如何去除污染
一旦找到了污染物和污染源,那么就可以開始進行數據清理了。這其中有多種工具可以選擇,如Edwards研究組開發的DeconSeq,與其它自動化污染篩選程序不同,DeconSeq需要用戶輸入污染物的物種屬性,然后再自動剔除基因組組裝內容里的屬于這一物種的序列。
如果跳過了這一步驟,也許就會引起麻煩。Lipman研究組在NCBI系統中就運行一個針對每個呈遞到GenBank中序列的外源污染物篩選,他希望當篩選出一個序列標記為污染物時,科學家們能將其認為是了解數據的一個機會,并且了解技術的弱點,在未來避免出現這個問題。
“如果你只是說‘好吧,我的呈遞出現了問題,我現在就修改它’,那么這個問題還是不斷出現,”Lipman說。
但是如果是在論文公布后發現基因組中出現污染呢?比如說之后進行geng多實驗的時候發現了錯誤,那么重點是盡早修改錯誤,以防其他人將這些錯誤的成果用于自己的研究中。在某些情況下,這也許就意味著與雜志取得聯-系,看看能不能進行勘誤。
“大家需要對自己的序列數據負責,”Mukherjee說,“如果你發現了問題,那么就要撤回它進行修改,然后再重新發布。”
如何改善基因組污染問題
隨著測序技術的進步,也許未來許多污染源會自動消失,這確實可能,Laetsch說,“隨著組裝過程越來越容易,讀長越來越長,肯定要找出污染也會變得容易,”但是研究人員不能將這作為停止篩選污染物的借口,“你放入的樣品越好,測序機器就會做的越好。”
而隨著基因組數據變得越來越龐大,要想獲得干凈的序列也越來越難,這有賴于每個學者都盡其所能確保自己基因組序列不出現污染,“我認為科學界都知道污染物是個大問題,但是這還需要geng多的努力”,Mukherjee說。
GenBank中污染物出現頻率猛增,Lipman也贊同這個問題的共識性,為何會出現越來越的污染呢,Lipman對這個問題表示,“越來越多的實驗室都可以進行測序研究了,這本身是個令人高興的事情。”