<font id="jvfph"><ruby id="jvfph"></ruby></font>

    <sub id="jvfph"></sub>

          <output id="jvfph"><strike id="jvfph"><p id="jvfph"></p></strike></output>

              <menuitem id="jvfph"><ruby id="jvfph"></ruby></menuitem>

              <menuitem id="jvfph"></menuitem>

                科研

                首頁 - 全部文章 - 科研 - Genome Bio| 靈敏、快速的基因組污染檢測新工具FCS-GX,可自動去除污染序列、提高數據質量

                Genome Bio| 靈敏、快速的基因組污染檢測新工具FCS-GX,可自動去除污染序列、提高數據質量

                目前,美國國家生物技術信息中心(NCBI)擁有超過150萬個提交至GenBank、歐洲核苷酸檔案館(ENA)和日本DNA數據庫(DDBJ)的基因組組裝,這三大數據庫是國際核酸序列共享聯盟(INSDC)的合作組織,通常稱為“GenBank”,總共包含超22 terabases的基因組序列數據。近年來,測序成本降低加速了基因組組裝的產生及其向公共數據庫的提交,GenBank中的序列堿基大約每18個月便會增加一倍。

                作為基因組組裝的一部分,所提交的全部序列都應來自申報的源生物,但少部分序列往往來自外源DNA(即基因組污染),污染可能發生在基因組組裝計劃的多個階段?;蚪M污染會混淆生物學推斷,并造成進化關系和橫向基因轉移等方面的錯誤結論,因此高質量的基因組對于跨生物學學科的數據分析至關重要。已有大量報道指出NCBI數據庫中存在污染,包括模式生物基因組。尤其令人擔憂的是,將受污染的序列和相關注釋添加到數據庫中可能會使錯誤永久化,從而導致惡性循環。

                近日,來自NCBI的科研人員在Genome Biology雜志上發表了題為“Rapid and sensitive detection of genome contamination at scale with FCS-GX”的文章。研究團隊開發了FCS-GX,其是NCBI外來污染篩查(FCS)工具套件的一部分,經過優化,可識別和去除新基因組中的污染物序列。FCS-GX可在0.1-10分鐘內篩選大多數基因組,對不同污染物種類具有高靈敏度和特異性。研究團隊利用FCS-GX對160萬個GenBank組裝進行了篩選,發現了36.8Gbp的污染,占堿基總數的0.16%,其中一半來自161個組裝。此外,研究團隊還更新了NCBI RefSeq中的組裝,將可檢測到的堿基污染減少至0.01%。
                FCS-GX可在https://github.com/ncbi/fcs/或https://doi.org/10.5281/zenodo.10651084獲得。

                文章發表在Genome Biology

                對已知污染基因組的特別分析表明,需要一個大型和多樣化的篩選數據庫來檢測潛在污染物的多樣性,并將其與正確的序列區分開來。為此,研究團隊開發了FCS-GX,通過使用已修改的hashed k-mers(h-mers)來識別潛在的序列匹配,可在不影響特異性的情況下提高對污染物的敏感性。與標準的k-mer hashmap相比,FCS-GX數據庫的構建包括刪除密碼子搬動位置,并使用1位核苷酸字母{[AG],[CT]}來增加編碼區域的敏感性。
                FCS-GX根據709 Gbp的多樣參考數據庫進行篩選(數據庫構建日期為2023年1月24日),其中包括來自47,754個類群的程序集;該數據庫經過優化,可適應512 GiB內存的服務器。FCS-GX分類系統使用了八個較大的分類“kingdoms”:動物(Metazoa)、植物(Viridiplantae)、真菌、原生生物(其他真核生物)、細菌、古菌、病毒和合成序列。根據NCBI Taxonomy分配的BLAST名稱分組,每個kingdoms被進一步劃分為1到21個分類學單元,從而能夠檢測到低于kingdoms水平的污染物。
                考慮到速度和易用性,研究團隊將FCS-GX作為一種公開可用的工具發布,用戶可以在基因組組裝流程的早期運行該工具,從而實現更好的組裝,并更容易提交給NCBI GenBank。總體執行時間包括將數據庫讀入內存,根據源和硬件的不同,這可能需要4-30 + min;然后進行篩選,對于大多數物種,每個基因組需要0.1-10 min。FCS-GX要求用戶提供FASTA格式的基因組,以及NCBI分類標識符(taxid),最后可生成一份包含被識別為污染的全序列和部分(嵌合)序列的詳細信息報告。

                圖1.FCS-GX工作流程。

                為檢測FCS-GX的靈敏度和特異性,研究團隊使用來自高度連續基因組的長、無間隙序列對其進行評估(圖2)。由于污染物序列往往很短,研究團隊將序列人工分割成1、10或100kbp的子序列,并通過兩種方法對其進行檢測;最終共檢測了663個原核生物和370個真核生物基因組的序列,這些序列來自FCS-GX數據庫中的代表物種,但具有不同組裝。
                結果顯示,當污染物種在FCS-GX數據庫中時,FCS-GX在來自6個檢測kingdoms組(Metazoa、Viridiplantae、真菌、其他真核生物、細菌和古菌)的不同樣本中表現出高靈敏度:76%原核生物和91%的真核生物數據集在使用1 kbp片段時實現了高于Sn = 95%的敏感性;在更大片段的情況下,大多數物種的靈敏度接近100%。

                當模擬新的污染物物種時,FCS-GX的靈敏度降低,原核生物的中位靈敏度降至81–89%,真核生物在1 kbp片段的中位敏感性降至17–63%。與Metazoa、Viridiplantae和其他真核生物相比,FCS-GX數據庫中原核生物和真菌的代表性更大,這有助于在模擬新物種時實現更高頻率的穩健比對覆蓋,并得到更好的Sn評分。此外,FCS-GX特異性測試表明其假陽性發生率較低。

                圖2. FCS-GX污染檢測的靈敏度和特異性。

                在將數據庫加載到單個64 vCPU服務器的內存中后,研究團隊在18天內完成了28,774個真核生物基因組的篩選,總計15.7 Tbp。在容量相似的服務器上,FCS-GX以1.94秒/基因組的速度完成了原核生物基因組的批量篩選。此外,與用于NCBI基因組提交的傳統篩選相比,FCS-GX可實現高通量組裝污染篩查。
                在當前GenBank中(2023年4月15日),研究團隊對1,545,312個原核生物和30,053個真核生物基因組組裝的污染進行了表征,總計22.4 Tbp的序列數據(圖3)。在23,405,843個序列中鑒定出36.8 Gbp的疑似污染,相當于總堿基的0.16%、檢測序列的1.30%。每個基因組受污染序列的比例呈雙峰分布,峰值接近0和100%的極值。隨著時間的推移,受污染序列的總長度隨著GenBank基因組的總長度而增加,這表明受污染序列百分比隨時間的推移保持穩定。此外,污染物的分布并不均勻;污染物序列通常很小,81%的污染物?≤?1kbp,97%的污染物?≤?10 kbp。

                接下來,研究團隊評估了多個分類等級的污染模式。原核生物的污染率低于真核生物,真菌基因組相對于Metazoa、Viridiplantae和其他真核生物具有較低的污染率;細菌污染占總污染的26.2 Gbp(71%),包括在后生動物基因組中發現的15.2 Gbp。

                基因組污染通常反映了生物體的潛在生物學特性,可能來源于共生體、感染、腸道和表面微生物以及飲食。當對宿主基因組或環境樣本進行測序時,共生體和寄生蟲是常見的污染物。FCS-GX數據庫中,研究團隊發現了864.4Mbp的污染,其中頂端復合體(apicomplexan)Sarcocystis neurona污染最為嚴重,主要存在于哺乳動物和鳥類基因組中。在樣本制備和/或基因組測序過程中還可能出現的交叉樣本污染。此外,研究團隊發現,當前NCBI數據庫中近一半的總堿基對污染僅來自161個基因組,這些基因組高度片段化,疑似污染主要發生在小序列中;有1,040個基因組的污染序列比例極高(90%-100%)。

                圖3. FCS-GX在NCBI數據庫中檢測到大量污染。

                在FCS-GX的開發過程中,研究團隊利用了傳統篩選的結果,在一組嚴重污染的基因組中識別了>98%的已知污染物序列,同時也發現了由于靈敏度增加而產生的新污染物。為估計靈敏度的增加,研究團隊將FCS-GX結果與過去2.5年中發布的14,344個真核生物和194,995個原核生物基因組的原始提交篩選數據進行了比較,排除了198個分類信息不正確或次優的基因組。結果顯示,FCS-GX檢測到的長度污染為0.163%,與傳統方法(legacy screen)檢測到的0.038%相比,靈敏度提高了四倍;與2019年Conterminator的篩選結果相比,FCS-GX將GenBank中已識別的污染量擴大了六倍,并且更容易應用于未來生成或提交的單個基因組的篩選。
                為向NCBI用戶提供更干凈的基因組子集,研究團隊優先使用FCS-GX對NCBI的RefSeq基因組集進行污染清理;人工手動審查了FCS-GX的結果,并使用多種方法對污染最嚴重的基因組進行初步清理;在將新基因組提交至RefSeq數據集之前,使用FCS-GX作為篩選工具。最終,研究團隊清理了124個真核生物基因組,移除了總計548 Mbp的79,593個污染序列,包括34,337個基因和30,356個在污染序列上注釋的蛋白質;使用ANI從RefSeq數據集中識別并移除了5,694個可疑的原核生物基因組,又使用FCS-GX識別并移除了1,284個基因組。
                目前的RefSeq數據集包含283,221個原核生物和1,616個真核生物基因組,在FCS-GX初步清理后仍有265.1 Mbp的疑似污染,污染序列相當于原核生物總序列的0.018%和真核生物總序列的0.003%,這進一步證實了FCS-GX的高特異性??傮w而言,與2020年的峰值相比,研究團隊已經將RefSeq數據集真核生物和原核生物基因組中的污染堿基分別減少了90%和53%,與GenBank基因組整體相比,分別減少了98%和81%。

                圖4. NCBI RefSeq數據庫中的FCS-GX污染檢測。

                綜上所述,該研究介紹了一種新的基因組跨物種比對工具FCS-GX,可利用h-mer匹配和編輯的參考數據庫識別外來生物的基因組污染,運行快速、精度高和污染物的自動去除是其核心特征。經驗證,FCS-GX有助于從真核生物和原核生物的組裝基因組中快速識別和去除污染物序列,使組裝提供者能夠提高數據質量,避免影響下游分析的人為因素。

                參考文獻:

                Astashyn A, Tvedte ES, Sweeney D, et al. Rapid and sensitive detection of genome contamination at scale with FCS-GX. Preprint. bioRxiv. 2023;2023.06.02.543519. Published 2023 Jun 6. doi:10.1101/2023.06.02.543519

                (1)

                本文由 SEQ.CN 作者:白云 發表,轉載請注明來源!

                關鍵詞:

                熱評文章

                好涨太粗进去用力快好深视频_试衣间和老师疯狂试爱_巨大巨粗巨长 黑人长吊_妇女满足农民工特级毛片

                  <font id="jvfph"><ruby id="jvfph"></ruby></font>

                  <sub id="jvfph"></sub>

                        <output id="jvfph"><strike id="jvfph"><p id="jvfph"></p></strike></output>

                            <menuitem id="jvfph"><ruby id="jvfph"></ruby></menuitem>

                            <menuitem id="jvfph"></menuitem>