<font id="jvfph"><ruby id="jvfph"></ruby></font>

    <sub id="jvfph"></sub>

          <output id="jvfph"><strike id="jvfph"><p id="jvfph"></p></strike></output>

              <menuitem id="jvfph"><ruby id="jvfph"></ruby></menuitem>

              <menuitem id="jvfph"></menuitem>

                人物

                首頁 - 全部文章 - 人物 - 首個細胞級組裝的人體集成細胞圖譜hECA發布!深度對話張學工教授:探索細胞圖譜應用新范式

                首個細胞級組裝的人體集成細胞圖譜hECA發布!深度對話張學工教授:探索細胞圖譜應用新范式

                隨著單細胞組學技術的蓬勃發展,大量單細胞組學數據的積累為建立人體器官或全身所有細胞的生物分子圖譜提供了越來越多的資源。因此,科學家們發起了雄心勃勃的計劃,例如人類細胞圖譜(HCA),人類生物分子圖譜計劃(HuBMAP)和人類發育細胞圖譜(HDCA)等來構建細胞圖譜。5月12日,HCA合作組等在Science發表了4篇研究論文,提供了跨人體33各器官共計超過百萬個細胞的單細胞數據。但細胞圖譜組裝仍面臨重大的信息學挑戰。2022年5月20日,清華大學張學工教授團隊在iScience上正式發表了研究文章“hECA: the cell-centric assembly of a cell atlas”。研究團隊開發了一個統一的信息學框架,用于細胞中心數據無縫組裝,并從分散的數據中構建了人類集成細胞圖譜(hECA)。據悉,這是首個細胞級組裝的人體集成細胞圖譜,匯集了來自116個已發表數據集的1,093,299個已標記的人類細胞,涵蓋38個器官和11個系統。為深入了解該研究成果,測序中國特邀張學工教授進行了深度專訪,為我們解讀hECA背后的思想、核心技術和全新醫學應用。以下為采訪實錄。

                測序中國:張老師您好,恭喜您的團隊在iScience上正式發表了首個細胞級組裝的人體集成細胞圖譜hECA。能否介紹一下所謂“細胞級組裝”是什么含義?為什么說hECA是國際上第一個集成細胞圖譜??

                張學工教授:

                這個問題非常關鍵,要回答它需要從頭思考到底什么是人體的“細胞圖譜”。人們使用了各種比喻來描述它,比如“人體的谷歌地圖”、“人體細胞的元素周期表”、“細胞分辨率的人體解剖”等,但人體細胞圖譜到底應該是什么呢?自2017年人類細胞圖譜HCA項目啟動以來,學術界一直在討論1.0版的人體細胞圖譜應該是什么樣子。目前已經發表或公開的細胞圖譜工作,包括剛剛發表的這四篇文章中提供的圖譜,都是采集大量各種單細胞數據,經過對重要生物學問題的深入研究獲得有價值的科學發現,而對數據則按項目進行文件管理和索引。從信息角度和圖譜建設角度,這種做法實際上是“數據堆放”,并不能建成作為一個完整信息系統的細胞圖譜,是綜合深入的大規模單細胞研究。另一方面,很多研究采用機器學習等方法對大量單細胞數據進行統一整合,把不同來源的數據映射到同一個數學表示空間中,進行細胞類型和變化軌跡的分析等。這樣構成的細胞圖譜可以叫做“整合式細胞圖譜”,它們把多個數據集整合起來服務于細胞類型識別等下游任務,但這種整合一般是在抽象的表示空間中進行,往往針對明確的下游應用任務,并沒有在原始觀測空間把細胞“組裝”成完整的圖譜。

                人體細胞圖譜需要進行“組裝”,這是我們提出來的概念。類比于人類基因組的組裝,細胞圖譜組裝的概念和做法并不是那么簡單?;蚪M有個基本的一維骨架,有人認為細胞圖譜就是要建立一個人體三維坐標骨架,只需把觀測到的細胞組裝到坐標系中相應的位置上。對于比較簡單的生物,如只有一千個左右細胞的線蟲,這種確定性組裝的思路是可行的,但對于更復雜的動物和人來說,這種組裝至少在目前認識和技術下是不可能的。2021年,我們在《國家科學評論》在線發表的觀點文章(Chen et al,?NSR, 2022)中闡述了這一點:對于人類這種由幾十萬億個細胞組成的復雜生命體,不同器官和組織的細胞構成不同,但并非每個細胞都有確定的宿命性的絕對位置。人體各種生理功能是由細胞組成的局部系統決定的,在這個局部系統中,每個細胞精確的空間位置并不是確定性排布的,不同人之間也不是一一對應的。試圖用一套標準三維坐標體系來索引所有細胞是不現實也不科學的。另一方面,我們在與阜外醫院合作對人心臟不同部位取樣構建心臟細胞圖譜的過程中發現,細胞間的差異不但存在于不同解剖部位之間,而且在同一解剖部位內又存在更細致的多種轉錄組變化梯度(Chen et al,?Circulation, 2022)。這些觀察和分析讓我們認識到,細胞圖譜的組裝,不是對各器官采集足夠單細胞數據后按解剖學部位堆積起來就能完成的,而需要全新的技術路線和框架。目前國際上存在的較大規模細胞圖譜或單細胞數據庫,實際上實現的都是“文件級”細胞圖譜組裝,而完整的細胞圖譜需要以細胞為中心的“細胞級”組裝。

                發表在《國家科學評論》上的觀點文章那么,什么是“細胞級組裝”呢?簡單說,就是將人體的各種細胞有組織地放到一個巨大的數據集合體中,利用集合體展現由細胞組成的組織、器官、系統和人體的全部關系和規律。當這個集合體包含的細胞數目和每個細胞的信息量足夠完整時,這個細胞數據集合體就是一個數字化細胞構成的虛擬人體。在這個虛擬人體上展現各種生命現象,就是我們說的“數基生命系統”,它是碳基細胞組成的人體在數字和數學空間中的鏡像。落實到當前現實的單細胞數據上,細胞級組裝就是對不同來源的人體單細胞數據經過統一質控和預處理后,按統一信息框架集成到同一個數據集合體中,保存關于每個細胞的所有信息,包括基因表達信息、樣本的解剖學信息、空間信息,也包括細胞類型注釋信息、算法產生的表示空間向量信息,還包括樣本捐贈者的各種元數據和數據采集中的各種技術信息。這個統一信息框架需支持對所有細胞按照可能用于索引的信息去檢索,從而支持按照各種可能的整體或局部坐標體系進行展示和分析。在這樣的框架下組裝起來的圖譜,并沒有解決或嘗試解決唯一的坐標體系問題,而是提供了適應人體內在多層次多尺度多維度索引體系的通用解決方案。

                我們在《國家科學評論》的觀點文章里闡述了對人體細胞圖譜統一信息框架的需求分析,iScience上剛剛發表的工作就是我們對這一理論的具體實現。我們基于這個信息框架對來自一百多個數據集的100多萬個健康單細胞數據樣本進行了收集和組裝,形成了覆蓋人體38個器官的集成細胞圖譜,命名為hECA(human Ensemble Cell Atlas)。與同時發表的HCA細胞圖譜相比,hECA是第一個真正實現細胞級組裝的人體細胞圖譜,包含了理想的細胞圖譜信息框架應該具備的基本要素,并在之上開發了“數基細胞實驗”等細胞圖譜應用新范式,展示了未來完整的人體細胞圖譜的雛形。

                hECA的主要特征和功能

                測序中國:細胞級組裝的集成細胞圖譜,對于人們探索生命機理有什么意義?hECA可為生命科學和醫學研究提供哪些主要功能?對人民生命健康事業能發揮怎樣的作用?

                張學工教授:

                當前hECA 1.0版本包含的數據雖然有限,但已經能展示出集成細胞圖譜所提供的巨大潛力和嶄新應用場景。

                hECA提供對器官、細胞、基因的全方位多視角“肖像”。此前,我們對器官、細胞、基因的認識都是基于不同層面:對器官的認識主要是解剖學層面和生理功能層面,對細胞的認識主要是細胞生物學層面,對基因的認識主要是分子生物學層面,這些認識就像是對這些生物學實體在特定視角下的“快照”,無法全面反映它們在生命劇本中所扮演的角色。hECA對這些實體提供了全方位多視角的定量刻畫:對于一個器官,用戶可以瀏覽器官及其各部位的定量細胞類型構成、基因表達分布;對于一個細胞類型,可以瀏覽細胞在各種器官中所占比例、所有基因在這個細胞類型中的表達量分布;對于一個基因,可以瀏覽其在各種器官和各細胞類型中的相對表達豐度分布。隨著集成細胞圖譜中包含的細胞數目和每個細胞數據種類的不斷增加,這種對生物學實體的“肖像式”全息刻畫將日益完善,進一步結合包括細胞通訊、基因相互作用等實體間關系信息,改變當前主要用標記基因、上調下調等手段來粗略刻畫生物實體特性的現狀,“栩栩如生”地還原生物實體作為復雜系統構成元件的全方位性質。

                hECA提供用戶可快速定制的細胞參照系。在單細胞研究中,以細胞圖譜作為參照系對用戶自有的數據進行標注是目前最常見的圖譜應用場景。為此,計算生物學家發展了多種利用參照細胞集合為新細胞進行標注的算法,包括多種機器學習方法。這些算法通常是基于作者預先收集的大量單細胞數據開發的,隨著越來越多實驗室對各種生物學和醫學問題開展單細胞研究,經常需要根據研究對象定制特殊的細胞參照系。在hECA中,由于采用細胞級組裝,用戶可以按照任意條件或多種條件組合從圖譜中篩選所需的細胞,快速構建定制的細胞參照系。比如可以通過hECA網頁交互或兩行ECAUGT代碼從全身各器官篩選出滿足某種基因表達條件的所有T細胞,在幾秒內即可構建出自己定制的T細胞子圖譜,而且可以多次通過修改代碼調試用不同條件篩選構建的參照系。

                圖片

                通過數基細胞篩選快速構建定制細胞參照系

                我們把這種在細胞圖譜中用代碼篩選符合條件細胞的操作稱作“數基細胞篩選”(“in data” cell sorting)。正如人們通過細胞篩選實驗從組織樣本中分離所需的細胞一樣,數基篩選是從hECA這個虛擬人體中分離所需細胞,這正是細胞級組裝帶來的革命。傳統用于細胞篩選實驗的標志物往往局限于有限的表面蛋白,數基細胞篩選則不受此限制,可以用細胞中包含的任意信息組合進行篩選。hECA內部支撐這一功能的系統叫做ECAUGT(讀作e-caught,意指“電子捕獲”),讓用戶把傳統的細胞實驗變成編寫易讀的代碼。

                hECA提供數基虛擬藥物試驗。作為數基細胞篩選的高級應用,用戶可以直接在細胞圖譜上研究傳統實驗難以研究的問題。比如CAR-T治療是一種人們非??春玫哪[瘤靶向治療方案,但它可能帶來的副作用卻不易評估,因為可能的副作用是全身性的,在無法猜測副作用會出現在什么器官中的情況下無法通過體外實驗進行研究。有科學家通過手工收集大量文獻中的數據,逐一研究特定CAR-T治療除了作用于癌細胞之外還可能作用到什么器官的什么細胞,但這種研究模式效率低、工作量大,而且需要對治療的脫靶目標有很好的預先猜測。hECA提供了通過數基細胞實驗方式研究這一問題的有效解決方案:用戶只需要根據CAR-T作用的靶基因設計篩選條件,就可以快速把人體各器官可能受到CAR-T作用的細胞都篩選出來,進而分析它們都是什么細胞類型、來自哪些器官,并評估藥物對這些器官可能的副作用。我們在iScience發表的文章中介紹了兩個這樣的實驗實例。隨著hECA包含的細胞數目和信息類型不斷增加,這種數基細胞實驗將成為未來藥物研究的重要手段,開創“數基藥物試驗”的新時代。

                利用hECA開展數基藥物試驗

                測序中國:作為首個真正的集成細胞圖譜,hECA建設中一定面臨著很多技術挑戰,您的團隊為攻克這些挑戰主要發展了哪些核心技術?
                張學工教授:實現細胞級圖譜組裝并非易事,我們經過幾年攻關才找到比較系統的解決方案,其中包括我們研發的三項核心技術:超級大數據系統uGT、統一標注知識圖體系uHAF和細胞檢索引擎ECAUGT。

                首先是數據存儲系統的挑戰。雖然大數據技術已經發展了很多年,但大部分商用數據庫系統能支持的是數據實例多、每個實例所含屬性較少的情況。在細胞圖譜中,每個單細胞就記錄數萬個基因的表達值,同時還要記錄更多其他信息。要實現“細胞級”組裝,需要能支持超寬超深列表的數據庫,現有一般數據庫系統無法支撐,但高端大數據系統的成本學術界無法負擔。這也是其他細胞圖譜采用文件級存儲和管理的原因:用文件方式存儲一個個數據集,只用數據庫來存儲關于這些文件的信息。比如,HCA官方的數據集成平臺當前包含了超過35萬個單細胞數據文件。為解決這一挑戰,江瑞教授研發了一套可以在個人電腦和服務器上支持超寬超深數據存儲、管理和索引的數據庫系統,在hECA中稱作uGT,意思是“統一超大表格”。uGT能支持超過10億個細胞、每個細胞有上百萬個數據項的細胞圖譜,且對這樣大規模數據的檢索只需要秒級的時間。這是hECA能實現細胞級組裝的核心軟硬件基礎。

                另一個挑戰是細胞的注釋體系。此前國際上還沒有一個統一的單細胞類型標注體系,不同單細胞研究采用不同的細胞標注,甚至有的研究中同一實驗室對同一批數據進行的標注也不完全一致。這是組裝細胞圖譜必須解決的問題。我們分析現有關于細胞類型劃分和標注的知識,提出了一套統一的層次化標注框架uHAF,把解剖學標注與細胞類型標注統一為一個多層次、可擴展的知識圖。uHAF借鑒已有的解剖學知識體系和細胞分類體系,整合目前收集的數據集中用到的解剖學關系和細胞類型,對不同文獻采用的標注進行統一。更重要的,uHAF定義了可擴展的表示結構,兼容未來知識體系的不斷豐富和完善,并將在下一版本中設計由科學家共同體合作修正和擴展知識圖的功能,與HCA等計劃的標準體系形成對接,把uHAF打造成細胞圖譜組裝標注的國際標準。

                hECA系統背后的第三項關鍵技術就是基于uGT和uHAF實現的細胞靈活檢索軟件引擎。這個引擎以ECAUGT作為應用編程界面API向用戶提供,同時也支撐了hECA網頁的圖形用戶界面。

                除此之外,我們在底層的數據收集、質控、預處理、歸一化等方面以及圖譜展示的圖形用戶界面方面都投入了大量工作,確保數據質量和可用性、易用性,這些是整個集成細胞圖譜建設的基礎。??
                測序中國:5月12日,Science期刊發表了四篇人類單細胞圖譜文章,能否介紹一下hECA研究與這些工作之間的聯系和區別?hECA對國際細胞圖譜建設的發展將發揮什么作用?
                張學工教授
                HCA是美國和英國學者牽頭2016年發起的一個國際科學家合作組,2017年在多個基金會的資助下啟動。HCA并不是國際上唯一的以構建人體細胞圖譜為目標的研究計劃,稍后又出現了由政府資助或民間資本資助的其他類似計劃,如Tabula Sapiens合作組。本期發表的四篇圖譜文章就是來自HCA合作組和Tabula Sapiens合作組。正如張澤民老師在本期Science上發表的評述文章指出的,這些工作的意義是跨人體組織細胞類型間的映射:通過這種映射,揭示了組織間保守的細胞特征和組織特異性的細胞狀態,識別了更多稀有細胞類型,同時揭示了若干疾病相關的細胞類型(Liu & Zhang,?Science, 2022)。這是人類細胞圖譜計劃發展的一個重要里程碑。但這些圖譜在數據組織和呈現方式上,仍然沿襲了以往圖譜工作的框架,為進行細胞級完整人體圖譜的組裝。hECA集成細胞圖譜是我們近幾年來對細胞圖譜組裝方式深入研究后提出的解決方案,是獨立于任何計劃之外、基于民間公開數據構建人體細胞圖譜的方案。hECA對數據來源保持開放態度,只要是公開發表的單細胞數據集都可以用hECA的信息框架進行組裝。我們看到,單細胞技術的快速發展和商業化推廣,產出了大量人體各器官的單細胞轉錄組數據,這些散布數據總規模已超過幾個主要國際計劃數據,但缺乏有效組織。與此同時,各國科學家也在加緊升級已有的細胞圖譜,在單細胞組學數據的基礎上,利用空間成像等技術獲取如細胞形態和微環境等更多“細胞級”的元數據(metadata),以更好地理解細胞功能。根據這一發展趨勢,我們利用散布在文獻和其他數據庫中的公開單細胞數據構建完整細胞圖譜,提出了圖譜組裝統一信息框架的思想和細胞中心化(cell-centric)的解決方案,并構建了第一個細胞級組裝的集成細胞圖譜hECA。這是我們為人體細胞圖譜建設提出的自主解決方案,同時我們也與國際同行保持著密切溝通,希望我們這一解決方案在未來能為其他圖譜建設計劃提供參考或借鑒。

                測序中國:hECA目前發布的是1.0版,是否可以介紹一下它未來的發展規劃?
                張學工教授:
                我們認為,最終的人體細胞圖譜應該是由數字化細胞組成的虛擬人體,是能在細胞和分子層面上完整展示生命機理的“數基生命系統”,是人體在數字化、數學化空間中的孿生。這是一個很長遠的目標,hECA只是朝這個目標試探邁出的一小步,我們已經找到這個有效的切入方向,會沿著這條道路不斷向前。從近期的目標來說,1.0版本的hECA還是一個初級的集成圖譜,主要體現在細胞數量尚很小、器官覆蓋度不高,而且其中收集的部分數據是由比較早期的單細胞技術產生,信息密度有待提高。下一步我們首先要大規模增加最新技術產生的數據,增加對各種器官的覆蓋度。同時,我們將在圖譜中增加其他類型的單細胞數據,比如刻畫染色質開放性的單細胞ATAC測序數據等,發展引入新組學數據后圖譜組裝的統一信息框架。此外,我們也會不斷采納和發展最先進的單細胞數據處理方法,持續提高圖譜數據的質量。我們正著手構建有序開放的數據和知識社區,組織高內涵高通量的細胞數據,產生大規模、高質量的數據標注,發揮群體智慧共同構建理想的集成細胞圖譜。在不斷完善集成細胞圖譜的基礎上,我們正在研究數基細胞高通量虛擬篩選、虛擬擾動、虛擬藥靶發現方法,在數基孿生的細胞、組織、器官和系統里開展藥物設計、評估治療效果。我們將積極與醫學研究機構合作,探索集成細胞圖譜更好服務基礎和臨床醫學研究的新方法、新范式,幫助醫學研究者通過hECA更有效發掘單細胞技術和國內外海量數據中的寶藏,讓首個細胞級組裝的集成細胞圖譜更好地為人民生命健康做貢獻。

                hECA研究團隊的部分成員

                相關文獻:

                [1] Chen S, Luo Y, Gao H, et al. hECA: the cell-centric assembly of a cell atlas[J]. iScience, 2022: 104318.

                [2] Chen S, Luo Y, Gao H, et al. Toward a unified information framework for cell atlas assembly[J]. National Science Review, 2022, 9(3): nwab179.

                [3] Chen L, Hua K, Zhang N, et al. Multifaceted spatial and functional zonation of cardiac cells in adult human heart[J]. Circulation, 2022, 145(4): 315-318.

                [4] Zedao Liu & Zemin Zhang, Mapping cell types across human itssues [J], Science, 2022, 376(6594): 695-696.

                (0)

                本文由 SEQ.CN 作者:陳初夏 發表,轉載請注明來源!

                熱評文章

                好涨太粗进去用力快好深视频_试衣间和老师疯狂试爱_巨大巨粗巨长 黑人长吊_妇女满足农民工特级毛片

                  <font id="jvfph"><ruby id="jvfph"></ruby></font>

                  <sub id="jvfph"></sub>

                        <output id="jvfph"><strike id="jvfph"><p id="jvfph"></p></strike></output>

                            <menuitem id="jvfph"><ruby id="jvfph"></ruby></menuitem>

                            <menuitem id="jvfph"></menuitem>