首页 > 互联网资讯 > 上交团队利用人工智能技术和空间转录组信息实现准确细胞聚类

上交团队利用人工智能技术和空间转录组信息实现准确细胞聚类

很多人都知道,RNA 是含有生物遗传信息的生物大分子,科研人员通过对 RNA 进行基因测序可以获得重要的生物样本信息。例如通过序列比对来辨别生物间的物种和种族关系;还有近几年来,为应对新冠疫情的发展,对 COVID-19 病毒及变种的 RNA 测序可以有效帮助科学家分析疫情发展变化。

单细胞转录组测序技术是在单细胞水平进行 RNA 测序的一项新技术,通过获得单细胞的基因信息可以获得单细胞行为或机制与机体关系,该技术可以更深入地揭示生物组织细胞的多样性结构和各自不同的基因信息

然而这项技术需要将组织进行机械性破坏形成单细胞悬液,这个操作会打破细胞间的空间关联信息,使科研人员无法获知组织中不同部分的细胞构成。

因此更新的技术出现了,空间转录组技术(SPATIAL TRANSCRIPTOMICS)可以更全面直接地得到不同组织部分中的基因表达信息,它结合了显微成像和基因测序技术,在获得细胞基因信息的同时保留了测试样本的空间位置信息。据了解,单细胞转录组和空间转录组技术先后被NATURE METHODS杂志分别评为 2019 年和 2020 年的年度技术进展。

关于单细胞数据的一个基本问题是如何识别细胞状态或类型,这关系着很多重要研究,例如细胞谱系、细胞周期以及细胞-细胞相互作用分析等等。针对单细胞 RNA-SEQ 数据,已经有多种基于基因表达的低维聚类方法。

但是对于空间数据,这些方法不能充分利用空间位置信息。此外,大多数现有的空间聚类方法是假设同一细胞组内的单个细胞在空间上彼此接近,而没有考虑整个组织样本全局性的复杂的细胞相互作用。

为了更全面地获取细胞全局空间特征,上海交通大学电子信息与电气工程学院自动化系沈红斌教授、袁野副教授所在的模式识别与生物信息学课题组,首次利用图卷积网络(GRAPH CONVOLUTIONAL NETWORKS,GCN)从空间基因表达数据集中提取全局空间特征,以编码细胞嵌入向量的方式进行细胞聚类研究。

相关研究成果近日以《CELL CLUSTERING FOR SPATIAL TRANSCRIPTOMICS DATA WITH GRAPH NEURAL NETWORKS》(利用图神经网络对空间转录组数据进行细胞聚类)为题发表在NATURE COMPUTATIONAL SCIENCE上。

该课题组提出一种基于 GCN 的空间转录组细胞聚类方法(CELL CLUSTERING FOR SPATIAL TRANSCRIPTOMICS,CCST),可以同时将来自单细胞的基因表达信息和单细胞之间复杂的全局空间信息进行结合。这些数据被转换为一个图结构,其中每个节点代表一个单个细胞或采样点,而边则代表相邻细胞的近距离关系。然后利用深度图 DGI(DEEP GRAPH INFOMAX)模型学习节点嵌入。

一方面使用 GCN 层来编码具有空间定位和基因表达信息作为正的细胞节点嵌入向量;另一方面,对图进行随机重建,生成负节点嵌入。通过学习识别任务来区分正节点嵌入和负节点嵌入,进而训练该模型利用空间基因表达数据对细胞进行嵌入编码,以实现细胞聚类。最后结合生物信息分析技术,从基因与细胞功能角度对细胞聚类结果进行系统性分析。

CCST 可以同时处理两大类技术获取的空间数据:基于荧光原位杂交(FLUORESCENCE IN SITU HYBRIDIZATION,FISH)和基于单细胞转录组测序的技术。针对多重防错荧光原位杂交数据,CCST 可以通过清晰识别四种细胞周期阶段来改善细胞聚类,这一结果得到了差异表达基因和基因本体分析的支持。

除此之外,CCST 技术还可用于从小鼠的 SEQFISH+数据中识别细胞亚型及其相互作用。这些结果都表明,CCST 可以为进一步理解组织和器官中的细胞身份、相互作用和空间组织提供信息线索。

NATURE COMPUTATIONAL SCIENCE杂志副主编凯特琳・麦(KAITLIN MCCARDLE)高度赞许了该项成果,表示该成果通过利用空间转录组学和人工智能神经网络技术实现了细胞聚类分析,这是更加深入理解细胞起源和相互作用的关键一步。她希望这项技术能成为一种广泛用于解释组织和器官中的空间组织结构的重要工具。

对于 CCST 技术的未来发展,该论文的通讯作者之一袁野副教授表示,与传统细胞聚类方法相比,CCST 技术打开了新的思路,是一个新型的处理空间转录信息的方法,未来在非常多应用场景中,比如多细胞动物的发育过程理解、多细胞参与的疾病分析等等,都具有重大潜力。

友情链接