2018年,加州理工学院生物学教授兼传统医学研究所研究员YukiOka实验室的研究人员做出了一项重大发现:他们发现了一种能够介导口渴饱足的神经元或脑细胞。但他们遇到了一个问题:一种称为单细胞RNA测序(scRNA-seq)的最先进技术无法在脑组织样本中(特别是来自称为中脑的区域)找到那些与口渴相关的神经元。视前核)已知含有它们。

通过改进测序数据分析揭示看不见的细胞类型和基因表达

Oka说:“我们知道,我们添加到我们表征的神经元中的基因标记在大脑的中位视前核中表达,但当我们使用scRNA-seq分析大脑的该区域时,我们没有看到该基因。”“我们从许多同事那里听到了这一点——scRNA-seq缺失了他们知道应该存在的细胞类型和基因表达。我们开始想知道这是为什么。”

识别不同的细胞类型对于了解我们身体执行的大量功能至关重要,从感知口渴等健康过程到疾病状态下的细胞功能障碍。例如,许多研究人员目前正在寻找可能与帕金森病等特定疾病相关的细胞类型。确定此类过程中涉及的精确细胞类型对于所有这些研究都至关重要。

现在,加州理工学院的Oka实验室和德克萨斯大学西南医学中心的Allan-HermannPool实验室之间的合作展示了如何优化scRNA-seq分析中的关键步骤,以恢复通常获取的缺失细胞类型和基因表达数据。被丢弃。一篇描述这项工作的论文发表在9月11日的《自然方法》杂志上。

“我们改进了对现有最先进的单细胞RNA测序数据的分析,揭示了单个数据集数百甚至数千个基因的表达,”Oka说。“实现这种精度非常重要,因为生物过程丰富而复杂。最近的研究已经在小鼠大脑中识别出5,000多种不同的神经元类型,而人脑可能更复杂。我们需要我们的技术同样敏感和可靠。尽可能全面。”

了解基因表达

您的体内有数万亿个细胞,每个细胞都执行着各种功能,使您能够正常生活,或者在某些情况下导致疾病。细胞根据其功能而彼此区分。例如,免疫系统的杀伤性T细胞寻找并消灭导致疾病的病原体,神经元发射构成大脑功能的电信号,皮肤细胞紧密地堆积在一起,形成抵御外界的屏障。研究人员目前已经识别出数千种不同的细胞类型,但其他独特的细胞类型可能仍未被发现。

尽管细胞的形状和功能可能有所不同,但特定生物体中的大多数细胞都包含相同的遗传蓝图——基因组。基因组包含有关如何完成任何细胞任务的说明。组成基因组的基因被写入位于细胞核中的DNA中。表达的基因被复制成RNA,RNA被转运出细胞核并进入细胞的其余部分以执行功能。

在任何给定的细胞(和细胞类型)中,在给定的时间只有特定的基因子集被表达或打开。基因表达的这些变化导致细胞类型的差异。

打个比方,想象一个巨大的图书馆,里面的书籍被分类到不同的部分。如果你想造一架飞机,你可能只会看看有关航空和机械的书籍。如果您对其他主题感兴趣,您会浏览不同的书籍。单个生物体的细胞没有什么不同:虽然每个细胞都包含整个基因“库”,但只有那些与特定细胞的独特功能相关的基因才会在细胞中被激活。

改进基因表达估计技术

scRNA-seq是一种识别细胞类型的强大技术。通过这种方法,细胞被打开,内部表达的遗传信息被作为条形码的分子标签标记。scRNA-seq可以快速对单个组织样本中的数千个细胞执行此操作,每个细胞都会接收自己独特的条形码。然后可以进行计算分析以确定哪些基因组在单个细胞中表达,并且计算机模型可以评估该数据以寻找模式并识别不同的细胞类型。

然而,该技术的一个问题是,某些RNA测序数据通常不包含在基因表达估计中,即使它们代表了表达的基因。

Oka和同事发现,原因与研究人员将测序数据映射到的所谓参考转录组的问题有关。例如,研究人员广泛研究了小鼠基因组,并对其进行了详细的标记或注释,创建了数字参考或“转录组”,绘制出DNA序列及其相应的基因。

研究人员发现,这种注释必须针对scRNA-seq进行优化,以防止基因表达信息丢失——例如,如果位于DNA链尾端的基因注释不当,或者如果存在大量注释,就会出现这种情况。相邻基因转录本之间的重叠。这种并发症可能会阻碍数千个基因的检测。(当使用高通量形式的scRNA-seq时,这些问题尤其明显,为了降低成本,仅检查基因的最末端;大多数用于描述我们组织的细胞复杂性的图谱都依赖于这些方法。)

在识别不同的细胞类型时,精度和高分辨率非常重要。例如,假设两个细胞各自表达基因“A”、“B”、“C”和“D”,但只有一个细胞表达基因“E”,而另一个细胞不表达。如果测序技术无法捕获该表达的“E”,那么数据表明这两个细胞是相同的,而实际上它们不是相同的。

在前加州理工学院博士后学者、该研究的第一作者Pool的带领下,该团队优化了小鼠和人类基因组的参考转录组,并在几年的时间里建立了一个计算框架来修复其他生物体的参考转录组。

“优化参考转录组使我们能够看到细胞类型和状态,否则我们会忽视,”普尔说。“例如,通过我们优化的参考转录组,我们现在能够观察我们大脑区域中的口渴、饱腹感和温度感知神经群的全部功能,我们怀疑这些神经群存在,但无法检测到。我们期望我们的该方法对于揭示大脑和其他器官现有和即将推出的细胞类型图谱中的新细胞和遗传多样性也非常有用。”

该论文的标题是“利用优化的转录组学参考恢复缺失的单细胞RNA测序数据”。除了Pool和Oka之外,加州理工学院的共同作者还包括前高级研究科学家SisiChen和计算生物学助理教授兼传统医学研究所研究员MattThomson。德克萨斯大学西南医学中心的HelenPoldsam也是合著者。