大规模多组织转录组学研究揭示长非编码RNA与人类复杂疾病的联系

大规模多组织转录组学研究揭示长非编码RNA与人类复杂疾病的联系


长非编码RNA(long noncoding RNA, lncRNA)是一类普遍存在的异质RNA。与蛋白质编码基因不同,lncRNA的表达较低,组织特异性强,个体间的表达差异较大,因此,其表观遗传标记、剪接和转录结构各不相同。许多lncRNA基因在基因调控中起着重要作用,是一类广泛参与人类疾病发生机制的调控元件。但目前只有少数lncRNA基因与人类疾病的关系已知,例如癌症中的HOTAIR、阿尔茨海默病的BACE1-AS、前列腺癌中的PRNCR1和PCGEM1。而在成千上万的lncRNA基因中识别具有重要功能的lncRNA仍然是一个重大挑战。



文章发表于Cell


近日,斯坦福大学Stephen B. Montgomery研究团队在Cell上发表题为“Population-scale tissue transcriptomics maps long non-coding RNAs to complex disease”的研究文章。在该研究中,研究团队利用基因型组织表达项目(The Genotype Tissue Expression (GTEx) Project)的v8数据和多组织转录组学数据,对来自49个不同组织中14100个lncRNA基因的表达、遗传调控、细胞环境和性状关联进行了分析,确定了1432个lncRNA基因特有的性状和疾病关联,其中800个不能通过邻近蛋白质编码基因的强效应来解释,揭示了lncRNA与人类疾病发生之间的联系。



图1.研究概要。来源:Cell

首先,该研究通过比较不同组织转录组中lncRNA基因的表达情况,探究了lncRNA基因的组织特异性。研究人员观察到,在14100个lncRNA基因中约95%至少在一个组织中表达。进一步将lncRNA基因分为反义基因和基因间基因,发现其表达率分别为96.5%和94%。同时,GTEx数据分析结果也显示出lncRNA基因表达的组织特异性,特别是基因间lncRNA基因。此外,研究团队开发了一种基于微阵列的检测新方法,以检测到更多组织特异性lncRNA基因。在上述14100个基因中,最终检测到316个组织特异性lncRNA基因(图2A),且组织特异性lncRNA基因在睾丸、大脑、血液和皮肤组织中表达最频繁。


为探究基因变异对lncRNA表达的影响,研究人员通过表达数量性状定位(expression quantitative trait locus,eQTL)分析了基因突变与lncRNA基因表达量之间的相关性。研究发现,在14100个lncRNA基因中,有67.3%是eGenes,意味着它们至少与一种遗传变异显著相关。在每个组织中,约50%的lncRNA基因检测为eGenes,约80%表达蛋白质编码基因(图2B)。除了观察到含有eQTLs的lncRNA基因丰度较低之外,还发现与蛋白质编码基因相比,lncRNA基因与其相关基因转录起始位点(TSS)之间的距离较短(图2C),表明lncRNA基因比蛋白质编码基因具有更简单的调控机制。此外,lncRNA eQTLs比编码蛋白质的eQTLs具有更高的效应大小(图2D),表明lncRNA表达的调控靶点较少,调控方式更简单。在发现的lncRNA基因中,观察到2783例有组织特异性,比蛋白质编码基因更为常见(图2F),睾丸、皮肤、血液、甲状腺和大脑的数量最多。此外,15%的组织特异性基因在所有组织类别中都有表达(图2G),表明lncRNA基因调控效应具有组织特异性



图2. GTEx组织中基因表达的特异性和eQTLs。来源:Cell


研究团队发现,相对于所有的lncRNA基因,无组织特异性的eGenes在线粒体和胞质核糖体的细胞间中富集,组织特异性eGenes主要在精细胞中富集,这与许多睾丸组织特异性eGenes一致。在鉴定其他与细胞类型相关的lncRNA基因过程中,研究人员发现,与蛋白质编码基因相比,lncRNA基因的连接程度不高(图3D)。高度连接的lncRNA基因常分配给早期精子细胞、肌肉细胞、上皮和组织驻留B细胞(图3E)。



图3.共表达网络注释lncRNA基因的细胞环境。来源:Cell


人类基因组中存在数千种罕见变异,这些罕见的遗传变异会带来疾病风险。研究人员试图通过离群点富集方法(outlier enrichment approach)来寻找lncRNA基因表达与罕见遗传变异之间的关系。该研究重点分析了1119个离群点,在所有组织中这些离群点都检测到基因间lncRNA基因(图4A)。


基因间lncRNA基因离群点因附近遗传变异的存在而富集,特别是对于罕见遗传变异和罕见结构变异(SVs)。研究团队通过对罕见变异所在位点的离群值与非离群值(RR)进行评估,发现SNVs的RRs为1.14,小的插入或缺失(indels)的RRs为1.31,结构变异的RRs为16.52,在较高的Z值阈值下富集度增加(图4B),蛋白质编码基因结果与之相反。总的来说,受测个体中55%的基因间lncRNA异常事件与附近的罕见变异有关


缺失、拷贝数变异(CNVs)和重复都在离群基因附近的离群个体中特别富集(图4C)。研究人员利用UK Biobank全基因组关联数据(GWAS),分析这些变异体是否受复杂性状的影响而富集。结果显示,结果显示,与非异常罕见变异体相比,相关异常罕见变异对体重指数的影响更大(图4D),表明与基因间lncRNA基因表达相关的罕见变异会影响常见的复杂性状。lncRNA基因表达相关的罕见变异会影响常见的复杂性状。



图4.罕见遗传变异影响基因间lncRNA基因表达和复杂性状。来源:Cell


为进一步揭示lncRNA基因与疾病的相关性,研究人结合了多种共定位分析方法:SMR+HEIDI、FINEMAP+eCAVIAR和coloc,系统地评估了lncRNA基因在复杂性状和疾病中的作用。结果显示,QTL和GWAS信号的共定位产生了1432个与性状相关的lncRNA基因。狼疮、多发性硬化症和血细胞计数等性具有高比例的lncRNA eQTL共定位事件状。对于其他性状,如肌萎缩侧索硬化症、帕金森病等,均未观察到lncRNA共定位事件。


此外,研究团队还发现lncRNA基因LINC01475和RP11-129J12.1共定位的组织(肠组织、脾脏和小唾液腺)与溃疡性结肠炎相关,并在炎症性肠病和克罗恩氏病的GWAS数据中也发现这两种lncRNA的共定位模式,表明这两种lncRNA的调控途径参与了溃疡性结肠炎和克罗恩氏病的发展。


综上所述,该研究利用GTEx的v8数据,结合多种方法,包括eQTL分析、基因表达异常分析、WGCNA和GWAS共定位分析,探究了lncRNA的表达模式和功能,确定了1432个lncRNA基因-性状关联,补充了lncRNA基因表达的证据。此外,通过系统地评估lncRNA基因的调控模式,揭示了其在特定细胞环境中与各种复杂性状和疾病之间的关联,有助于增强我们对lncRNA基因对人类疾病作用的了解。


参考文献:Goede, O. M. D. , Nachun, D. C. , Ferraro, N. M. , Gloudemans, M. J. , Rao, A. S. , & Smail, C. , et al. (2021). Population-scale tissue transcriptomics maps long non-coding rnas to complex disease. Cell, S0092-8674(21)00381-0.

来源:https://mp.weixin.qq.com/s/0HNEtcAGvUXYVJi3ft8MCQ

.


携手合作健康生活

广东省联合精准医学研究院