Cell子刊:带你了解lncRNAs的详细分类

随着高通量测序和许多科学家的深入研究,大家越来越熟知非编码RNA(ncRNAs)的流弊功能,目前它们是:生物标注物的主要来源;潜在的疾病治疗靶标;全基因组关联研究(GWAS)中非编码突变功能的潜在解释。当然这也是小伙伴们写标书啊、文章啊、畅谈项目时候眼中闪闪有光的原因所在。

ncRNAs中风头正劲的非lncRNAs莫属,很多人都想分一杯羹,但是要入门,在最初查找文献资料的时候许多人却发现,lncRNA咋那么多种类啊?其实由于lncRNA大家争相研究的年代还不是很久远,所以难免名字啊、类型啊一堆乱象,Cell子刊《Trends in Genetics》发表题为“The Landscape of long noncoding RNA classification”的综述,探讨了lncRNA分类上的种种问题。

现有lncRNAs种类的标准和特点

绝大多数lncRNAs的类型都依赖于最初用于检测它们的经验属性,这反应了它们相对于编码蛋白的基因,短暂的研究历史还没有沉淀出统一的标准,科学家起初看到这种无特征RNA物种(也没想到日后人家辉煌腾达了),只是怎么方便怎么就命名或者归类了。

不同类型ncRNAs示意图

1根据转录产物长度

这种方法最常用,超过200个碱基就能区分ncRNAs的长短了。通过总RNA的RNA-seq图谱,科学家发现基因间区域编码了多达长千上万的一类非常长的ncRNAs(vlincRNAs),初始转录产物可以长达50 kb-1 Mb,跨越至少10%的人类基因组。vlincRNAs在多能性、癌症、细胞凋亡、细胞周期进展和细胞衰老等生物过程中都有重要作用。

2根据相关蛋白编码基因的相关性

基于cDNA末端快速扩增(RACE)和RNA-seq这两种有针对性的方法,我们已经知道转录森林构成了人类基因组的一般特征。一类著名的lncRNAs就是正义链与编码的mRNA在同一条链上重叠,共享一段序列,但不编码蛋白。这类包括未拼接正义链的部分固有RNAs(PINs),以及来自基因编码和非编码区包含外显子的拼接产物。GENCODE承认在“正义链重叠”中存在这样拼接的lncRNAs。

一个蛋白编码基因可以完全由内含子转录产生lncRNAs,这被称作TINs(totally intronic RNAs)。TINs占了所有核内non-rRNA的70%,整个细胞内non-rRNA的40-50%。这些RNAs参与维持间期染色质构型,大部分都会涉及长链3’UTRs转录产物拼接。

3根据功能

lncRNAs可以参与大量不同的细胞过程:染色质重塑、调节转录和翻译、RNA稳定、细胞支架和先天免疫等。ncRNA-a是一类具有增强子特性的lncRNA,可以正调控附近的基因。这一类中的一个著名成员是ncRNA-a7,可以调控Snail转录因子。另一个例子是竞争性内源RNA(ceRNAs),它们与编码蛋白的转录本共享一段序列,可以竞争性结合其调控的分子从而发挥功能。还有一些lncRNAs可以作为更短的功能性RNA如miRNAs、piwiRNAs的前体。

4根据和其他已知功能DNA元件的相关性

这类RNAs包括与增强子和启动子相关的长链RNAs,它们涉及细胞核结构的动态连接、染色质信号可塑性和转录调控。

5根据与mRNA的相似之处

由GENCODE注释的lncRNAs,即使是那些仅仅来源于内含子的序列,主要代表着拼接的转录本。这些特征被用来确定小鼠和人体内成千上万个转录本,被称作长链干扰ncRNAs(lincRNAs)。该方法揭示了许多重要功能lncRNAs,比如HOTAIR,它可以促进表观遗传的抑制因子PRC2定位到靶位点来介导基因沉默。研究人员通过对1300例人类肿瘤样本microarray分析发现,成百上千个lincRNAs的表达异常可能与四种不同类型的肿瘤相关。

其他分类方式还包括:

√根据序列重复次数

√根据一个生物化学通路或稳定性

√ 根据测序或者结构保守程度

√ 根据生理状态

√ 根据亚细胞定位

虽然特定lncRNAs功能性的证据继续积累,但是不一致、混乱不清和重叠的术语带来了歧义,并使这个领域通常不够明晰。缺乏基本的概念明确的分类框架,致使非编码转录组数据的注释和解释都受到了诸多挑战。它也可能会破坏为阐明lncRNA功能的新基因组方法和数据库的整合。

参考文献:The Landscape of long noncoding RNA classification

来源:解螺旋

2016-06-01