Skip to main content

基因注释数据中的点`.`号

在处理 GTF 等基因注释数据(特别是非编码区域,如假基因)时发现 gene symbol 中存在点号,一般而言,这种是表示不同的版本,但奇怪的是不同的名字居然有不同的 ENSEMBL Gene ID。经过检索发现这些 ID 在 NCBI 中标记为 LOCUS,是序列的标志符。看下AI的解读:

Locus 是一个在基因组中特定位置的标识, 可以对应一个基因,但也可以对应一个基因区域,或者其他的基因组元素。当我们说一个 locus,我们通常是在说基因组中一个具体的位置或区域。

AL450998 是一个基因组序列的标识符,来自于 GenBank 数据库,一个由美国国家生物技术信息中心(NCBI)维护的公开基因组数据库。在 GenBank 中,每一个提交的序列都会被赋予一个唯一的标识符。

在基因命名中,有时 locus 标识符可能会被用作基因符号,这通常发生在基因还未被完全鉴定或命名的情况下。一旦基因被鉴定并得到官方命名,这个 locus 标识符通常就会被替换成更正式的基因名称。

然而,有时 locus 标识符可能会继续被使用,尤其是在科学文献和数据库中。这是因为一旦一个标识符被使用,它就会被永久记录在文献和数据库中,而且可能已经被广泛引用。因此,即使基因得到了新的命名,旧的 locus 标识符也可能会继续被使用。

相关的链接: