TCGA和GTEx的泛癌数据分析也是生信数据挖掘的必备技能,目前最好用的泛癌数据肯定是网站上整理好的啦。我们直接下载用即可。而且的数据估计短时间不会更新的,所以基本上是一次整理永久使用!
我把整理泛癌数据的代码也写成了一个函数,并放到了包中,大家安装即可使用。
首先安装依赖包:
再安装包:
如果不想自己跑一遍,或者电脑配置太低(需要至少16GB运行内存)总是失败,也可以在公众号后台回复pancancer,即可获取整理好的rdata文件以及从XENA下载的4个文件。
一共是14个文件,各个文件的详情请继续往下看:

如果只是单纯的想要,我们只要下载TCGA的表达矩阵即可,下载网址是:
- https://toil-xena-hub.s3.us-east-1.amazonaws.com/download/tcga_RSEM_gene_tpm.gz
但通常我们可能还需要对应的临床信息,所以还需要下载临床信息文件,下载网址是:
- https://tcga-pancan-atlas-hub.
s3.us-east-1.amazonaws.com/download/Survival_SupplementalTable_S1_20171025_xena_sp
下载完成后,我们只要用函数即可完成整理:
大概5分钟左右即可整理好(根据电脑配置不同时间也会不一样),可以得到以下,存放在当前工作目录下的文件夹下:
- :TCGA的表达矩阵,行是gtex基因,列是样本
- :TCGA样本的临床信息,样本数量和顺序和上面的表达矩阵的样本数量和顺序完全一致
- :lncRNA和样本信息整合到一起的数据,行是样本,列是基因,前34列是临床信息,包含生存数据
- :mRNA和样本信息整合到一起的数据,行是样本,列是基因,前34列是临床信息,包含生存数据。
有了这个数据你就可以做各种泛癌的数据分析了!
GTEx的泛癌数据也是一样整理,首先下载表达矩阵文件和样本信息文件:
- https://toil-xena-hub.s3.us-east-1.amazonaws.com/download/gtex_RSEM_gene_tpm.gz
- https://toil-xena-hub.s3.us-east-1.amazonaws.com/download/GTEX_phenotype.gz
然后也是一样的用法:
整理结束后也会得到4个文件,存放在当前工作目录下的下:
- :GTEx的表达矩gtex阵,行是基因,列是样本
- :GTEx的样本信息,样本数量和顺序和上面的表达矩阵的样本数量和顺序完全一致
- :lncRNA和样本信息整合到一起的数据,行是样本,列是基因,前2列是sample_id和sample_type
- :mRNA和样本信息整合到一起的数据,行是样本,列是基因,前2列是sample_id和sample_type
TCGA和GTEx并不是一对一的关系,如下图所示(这个对应关系表可以在GEPIA网站免费下载),TCGA的很多project在GTEx里是没有对应的样本的,并且GTEx和TCGA是1对多的关系哦~

如果是需要TCGA+GTEx的泛癌数据,那就需要同时提供4个文件,但是整理也是1行代码即可:
除了会得到以上的8个文件外,还会得到另外2个整合好的TCGA+GTEx数据:
- :TCGA和GTEx整合到一起的lncRNA表达矩阵和样本信息,注意:行是样本!前4列是样本信息,后面的列是lncRNA
- :TCGA和GTEx整合到一起的mRNA表达矩阵和样本信息,注意:行是样本!前4列是样本信息,后面的列是mRNA
有了数据就可以在进行各种分析了,前提是你的R语言基础够好,比如可以试着学习果子老师这几篇推文里的图:
- 跟Nature一起学习TCGA,GTEx和CCLE数据库的使用
- 高能推荐!批量在多个组织中找出跟你的分子最相关的基因
又或者是这种各种花里胡哨的单基因泛癌的表达量展示:
- 单基因泛癌Fig1
如果你不会也没关系,上面这这些分析果子老师已经开发了专门的网站实现,点点点即可:
- http://guotosky.vip:13838/GTBA/
- http://guotosky.vip:13838/GPSA/
后续可能会把一些常用的分析和展示写成函数,加入到包里,但肯定没有鼠标点点点简单了~