gtex(gtex材质)

TCGA和GTEx的泛癌数据分析也是生信数据挖掘的必备技能,目前最好用的泛癌数据肯定是网站上整理好的啦。我们直接下载用即可。而且的数据估计短时间不会更新的,所以基本上是一次整理永久使用!

我把整理泛癌数据的代码也写成了一个函数,并放到了包中,大家安装即可使用。

首先安装依赖包:

 

再安装包:

 
 
 

如果不想自己跑一遍,或者电脑配置太低(需要至少16GB运行内存)总是失败,也可以在公众号后台回复pancancer,即可获取整理好的rdata文件以及从XENA下载的4个文件

一共是14个文件,各个文件的详情请继续往下看:

如果只是单纯的想要,我们只要下载TCGA的表达矩阵即可,下载网址是:

  • https://toil-xena-hub.s3.us-east-1.amazonaws.com/download/tcga_RSEM_gene_tpm.gz

但通常我们可能还需要对应的临床信息,所以还需要下载临床信息文件,下载网址是:

  • https://tcga-pancan-atlas-hub.s3.us-east-1.amazonaws.com/download/Survival_SupplementalTable_S1_20171025_xena_sp

下载完成后,我们只要用函数即可完成整理:

 

大概5分钟左右即可整理好(根据电脑配置不同时间也会不一样),可以得到以下,存放在当前工作目录下的文件夹下:

  • :TCGA的表达矩阵,行是gtex基因,列是样本
  • :TCGA样本的临床信息,样本数量和顺序和上面的表达矩阵的样本数量和顺序完全一致
  • :lncRNA和样本信息整合到一起的数据,行是样本,列是基因,前34列是临床信息,包含生存数据
  • :mRNA和样本信息整合到一起的数据,行是样本,列是基因,前34列是临床信息,包含生存数据。

有了这个数据你就可以做各种泛癌的数据分析了!

GTEx的泛癌数据也是一样整理,首先下载表达矩阵文件和样本信息文件

  • https://toil-xena-hub.s3.us-east-1.amazonaws.com/download/gtex_RSEM_gene_tpm.gz
  • https://toil-xena-hub.s3.us-east-1.amazonaws.com/download/GTEX_phenotype.gz

然后也是一样的用法:

 

整理结束后也会得到4个文件,存放在当前工作目录下的下:

  • :GTEx的表达矩gtex阵,行是基因,列是样本
  • :GTEx的样本信息,样本数量和顺序和上面的表达矩阵的样本数量和顺序完全一致
  • :lncRNA和样本信息整合到一起的数据,行是样本,列是基因,前2列是sample_id和sample_type
  • :mRNA和样本信息整合到一起的数据,行是样本,列是基因,前2列是sample_id和sample_type

TCGA和GTEx并不是一对一的关系,如下图所示(这个对应关系表可以在GEPIA网站免费下载),TCGA的很多project在GTEx里是没有对应的样本的,并且GTEx和TCGA是1对多的关系哦~

如果是需要TCGA+GTEx的泛癌数据,那就需要同时提供4个文件,但是整理也是1行代码即可:

 

除了会得到以上的8个文件外,还会得到另外2个整合好的TCGA+GTEx数据

  • :TCGA和GTEx整合到一起的lncRNA表达矩阵和样本信息,注意:行是样本!前4列是样本信息,后面的列是lncRNA
  • :TCGA和GTEx整合到一起的mRNA表达矩阵和样本信息,注意:行是样本!前4列是样本信息,后面的列是mRNA

有了数据就可以在进行各种分析了,前提是你的R语言基础够好,比如可以试着学习果子老师这几篇推文里的图:

  • 跟Nature一起学习TCGA,GTEx和CCLE数据库的使用
  • 高能推荐!批量在多个组织中找出跟你的分子最相关的基因

又或者是这种各种花里胡哨的单基因泛癌的表达量展示:

  • 单基因泛癌Fig1

如果你不会也没关系,上面这这些分析果子老师已经开发了专门的网站实现,点点点即可:

  • http://guotosky.vip:13838/GTBA/
  • http://guotosky.vip:13838/GPSA/

后续可能会把一些常用的分析和展示写成函数,加入到包里,但肯定没有鼠标点点点简单了~

转载请说明出处 内容投诉内容投诉
九幽软件 » gtex(gtex材质)