做肺癌研究的朋友们,是不是常纠结去哪找靠谱的数据?GEO 和 TCGA 这两个数据库肯定不陌生,但具体怎么精准拿到肺癌相关的数据,拿到后又该咋分析,估计不少人还是一头雾水。今天小编就手把手带大家走一遍流程,全是实战经验,新手也能跟着做,一起往下看吧!
先说说 GEO 数据库,肺癌数据咋拿到手?
GEO 里的数据虽然多,但想精准定位到肺癌的可不容易。小编通常是这么做的:
打开 GEO 官网(ncbi.nlm.nih.gov/geo),在搜索框里输 “lung cancer”,再加上 “homo sapiens” 限定人类样本,这样能筛掉一大半无关数据。点搜索后会出来一堆数据集,这时候别急着下载,先看标题里有没有 “non-small cell lung cancer”(非小细胞肺癌)或 “small cell lung cancer”(小细胞肺癌),根据自己的研究方向挑。
点进数据集后,先看 “Sample characteristics”,确认样本里有癌组织和正常组织的对照,样本量最好超过 50 例,太少了分析起来没意义。然后看 “Platform”,优先选 Affymetrix 或 Illumina 的芯片平台,后续分析工具支持度高。
下载数据时有两种方式:新手朋友直接点 “Series Matrix File (s)” 下矩阵文件,打开就能看到基因表达值;熟手用 R 语言的 GEOquery 包,代码一行 “getGEO (“GSEXXXX”)” 就能把数据导进环境,省得手动整理。
提醒一句,有位做肺腺癌研究的师兄分享过,他之前没注意数据集里包含了转移灶样本,结果分析时总出问题,后来重新筛选才搞定。所以大家下载前一定要把样本注释看仔细咯!
再看 TCGA 数据库,肺癌数据获取有啥不一样?
TCGA 里的肺癌数据分类特别细,分 LUAD(肺腺癌)、LUSC(肺鳞状细胞癌)等,找起来更精准。但它的官网入口换过好几次,现在主要通过 GDC Data Portal(portal.gdc.cancer.gov)获取。
步骤其实不复杂:先点 “Repository”,在 “Projects” 里选 “Lung Adenocarcinoma (LUAD)” 或 “Lung Squamous Cell Carcinoma (LUSC)”,然后在 “Data Category” 里勾上 “Transcriptome Profiling”(转录组数据)和 “Clinical”(临床数据),“Data Type” 选 “Gene Expression Quantification”。
选完后点 “Add All Files to Cart”,再到购物车下载 manifest 文件,用 GDC Data Transfer Tool 批量下载,速度比网页直接下快多了。临床数据记得下 “biospecimen” 和 “clinical” 两个文件,里面有患者的生存时间、分期等关键信息。
小编团队的师妹说,她第一次下 TCGA 数据时,没注意区分 “primary tumor” 和 “metastatic” 样本,把转移灶的数据混进去了,导致生存分析结果偏差很大,大家可别犯同样的错。
数据拿到手了,分析步骤该咋走?
不管是 GEO 还是 TCGA 的数据,拿到后都得先处理干净,不然分析结果没法看。小编给大家整理了通用步骤:
- 数据预处理
GEO 数据先用 limma 包做标准化(normalizeBetweenArrays),把不同芯片平台的数据拉到同一水平;TCGA 的 RNA-seq 数据要转换成 TPM 格式,用 DESeq2 包做标准化。这一步很关键,有位合作的医生就因为没做标准化,结果差异基因找错了,白费了好多功夫。 - 差异基因分析
用 limma 包分析 GEO 数据,TCGA 数据用 DESeq2 或 edgeR,设定阈值(|log2FC|>1,adj.P.Value<0.05),筛选出肺癌组织和正常组织里的差异表达基因。这时候可以画个火山图看看整体分布,用 ggplot2 包就能做,代码网上一搜一大堆。 - 功能富集分析
把差异基因导入 clusterProfiler 包,做 GO 和 KEGG 富集分析,看看这些基因主要参与哪些生物学过程,比如是不是富集在 “细胞凋亡”“肿瘤侵袭” 这些通路里。有经验的老师都知道,这一步能帮你缩小研究范围,找到关键机制。 - 联合分析更靠谱
单独用一个数据库的结果总觉得说服力不够,把 GEO 和 TCGA 的差异基因取交集,再做生存分析,这样结果更扎实。比如用 TCGA 的临床数据做 KM 曲线,看看某个基因高表达的患者是不是生存期更短,再到 GEO 的数据集里验证一下,文章的可信度立马上去了。
最后小编想说,做数据挖掘耐心特别重要,刚开始可能会觉得步骤繁琐,多练两次就顺了。GEO 和 TCGA 就像肺癌研究的两大宝藏,关键是要知道怎么挖、怎么用。要是中间遇到卡壳的地方,多看看论坛里的教程,或者问问实验室的师兄师姐,别自己硬扛着。希望今天的步骤能帮大家少走弯路,早点做出漂亮的结果!
最新业务:世纪货币网