从差异基因到生物学解释
2026-03-21
差异表达分析后,你可能得到:
上调基因:1,500个
下调基因:1,200个
面对数千个基因,如何理解其生物学意义?
| 目标 | 说明 |
|---|---|
| 降维 | 从基因列表到功能类别 |
| 解释 | 识别受影响的生物学过程 |
| 假设生成 | 发现新的研究方向 |
差异基因列表 → 功能富集分析 → 生物学洞察
┌──────────┐ ┌──────────┐ ┌──────────┐
│ Gene A │ │ GO:1234 │ │ 细胞增殖 │
│ Gene B │ → │ KEGG:567 │ → │ 信号通路 │
│ Gene C │ │ GO:5678 │ │ 代谢过程 │
│ ... │ │ ... │ │ ... │
└──────────┘ └──────────┘ └──────────┘
三大分支:
| 分支 | 缩写 | 描述 | 示例 |
|---|---|---|---|
| 细胞组分 | CC | 基因产物所在位置 | nucleus, membrane |
| 分子功能 | MF | 基因产物的生化活性 | kinase activity |
| 生物过程 | BP | 参与的生物学过程 | cell division |
生物过程 (Biological Process)
│
┌─────────┴─────────┐
│ │
细胞增殖 细胞凋亡
│
┌────┴────┐
│ │
DNA复制 有丝分裂
| 数据库 | 内容 | 应用 |
|---|---|---|
| PATHWAY | 代谢通路、信号通路 | 通路富集分析 |
| GENES | 基因序列信息 | 基因注释 |
| DISEASE | 疾病相关基因 | 疾病研究 |
不同数据库使用不同的基因标识符:
| ID类型 | 示例 | 使用场景 |
|---|---|---|
| SYMBOL | TP53, BRCA1 | 人类可读 |
| ENTREZID | 7157, 672 | NCBI数据库 |
| ENSEMBL | ENSG00000141510 | Ensembl数据库 |
| UNIPROT | P04637 | 蛋白数据库 |
| KEGG | hsa:7157 | KEGG通路 |
警告
注意:ID转换可能不完全,部分基因可能没有对应的目标ID
核心问题:某GO/通路中的差异基因是否比随机期望更多?
超几何检验:
背景基因:N个(如20,000,所有检测到的基因)
背景中属于某通路的基因:M个
差异基因:n个
差异基因中属于该通路的基因:k个
P(X=k) = C(M,k) × C(N-M, n-k) / C(N,n)
1. 获取差异基因列表(|log2FC|>1, padj<0.05)
↓
2. 选择背景基因集(所有检测到的基因)
↓
3. 基因ID转换(如SYMBOL → ENTREZID)
↓
4. 对每个GO/通路进行超几何检验
↓
5. 多重检验校正(BH)
↓
6. 筛选显著富集的条目(p.adjust < 0.05)
| 列名 | 含义 | 说明 |
|---|---|---|
| ID | GO/通路ID | 唯一标识符 |
| Description | 描述 | 功能名称 |
| GeneRatio | k/n | 差异基因中属于该通路的比率 |
| BgRatio | M/N | 背景中属于该通路的比率 |
| pvalue | 原始p值 | 富集显著性 |
| p.adjust | 校正p值 | BH校正后 |
| Count | k | 属于该通路的差异基因数 |
注意:enrichKEGG() 支持的ID类型与GO不同: - 支持:kegg, ncbi-geneid, ncbi-proteinid, uniprot - 不支持:SYMBOL, ENSEMBL
| 物种 | 代码 | 说明 |
|---|---|---|
| 人类 | hsa | Homo sapiens |
| 小鼠 | mmu | Mus musculus |
| 大鼠 | rno | Rattus norvegicus |
警告
常见问题:KEGG数据库在国外,可能被防火墙阻挡
Gene Set Enrichment Analysis:
排序的基因列表(按log2FC从高到低):
log2FC: +5 +3 +1 0 -1 -3 -5
│ │ │ │ │ │ │
Gene: A───B───C───D───E───F───G───H───I───J
↑ ↑ ↑
通路X成员 通路Y成员
| 特性 | ORA | GSEA |
|---|---|---|
| 输入 | 差异基因列表 | 全部基因(排序) |
| 阈值依赖 | 是 | 否 |
| 检测微弱信号 | 弱 | 强 |
| 计算量 | 小 | 大 |
| 适用场景 | 快速筛选 | 深入分析 |
点图解读: - 点大小:富集基因数(Count) - 颜色:显著性(p.adjust) - X轴:GeneRatio
用途: - 显示富集条目间的基因重叠 - 查看哪些基因参与多个通路 - 结合表达变化方向(红色=上调,蓝色=下调)
图例解读: - 绿线:富集分数曲线 - 黑色竖线:基因集中基因在排序列表中的位置 - 热图:基因表达值分布
示例描述:
| 注意事项 | 说明 |
|---|---|
| 选择合适背景 | 使用所有检测到的基因作为背景,而非全基因组 |
| 关注GeneRatio | 高富集比(>2)更可靠 |
| 结合表达方向 | 上调和下调基因分别富集分析 |
| 避免过度解读 | 富集≠因果,需实验验证 |
| 文献验证 | 关键通路需结合已有文献支持 |
| 问题 | 可能原因 | 解决方案 |
|---|---|---|
| 富集结果为空 | ID转换失败 | 检查keyType是否正确 |
| 阈值过严 | 放宽pvalueCutoff | |
| 结果过多 | 阈值过松 | 使用qvalue或更严格的p.adjust |
| 通路名称不显示 | 网络问题 | 检查KEGG数据库连接 |
bitr()进行SYMBOL↔︎ENTREZID转换📧 wangshx@csu.edu.cn 🌐 https://wanglabcsu.github.io/ 🐙 https://github.com/WangLabCSU

功能富集分析 | 中南大学