课程大纲
Syllabus
基本信息
| 项目 | 内容 |
|---|---|
| 课程名称 | 转录组数据分析 |
| 英文名称 | RNA-seq Data Analysis |
| 授课对象 | 生物医学信息系 本科生/研究生 |
| 先修课程 | R与(R)Markdown基础、生物统计学 |
| 学时安排 | 4学时(2学时理论 + 2学时实验) |
| 授课教师 | 王诗翔 副教授 |
| 开课单位 | 中南大学 |
学时说明:每学时 = 45分钟
课程目标
完成本课程后,学生将能够:
知识目标
- 理解RNA-seq技术原理、实验流程和数据特点
- 掌握转录组数据从原始FASTQ到表达矩阵的处理流程
- 理解差异表达分析的统计原理(负二项分布、离散度估计)
- 了解功能富集分析的算法(ORA超几何检验、GSEA)和常用数据库
能力目标
- 能够使用DESeq2进行完整的差异表达分析流程
- 能够进行火山图、热图等结果可视化
- 能够使用clusterProfiler进行GO/KEGG富集分析
- 能够解释分析结果并撰写简要报告
素质目标
- 建立转录组研究的系统性分析思维
- 培养生物信息学数据质量控制意识
- 增强生物学结果解释和文献阅读能力
教学内容与时间安排
理论讲授(2学时 = 90分钟)
| 序号 | 主题 | 核心内容 | 重点/难点 | 时长 |
|---|---|---|---|---|
| 1 | RNA-seq原理与实验设计 | 测序原理;文库制备;实验设计原则;批次效应控制 | 重点:实验设计原则、批次效应控制 难点:批次效应的识别与控制 |
25分钟 |
| 2 | 数据预处理与质控 | FASTQ格式;FastQC质控;比对原理;表达定量;标准化方法 | 重点:质控指标解读、标准化原理 难点:TPM vs FPKM vs Size Factors |
25分钟 |
| 3 | 差异表达分析 | 负二项分布;DESeq2流程;多重检验校正 | 重点:DESeq2分析步骤、结果筛选标准 难点:离散度估计、log2FC收缩 |
25分钟 |
| 4 | 功能富集分析 | GO/KEGG数据库;ORA超几何检验;GSEA原理;结果可视化 | 重点:ORA原理、clusterProfiler使用 难点:GSEA原理、结果生物学解释 |
15分钟 |
合计:2学时(90分钟)
实验教学(2学时 = 90分钟)
| 序号 | 实验名称 | 核心内容 | 关键技能 | 时长 |
|---|---|---|---|---|
| 1 | RNA-seq数据质控与预处理 | DESeq2对象创建;低表达基因过滤;Size Factor计算;VST转换;PCA与样本相关性 | DESeqDataSet构建、数据过滤、标准化 | 45分钟 |
| 2 | 差异表达分析与可视化 | DESeq2差异分析;结果筛选;火山图;热图;GO富集分析 | results()使用、ggplot2可视化、clusterProfiler | 45分钟 |
合计:2学时(90分钟)
总计:4学时(180分钟)
关键知识点总结
🔑 核心理论要点
1. RNA-seq数据统计特性
计数数据特点:
- 非负整数(离散型)
- 方差 > 均值(过度离散)
- 适合负二项分布建模
2. 标准化方法对比
| 方法 | 适用场景 | 特点 |
|---|---|---|
| Size Factor | 差异分析 | DESeq2内置,中位数比值法 |
| TPM | 样本内基因比较 | 长度校正,和为10^6 |
| CPM | 可视化 | 简单标准化 |
3. 差异基因筛选标准
推荐阈值:
- |log2FoldChange| > 1 (倍数变化 > 2)
- padj < 0.05 (FDR < 5%)
注意:padj是BH校正后的p值,非原始p值
4. 功能富集分析原理
ORA超几何检验:
P(X=k) = C(M,k) × C(N-M, n-k) / C(N,n)
其中:N=背景基因,M=通路基因,n=差异基因,k=重叠基因
关键难点与易错点
⚠️ 常见错误
| 环节 | 常见错误 | 正确做法 |
|---|---|---|
| 实验设计 | 对照组和处理组分不同批次处理 | 块设计:每批次包含各组样本 |
| 数据输入 | 使用标准化后的数据做DESeq2 | DESeq2需要原始counts矩阵 |
| 结果筛选 | 使用pvalue而非padj | 必须使用padj(BH校正) |
| 富集分析 | 使用全部基因做背景 | 背景应为所有检测到的基因 |
| 可视化 | 热图使用原始counts | 热图应使用标准化/转换后的数据 |
🔍 质控关键指标
| 指标 | 合格标准 | 不合格处理 |
|---|---|---|
| Q30 | > 85% | 检查测序质量 |
| 唯一比对率 | > 70% | 检查参考基因组 |
| 样本间相关性 | 组内 > 组间 | 检查批次效应 |
| PCA分组 | 按生物学条件聚类 | 检查批次或异常样本 |
软件环境
必需R包
# Bioconductor包
BiocManager::install(c(
"DESeq2", # 差异表达分析
"clusterProfiler", # 功能富集
"org.Hs.eg.db", # 人类基因注释
"org.Mm.eg.db", # 小鼠基因注释
"enrichplot" # 富集可视化
))
# CRAN包
install.packages(c(
"ggplot2", # 绘图
"pheatmap", # 热图
"RColorBrewer", # 配色
"tidyverse" # 数据处理
))版本要求
- R >= 4.3.0
- Bioconductor >= 3.18
参考教材与资源
主要教材
- 《RNA-seq Data Analysis: A Practical Approach》
- Eija Korpelainen et al., CRC Press, 2014
- DESeq2 Vignette (必读)
- https://bioconductor.org/packages/release/bioc/vignettes/DESeq2/inst/doc/DESeq2.html
- clusterProfiler文档 (必读)
- https://yulab-smu.top/biomedical-knowledge-mining-book/
在线资源
| 资源 | 链接 | 说明 |
|---|---|---|
| Bioconductor RNA-seq Workflow | 链接 | 官方完整流程 |
| HBC RNA-seq Training | GitHub | 哈佛培训材料 |
| NBIS RNA-seq Workshop | GitHub | 瑞典国家生物信息学课程 |
课程拓展
本课程是生物医学信息系课程体系的核心模块:
| 后续课程 | 衔接内容 |
|---|---|
| 单细胞RNA-seq分析 | 单细胞数据质控、降维、聚类 |
| 整合多组学分析 | 多组学数据整合与网络分析 |
| 生物信息学综合实践 | 完整项目设计与实施 |
学术诚信
本课程要求严格遵守学术诚信规范:
- 实验报告独立完成,禁止抄袭代码
- 引用他人代码需明确标注来源
- 鼓励合作讨论分析方法,但禁止直接复制分析结果
- 违反者按学校规定处理
联系信息
- 授课教师:王诗翔 副教授
- 单位:中南大学 · 生物医学信息系
- 邮箱:wangshx@csu.edu.cn
- 实验室主页:https://wanglabcsu.github.io/
- GitHub:https://github.com/WangLabCSU
祝学习愉快! 🎉