课程大纲

Syllabus

基本信息

项目 内容
课程名称 转录组数据分析
英文名称 RNA-seq Data Analysis
授课对象 生物医学信息系 本科生/研究生
先修课程 R与(R)Markdown基础、生物统计学
学时安排 4学时(2学时理论 + 2学时实验)
授课教师 王诗翔 副教授
开课单位 中南大学

学时说明:每学时 = 45分钟


课程目标

完成本课程后,学生将能够:

知识目标

  • 理解RNA-seq技术原理、实验流程和数据特点
  • 掌握转录组数据从原始FASTQ到表达矩阵的处理流程
  • 理解差异表达分析的统计原理(负二项分布、离散度估计)
  • 了解功能富集分析的算法(ORA超几何检验、GSEA)和常用数据库

能力目标

  • 能够使用DESeq2进行完整的差异表达分析流程
  • 能够进行火山图、热图等结果可视化
  • 能够使用clusterProfiler进行GO/KEGG富集分析
  • 能够解释分析结果并撰写简要报告

素质目标

  • 建立转录组研究的系统性分析思维
  • 培养生物信息学数据质量控制意识
  • 增强生物学结果解释和文献阅读能力

教学内容与时间安排

理论讲授(2学时 = 90分钟)

序号 主题 核心内容 重点/难点 时长
1 RNA-seq原理与实验设计 测序原理;文库制备;实验设计原则;批次效应控制 重点:实验设计原则、批次效应控制
难点:批次效应的识别与控制
25分钟
2 数据预处理与质控 FASTQ格式;FastQC质控;比对原理;表达定量;标准化方法 重点:质控指标解读、标准化原理
难点:TPM vs FPKM vs Size Factors
25分钟
3 差异表达分析 负二项分布;DESeq2流程;多重检验校正 重点:DESeq2分析步骤、结果筛选标准
难点:离散度估计、log2FC收缩
25分钟
4 功能富集分析 GO/KEGG数据库;ORA超几何检验;GSEA原理;结果可视化 重点:ORA原理、clusterProfiler使用
难点:GSEA原理、结果生物学解释
15分钟

合计:2学时(90分钟)

实验教学(2学时 = 90分钟)

序号 实验名称 核心内容 关键技能 时长
1 RNA-seq数据质控与预处理 DESeq2对象创建;低表达基因过滤;Size Factor计算;VST转换;PCA与样本相关性 DESeqDataSet构建、数据过滤、标准化 45分钟
2 差异表达分析与可视化 DESeq2差异分析;结果筛选;火山图;热图;GO富集分析 results()使用、ggplot2可视化、clusterProfiler 45分钟

合计:2学时(90分钟)

总计:4学时(180分钟)


关键知识点总结

🔑 核心理论要点

1. RNA-seq数据统计特性

计数数据特点:
- 非负整数(离散型)
- 方差 > 均值(过度离散)
- 适合负二项分布建模

2. 标准化方法对比

方法 适用场景 特点
Size Factor 差异分析 DESeq2内置,中位数比值法
TPM 样本内基因比较 长度校正,和为10^6
CPM 可视化 简单标准化

3. 差异基因筛选标准

推荐阈值:
- |log2FoldChange| > 1  (倍数变化 > 2)
- padj < 0.05  (FDR < 5%)

注意:padj是BH校正后的p值,非原始p值

4. 功能富集分析原理

ORA超几何检验:
P(X=k) = C(M,k) × C(N-M, n-k) / C(N,n)

其中:N=背景基因,M=通路基因,n=差异基因,k=重叠基因

关键难点与易错点

⚠️ 常见错误

环节 常见错误 正确做法
实验设计 对照组和处理组分不同批次处理 块设计:每批次包含各组样本
数据输入 使用标准化后的数据做DESeq2 DESeq2需要原始counts矩阵
结果筛选 使用pvalue而非padj 必须使用padj(BH校正)
富集分析 使用全部基因做背景 背景应为所有检测到的基因
可视化 热图使用原始counts 热图应使用标准化/转换后的数据

🔍 质控关键指标

指标 合格标准 不合格处理
Q30 > 85% 检查测序质量
唯一比对率 > 70% 检查参考基因组
样本间相关性 组内 > 组间 检查批次效应
PCA分组 按生物学条件聚类 检查批次或异常样本

软件环境

必需R包

# Bioconductor包
BiocManager::install(c(
  "DESeq2",           # 差异表达分析
  "clusterProfiler",  # 功能富集
  "org.Hs.eg.db",     # 人类基因注释
  "org.Mm.eg.db",     # 小鼠基因注释
  "enrichplot"        # 富集可视化
))

# CRAN包
install.packages(c(
  "ggplot2",          # 绘图
  "pheatmap",         # 热图
  "RColorBrewer",     # 配色
  "tidyverse"         # 数据处理
))

版本要求

  • R >= 4.3.0
  • Bioconductor >= 3.18

参考教材与资源

主要教材

  1. 《RNA-seq Data Analysis: A Practical Approach》
    • Eija Korpelainen et al., CRC Press, 2014
  2. DESeq2 Vignette (必读)
    • https://bioconductor.org/packages/release/bioc/vignettes/DESeq2/inst/doc/DESeq2.html
  3. clusterProfiler文档 (必读)
    • https://yulab-smu.top/biomedical-knowledge-mining-book/

在线资源

资源 链接 说明
Bioconductor RNA-seq Workflow 链接 官方完整流程
HBC RNA-seq Training GitHub 哈佛培训材料
NBIS RNA-seq Workshop GitHub 瑞典国家生物信息学课程

课程拓展

本课程是生物医学信息系课程体系的核心模块:

后续课程 衔接内容
单细胞RNA-seq分析 单细胞数据质控、降维、聚类
整合多组学分析 多组学数据整合与网络分析
生物信息学综合实践 完整项目设计与实施

学术诚信

本课程要求严格遵守学术诚信规范:

  • 实验报告独立完成,禁止抄袭代码
  • 引用他人代码需明确标注来源
  • 鼓励合作讨论分析方法,但禁止直接复制分析结果
  • 违反者按学校规定处理

联系信息

  • 授课教师:王诗翔 副教授
  • 单位:中南大学 · 生物医学信息系
  • 邮箱:wangshx@csu.edu.cn
  • 实验室主页:https://wanglabcsu.github.io/
  • GitHub:https://github.com/WangLabCSU

祝学习愉快! 🎉