第1讲:RNA-seq原理与实验设计
从mRNA到序列数据
本讲概述
学习目标:
- 理解RNA-seq技术的核心原理和优势
- 掌握实验设计的基本原则
- 理解批次效应的来源与控制方法
- 了解测序参数的选择依据
重点难点:
- 🔑 重点:实验设计原则、批次效应控制
- ⚠️ 难点:批次效应的识别与控制策略
配套数据:本课程使用真实甲状腺癌RNA-seq数据(PTC vs ATC)
1. RNA-seq技术简介
1.1 什么是RNA-seq?
RNA-seq(RNA sequencing) 是利用高通量测序技术对转录组进行定量和定性分析的方法。
提示RNA-seq的核心能力
- 定量分析 — 测定每个基因的转录本丰度
- 差异分析 — 比较不同条件下基因表达变化
- 新转录本发现 — 鉴定新的基因和剪接异构体
1.2 RNA-seq vs 芯片技术
| 特性 | RNA-seq | 芯片 |
|---|---|---|
| 检测范围 | 全转录组(已知+未知) | 预设探针 |
| 动态范围 | 宽(>10⁴) | 窄(~10²) |
| 灵敏度 | 高,可检测低表达基因 | 中等 |
| 发现能力 | 新转录本、融合基因 | 限于已知 |
| 成本 | 约$50-100/样本 | 约$30-50/样本 |
注记
结论:RNA-seq已成为转录组研究的标准方法,芯片主要用于历史数据整合或大规模验证研究。
1.3 RNA-seq生物医学应用实例
| 应用领域 | 典型研究 | 关键发现 |
|---|---|---|
| 肿瘤研究 | TCGA项目 | 癌症分型标志物、驱动基因 |
| 药物研发 | 药物反应预测 | 治疗靶点筛选 |
| 发育生物学 | 时空表达图谱 | 发育关键基因 |
| 免疫学 | 免疫细胞分型 | 免疫状态评估 |
2. RNA-seq实验流程
2.1 整体流程图
样本采集 → RNA提取 → mRNA富集 → 片段化 → cDNA合成 → 接头连接 → 测序 → 数据分析
2.2 关键质控点
| 阶段 | 指标 | 要求 | 检测方法 |
|---|---|---|---|
| RNA提取 | RIN值 | > 7 | Bioanalyzer |
| RNA提取 | 浓度 | >100 ng/μL | NanoDrop/Qubit |
| RNA提取 | 纯度 | A260/A280 = 1.8-2.1 | NanoDrop |
| 文库构建 | 片段大小 | 200-300 bp | Bioanalyzer |
| 测序 | Q30 | > 85% | fastp/FastQC |
2.3 mRNA富集策略对比
| 方法 | 适用场景 | 优点 | 缺点 |
|---|---|---|---|
| poly-A选择 | 完整RNA+真核生物 | 数据利用率高、rRNA污染低 | 丢失非编码RNA、不适合降解样本 |
| rRNA去除 | 降解样本/原核生物/FFPE | 更全面、保留ncRNA | rRNA残留、数据复杂度高 |
警告⚠️ 样本质量评估
- RIN > 8:优秀,可使用poly-A选择
- RIN 6-8:可接受,需评估是否poly-A或rRNA去除
- RIN < 6:降解样本,建议使用rRNA去除
3. 测序参数选择
3.1 测序模式
| 模式 | 读长 | 应用场景 | 成本参考 |
|---|---|---|---|
| SE50 | 50 bp单端 | 仅表达定量 | 低 |
| PE75 | 75 bp双端 | 常规表达分析 | 中 |
| PE100 | 100 bp双端 | 剪接分析(推荐) | 高 |
| PE150 | 150 bp双端 | 复杂转录组、融合基因 | 最高 |
3.2 测序深度与重复数
| 分析类型 | reads/样本 | 生物学重复 | 说明 |
|---|---|---|---|
| 基因表达定量 | 10-30 M | n≥3 | 最低要求 |
| 差异剪接 | 50-100 M | n≥4 | 需更高覆盖度 |
| 融合基因检测 | >100 M | n≥3 | 低丰度事件 |
重要🔑 黄金法则
生物学重复 > 测序深度
- 增加重复数可提高统计效能,降低假阳性
- 增加测序深度仅提高低表达基因检出
- 建议:有限预算下优先增加重复数
4. 实验设计原则 🔑
4.1 基本原则(五要素)
- 对照组设置 — 必须设置对照组,确保可比性
- 随机化 — 样本处理顺序随机,避免系统性偏差
- 平衡设计 — 各组样本数相等,提高统计效能
- 盲法 — 减少操作偏差,避免主观影响
- 详细记录 — 批次、日期、操作者等metadata
注记
实验设计核心:好的实验设计是成功分析的基础。设计缺陷无法通过后期分析完全弥补。
4.2 常见实验设计类型
两两比较(最常见):
对照组 (n=3) vs 处理组 (n=3)
↓ ↓
建库测序 建库测序
↓ ↓
←—— 差异分析 ——→
配对设计(提高统计效能):
同一患者:治疗前 (n=20) vs 治疗后 (n=20)
↓
配对分析:考虑个体差异,减少混杂因素
时间序列设计:
时间点: T0 → T1 → T2 → T3
↓ ↓ ↓ ↓
分析变化趋势、动态过程
4.3 实验设计检查清单
5. 批次效应 ⚠️
5.1 什么是批次效应?
批次效应:由非生物学因素引起的系统性差异
| 来源 | 影响程度 | 示例 |
|---|---|---|
| 操作者 | 高 | 不同人员RNA提取习惯差异 |
| 时间 | 高 | 不同批次建库、测序 |
| 试剂批次 | 中 | 不同批次试剂性能差异 |
| 仪器 | 中 | 不同测序仪、flow cell |
5.2 识别方法
PCA分析:
- ✅ 正确:样本按生物学条件聚类
- ❌ 异常:样本按批次聚类
相关性热图:
- ✅ 正确:组内相关性 > 组间相关性
- ❌ 异常:同批次样本相关性最高
5.3 控制策略
设计阶段控制(首选):
✅ 推荐:块设计(Block Design)
Day 1: 对照1-3 + 处理1-3
Day 2: 对照4-6 + 处理4-6
❌ 避免:批次完全混淆
Day 1: 所有对照组
Day 2: 所有处理组 ← 无法校正!
分析阶段校正:
| 方法 | 工具 | 适用场景 | 说明 |
|---|---|---|---|
| ComBat | sva包 | 已知批次 | 经验贝叶斯校正 |
| ComBat-seq | sva包 | RNA-seq计数 | 针对计数数据 |
| RUVSeq | RUVSeq包 | 未知因素 | 利用阴性对照基因 |
| 约入设计公式 | DESeq2 | 批次已知 | design = ~ batch + condition |
警告⚠️ 批次校正注意事项
- 校正前需确认批次信息准确
- 过度校正可能移除真实生物学信号
- 批次与分组完全混淆时无法校正(设计阶段必须避免)
- 校正后需重新检查PCA确认效果
6. 本讲小结
| 要点 | 内容 |
|---|---|
| 技术优势 | 全转录组覆盖、高灵敏度、发现新转录本 |
| 测序参数 | PE100-150,10-30M reads/样本,n≥3 |
| 实验设计 | 对照组、随机化、平衡设计、详细metadata |
| 批次效应 | 设计阶段控制优于分析阶段校正 |
思考题
为什么选择poly-A富集而非随机引物?
点击查看答案
poly-A选择富集成熟mRNA,数据利用率高,适合完整RNA样本。随机引物会产生大量rRNA背景,降低数据有效利用。
双端测序相比单端测序的优势是什么?
点击查看答案
双端测序可:1) 提高比对准确性;2) 检测剪接位点;3) 发现新转录本;4) 检测融合基因。
如何判断实验中是否存在批次效应?
点击查看答案
通过PCA分析观察样本聚类情况:如果样本按批次而非生物学条件聚类,则存在批次效应。
为什么”生物学重复 > 测序深度”?
点击查看答案
增加重复数提高统计效能,降低假阳性率;增加测序深度仅提高低表达基因检出率,对差异分析准确性的贡献有限。
参考文献
- Wang Z, et al. RNA-Seq: a revolutionary tool for transcriptomics. Nat Rev Genet. 2009
- Conesa A, et al. A survey of best practices for RNA-seq data analysis. Genome Biol. 2016
- Leek JT, et al. Tackling the widespread and critical impact of batch effects. Nat Rev Genet. 2010
- Love MI, et al. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biol. 2014