第1讲:RNA-seq原理与实验设计
从mRNA到序列数据
本讲概述
学习目标: - 理解RNA-seq技术的核心原理和优势 - 掌握实验设计的基本原则 - 理解批次效应的来源与控制方法
重点难点: - 🔑 重点:实验设计原则、批次效应控制 - ⚠️ 难点:批次效应的识别与控制策略
1. RNA-seq技术简介
1.1 什么是RNA-seq?
RNA-seq(RNA sequencing) 是利用高通量测序技术对转录组进行定量和定性分析的方法。
1.2 RNA-seq vs 芯片技术
| 特性 | RNA-seq | 芯片 |
|---|---|---|
| 检测范围 | 全转录组(已知+未知) | 预设探针 |
| 动态范围 | 宽(>10⁴) | 窄(~10²) |
| 灵敏度 | 高 | 中等 |
| 发现能力 | 新转录本、融合基因 | 限于已知 |
提示
结论:RNA-seq已成为转录组研究的标准方法
2. RNA-seq实验流程
2.1 整体流程
样本采集 → RNA提取 → mRNA富集 → 片段化 → cDNA合成 → 接头连接 → 测序 → 数据分析
2.2 关键质控点
| 阶段 | 指标 | 要求 |
|---|---|---|
| RNA提取 | RIN值 | > 7 |
| 文库构建 | 片段大小 | 200-300 bp |
| 测序 | Q30 | > 85% |
2.3 mRNA富集策略
| 方法 | 适用 | 优点 | 缺点 |
|---|---|---|---|
| poly-A选择 | 完整RNA+真核生物 | 数据利用率高 | 丢失非编码RNA |
| rRNA去除 | 降解样本/原核生物 | 更全面 | rRNA残留可能高 |
3. 测序参数选择
3.1 测序模式
| 模式 | 读长 | 应用场景 |
|---|---|---|
| SE50 | 50 bp单端 | 仅表达定量 |
| PE100 | 100 bp双端 | 剪接分析(推荐) |
| PE150 | 150 bp双端 | 复杂转录组 |
3.2 测序深度与重复数
| 分析类型 | reads/样本 | 生物学重复 |
|---|---|---|
| 基因表达定量 | 10-30 M | n≥3(最低) |
| 差异剪接 | 50-100 M | n≥4 |
重要
黄金法则:生物学重复 > 测序深度
4. 实验设计原则 🔑
4.1 基本原则
1. 对照组设置 — 必须设置对照组
2. 随机化 — 样本处理顺序随机
3. 平衡设计 — 各组样本数相等
4. 盲法 — 减少操作偏差
5. 详细记录 — 批次、日期、操作者4.2 常见实验设计
两两比较(最常见):
对照组 (n=3) vs 处理组 (n=3)
↓ ↓
建库测序 建库测序
↓ ↓
←—— 差异分析 ——→
配对设计:
同一患者:治疗前 (n=20) vs 治疗后 (n=20)
↓
配对分析:考虑个体差异,提高统计效能
4.3 实验设计检查清单
5. 批次效应 ⚠️
5.1 什么是批次效应?
批次效应:由非生物学因素引起的系统性差异
| 来源 | 影响程度 |
|---|---|
| 操作者 | 高 |
| 时间 | 高 |
| 试剂批次 | 中 |
| 仪器 | 中 |
5.2 识别方法
- PCA:批次是否聚类在一起
- 热图聚类:样本是否按批次聚类
异常表现:❌ 样本按批次聚类,而非生物学分组
5.3 控制策略
设计阶段控制(首选):
✅ 推荐:块设计(Block Design)
Day 1: 对照1-3 + 处理1-3
Day 2: 对照4-6 + 处理4-6
❌ 避免:
Day 1: 所有对照组
Day 2: 所有处理组
分析阶段校正: | 方法 | 工具 | 适用场景 | |——|——|———-| | ComBat | sva包 | 已知批次 | | 纳入设计公式 | DESeq2 | 批次作为协变量 |
6. 本讲小结
| 要点 | 内容 |
|---|---|
| 技术优势 | 全转录组覆盖、高灵敏度、发现新转录本 |
| 测序参数 | PE100-150,10-30M reads/样本,n≥3 |
| 实验设计 | 对照组、随机化、平衡设计、详细metadata |
| 批次效应 | 设计阶段控制优于分析阶段校正 |
思考题
- 为什么选择poly-A富集而非随机引物?
- 双端测序相比单端测序的优势是什么?
- 如何判断实验中是否存在批次效应?
- 单细胞RNA-seq与常规RNA-seq在设计上的主要区别?
参考文献
- Wang Z, et al. RNA-Seq: a revolutionary tool for transcriptomics. Nat Rev Genet. 2009
- Conesa A, et al. A survey of best practices for RNA-seq data analysis. Genome Biol. 2016
- Leek JT, et al. Tackling the widespread and critical impact of batch effects. Nat Rev Genet. 2010