第1讲:RNA-seq原理与实验设计

从mRNA到序列数据

本讲概述

学习目标: - 理解RNA-seq技术的核心原理和优势 - 掌握实验设计的基本原则 - 理解批次效应的来源与控制方法

重点难点: - 🔑 重点:实验设计原则、批次效应控制 - ⚠️ 难点:批次效应的识别与控制策略


1. RNA-seq技术简介

1.1 什么是RNA-seq?

RNA-seq(RNA sequencing) 是利用高通量测序技术对转录组进行定量和定性分析的方法。

1.2 RNA-seq vs 芯片技术

特性 RNA-seq 芯片
检测范围 全转录组(已知+未知) 预设探针
动态范围 宽(>10⁴) 窄(~10²)
灵敏度 中等
发现能力 新转录本、融合基因 限于已知
提示

结论:RNA-seq已成为转录组研究的标准方法


2. RNA-seq实验流程

2.1 整体流程

样本采集 → RNA提取 → mRNA富集 → 片段化 → cDNA合成 → 接头连接 → 测序 → 数据分析

2.2 关键质控点

阶段 指标 要求
RNA提取 RIN值 > 7
文库构建 片段大小 200-300 bp
测序 Q30 > 85%

2.3 mRNA富集策略

方法 适用 优点 缺点
poly-A选择 完整RNA+真核生物 数据利用率高 丢失非编码RNA
rRNA去除 降解样本/原核生物 更全面 rRNA残留可能高

3. 测序参数选择

3.1 测序模式

模式 读长 应用场景
SE50 50 bp单端 仅表达定量
PE100 100 bp双端 剪接分析(推荐)
PE150 150 bp双端 复杂转录组

3.2 测序深度与重复数

分析类型 reads/样本 生物学重复
基因表达定量 10-30 M n≥3(最低)
差异剪接 50-100 M n≥4
重要

黄金法则:生物学重复 > 测序深度


4. 实验设计原则 🔑

4.1 基本原则

1. 对照组设置 — 必须设置对照组
2. 随机化 — 样本处理顺序随机
3. 平衡设计 — 各组样本数相等
4. 盲法 — 减少操作偏差
5. 详细记录 — 批次、日期、操作者

4.2 常见实验设计

两两比较(最常见)

对照组 (n=3)    vs    处理组 (n=3)
   ↓                    ↓
建库测序            建库测序
   ↓                    ↓
   ←—— 差异分析 ——→

配对设计

同一患者:治疗前 (n=20) vs 治疗后 (n=20)
        ↓
配对分析:考虑个体差异,提高统计效能

4.3 实验设计检查清单


5. 批次效应 ⚠️

5.1 什么是批次效应?

批次效应:由非生物学因素引起的系统性差异

来源 影响程度
操作者
时间
试剂批次
仪器

5.2 识别方法

  • PCA:批次是否聚类在一起
  • 热图聚类:样本是否按批次聚类

异常表现:❌ 样本按批次聚类,而非生物学分组

5.3 控制策略

设计阶段控制(首选)

✅ 推荐:块设计(Block Design)

Day 1: 对照1-3 + 处理1-3
Day 2: 对照4-6 + 处理4-6

❌ 避免:
Day 1: 所有对照组
Day 2: 所有处理组

分析阶段校正: | 方法 | 工具 | 适用场景 | |——|——|———-| | ComBat | sva包 | 已知批次 | | 纳入设计公式 | DESeq2 | 批次作为协变量 |


6. 本讲小结

要点 内容
技术优势 全转录组覆盖、高灵敏度、发现新转录本
测序参数 PE100-150,10-30M reads/样本,n≥3
实验设计 对照组、随机化、平衡设计、详细metadata
批次效应 设计阶段控制优于分析阶段校正

思考题

  1. 为什么选择poly-A富集而非随机引物?
  2. 双端测序相比单端测序的优势是什么?
  3. 如何判断实验中是否存在批次效应?
  4. 单细胞RNA-seq与常规RNA-seq在设计上的主要区别?

参考文献

  1. Wang Z, et al. RNA-Seq: a revolutionary tool for transcriptomics. Nat Rev Genet. 2009
  2. Conesa A, et al. A survey of best practices for RNA-seq data analysis. Genome Biol. 2016
  3. Leek JT, et al. Tackling the widespread and critical impact of batch effects. Nat Rev Genet. 2010