第1讲：RNA-seq原理与实验设计

从mRNA到序列数据

本讲概述

学习目标：

理解RNA-seq技术的核心原理和优势
掌握实验设计的基本原则
理解批次效应的来源与控制方法
了解测序参数的选择依据

重点难点：

🔑 重点：实验设计原则、批次效应控制
⚠️ 难点：批次效应的识别与控制策略

配套数据：本课程使用真实甲状腺癌RNA-seq数据（PTC vs ATC）

1. RNA-seq技术简介

1.1 什么是RNA-seq？

RNA-seq（RNA sequencing） 是利用高通量测序技术对转录组进行定量和定性分析的方法。

RNA-seq的核心能力

定量分析 — 测定每个基因的转录本丰度
差异分析 — 比较不同条件下基因表达变化
新转录本发现 — 鉴定新的基因和剪接异构体

1.2 RNA-seq vs 芯片技术

特性	RNA-seq	芯片
检测范围	全转录组（已知+未知）	预设探针
动态范围	宽（>10⁴）	窄（~10²）
灵敏度	高，可检测低表达基因	中等
发现能力	新转录本、融合基因	限于已知
成本	约$50-100/样本	约$30-50/样本

注记

结论：RNA-seq已成为转录组研究的标准方法，芯片主要用于历史数据整合或大规模验证研究。

1.3 RNA-seq生物医学应用实例

应用领域	典型研究	关键发现
肿瘤研究	TCGA项目	癌症分型标志物、驱动基因
药物研发	药物反应预测	治疗靶点筛选
发育生物学	时空表达图谱	发育关键基因
免疫学	免疫细胞分型	免疫状态评估

2. RNA-seq实验流程

2.1 整体流程图

样本采集 → RNA提取 → mRNA富集 → 片段化 → cDNA合成 → 接头连接 → 测序 → 数据分析

2.2 关键质控点

阶段	指标	要求	检测方法
RNA提取	RIN值	> 7	Bioanalyzer
RNA提取	浓度	>100 ng/μL	NanoDrop/Qubit
RNA提取	纯度	A260/A280 = 1.8-2.1	NanoDrop
文库构建	片段大小	200-300 bp	Bioanalyzer
测序	Q30	> 85%	fastp/FastQC

2.3 mRNA富集策略对比

方法	适用场景	优点	缺点
poly-A选择	完整RNA+真核生物	数据利用率高、rRNA污染低	丢失非编码RNA、不适合降解样本
rRNA去除	降解样本/原核生物/FFPE	更全面、保留ncRNA	rRNA残留、数据复杂度高

⚠️ 样本质量评估

RIN > 8：优秀，可使用poly-A选择
RIN 6-8：可接受，需评估是否poly-A或rRNA去除
RIN < 6：降解样本，建议使用rRNA去除

3. 测序参数选择

3.1 测序模式

模式	读长	应用场景	成本参考
SE50	50 bp单端	仅表达定量	低
PE75	75 bp双端	常规表达分析	中
PE100	100 bp双端	剪接分析（推荐）	高
PE150	150 bp双端	复杂转录组、融合基因	最高

3.2 测序深度与重复数

分析类型	reads/样本	生物学重复	说明
基因表达定量	10-30 M	n≥3	最低要求
差异剪接	50-100 M	n≥4	需更高覆盖度
融合基因检测	>100 M	n≥3	低丰度事件

🔑 黄金法则

生物学重复 > 测序深度

增加重复数可提高统计效能，降低假阳性
增加测序深度仅提高低表达基因检出
建议：有限预算下优先增加重复数

4. 实验设计原则 🔑

4.1 基本原则（五要素）

对照组设置 — 必须设置对照组，确保可比性
随机化 — 样本处理顺序随机，避免系统性偏差
平衡设计 — 各组样本数相等，提高统计效能
盲法 — 减少操作偏差，避免主观影响
详细记录 — 批次、日期、操作者等metadata

注记

实验设计核心：好的实验设计是成功分析的基础。设计缺陷无法通过后期分析完全弥补。

4.2 常见实验设计类型

两两比较（最常见）：

对照组 (n=3)    vs    处理组 (n=3)
   ↓                    ↓
建库测序            建库测序
   ↓                    ↓
   ←—— 差异分析 ——→

配对设计（提高统计效能）：

同一患者：治疗前 (n=20) vs 治疗后 (n=20)
        ↓
配对分析：考虑个体差异，减少混杂因素

时间序列设计：

时间点: T0 → T1 → T2 → T3
       ↓    ↓    ↓    ↓
       分析变化趋势、动态过程

4.3 实验设计检查清单

每组至少3个生物学重复？
是否考虑了性别、年龄等混杂因素？
是否记录了批次信息？
是否进行了随机化处理？
对照组条件是否匹配？

5. 批次效应 ⚠️

5.1 什么是批次效应？

批次效应：由非生物学因素引起的系统性差异

来源	影响程度	示例
操作者	高	不同人员RNA提取习惯差异
时间	高	不同批次建库、测序
试剂批次	中	不同批次试剂性能差异
仪器	中	不同测序仪、flow cell

5.2 识别方法

PCA分析：

✅ 正确：样本按生物学条件聚类
❌ 异常：样本按批次聚类

相关性热图：

✅ 正确：组内相关性 > 组间相关性
❌ 异常：同批次样本相关性最高

5.3 控制策略

设计阶段控制（首选）：

✅ 推荐：块设计（Block Design）

Day 1: 对照1-3 + 处理1-3
Day 2: 对照4-6 + 处理4-6

❌ 避免：批次完全混淆
Day 1: 所有对照组
Day 2: 所有处理组  ← 无法校正！

分析阶段校正：

方法	工具	适用场景	说明
ComBat	sva包	已知批次	经验贝叶斯校正
ComBat-seq	sva包	RNA-seq计数	针对计数数据
RUVSeq	RUVSeq包	未知因素	利用阴性对照基因
约入设计公式	DESeq2	批次已知	`design = ~ batch + condition`

⚠️ 批次校正注意事项

校正前需确认批次信息准确
过度校正可能移除真实生物学信号
批次与分组完全混淆时无法校正（设计阶段必须避免）
校正后需重新检查PCA确认效果

6. 本讲小结

要点	内容
技术优势	全转录组覆盖、高灵敏度、发现新转录本
测序参数	PE100-150，10-30M reads/样本，n≥3
实验设计	对照组、随机化、平衡设计、详细metadata
批次效应	设计阶段控制优于分析阶段校正

思考题

为什么选择poly-A富集而非随机引物？

点击查看答案

poly-A选择富集成熟mRNA，数据利用率高，适合完整RNA样本。随机引物会产生大量rRNA背景，降低数据有效利用。
双端测序相比单端测序的优势是什么？

点击查看答案

双端测序可：1) 提高比对准确性；2) 检测剪接位点；3) 发现新转录本；4) 检测融合基因。
如何判断实验中是否存在批次效应？

点击查看答案

通过PCA分析观察样本聚类情况：如果样本按批次而非生物学条件聚类，则存在批次效应。
为什么”生物学重复 > 测序深度”？

点击查看答案

增加重复数提高统计效能，降低假阳性率；增加测序深度仅提高低表达基因检出率，对差异分析准确性的贡献有限。

参考文献

Wang Z, et al. RNA-Seq: a revolutionary tool for transcriptomics. Nat Rev Genet. 2009
Conesa A, et al. A survey of best practices for RNA-seq data analysis. Genome Biol. 2016
Leek JT, et al. Tackling the widespread and critical impact of batch effects. Nat Rev Genet. 2010
Love MI, et al. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biol. 2014

--- title: "第1讲：RNA-seq原理与实验设计" subtitle: "从mRNA到序列数据" --- ## 本讲概述 **学习目标**： - 理解RNA-seq技术的核心原理和优势 - 掌握实验设计的基本原则 - 理解批次效应的来源与控制方法 - 了解测序参数的选择依据 **重点难点**： - 🔑 **重点**：实验设计原则、批次效应控制 - ⚠️ **难点**：批次效应的识别与控制策略 **配套数据**：本课程使用真实甲状腺癌RNA-seq数据（PTC vs ATC） - <a href="../data/geneCountMatrix.txt" download>下载 geneCountMatrix.txt</a> - <a href="../data/samplesinfo.txt" download>下载 samplesinfo.txt</a> --- ## 1. RNA-seq技术简介 ### 1.1 什么是RNA-seq？ **RNA-seq（RNA sequencing）** 是利用高通量测序技术对转录组进行定量和定性分析的方法。 ::: {.callout-tip} ### RNA-seq的核心能力 - **定量分析** — 测定每个基因的转录本丰度 - **差异分析** — 比较不同条件下基因表达变化 - **新转录本发现** — 鉴定新的基因和剪接异构体 ::: ### 1.2 RNA-seq vs 芯片技术 | 特性 | RNA-seq | 芯片 | |------|---------|------| | 检测范围 | 全转录组（已知+未知） | 预设探针 | | 动态范围 | 宽（>10⁴） | 窄（~10²） | | 灵敏度 | 高，可检测低表达基因 | 中等 | | 发现能力 | 新转录本、融合基因 | 限于已知 | | 成本 | 约$50-100/样本 | 约$30-50/样本 | ::: {.callout-note} **结论**：RNA-seq已成为转录组研究的**标准方法**，芯片主要用于历史数据整合或大规模验证研究。 ::: ### 1.3 RNA-seq生物医学应用实例 | 应用领域 | 典型研究 | 关键发现 | |----------|----------|----------| | **肿瘤研究** | TCGA项目 | 癌症分型标志物、驱动基因 | | **药物研发** | 药物反应预测 | 治疗靶点筛选 | | **发育生物学** | 时空表达图谱 | 发育关键基因 | | **免疫学** | 免疫细胞分型 | 免疫状态评估 | --- ## 2. RNA-seq实验流程 ### 2.1 整体流程图 ``` 样本采集 → RNA提取 → mRNA富集 → 片段化 → cDNA合成 → 接头连接 → 测序 → 数据分析 ``` ### 2.2 关键质控点 | 阶段 | 指标 | 要求 | 检测方法 | |------|------|------|----------| | RNA提取 | RIN值 | > 7 | Bioanalyzer | | RNA提取 | 浓度 | >100 ng/μL | NanoDrop/Qubit | | RNA提取 | 纯度 | A260/A280 = 1.8-2.1 | NanoDrop | | 文库构建 | 片段大小 | 200-300 bp | Bioanalyzer | | 测序 | Q30 | > 85% | fastp/FastQC | ### 2.3 mRNA富集策略对比 | 方法 | 适用场景 | 优点 | 缺点 | |------|----------|------|------| | **poly-A选择** | 完整RNA+真核生物 | 数据利用率高、rRNA污染低 | 丢失非编码RNA、不适合降解样本 | | **rRNA去除** | 降解样本/原核生物/FFPE | 更全面、保留ncRNA | rRNA残留、数据复杂度高 | ::: {.callout-warning} ### ⚠️ 样本质量评估 - **RIN > 8**：优秀，可使用poly-A选择 - **RIN 6-8**：可接受，需评估是否poly-A或rRNA去除 - **RIN < 6**：降解样本，建议使用rRNA去除 ::: --- ## 3. 测序参数选择 ### 3.1 测序模式 | 模式 | 读长 | 应用场景 | 成本参考 | |------|------|----------|----------| | SE50 | 50 bp单端 | 仅表达定量 | 低 | | PE75 | 75 bp双端 | 常规表达分析 | 中 | | **PE100** | 100 bp双端 | 剪接分析（推荐） | 高 | | PE150 | 150 bp双端 | 复杂转录组、融合基因 | 最高 | ### 3.2 测序深度与重复数 | 分析类型 | reads/样本 | 生物学重复 | 说明 | |----------|------------|------------|------| | 基因表达定量 | 10-30 M | n≥3 | 最低要求 | | 差异剪接 | 50-100 M | n≥4 | 需更高覆盖度 | | 融合基因检测 | >100 M | n≥3 | 低丰度事件 | ::: {.callout-important} ### 🔑 黄金法则 **生物学重复 > 测序深度** - 增加重复数可提高统计效能，降低假阳性 - 增加测序深度仅提高低表达基因检出 - 建议：有限预算下优先增加重复数 ::: --- ## 4. 实验设计原则 🔑 ### 4.1 基本原则（五要素） 1. **对照组设置** — 必须设置对照组，确保可比性 2. **随机化** — 样本处理顺序随机，避免系统性偏差 3. **平衡设计** — 各组样本数相等，提高统计效能 4. **盲法** — 减少操作偏差，避免主观影响 5. **详细记录** — 批次、日期、操作者等metadata ::: {.callout-note} **实验设计核心**：好的实验设计是成功分析的基础。设计缺陷无法通过后期分析完全弥补。 ::: ### 4.2 常见实验设计类型 **两两比较（最常见）**： ``` 对照组 (n=3) vs 处理组 (n=3) ↓ ↓ 建库测序建库测序 ↓ ↓ ←—— 差异分析 ——→ ``` **配对设计（提高统计效能）**： ``` 同一患者：治疗前 (n=20) vs 治疗后 (n=20) ↓ 配对分析：考虑个体差异，减少混杂因素 ``` **时间序列设计**： ``` 时间点: T0 → T1 → T2 → T3 ↓ ↓ ↓ ↓ 分析变化趋势、动态过程 ``` ### 4.3 实验设计检查清单 - [ ] 每组至少3个生物学重复？ - [ ] 是否考虑了性别、年龄等混杂因素？ - [ ] 是否记录了批次信息？ - [ ] 是否进行了随机化处理？ - [ ] 对照组条件是否匹配？ --- ## 5. 批次效应 ⚠️ ### 5.1 什么是批次效应？ **批次效应**：由非生物学因素引起的系统性差异 | 来源 | 影响程度 | 示例 | |------|----------|------| | **操作者** | 高 | 不同人员RNA提取习惯差异 | | **时间** | 高 | 不同批次建库、测序 | | **试剂批次** | 中 | 不同批次试剂性能差异 | | **仪器** | 中 | 不同测序仪、flow cell | ### 5.2 识别方法 **PCA分析**： - ✅ 正确：样本按生物学条件聚类 - ❌ 异常：样本按批次聚类 **相关性热图**： - ✅ 正确：组内相关性 > 组间相关性 - ❌ 异常：同批次样本相关性最高 ### 5.3 控制策略 **设计阶段控制（首选）**： ``` ✅ 推荐：块设计（Block Design） Day 1: 对照1-3 + 处理1-3 Day 2: 对照4-6 + 处理4-6 ❌ 避免：批次完全混淆 Day 1: 所有对照组 Day 2: 所有处理组 ← 无法校正！ ``` **分析阶段校正**： | 方法 | 工具 | 适用场景 | 说明 | |------|------|----------|------| | ComBat | sva包 | 已知批次 | 经验贝叶斯校正 | | ComBat-seq | sva包 | RNA-seq计数 | 针对计数数据 | | RUVSeq | RUVSeq包 | 未知因素 | 利用阴性对照基因 | | 约入设计公式 | DESeq2 | 批次已知 | `design = ~ batch + condition` | ::: {.callout-warning} ### ⚠️ 批次校正注意事项 1. 校正前需确认批次信息准确 2. 过度校正可能移除真实生物学信号 3. 批次与分组**完全混淆**时无法校正（设计阶段必须避免） 4. 校正后需重新检查PCA确认效果 ::: --- ## 6. 本讲小结 | 要点 | 内容 | |------|------| | **技术优势** | 全转录组覆盖、高灵敏度、发现新转录本 | | **测序参数** | PE100-150，10-30M reads/样本，n≥3 | | **实验设计** | 对照组、随机化、平衡设计、详细metadata | | **批次效应** | **设计阶段控制优于分析阶段校正** | --- ## 思考题 1. 为什么选择poly-A富集而非随机引物？ <details> <summary>点击查看答案</summary> poly-A选择富集成熟mRNA，数据利用率高，适合完整RNA样本。随机引物会产生大量rRNA背景，降低数据有效利用。 </details> 2. 双端测序相比单端测序的优势是什么？ <details> <summary>点击查看答案</summary> 双端测序可：1) 提高比对准确性；2) 检测剪接位点；3) 发现新转录本；4) 检测融合基因。 </details> 3. 如何判断实验中是否存在批次效应？ <details> <summary>点击查看答案</summary> 通过PCA分析观察样本聚类情况：如果样本按批次而非生物学条件聚类，则存在批次效应。 </details> 4. 为什么"生物学重复 > 测序深度"？ <details> <summary>点击查看答案</summary> 增加重复数提高统计效能，降低假阳性率；增加测序深度仅提高低表达基因检出率，对差异分析准确性的贡献有限。 </details> --- ## 参考文献 1. Wang Z, et al. RNA-Seq: a revolutionary tool for transcriptomics. Nat Rev Genet. 2009 2. Conesa A, et al. A survey of best practices for RNA-seq data analysis. Genome Biol. 2016 3. Leek JT, et al. Tackling the widespread and critical impact of batch effects. Nat Rev Genet. 2010 4. Love MI, et al. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biol. 2014