讲座4:突变特征分析理论

作者

王诗翔

发布于

2026年4月23日

4.1 突变特征概念

突变特征定义

突变特征(Mutational Signature):不同的突变过程产生独特的突变类型组合,这些特征性的模式被称为突变特征。

突变过程的来源

体细胞突变存在于人体所有细胞中,并贯穿一生。突变过程的来源包括:

  • DNA 复制错误:复制机制的内在轻微不忠实性
  • 外源诱变剂:紫外线、化学物质等外部因素
  • 内源诱变剂:体内代谢产物等内部因素
  • 酶促修饰:DNA 的酶促修饰过程
  • DNA 修复缺陷:缺陷 DNA 修复机制

突变特征的生物学意义

  • 反映 DNA 损伤的具体机制
  • 揭示环境因素的影响
  • 指导肿瘤病因学研究
  • 辅助肿瘤分类和诊断
  • 预测治疗响应

4.2 突变特征分类

主要突变特征类型

类型 全称 描述 特征数量(COSMIC)
SBS Single Base Substitution 单碱基替换 96种(6×4×4)
DBS Double Base Substitution 双碱基替换 多种组合
ID Small Insertion/Deletion 小插入缺失 多种类型
CN Copy Number 拷贝数变异 多种模式

SBS 特征详解

SBS 特征是最常用的突变特征类型。

SBS 96 分类

将单碱基替换按以下方式分类:

  1. 6 种替换类型:C>A, C>G, C>T, T>A, T>C, T>G
  2. 4 种上下文碱基:突变位点前后各一个碱基(16种组合)
  3. 总数:6 × 16 = 96 种分类

SBS 分类示意图

          5'碱基    3'碱基
            ↓         ↓
序列:...  A  C  T  G  ...
           ↑  ↑
          突变位点

C>T 突变在 ACT 上下文中 → A[C>T]G 类别

常见 SBS 特征示例

特征编号 可能病因 特点
SBS1 自发性脱氨 年龄相关,C>T in CpG
SBS2 APOBEC C>T/G 在 TpC 上下文
SBS4 吸烟 C>A 突变为主
SBS7 UV照射 C>T 突变为主
SBS13 APOBEC 类似 SBS2
SBS17 不明 T>G 突变

4.3 突变特征分析方法

两类主要分析策略

1. De novo 特征提取(从头提取)

  • 不依赖已知特征
  • 从数据中自动发现新特征
  • 使用非负矩阵分解(NMF)等方法

2. 特征拟合(Refitting)

  • 将突变数据拟合到已知特征
  • 计算各已知特征的贡献比例
  • 便于与 COSMIC 数据库比较

方法比较

方面 De novo Refitting
依赖性 不依赖已知特征 需要已知特征参考
新发现 可发现新特征 只能识别已知特征
可解释性 需后续比对解读 直接可解读
适用场景 探索性研究 病因分析、诊断

NMF 分解原理

非负矩阵分解(NMF)是突变特征提取的核心方法。

数学原理

将突变矩阵 M 分解为两个非负矩阵:

\[M \approx W \times H\]

  • M:样本×突变类型的突变计数矩阵
  • W:样本×特征的贡献矩阵
  • H:特征×突变类型的特征谱矩阵

参数选择

  • 特征数量 N 的选择
  • 稳定性评估
  • 误差评估

4.4 COSMIC 突变特征数据库

数据库介绍

COSMIC(Catalogue Of Somatic Mutations In Cancer)突变特征数据库由 Sanger Institute 维护。

网址:https://cancer.sanger.ac.uk/signatures/

数据库内容

  • 所有已知突变特征的谱图
  • 特征的生物学病因解释
  • 特征在不同癌症类型中的分布
  • 特征分析的教程和工具

特征命名规范

  • SBS + 数字:单碱基替换特征
  • DBS + 数字:双碱基替换特征
  • ID + 数字:插入缺失特征
  • CN + 数字:拷贝数特征

4.5 Sigminer 分析流程

Sigminer 简介

Sigminer 是由王诗翔开发的突变特征分析工具,提供了完整的分析流程。

核心功能

  • 数据读取和预处理
  • De novo 特征提取
  • 特征拟合分析
  • 结果可视化

分析流程概览

原始数据 → 突变矩阵构建 → 特征提取/拟合 → 结果可视化 → 生物学解读

Sigminer 使用步骤

步骤1:数据读取

library(sigminer)

# 从 MAF 文件读取
maf_file <- "sample.maf"
sig_data <- read_maf(maf_file)

# 或从 maftools MAF 对象转换
laml.maf <- system.file("extdata", "tcga_laml.maf.gz", package = "maftools")
laml <- read.maf(maf = laml.maf)
sig_input <- sig_input(laml)

步骤2:突变矩阵构建

# 构建突变计数矩阵
mt_matrix <- create_mut_matrix(sig_data)

# 查看矩阵维度
dim(mt_matrix)

步骤3:De novo 特征提取

# 使用 NMF 提取特征
sig_extract <- sig_extract(mt_matrix, n_sig = 2:10)

# 查看最佳特征数
sig_extract$best_n

步骤4:特征拟合

# 拟合到 COSMIC 已知特征
sig_fit <- sig_fit(mt_matrix, signature = "cosmic")

# 查看拟合结果
sig_fit$result

步骤5:结果可视化

# 绘制特征谱图
show_signature_profile(sig_extract)

# 绘制贡献分布图
show_signature_contribution(sig_extract)

# 绘制样本贡献热图
show_signature_heatmap(sig_extract)

4.6 结果解读指南

特征谱图解读

特征谱图展示每个特征在各突变类型上的贡献。

解读要点

  • 高峰位置反映主要突变类型
  • 与 COSMIC 已知特征比对
  • 考虑生物学背景信息

特征贡献解读

每个样本的特征贡献反映该样本经历的不同突变过程。

解读要点

  • 主要贡献特征反映主要病因
  • 年龄相关特征(SBS1)普遍存在
  • 特殊特征反映特定暴露或机制

生物学意义推断

根据已知特征的病因信息推断:

  • SBS1/SBS5:年龄相关,时钟样特征
  • SBS2/SBS13:APOBEC活性
  • SBS4:吸烟
  • SBS7:UV暴露
  • SBS17:化疗药物等

4.7 突变特征应用场景

病因学研究

  • 识别致癌因素
  • 环境暴露评估
  • 肿瘤预防指导

肿瘤分类

  • 肿瘤亚型划分
  • 分子诊断辅助
  • 预后预测

治疗决策

  • 化疗响应预测
  • DNA修复缺陷识别
  • 精准治疗指导

研究前沿

  • 新特征发现
  • 特征演化研究
  • 多组学整合分析

本讲小结

本讲座介绍了突变特征分析的理论基础:

  1. 突变特征的定义和生物学意义
  2. 突变特征的分类体系(SBS、DBS、ID、CN)
  3. De novo 和 Refitting 两类分析方法
  4. NMF 分解的数学原理
  5. COSMIC 突变特征数据库
  6. Sigminer 分析流程
  7. 结果解读指南

课后思考题

  • 如何根据特征谱图判断突变特征的可能病因?
  • De novo 和 Refitting 分析各自适用于什么场景?
  • 变特征分析如何为肿瘤精准治疗提供依据?