计算机系统应用  2019, Vol. 28 Issue (9): 50-57   PDF    
单肿瘤组织微卫星不稳定探测方法
赵丹1,2, 尚秋明3, 韩鑫胤1,2, 李瑞琳1,2, 何小雨1,2, 祝海栋1,2, 牛北方1,2     
1. 中国科学院 计算机网络信息中心, 北京 100190;
2. 中国科学院大学, 北京 100190;
3. 中国互联网络信息中心, 北京 100190
摘要:目前, 随着下一代测序技术(Next-Generation Sequencing technology, NGS)的发展, 围绕高通量测序数据的微卫星不稳定(Micro-Satellite Instability, MSI)探测方法与软件工具层出不穷, 但存在需要配对正常组织测序数据做参照或大量微卫星稳定(Micro-Satellite Stable, MSS)样本的正常组织测序数据构建基准线的问题, 这会在一定程度上给使用者造成不便. 针对以上问题, 本文提出一种基于信息熵理论使用样本肿瘤组织测序数据探测MSI的模型. 首先, 基于之前开发的探测软件MSlsensor1.1, 增加在单肿瘤组织测序数据上探测样本MSI状态的模块, 扩增后的软件可实现基于两种数据模式的MSI探测. 两种数据模式分别是肿瘤与正常组织成对测序数据和单肿瘤组织测序数据. 其次, 对扩展模块进行性能评估. 依托于该模块, 使用样本肿瘤组织的外显子测序数据对衡量软件性能的指标进行评估. 结果显示, 本研究提出的基于信息熵理论在单肿瘤组织测序数据上的探测模块性能表现较好, 这为后续更为复杂的变异信号探测提供了理论依据和技术支撑.
关键词: 基因组    微卫星    微卫星不稳定    信息熵理论    单肿瘤组织测序数据    
Microsatellite Instability Detection Method for Single Tumor Tissue
ZHAO Dan1,2, SHANG Qiu-Ming3, HAN Xin-Yin1,2, LI Rui-Lin1,2, HE Xiao-Yu1,2, ZHU Hai-Dong1,2, NIU Bei-Fang1,2     
1. Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190, China;
2. University of Chinese Academy of Sciences, Beijing 100190, China;
3. China Internet Network Information Center, Beijing 100190, China
Foundation item: National Key Research and Development Program of China (2016YFC0503607, 2018YFB0203903); National Natural Science Foundation of China (31771466); CAS Special Fund for Informatization Construction (XXH13504-08); Special Fund for Transformation of Scientific And Technological Achievements of Qinghai Province (2016-SF-127); Special Support for Introducing Overseas Outstanding Talents of CAS “Hundred Talents Program”(NIU Bei-Fang)
Abstract: At present, with the development of Next-generation Sequencing Technology (NGS), new MSI detection methods and software tools are emerging around high-throughput sequencing data. However, existing methods have problems that they need paired normal tissue sequencing data for reference or a large number of other microsatellite stable (MSS) samples’ normal tissue sequencing data to construct baselines. And this will cause the inconvenience to useness. Regarding the issue above, a new MSI detection model based on the information entropy theory for tumor tissue sequencing data is proposed in this study. First, built on original detection software MSlsensor1.1, the MSI detection module based on only tumor tissue sequencing data is proposed and optimized. The augmented software can perform MSI detection for tumor-normal paired sequencing data and single tumor sequencing data. Second, benchmark performance is evaluated on the extended module. For this module, the software performance indicators were evaluated using exon sequencing data of samples. The results show that the performance of the detection module with information entropy theory for single tumor sequencinge data is better, which provides theoretical basis and technical support for the subsequent iteration of more complex mutation signal detection process.
Key words: genome     microsatellite     microsatellite instability     information entropy theory     single tumor sequencing data    

近些年, 基因组测序技术飞速发展, 其发展经历包含三个阶段: 第一代主要通过凝胶电泳和放射自显影技术确定待测的DNA序列, 其单次测序读长长、准确率高, 但测序过程缓慢、吞吐量低; 第二代核心思想为边合成边测序, 即通过捕捉新合成的末端的标记来确定DNA的序列, 其特点是读长短、测序速度快、吞吐量大; 第三代是单分子测序, 成本较高, 且目前测序技术尚未成熟[1]. 高通量测序技术作为第二代测序技术, 满足了生命科学诸多领域的大规模测序需求, 尤其在MSI探测领域中, 对于肿瘤的早期诊断、化疗敏感性判断[2]以及高危人群的圈定[3]等研究发挥了重要作用.

另外, 作为肿瘤遗传不稳定的敏感指标, MSI探测在化学治疗剂的选择[4,5]、预后判断[6,7]及家族性癌症风险评估[8,9]等方面均具有重要的临床意义. 有效地利用MSI探测结果可达到减少医疗盲目性, 提高MSI患者的治愈率, 实现精准医疗的目标. 目前, MSI探测主要分为生物学实验方法和基于高通量测序数据的计算方法. 通过分析高通量测序数据的MSI探测方法, 无需额外的临床测试或患者样本处理, 大大减少由于实验方法依赖少量微卫星位点的探测或错配修复蛋白是否表达的局限性带来的误差与人力检测成本, 因此被广大研究者所采用. 但是, 随着测序成本的急剧下降, 测序通量呈指数提高, 众多探测算法软件已无法满足使用者在运行速度、存储空间及用户体验等多方面的需求. 基于计算的MSI探测方法或软件主要存在两个限制条件: (1) 当使用样本的肿瘤与正常组织成对测序数据探测MSI时, 需要正常组织测序数据作为输入参照; (2) 仅使用肿瘤组织测序数据时, 使用者需要针对不同的癌种或不同的测序平台得到的测序数据, 分别使用大量MSS样本的正常组织测序数据构建基准线, 这不仅会在一定程度上造成特异性MSI位点的丢失, 而且给使用者带来了大量的额外工作, 对存储空间和运行时间要求也非常高, 无形之中给使用者提出了一个难题. 因此, 构建基于单肿瘤组织测序数据探测样本MSI状态的模型十分必要.

本文主要分为四个部分. 第1部分, 介绍已有的相关研究工作; 第2部分, 在前期MSI探测领域的研究基础上, 针对MSIsensor1.1[10]无法实现只基于样本肿瘤组织测序数据探测MSI状态的问题, 提出一种采用信息熵理论的MSI探测模型; 第3部分, 对本文提出的模型进行性能评估测试; 第4部分, 总结本文提出的模型的意义和展望未来MSI探测研究方向.

1 相关工作

微卫星, 又称为短串联重复序列(short tandem repeats, STRs), 由长度在1~6碱基对(base pair, bp)之间, 重复次数为10~60次的重复短核苷酸序列组成, 其在真核生物的基因组中广泛存在[11]. MSI是指在DNA复制期间, 由于错配修复系统的缺陷(Mismatch Repair Deficiency, MMRD), 导致重复短核苷酸序列的插入或缺失, 出现微卫星新等位基因的现象. 根据微卫星不稳定程度, MSI分为MSI-H (Microsatellite Instability High), MSI-L (Microsatellite Instability Low)以及MSS, 由于MSI-L与MSS没有显著性差异, 本研究将MSI-L视为MSS处理.

随着下一代测序技术的发展, 基于高通量测序数据的MSI检测方法及软件逐渐涌现. 目前, 无需输入肿瘤与正常组织成对测序的方法和软件有mSINGS[12]、Lu等人提出的基于插入和缺失变异(Insertion and Deletion, Indel)的MSI检测方法[13]、MSIseq[14]和MSIpred[15]. 对BAM (Binary sequence Alignment/Map format)文件直接进行分析的mSINGS无需配对的正常组织测序数据做参照, 但在对样本进行分析之前, 需要足够的MSS样本正常组织测序数据建立各个位点的基准线, 根据3σ法则判断各个位点的稳定性, 最后通过统计不稳定位点的比例获得样本的MSI状态. Lu等人提出的方法使用PI/PD作为判别样本MSI状态的指标, 并通过实验证实该方法的可行性. 其中, PD是指微卫星区域Deletion占所有Deletion的比例, PI是指微卫星区域Insertion占所有Insertion的比例. MSIseq基于决策树算法的分类器在单核苷酸替代(Single Nucleotide Substitution, SNS)和Indel短突变的高级别数据上进行模型训练和测试, 该方法在测试时仅使用微卫星区域小片段碱基插入与删除的比例这一特征. MSIpred利用支持向量机对从突变数据中提取的12个特征进行模型训练和测试. MSIseq、MSIpred等是从突变注释格式(Mutation Annotation Format, MAF)中提取特征用于模型训练和测试, 但MAF是由肿瘤与配对正常组织组织的测序数据产生. 因此, 提供一个直接对肿瘤组织测序数据的BAM文件进行分析的检测工具十分必要.

基于肿瘤与正常组织成对测序数据的MSIsensor1.1和MANTIS[16]可以直接对BAM文件进行分析. MANTIS将样本的肿瘤组织与配对的正常组织在每个微卫星位点的等位基因分布看作两个向量, 定义这两个向量的L1范数作为衡量该位点稳定程度的度量, 最后通过统计该样本所有位点的L1范数的平均值获得该样本的MSI分数. MSIsensor通过卡方检验比较肿瘤组织和配对的正常组织的相同微卫星位点的等位基因分布是否显著不同判断该位点是否稳定, 最后统计不稳定的位点占总位点的比例判断样本的MSI状态[17,18].

通过对MSIsensor1.1和MANTIS软件之间的对比, 本研究发现MSIsensor1.1具有以下两方面优点: (1) 设计基于C++实现、计算效率高; (2) 通过使用全基因组范围内的微卫星位点信息的探测和卡方检验方法判断微卫星状态, 准确性非常高. 因此, 本研究选择该软件进行优化.

MSIsensor1.1基于卡方检验的探测模型包含以下两个功能模块:

(1)获取位点基本信息模块. 通过对参考基因组文件(Reference Genome.fa)执行扫描(scan)命令, 构建一个由微卫星位点基本信息组成的序列字典(microsatellites.list), 其基本信息包括: 微卫星位点所在染色体号及其在染色体上的起始位置、微卫星重复单元的大小及重复次数以及微卫星位点的左右翼信息;

(2)探测样本MSI状态模块. 通过对肿瘤组织测序数据文件(Sample.tumor.bam)、正常组织测序数据文件(Sample.normal.bam)和microsatellites.list执行msi命令获得待测样本的MSI分数(MSIscore). 该模块共有四个结果文件, 分别为: MSI分数文件(Output文件)、微卫星位点等位基因分布文件(Output_dis文件)、germline位点文件(Output_germline文件)和somatic位点文件(Output_somatic文件). 该模块具体步骤如下: ① 计算每个位点在样本肿瘤与正常组织成对测序数据上微卫星的长度分布, 并筛选在肿瘤和正常组织测序数据中测序深度均大于20的微卫星位点; ② 利用卡方检验比较符合条件①的微卫星位点在肿瘤与正常组织中的分布差异, 若显著不同, 则判定该位点为不稳定的微卫星位点; ③ 通过统计不稳定位点占总位点的比例获得样本的MSIscore, 进而判断该样本的MSI状态.

2 实验方法

目前, 基于肿瘤与正常组织成对测序数据的MSI探测方法, 利用配对的正常组织测序数据为参考, 对肿瘤组织的微卫星位点的不稳定情况进行评判, 最终达到判断样本MSI状态的目标. 对于缺少配对的正常组织测序数据做参照的情况, 为了避免使用大量MSS样本的正常组织测序数据构建基准线而丢失特异性MSI位点, 本文提出一种新模型, 该模型根据肿瘤组织每个微卫星位点等位基因分布的混乱情况, 来判断该位点及样本的MSI状态.

在正常细胞中, 错配修复系统(Mismatch Repair, MMR)提供了一种高效的机制来纠正DNA复制过程中发生的错误. 当MMR受损时, 例如错配修复基因MLH1、MSH2和MSH3的失活, 将导致基因序列——特别是微卫星位点重复单元的错误插入或删除得不到纠正, 微卫星位点的重复单元的重复次数出现波动, 即MSI发生[7]. 从酵母的研究中发现, 在DNA错配修复蛋白突变后, 微卫星中短缺失的数量明显增加, 而微卫星中插入的数量没有明显变化[8]. 后续研究也证实了, 由于MMRD, 微卫星区域会发生小片段碱基的插入与缺失. 受已有研究成果的启发, 我们考虑到, 与MSS样本相比, MSI样本肿瘤组织的微卫星位点的重复单元的重复次数的分布会因为MMRD呈现比较混乱的状态. 图1为MSS样本与MSI样本的肿瘤组织在同一微卫星位点的等位基因分布. 从图中可以看出, MSI样本的微卫星位点等位基因分布与MSS样本相比较混乱. 鉴于MSI样本肿瘤组织微卫星位点测序数据这一特性, 本研究提出使用信息熵理论来探测样本的MSI状态.

图 1 MSI样本与MSS样本的同一微卫星位点等位基因分布比较

信息熵是描述“混乱”程度的量度. 系统越有序, 信息数据越集中的地方, 熵值越小; 系统越混乱, 信息数据越分散的地方, 熵值越大[19]. 扩展后的MSIsensor工作流程如图2所示.

图 2 MSIsensor工作流程图

图中虚线所指是MSIsensor1.1已有模块, 实线所指功能是本文在实现探测样本MSI状态功能中提出的基于信息熵理论在样本单肿瘤组织测序数据进行探测的新模型. 该模型共有三个输出, 分别为: Output文件、Output_dis文件、Output_somatic文件. 新模型主要包含以下子模块:

(1)目标位点筛选功能. 通过计算每个微卫星位点在肿瘤组织测序数据上的分布, 可筛选出测序深度大于20(默认)的微卫星位点.

(2)目标位点过滤功能. 由于测序过程中可能会带来背景噪声信息, 因此, 对(1)筛选出的目标位点集进行过滤. 过滤规则为: 过滤掉肿瘤组织在该位点支持reads数小于3的等位基因(被认为是噪声数据), 接下来以剩下的等位基因数作为样本在该位点的等位基因数.

(3)加权信息熵值计算功能. 根据步骤(2)得到的每个位点等位基因分布情况, 计算加权信息熵值. 信息熵值计算公式如下:

$ H(U)=-\sum\limits_{n=1}^{n} p_{i} log p_{i} $

其中, pi指的是针对位点的每个重复次数, 其不为零支持reads数占该位点支持reads数总和的比例. 支持reads数不为零的重复次数的个数会较大程度影响每个位点的信息熵值, 即每个位点的信息熵值会因支持reads数不为零的重复次数的个数变化而跨越幅度较大. 为了方便后续信息熵值阈值(cutoff)的确定, 对每个位点的熵值赋予一定的权重(weight). 若该位点的H(U)*weight大于等于0.3(默认), 则判定该位点不稳定. 其中, weight等于该位点支持reads数不为零的重复次数的个数的倒数. 在TCGA数据集的不同癌种上使用不同的阈值进行多次实验, 通过比较得到, 当使用阈值0.3时, 在不同癌种上Accuracy都比较高. 图3给出了在TCGA数据集上随着cutoff变化时的Accuracy趋势.

图 3 不同cutoff下的Accuracy比较

(4) MSIscore计算功能. 通过统计由(3)得到不稳定位点数占满足条件(1)的微卫星总位点数的比例, 获得该样本的MSIscore, 进而判断样本的MSI状态.

3 实验结果与讨论

本研究使用的数据来自国际癌症基因组图谱(The Cancer Genome Atlas, TCGA)计划[20]、欧洲基因组-表型组档案(European Genome-phenome Archive, EGA)[21,22]和北京肿瘤医院(Beijing Cancer Hospital), 包含的癌症类型有胃癌(STomach ADenocarcinoma, STAD)、子宫内膜癌(Uterine Corpus Endometrial Carcinoma, UCEC)、结肠癌(COlon ADenocarcinoma, COAD)和直肠腺癌(REctum ADenocarcinoma, READ), 具体情况如表1所示.

表 1 TCGA、EGA和Beijing Cancer Hospital数据集

为了衡量MSIsensor扩增的使用单肿瘤组织测序数据探测MSI模块的表现性能, 本研究将其与MSIsensor基于卡方检验的MSI探测模块在表1所示数据上的测试结果进行对比. 由于不同的癌症类型或不同测序平台得到的测序序列会稍有不同, 本文不建议使用统一的MSIscore阈值划分MSS样本和MSI样本. 针对基于卡方检验在肿瘤与正常组织成对测序数据上探测MSI的模块, 本研究在TCGA STAD、TCGA CRC、TCGA UCEC、EGA STAD、EGA COAD和Beijing Cancer Hospital数据集上采用的MSIscore阈值分别为3、10、3、3、10、和15, 其各项性能指标表现如表2所示, 其中, 准确率(Accuracy)表示预测状态正确的样本数占待检测样本总数的百分比; 精确率(Precision)表示软件预测的真实MSI样本数占软件预测出的MSI样本总数的百分比; 灵敏度(Sensitivity)表示软件预测的真实MSI样本数占MSI总样本数的百分比; 特异性(Specificity)表示软件预测的真实MSS样本数占MSS总样本数的百分比; F-分数(F-score)表示Sensitivity和Precision两个性能度量的调和平均数, 用来综合评估软件的性能. 具体分类效果如图4所示. 针对基于信息熵在单肿瘤组织上探测MSI的模块, 本研究在TCGA STAD、TCGA CRC、TCGA UCEC、EGA STAD、EGA COAD和Beijing Cancer Hospital数据集上采用的阈值分别为13、20、13.5、11、15和20. 该模型的各项性能指标表现如表3所示, 具体分类效果如图5所示.

表 2 基于卡方检验探测模块的测试结果

以上结果证明, 在TCGA上确定的对每个位点判定是否稳定的加权信息熵阈值0.3, 在EGA、Beijing Cancer Hospital数据集上同样适用. 同时, 该结果也表明本文提出的基于信息熵理论在单肿瘤组织测序数据上探测样本MSI状态的方法是可行的.

基于信息熵的MSI探测方法只需要对单肿瘤组织测序数据进行分析, 因此, 在探测MSI的前期准备工作中不需要对正常组织进行测序, 可以节省测序成本; 且与MSIsensor1.1在肿瘤与正常组织测序数据上探测MSI的方法相比较, 其运行效率提高了一倍.

4 结论与展望

本研究针对样本单肿瘤组织的外显子或全基因组测序数据的MSI探测问题, 选择从高通量测序数据入手, 基于已有软件MSIsensor1.1, 增加采用信息熵理论探测MSI状态的模块. 扩增后的软件不仅可针对肿瘤与正常组织成对测序数据探测样本MSI状态, 而且当无配对的正常组织测序数据做输入参照物和不严重影响精度的情况下, 可满足样本单肿瘤组织测序数据的MSI探测需求, 是一套功能完备、兼容多种测序数据模式、具备实用性和前瞻性的MSI探测软件.

后续我们将围绕以下两方面工作展开: (1)基于此工作深入挖掘每个位点信息并筛选与肿瘤发生发展相关的基因, 这样不但可以节省测序的成本, 而且可以提高检测的正确率; (2)探究基于血浆的MSI探测方法. 癌细胞具有扩散性, 当癌细胞侵犯血管进入血液时, 血液中也会有MSI信号, 但此时信号很微弱, 不易检测. 目前大多数MSI检测局限于组织测序数据, 但是对于不方便提取组织的患者, 开发基于血浆的MSI探测方法具有重要的意义. 下一步, 我们将围绕此工作展开, 探求更强、更符合实际应用需求的MSI探测软件.

图 4 基于卡方检验探测模块的测试结果

表 3 基于信息熵理论探测模块的测试结果

图 5 基于信息熵理论探测模块的测试结果

参考文献
[1]
Mardis ER. A decade's perspective on DNA sequencing technology. Nature, 2011, 470(7333): 198-203. DOI:10.1038/nature09796
[2]
Ribic CM, Sargent DJ, Moore MJ, et al. Tumor microsatellite-instability status as a predictor of benefit from fluorouracil-based adjuvant chemotherapy for colon cancer. New England Journal of Medicine, 2003, 349(3): 247-257. DOI:10.1056/NEJMoa022289
[3]
Pino MS, Chung DC. Microsatellite instability in the management of colorectal cancer. Expert Review of Gastroenterology & Hepatology, 2011, 5(3): 385-399.
[4]
Murphy KM, Zhang SL, Geiger T, et al. Comparison of the microsatellite instability analysis system and the Bethesda panel for the determination of microsatellite instability in colorectal cancers. The Journal of Molecular Diagnostics, 2006, 8(3): 305-311. DOI:10.2353/jmoldx.2006.050092
[5]
FDA News Release. FDA approves first cancer treatment for any solid tumor with a specific genetic feature. https://www.fda.gov/news-events/press-announcements/fda-approves-first-cancer-treatment-any-solid-tumor-specific-genetic-feature, 2017-05-23.
[6]
Aaltonen LA, Peltomaki P, Leach FS, et al. Clues to the pathogenesis of familial colorectal cancer. Science, 1993, 260(5109): 812-816. DOI:10.1126/science.8484121
[7]
Shia J. Immunohistochemistry versus microsatellite instability testing for screening colorectal cancer patients at risk for hereditary nonpolyposis colorectal cancer syndrome: Part I. The utility of immunohistochemistry. The Journal of Molecular Diagnostics, 2008, 10(4): 293-300. DOI:10.2353/jmoldx.2008.080031
[8]
Beamer LC, Grant ML, Espenschied CR, et al. Reflex immunohistochemistry and microsatellite instability testing of colorectal tumors for Lynch syndrome among US cancer programs and follow-up of abnormal results. Journal of Clinical Oncology, 2012, 30(10): 1058-1063. DOI:10.1200/JCO.2011.38.4719
[9]
Sankila R, Aaltonen LA, Järvinen HJ, et al. Better survival rates in patients with MLH1-associated hereditary colorectal cancer. Gastroenterology, 1996, 110(3): 682-687. DOI:10.1053/gast.1996.v110.pm8608876
[10]
Niu BF, Ye K, Zhang QY, et al. MSIsensor: Microsatellite instability detection using paired tumor-normal sequence data. Bioinformatics, 2014, 30(7): 1015-1016. DOI:10.1093/bioinformatics/btt755
[11]
Kelkar YD, Strubczewski N, Hile SE, et al. What is a microsatellite: A computational and experimental definition based upon repeat mutational behavior at A/T and GT/AC repeats. Genome Biology and Evolution, 2010, 2(1): 620-635.
[12]
Salipante SJ, Scroggins SM, Hampel HL, et al. Microsatellite instability detection by next generation sequencing. Clinical Chemistry, 2014, 60(9): 1192-1199. DOI:10.1373/clinchem.2014.223677
[13]
Lu YH, Soong TD, Elemento O. A novel approach for characterizing microsatellite instability in cancer cells. PLoS One, 2013, 8(5): e63056. DOI:10.1371/journal.pone.0063056
[14]
Huang MN, McPherson JR, Cutcutache I, et al. MSIseq: Software for assessing microsatellite instability from catalogs of somatic mutations. Scientific Reports, 2015, 5: 13321. DOI:10.1038/srep13321
[15]
Wang C, Liang C. MSIpred: A python 2 package for the classification of tumor microsatellite instability from tumor mutation annotation data using a support vector machine. Nature Scientific Reports, 2018, 12(6): 1835. DOI:10.1038/s41598-018-35682-z
[16]
Kautto EA, Bonneville R, Miya J, et al. Performance evaluation for rapid detection of pan-cancer microsatellite instability with MANTIS. Oncotarget, 2017, 8(5): 7452-7463.
[17]
Karran P. Microsatellite instability and DNA mismatch repair in human cancer. Seminars in Cancer Biology, 1996, 7(1): 15-24. DOI:10.1006/scbi.1996.0003
[18]
Sia EA, Kokoska RJ, Dominska M, et al. Microsatellite instability in yeast: Dependence on repeat unit size and DNA mismatch repair genes. Molecular and Cellular Biology, 1997, 17(5): 2851-2858. DOI:10.1128/MCB.17.5.2851
[19]
沈世镒, 吴忠华. 信息论基础与应用. 北京: 高等教育出版社, 2004,
[20]
Weinstein JN, Collisson EA, Mills GB, et al. The cancer genome atlas pan-cancer analysis project. Nature Genetics, 2013, 45(10): 1113-1120. DOI:10.1038/ng.2764
[21]
Liu JF, McCleland M, Stawiski EW, et al. Integrated exome and transcriptome sequencing reveals ZAK isoform usage in gastric cancer. Nature Communications, 2014, 5: 3830. DOI:10.1038/ncomms4830
[22]
Seshagiri S, Stawiski EW, Durinck S, et al. Recurrent R-spondin fusions in colon cancer. Nature, 2012, 488(7413): 660-664. DOI:10.1038/nature11282