基于双端测序的碱基质量分数校正方法及程序产品、设备及存储介质与流程

专利查询2026-03-09 27

本发明涉及基因，特别涉及一种基于双端测序的碱基质量分数校正方法及计算机程序产品、基于双端测序的碱基质量分数校正设备及计算机可读存储介质。

背景技术：

1、在高通量测序中，测序仪对于每一个检测到的碱基(base call)，除了输出该碱基的种类，还会输出一个质量值，称为该碱基质量分数(quality score)，又称q值(q score)，每一个碱基对应一个碱基质量分数，碱基质量分数值体现了测序仪对该碱基识别的错误率的估计。测序仪输出碱基准确质量分数值非常重要，因为几乎所有针对高通量测序数据的下游分析都依赖于碱基质量分数值。包括数据质量控制，序列比对，变异检测(短插入缺失，拷贝数，结构变异)等等的算法都基于对碱基质量分数值运算。但事实上碱基质量分数值的输出过程是首先测序仪收集来自传感器检测某一碱基的光信号或电信号，然后通过信号强度和碱基质量分数值对应的经验关系推断出对应的碱基质量分数值。由此可见，测序仪并不能直接计算碱基识别的错误率，而只能估计出碱基质量分数值，即在测序完成后，能从测试文件中读取每个碱基的碱基质量分数是每个碱基的估计碱基质量分数。这导致了大部分情况下测序仪输出的碱基质量分数值并不能准确地反映识别错误率，因此需要一种碱基的质量分数值校正(recaliberation)技术，使得测序仪输出的碱基质量分数值反映出真实的错误率。

2、目前使用的碱基质量分数值校正技术都是采用预设的碱基特征作为影响碱基质量分数值准确性的特征，然后基于预设的碱基特征将测序文件中的碱基进行分组，分别计算每组的原始碱基质量分数值，然后基于预设碱基特征及每组的原始碱基质量分数值，利用局部加权回归(locally weighted regression，lowess)模型，将若干个分组的原始碱基质量分数值拟合出新的碱基质量分数值，称之为拟合碱基质量分数值，但基于预设碱基特征对测序文件中的碱基进行分组，由于样本的不同、测序仪的仪器的不同、测试过程中其他因素的影响等会分组的准确率，从而也会影响碱基质量分数值的校正效果。

技术实现思路

1、为了解决现有存在的技术问题，本发明实施例提供一种基于双端测序的碱基质量分数校正方法计算机程序产品、基于双端测序的碱基质量分数校正设备及计算机可读存储介质，能够提高碱基的碱基质量分数的校正效果。

2、第一方面，提供一种基于双端测序的碱基质量分数校正方法，包括：获取双端测序文件，并从所述双端测序文件中获取每条测序片段对应的第一序列数据及第二序列数据；其中第一序列数据是从测序片段的第一端向第二端测序得到的碱基序列数据，第二序列数据是从测序片段的第二端向第一端测序得到的碱基序列数据；基于每条测序片段对应的第一序列数据及第二序列数据，获取每条测序片段的重叠区域中碱基的碱基信息；所述碱基信息包括从所述双端测序文件中获取的估计碱基质量分数，及与碱基质量分数关联的候选特征；基于每条测序片段的重叠区域中碱基的碱基信息，从所述候选特征中确定与碱基质量分数的关联度满足预设条件的显著性特征；基于所述显著性特征及所述估计碱基质量分数，对所述双端测序文件中的碱基数据进行碱基数据组，得到多个碱基数据组，获取每个碱基数据组中碱基的碱基信息，基于每个碱基数据组中碱基的碱基信息计算得到每个碱基数据组对应的原始碱基质量分数；基于每个碱基数据组对应的所述原始碱基质量分数及每个碱基数据组的碱基信息中的显著性特征，拟合得到碱基质量分数校正模型，并基于碱基质量分数校正模型，计算得到每个碱基数据组内每个碱基的拟合碱基质量分数。

3、第二方面，提供一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现本申请实施例所提供的基于双端测序的碱基质量分数校正方法的步骤。

4、第三方面，提供一种基于双端测序的碱基质量分数校正设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行本申请实施例所提供的基于双端测序的碱基质量分数校正方法的步骤。

5、第四方面，提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行本申请实施例所提供的基于双端测序的碱基质量分数校正方法的步骤。

6、本申请实施例通过从双端测序文件中，获取同一测序片段的第一序列数据及第二序列数据，通过同一测序片段的第一序列数据及第二序列数据能够确定出重叠区域中碱基的碱基信息，基于重叠区域中碱基的碱基信息确定影响碱基质量分数的显著性特征，基于显著性特征进行分组，能够得到更准确的碱基数据组，然后基于每个碱基数据组的碱基信息，能够计算得到较准确的每个碱基数据组对应的原始碱基质量分数，从而在后续拟合步骤中，可以得到更准确的拟合结果，从而提高校正碱基质量分数的效果，另外在拟合步骤中，使用了所有组的数据，并不是部分碱基数据组数据拟合得到的模型，综合考虑到连续变量碱基数据组的一致性，从而也避免了碱基质量分数校正模型的过拟合，从而提高碱基的碱基质量分数的校正效果。

技术特征：

1.一种基于双端测序的碱基质量分数校正方法，其特征在于，包括：

2.如权利要求1所述的基于双端测序的碱基质量分数校正方法，其特征在于，所述碱基信息还包括碱基位置对应的正确碱基种类；所述获取每条测序片段的重叠区域中碱基的碱基信息，包括：

3.如权利要求1所述的基于双端测序的碱基质量分数校正方法，其特征在于，所述基于每条测序片段的重叠区域中碱基的碱基信息，从所述候选特征中确定与所述估计碱基质量分数的关联度满足预设条件的显著性特征，包括：

4.如权利要求3所述的基于双端测序的碱基质量分数校正方法，其特征在于，所述基于每条测序片段的重叠区域中碱基的碱基信息，分别计算各个候选特征的显著性值，包括：

5.如权利要求1所述的基于双端测序的碱基质量分数校正方法，其特征在于，所述显著性特征包括以下至少一种：碱基所在的测序循环数、测序片段中g碱基及c碱基的含量占比、碱基的估计碱基质量分数、碱基的上游2bp对应的估计碱基质量分数、碱基的上游1bp对应的估计碱基质量分数、碱基的下游2bp对应的估计碱基质量分数、碱基的下游1bp对应的估计碱基质量分数、碱基的上游2bp对应的碱基种类、碱基的上游1bp对应的碱基种类、碱基的下游2bp对应的碱基种类、碱基的下游1bp对应的碱基种类、碱基所在碱基位置处的正确碱基种类。

6.如权利要求1至5中任一项所述的基于双端测序的碱基质量分数校正方法，其特征在于，所述基于每个碱基数据组中碱基的碱基信息计算得到每个碱基数据组对应的原始碱基质量分数，包括：

7.如权利要求1至5中任一项所述的基于双端测序的碱基质量分数校正方法，其特征在于，所述基于每个碱基数据组对应的所述原始碱基质量分数及每个碱基数据组的碱基信息中显著性特征，拟合得到碱基质量分数校正模型，包括：

8.一种计算机程序产品，其特征在于，包括：包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于双端测序的碱基质量分数校正方法。

9.一种基于双端测序的碱基质量分数校正设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至7任一项所述方法的步骤。

技术总结
本发明公开一种基于双端测序的碱基质量分数校正方法及程序产品、设备及存储介质，所述方法包括：获取双端测序文件，并获取每条测序片段对应的第一序列数据及第二序列数据；基于第一序列数据及第二序列数据，获取每条测序片段的重叠区域中碱基的碱基信息，并从候选特征中确定显著性特征；基于所述显著性特征及所述估计碱基质量分数，对碱基数据进行碱基数据组，得到多个碱基数据组，基于每个碱基数据组中碱基的碱基信息，计算得到每个碱基数据组对应的原始碱基质量分数；基于每个碱基数据组对应的原始碱基质量分数及显著性特征，拟合得到碱基质量分数校正模型，并基于碱基质量分数校正模型，计算得到每个碱基数据组内每个碱基的拟合碱基质量分数。

技术研发人员：姚天然,王谷丰,包原野,赵陆洋
受保护的技术使用者：深圳赛陆医疗科技有限公司
技术研发日：
技术公布日：2024/11/26

转载请注明原文地址:https://tc.8miu.com/read-35083.html

专利

最新回复(0)