本发明涉及生物信息学领域及数据处理,特别是涉及一种基于分层自编码器的环境dna数据降维方法与系统。
背景技术:
1、人类活动影响导致生态系统遭到破坏,生态功能严重退化并影响人类健康,便捷且准确可靠的生态监测技术对保护生态环境至关重要。环境dna技术是一种基于分子的生物多样性高效监测手段,在生态环境修复和自然资源保护方面具有极大的应用潜力。环境dna是从环境样品(水体、土壤、沉积物、空气、混合物等)中提取的dna,是各种生物的dna混合物,通过对环境中的dna进行提取,可以实现对生物多样性进行检测。但是由于环境dna数据的维度大,数据复杂,对获取到的环境dna数据,必须进行降维处理等操作,才能获取到环境dna数据中包含的有用信息。
2、目前对环境dna数据进行降维的方法大部分是一些传统的降维方法,如主成分分析pca、t分布随机邻域嵌入t-sne、非度量多维缩放nmds以及均匀流形逼近umap等。然而不同于其他数据,环境dna数据谱矩阵中分类单元数目远远大于样本数目,且由于测序的技术限制,有很高的概率将非零值判断为零,从而导致数据中存在大量假零值。针对数据的以上特点,传统的降维方法不能很好的保留数据的结构,环境dna数据降维后信息丢失严重。
3、因此,需要一种能够更好的保留环境dna数据的信息,并获得更准确的降维数据的环境dna的数据降维方法。
技术实现思路
1、有鉴于此,本发明提供了一种基于分层自编码器的环境dna数据降维方法与系统,减少环境dna数据的高噪声、稀疏性,从而获得更准确的降维数据。
2、为此,本发明提供了以下技术方案:
3、一种基于分层自编码器的环境dna数据降维方法,所述方法包括以下步骤:
4、s1、数据预处理,包括:
5、将环境dna数据划分为环境dna丰度数据和环境dna序列数据;
6、滤除所述环境dna丰度数据全零行,并进行min-max归一化和log-2对数转换处理,得到预处理后的环境dna丰度数据和环境dna序列数据;
7、s2、将预处理后的环境dna丰度数据输入深度计数自动编码器dca进行去噪,得到去噪后的环境dna丰度数据;
8、s3、对环境dna序列数据进行长度均衡与翻译,包括:
9、将环境dna序列数据用iupac核苷酸编码中的核苷酸编码n填充,均衡到相同长度;
10、将均衡长度后的环境dna序列的每个典型碱基:a、c、t、g,和iupac歧义码翻译成四个典型碱基:a、t、c、g,上四维概率分布,将核苷酸序列表示为序列长度乘以4的二维数组;
11、s4、对样本的序列信息进行表示;将s3中获得所述表示核苷酸序列信息的二维数组与每个样本中每个操作分类单元的存在、缺失进行结合,表示为一个三维数组;
12、所述每个操作分类单元的存在:检测到的otu的序列翻译的核苷酸序列信息;
13、所述每个操作分类单元的缺失:未检测到otu,则为零矩阵;
14、s5、将代表样本序列信息的三维数组输入自编码器ae,对环境dna序列数据进行压缩;
15、s6、利用差分自编码器vae进行降维,将s2得到的所述去噪后的环境dna丰度数据和s5得到的所述压缩编码后的环境dna序列数据共同作为差分自编码器vae的输入,将样本的维度进一步降低到二维潜在空间;
16、s7、绘制二维空间的可视化结果图。
17、进一步地,所述将预处理后的环境dna丰度数据输入深度计数自动编码器dca进行去噪,得到去噪后的环境dna丰度数据,包括:
18、所述深度计数自动编码器dca架构的具体公式为:
19、e=relu(xwe);
20、b=relu(ewb);
21、d=relu(bwe);
22、m=diag(sj)exp r(dwμ);
23、π=sigmoid(dwπ);
24、θ=exp(dwθ);
25、其中e、b和d分别代表编码器层、潜在层和解码器层,m、θ和π分别表示均值、离散度和丢失概率估计的矩阵形式,sj为大小因子;为均值和离散度选择的激活函数是指数的;丢失概率估计的激活函数是sigmoid,表示dropout概率;
26、使用零膨胀负二项分布zinb来描述环境dna数据的分布,其中零膨胀负二项分布zinb为:
27、
28、zinb(x;π,μ,θ)=πδ(x)+(1-π)nb(x;μ,θ);
29、其中π、μ和θ是zinb分布的参数,分别表示丢失事件的概率、均值和离散度;x表示原始读取计数,基于zinb模型的自动编码器估计参数v、μ和θ。
30、进一步地,所述深度计数自动编码器dca的损失函数是zinb似然的负对数,具体公式如下:
31、lzinb=-log(zinb(x|π,μ,θ))。
32、进一步地,所述为平衡序列长度而填充的核苷酸编码n被翻译为[0.25,0.25,0.25,0.25]。
33、进一步地,所述将代表样本序列信息的三维数组输入自编码器ae,对环境dna序列数据进行压缩,具体为:
34、所述自编码器ae,包括全连接层和潜在层;
35、所述每个全连接层使用relu激活,采用镜像架构作为解码器;
36、所述自动编码器ae的损失函数为二元交叉熵:
37、lae=-y log(p(y))-(1-y)log(1-p(y));
38、其中,y是二元标签0或者1,p(y)是输出属于y标签的概率。
39、进一步地,所述差分自编码器vae包括:
40、输入层、编码器网络、潜在采样层、解码器网络和输出层。
41、进一步地,所述潜在采样层使用了重参数化技巧进行采样,使用梯度下降方法来优化似然函数。
42、进一步地,所述差分自编码器vae的损失函数由vae损失函数:kl散度、重构误差、核苷酸序列潜在编码不同组合的二元交叉熵共同构成:
43、
44、n(0,1)])+α(-y log(p(y))-(1-y)log(1-p(y)));
45、其中,x是差分编码器的丰度输入矩阵,是差分自编码器丰度输出矩阵,n(ux,σx)表示潜在层z所服从的分布,y是二元标签0或者1,p(y)是输出属于y标签的概率,α是二元交叉熵所占损失函数权值。
46、进一步地,所述深度计数自动编码器dca和所述自动编码器ae都单独训练,然后训练vae。
47、一种基于分层自编码器的环境dna数据降维系统,所述系统包括以下模块:数据预处理模块、去噪模块、编码模块、降维模块、可视化模块;
48、所述数据预处理模块用于将环境dna数据划分为环境dna丰度数据和环境dna序列数据,滤除丰度数据全零行以及对丰度数据进行min-max归一化和log-2对数转换处理,输出经过预处理的环境dna丰度数据和环境dna序列数据将环境dna数据划分为环境dna丰度数据和环境dna序列数据;
49、所述去噪模块用于对预处理后的环境dna丰度数据进行去噪,输出去噪后的环境dna丰度数据;
50、所述编码模块用于对环境dna序列数据进行均衡长度,并将均衡长度后的序列转换为四种典型碱基的概率,将核苷酸序列表示为序列长度乘以4的二维数组;将序列信息结合otu存在/缺失编码为三维数组输入自编码器ae,进行环境dna序列数据的压缩编码,输出经过压缩后的样本序列信息数据;
51、所述降维模块结合去噪后的环境dna丰度数据和压缩编码后的环境dna序列数据两个输入,对环境dna数据进行降维处理,将样本维度降至二维空间;
52、所述可视化模块将降至二维后的数据进行可视化。
53、本发明的优点和积极效果:
54、本发明因环境dna丰度数据分布具有高稀疏性,通过深度计数自动编码器(dca)对环境dna丰度数据进行去噪,可以更好地捕获环境dna数据的高维结构信息,从而有效降低环境dna数据的高噪声、稀疏性的影响。
55、本发明中的深度计数自动编码器(dca),使用基于零膨胀负二项式(zinb)模型的损失函数替换传统的均方误差(mse)损失函数,能够更好地表征环境dna数据的分布,减小“dropout”事件对数据降维的影响,有效地表征离散、过度分散和零膨胀的计数数据。
56、本发明同时采用环境dna数据的丰度和序列,利用差分自编码器进行编码降维,能更好的保留环境dna数据的信息,获得更准确的降维及可视化结果。
57、本发明的深度计数自动编码器(dca)和自动编码器(ae)都单独训练,然后训练vae,减少了模型的运行时间。
1.一种基于分层自编码器的环境dna数据降维方法,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的一种基于分层自编码器的环境dna数据降维方法,其特征在于,所述将预处理后的环境dna丰度数据输入深度计数自动编码器dca进行去噪,得到去噪后的环境dna丰度数据,包括:
3.根据权利要求2所述的一种基于分层自编码器的环境dna数据降维方法,其特征在于,所述深度计数自动编码器dca的损失函数是zinb似然的负对数,具体公式如下:
4.根据权利要求1所述的一种基于分层自编码器的环境dna数据降维方法,其特征在于,所述为平衡序列长度而填充的核苷酸编码n被翻译为[0.25,0.25,0.25,0.25]。
5.根据权利要求1所述的一种基于分层自编码器的环境dna数据降维方法,其特征在于,所述将代表样本序列信息的三维数组输入自编码器ae,对环境dna序列数据进行压缩,具体为:
6.根据权利要求1所述的一种基于分层自编码器的环境dna数据降维方法,其特征在于,所述差分自编码器vae包括:
7.根据权利要求8所述的一种基于分层自编码器的环境dna数据降维方法,其特征在于,所述潜在采样层使用了重参数化技巧进行采样,使用梯度下降方法来优化似然函数。
8.根据权利要求1所述的一种基于分层自编码器的环境dna数据降维方法,其特征在于,所述差分自编码器vae的损失函数由vae损失函数:kl散度、重构误差、核苷酸序列潜在编码不同组合的二元交叉熵共同构成:
9.根据权利要求1所述的一种基于分层自编码器的环境dna数据降维方法,其特征在于,所述深度计数自动编码器dca和所述自动编码器ae都单独训练,然后训练vae。
10.一种基于分层自编码器的环境dna数据降维系统,其特征在于,所述系统包括以下模块:数据预处理模块、去噪模块、编码模块、降维模块、可视化模块;