1.本发明属于生物医学工程和计算机科学医工融合领域,设计了一种适用于器官芯片数据库向量化的方法。器官芯片数据库中包含着生物支架材料、试剂、细胞系、药物、器官芯片型号、器官芯片配置参数(试剂和药物浓度、细胞类型等),以及作为标签数据的时间信息和实验结果(细胞代谢物浓度、细胞的数量和存活率、芯片内微环境的ph、温度、氧气浓度、二氧化碳浓度、teer、气压、是否加入药物、药物的释放速度、降解速率),经过这些数据的训练可以得到深度学习模型权重矩阵,当输入如上的这些信息后模型会自动预测出标签数据。而对于数据库中的数据要输入到模型之中首先要做的就是数据的格式转换,因为器官芯片数据库中存储的数据类型和格式不统一,有文本信息和数字信息,甚至图像信息,这些信息需要转换为机器学习算法所能识别的向量信息。本专利正是为了解决此问题而设计——如何将器官芯片的数据向量化。
背景技术:
2.器官芯片指的是一种在芯片上构建的器官生理微系统,它以微流控芯片为核心,通过与细胞生物学、生物材料和工程学等多种方法相结合,可以在体外模拟构建包含有多种活体细胞、功能组织界面、生物流体和机械力刺激等复杂因素的组织器官微环境,反映人体组织器官的主要结构和功能特征。这种组织器官模型不仅可在体外接近真实地重现人体器官的生理、病理活动,还可能使研究人员以前所未有的方式来见证和研究机体的各种生物学行为,预测人体对药物或外界不同刺激产生的反应,在生命科学研究、疾病模拟和新药研发等领域具有广泛应用价值。
3.器官芯片在培养和在其进行实验的过程中,会产生大量的实验数据,但是在以前的研究中,研究者们并没有仔细分析数据之间的关联,特别是对不同的器官芯片实验之间,数据并没有实现共享,所以也无法关注不同实验间的数据关联特点,只是一味看重实验结果,对实验过程中的数据,特别是动态数据丢失了,并且他们都只关心自己的实验数据,而没有时间和精力,也没有工具去关注别人曾经做过的类似实验结果,把自己的设计参数和其他人进行对比,因此,需要开发适当的数据分析方法来对这些数据进行分析和建模。在进行数据分析之前需要将器官芯片数据库中的数据进行向量转换,然后才能输入到人工智能模型。本专利旨在为解决此类问题提供一种良好的解决方案。
技术实现要素:
4.发明目的:
5.在建立人工智能模型之前,需要对器官芯片数据库中的数据信息进行向量转换,需要把实际数据(文本的和非文本的信息,诸如生物支架材料和药物试剂的名称、分子式、成份等)转换成深度学习模型可以理解和计算的数字信息,而这些数字信息就是一种编码表示,且为数字格式的编码表示,便于人工智能模型计算。
6.对于器官芯片数据库,它应该包含了药物信息相关的数据表(存储着药物名称、分
子式、二维和三维结构式、靶蛋白、smile格式表达式、mol2vec编码等,其中靶蛋白信息需要建立蛋白质数据表和靶点数据表来表述drug target interaction,简称dti关联信息)、细胞信息相关的数据表(存储着细胞系名称、来源、基因序列、gene2vec编码等)、生物支架材料信息相关的数据表(存储着分子式、结构式、编码表示等)、生物试剂信息相关的数据表(存储着成份、比例、浓度、化学式、结构式、编码等)、器官芯片型号相关的数据表(存储着芯片型号id、枚举型变量的器官芯片种类、开发者、机构、文章名称及链接、官网介绍链接、芯片结构和组件描述、工作原理描述、word2vec编码等)、器官芯片参数配置数据表(存储着参数配置id,便于和实验数据表关联,一行参数配置id信息对应着带有时间数据的多行实验数据表信息,还存储着器官芯片型号id,一种或者几种药物调配信息,生物试剂调配信息,所采用的支架材料调配信息,采用了哪几种细胞系等)、带有时间信息的实验结果数据表(存储着细胞代谢物浓度、细胞的数量和存活率、芯片内微环境的ph、温度、氧气浓度、二氧化碳浓度、teer、气压、是否加入药物、药物的释放速度、降解速率等),这些存储着的数据信息都有可能与实验结果数据之间存在着某种直接或者间接的联系,这种联系可以通过人工智能的方法进行大数据学习和模式识别,进而用于预测实验结果。
7.(1)对于药物信息相关的数据表(存储着药物名称、分子式、二维和三维结构式、靶蛋白、smile格式表达式、mol2vec编码等,其中靶蛋白信息需要建立蛋白质数据表和靶点数据表来表述drug target interaction,简称dti关联信息),药物分子式可以使用摩根算法转为指纹信息,由于指纹信息数字位数过长,所以可以再经过某种模型进行二次训练转换,比如可以经过bert算法再输出向量,或者药物分子式也可以经过mol2vec算法直接转换为向量,转换后的数字字符串结果可以直接存储在药物信息表中。对于靶蛋白质氨基酸序列的向量化,可以把氨基酸序列用pssm方法表示,其余信息,如果是数字可以使用0到1之间的归一化方法编码,如果是文本可以使用one-hot编码。
8.pssm矩阵表示方法如下:
9.第一步,首先找到某个蛋白质fasta序列以及同源蛋白质fasta序列,将他们按行(列)进行排列;第二步,然后计算每个序列的每种氨基酸的个数,得到ppm矩阵,是一个l*20的矩阵,20代表人体的氨基酸的个数,l代表蛋白质序列的长度;第三步,然后对矩阵标准化得到pfm矩阵;第四步,然后根据公式求得pssm矩阵,pssm矩阵是一个l*20的矩阵,20代表人体的氨基酸的个数,l代表蛋白质序列的长度。该矩阵既可以表示某个蛋白质也表示每个位置上氨基酸突变成为其他氨基酸的可能。每行中最大的数字对应的氨基酸,就是这个矩阵代表的蛋白质。每个元素代表了该位置的氨基酸突变成其他氨基酸的可能性。元素值越大,越可能发生突变。
10.(2)对于细胞信息相关的数据表(存储着细胞系名称、来源、基因序列、gene2vec编码等),细胞基因序列可以用gene2vec方法进行向量化,并存入细胞信息数据表。其余信息,如果是数字可以使用0到1之间的归一化方法编码,如果是文本可以使用one-hot编码。
11.(3)对于生物支架材料信息相关的数据表(存储着分子式、结构式、编码表示等),分子式和结构式可以用mol2vec方法进行向量化,并存入支架材料信息数据表。其余信息,如果是数字可以使用0到1之间的归一化方法编码,如果是文本可以使用word2vec或者one-hot编码。
12.(4)对于生物试剂信息相关的数据表(存储着成份、比例、浓度、化学式、结构式、编
码等),化学式可以用mol2vec方法进行向量化,并存入试剂信息数据表。其余信息,如果是数字可以使用0到1之间的归一化方法编码,如果是文本可以使用word2vec或者one-hot编码。
13.(5)对于器官芯片型号相关的数据表(存储着芯片型号id、枚举型变量的器官芯片种类、开发者、机构、文章名称及链接、官网介绍链接、芯片结构和组件描述、工作原理描述、word2vec编码等),这些字段信息,一部分数据比如官网链接、开发者、文章名称等和实验结果预测无关,因为不需要输入到人工智能模型中所以不需要向量化。其余信息,如果是数字可以使用0到1之间的归一化方法编码,如果是文本可以使用word2vec编码。
14.(6)对于器官芯片参数配置数据表(存储着参数配置id,便于和实验数据表关联,一行参数配置id信息对应着带有时间数据的多行实验数据表信息,还存储着器官芯片型号id,一种或者几种药物调配信息,生物试剂调配信息,所采用的支架材料调配信息,采用了哪几种细胞系等),如果是数字可以使用0到1之间的归一化方法编码,如果是文本可以使用word2vec或者one-hot编码。
15.(7)对于带有时间信息的实验结果数据表(存储着细胞代谢物浓度、细胞的数量和存活率、芯片内微环境的ph、温度、氧气浓度、二氧化碳浓度、teer、气压、是否加入药物、药物的释放速度、降解速率等),如果是数字可以使用0到1之间的归一化方法编码,如果是文本可以使用word2vec或者one-hot编码。如果用于训练模型的数据集数量很少,建议将实验结果中涉及到的数值类的数据转化为等级分类的数据类型,例如,氧气含量<19.5%为等级1;19.5%<氧气含量<24%为等级2;氧气含量>24%为等级3。
16.本发明优点在于:
17.(1)解决了器官芯片数据库向量化问题;
18.(2)使用了多种向量化表示方法,为人工智能模型计算提供有效数据。
具体实施方式
19.对于器官芯片数据库,它应该包含了药物信息相关的数据表(存储着药物名称、分子式、二维和三维结构式、靶蛋白、smile格式表达式、mol2vec编码等,其中靶蛋白信息需要建立蛋白质数据表和靶点数据表来表述drug target interaction,简称dti关联信息)、细胞信息相关的数据表(存储着细胞系名称、来源、基因序列、gene2vec编码等)、生物支架材料信息相关的数据表(存储着分子式、结构式、编码表示等)、生物试剂信息相关的数据表(存储着成份、比例、浓度、化学式、结构式、编码等)、器官芯片型号相关的数据表(存储着芯片型号id、枚举型变量的器官芯片种类、开发者、机构、文章名称及链接、官网介绍链接、芯片结构和组件描述、工作原理描述、word2vec编码等)、器官芯片参数配置数据表(存储着参数配置id,便于和实验数据表关联,一行参数配置id信息对应着带有时间数据的多行实验数据表信息,还存储着器官芯片型号id,一种或者几种药物调配信息,生物试剂调配信息,所采用的支架材料调配信息,采用了哪几种细胞系等)、带有时间信息的实验结果数据表(存储着细胞代谢物浓度、细胞的数量和存活率、芯片内微环境的ph、温度、氧气浓度、二氧化碳浓度、teer、气压、是否加入药物、药物的释放速度、降解速率等),这些存储着的数据信息都有可能与实验结果数据之间存在着某种直接或者间接的联系,这种联系可以通过人工智能的方法进行大数据学习和模式识别,进而用于预测实验结果。
20.(1)对于药物信息相关的数据表(存储着药物名称、分子式、二维和三维结构式、靶蛋白、smile格式表达式、mol2vec编码等,其中靶蛋白信息需要建立蛋白质数据表和靶点数据表来表述drug target interaction,简称dti关联信息),药物分子式可以使用摩根算法转为指纹信息,由于指纹信息数字位数过长,所以可以再经过某种模型进行二次训练转换,比如可以经过bert算法再输出向量,或者药物分子式也可以经过mol2vec算法直接转换为向量,转换后的数字字符串结果可以直接存储在药物信息表中。对于靶蛋白质氨基酸序列的向量化,可以把氨基酸序列用pssm方法表示,其余信息,如果是数字可以使用0到1之间的归一化方法编码,如果是文本可以使用one-hot编码。
21.(2)对于细胞信息相关的数据表(存储着细胞系名称、来源、基因序列、gene2vec编码等),细胞基因序列可以用gene2vec方法进行向量化,并存入细胞信息数据表。其余信息,如果是数字可以使用0到1之间的归一化方法编码,如果是文本可以使用one-hot编码。
22.(3)对于生物支架材料信息相关的数据表(存储着分子式、结构式、编码表示等),分子式和结构式可以用mol2vec方法进行向量化,并存入支架材料信息数据表。其余信息,如果是数字可以使用0到1之间的归一化方法编码,如果是文本可以使用word2vec或者one-hot编码。
23.(4)对于生物试剂信息相关的数据表(存储着成份、比例、浓度、化学式、结构式、编码等),化学式可以用mol2vec方法进行向量化,并存入试剂信息数据表。其余信息,如果是数字可以使用0到1之间的归一化方法编码,如果是文本可以使用word2vec或者one-hot编码。
24.(5)对于器官芯片型号相关的数据表(存储着芯片型号id、枚举型变量的器官芯片种类、开发者、机构、文章名称及链接、官网介绍链接、芯片结构和组件描述、工作原理描述、word2vec编码等),这些字段信息,一部分数据比如官网链接、开发者、文章名称等和实验结果预测无关,因为不需要输入到人工智能模型中所以不需要向量化。其余信息,如果是数字可以使用0到1之间的归一化方法编码,如果是文本可以使用word2vec编码。
25.(6)对于器官芯片参数配置数据表(存储着参数配置id,便于和实验数据表关联,一行参数配置id信息对应着带有时间数据的多行实验数据表信息,还存储着器官芯片型号id,一种或者几种药物调配信息,生物试剂调配信息,所采用的支架材料调配信息,采用了哪几种细胞系等),如果是数字可以使用0到1之间的归一化方法编码,如果是文本可以使用word2vec或者one-hot编码。
26.(7)对于带有时间信息的实验结果数据表(存储着细胞代谢物浓度、细胞的数量和存活率、芯片内微环境的ph、温度、氧气浓度、二氧化碳浓度、teer、气压、是否加入药物、药物的释放速度、降解速率等),如果是数字可以使用0到1之间的归一化方法编码,如果是文本可以使用word2vec或者one-hot编码。如果用于训练模型的数据集数量很少,建议将实验结果中涉及到的数值类的数据转化为等级分类的数据类型,例如,氧气含量<19.5%为等级1;19.5%<氧气含量<24%为等级2;氧气含量>24%为等级3。
27.以上仅是本发明众多具体应用范围中的代表性实施例,对本发明的保护范围不构成任何限制。凡采用变换或是等效替换而形成的技术方案,均落在本发明权利保护范围之内。
技术特征:
1.一种用于人工智能算法的器官芯片数据库向量化方案,其特征在于:器官芯片数据库中的数据信息进行向量转换,需要把实际数据(文本的和非文本的信息,诸如生物支架材料和药物试剂的名称、分子式、成份等)转换成深度学习模型可以理解和计算的数字信息,而这些数字信息就是一种编码表示,且为数字格式的编码表示,便于人工智能模型计算。2.根据权利要求1所述的一种用于人工智能算法的器官芯片数据库向量化方案,其特征在于,所述权利1中的数据信息主要包括:药物信息相关的数据表、细胞信息相关的数据表、生物支架材料信息相关的数据表、生物试剂信息相关的数据表、器官芯片型号相关的数据表、器官芯片参数配置数据表和带有时间信息的实验结果数据表。3.根据权利要求2所述的一种用于人工智能算法的器官芯片数据库向量化方案,其特征在于,所述关于药物信息相关的数据表的向量化,药物分子式可以使用摩根算法转为指纹信息,由于指纹信息数字位数过长,所以可以再经过某种模型进行二次训练转换,比如可以经过bert算法再输出向量,或者药物分子式也可以经过mol2vec算法直接转换为向量,转换后的数字字符串结果可以直接存储在药物信息表中。对于靶蛋白质氨基酸序列的向量化,可以把氨基酸序列用pssm方法表示,其余信息,如果是数字可以使用0到1之间的归一化方法编码,如果是文本可以使用one-hot编码。4.根据权利要求2所述的一种用于人工智能算法的器官芯片数据库向量化方案,其特征在于,所述关于细胞信息相关的数据表的向量化,细胞基因序列可以用gene2vec方法进行向量化,并存入细胞信息数据表。其余信息,如果是数字可以使用0到1之间的归一化方法编码,如果是文本可以使用one-hot编码。5.根据权利要求2所述的一种用于人工智能算法的器官芯片数据库向量化方案,其特征在于,所述关于生物支架材料信息相关的数据表的向量化,分子式和结构式可以用mol2vec方法进行向量化,并存入支架材料信息数据表。其余信息,如果是数字可以使用0到1之间的归一化方法编码,如果是文本可以使用word2vec或者one-hot编码。6.根据权利要求2所述的一种用于人工智能算法的器官芯片数据库向量化方案,其特征在于,所述关于生物试剂信息相关的数据表的向量化,化学式可以用mol2vec方法进行向量化,并存入试剂信息数据表。其余信息,如果是数字可以使用0到1之间的归一化方法编码,如果是文本可以使用word2vec或者one-hot编码。7.根据权利要求2所述的一种用于人工智能算法的器官芯片数据库向量化方案,其特征在于,所述关于器官芯片型号相关的数据表的向量化,一部分数据比如官网链接、开发者、文章名称等和实验结果预测无关,因为不需要输入到人工智能模型中所以不需要向量化。其余信息,如果是数字可以使用0到1之间的归一化方法编码,如果是文本可以使用word2vec编码。8.根据权利要求2所述的一种用于人工智能算法的器官芯片数据库向量化方案,其特征在于,所述关于器官芯片参数配置数据表的向量化,如果是数字可以使用0到1之间的归一化方法编码,如果是文本可以使用word2vec或者one-hot编码。9.根据权利要求2所述的一种用于人工智能算法的器官芯片数据库向量化方案,其特征在于,所述关于带有时间信息的实验结果数据表的向量化,如果是数字可以使用0到1之间的归一化方法编码,如果是文本可以使用word2vec或者one-hot编码。如果用于训练模型的数据集数量很少,建议将实验结果中涉及到的数值类的数据转化为等级分类的数据类
型,例如,氧气含量<19.5%为等级1;19.5%<氧气含量<24%为等级2;氧气含量>24%为等级3。
技术总结
本专利主要描述了一种适用于器官芯片数据库向量化的方法。器官芯片数据库中包含着生物支架材料、试剂、细胞系、药物、器官芯片型号、器官芯片配置参数(试剂和药物浓度、细胞类型等),以及作为标签数据的时间信息和实验结果(细胞代谢物浓度、细胞的数量和存活率、芯片内微环境的PH、温度、氧气浓度、二氧化碳浓度、TEER、气压、是否加入药物、药物的释放速度、降解速率),经过这些数据的训练可以得到深度学习模型权重矩阵,当输入如上的这些信息后模型会自动预测出标签数据。而对于数据库中的数据要输入到模型之中首先要做的就是数据的格式转换,因为器官芯片数据库中存储的数据类型和格式不统一,有文本信息和数字信息,甚至图像信息,这些信息需要转换为机器学习算法所能识别的向量信息。本专利正是为了解决此问题而设计——如何将器官芯片的数据向量化。计——如何将器官芯片的数据向量化。
技术研发人员:马欣 林文斌
受保护的技术使用者:天津工业大学
技术研发日:2021.08.31
技术公布日:2022/5/25
转载请注明原文地址:https://tc.8miu.com/read-12033.html