1.本发明属于生物医学工程和计算机技术相结合的领域,通过计算机技术、数据库技术、人工智能技术等,和器官芯片这一生物医学工程领域中的尖端技术紧密结合起来,运用关系型数据库搭建技术有效的解决了器官芯片与人工智能相结合的关键环节——如何建立器官芯片数据库。
2.本专利主要描述了一种包含不同器官芯片数据的数据库构建方法,多个不同类型的器官芯片数据,分别为肝芯片数据、心脏芯片数据、肠芯片数据、肺芯片数据、肾脏芯片数据、脑芯片数据、皮肤芯片数据、骨骼芯片数据等,同时还包括了各种器官芯片数据都会用到的一些公用信息,主要有药物信息、细胞信息、材料信息、生物试剂信息、器官芯片型号信息、器官芯片参数配置信息、实验结果信息。
背景技术:
3.器官芯片(organ-on-a-chip)是将人体的微型组织或器官构建于微环境之中,主要利用微流控技术,通过与细胞生物学、生物材料和工程学等多种方法相结合,可以在体外,模拟构建出与接近人体的多细胞组织器官,微环境和代谢系统。使用多种不同类型的器官芯片组合到一起,就模拟了一个人体内的整体生理微环境,本预测方法适用于所有类型器官芯片,包括心脏芯片、肝芯片、肾芯片、肠芯片、脑芯片、肺芯片等,进而可以预测整个人体内不同器官对药物的评价。它可以加快药物发现和药物筛选的研发速度,缩短研发周期。同时在精准医疗领域,器官芯片依然发挥着重要作用。器官芯片可以避免或者减少动物实验次数,用自体细胞搭建肿瘤模型实现药物临床前测试和筛选。
4.器官芯片在培养和在其进行实验的过程中,会产生大量的实验数据,但是在以前的研究中,研究者们并没有仔细分析数据之间的关联,特别是对不同的器官芯片实验之间,由于实验团队不同,数据并没有实现共享,只是看重实验结果。同时,目前市面上也没有一款辅助工具可以在线分析以往曾经做过的类似实验结果,把自己的设计参数和其他实验进行在线分析和对比,进而预测自己开展的器官芯片实验结果。
5.因此,需要开发一个与器官芯片相关的数据库,其中包含着各种与器官芯片相关的数据,可以为各种应用于器官芯片领域的数据分析方法与深度学习模型提供全面、可靠的数据支撑。
技术实现要素:
6.发明目的:
7.针对上述研究的问题,本发明的目的在于建立一个包含了多种类型器官芯片数据的数据库。此数据库存储着与器官芯片相关的各种数据,包括生物支架材料、试剂、细胞系、药物、器官芯片型号、器官芯片参数配置(试剂和药物浓度、细胞类型等),以及可以作为标签数据的时间信息和实验结果(细胞代谢物浓度、细胞的数量和存活率、芯片内微环境的ph、温度、氧气浓度、二氧化碳浓度、teer、气压、是否加入药物、药物的释放速度、降解速
率)。此方法构建的数据库可以为各种应用于器官芯片领域的数据分析方法,包括深度学习模型等,提供更加充足和全面的数据。
8.本发明采用如下技术方案,一种包括了多种类型器官芯片数据的数据库构建方法,本方法建立数据库需要四个步骤完成。
9.第一步,首先要建立起公用信息数据表集合,包括药物信息相关的数据表(存储着药物名称、分子式、二维和三维结构式、靶蛋白、smile格式表达式、mol2vec编码等,其中靶蛋白信息需要建立蛋白质数据表和靶点数据表来表述drug target interaction,简称dti关联信息)、细胞信息相关的数据表(存储着细胞系名称、来源、基因序列、gene2vec编码等)、生物支架材料信息相关的数据表(存储着分子式、结构式、编码表示等)、生物试剂信息相关的数据表(存储着成份、比例、浓度、化学式、结构式、编码等)、器官芯片型号相关的数据表(存储着芯片型号id、枚举型变量的器官芯片种类、开发者、机构、文章名称及链接、官网介绍链接、芯片结构和组件描述、工作原理描述、word2vec编码等)、器官芯片参数配置数据表(存储着参数配置id,便于和实验数据表关联,一行参数配置id信息对应着带有时间数据的多行实验数据表信息,还存储着器官芯片型号id,一种或者几种药物调配信息,生物试剂调配信息,所采用的支架材料调配信息,采用了哪几种细胞系等)、带有时间信息的实验结果数据表(存储着细胞代谢物浓度、细胞的数量和存活率、芯片内微环境的ph、温度、氧气浓度、二氧化碳浓度、teer、气压、是否加入药物、药物的释放速度、降解速率等),这些存储着的数据信息都有可能与实验结果数据之间存在着某种直接或者间接的联系,这种联系可以通过人工智能的方法进行大数据学习和模式识别,进而用于预测实验结果。
10.第二步,利用网络数据库和实验室数据,向各个公用数据表中填充数据。
11.(1)药物信息数据表:在器官芯片实验中,有些实验内容是会用到药物,此数据表正是用于存储目前已知的较为全面的药物数据信息。此数据表中全部数据,一部分来源于网络数据库,例如pubchem、drugbank、ncbi等,另一部分也可以来自于国内外实验室及研究机构的实验数据。
12.(2)细胞信息数据表:在器官芯片实验中会用到细胞,此数据表正是存储着目前已知的较为全面的细胞数据信息。此数据表中全部数据,一部分来源于网络数据库,例如panglaodb、cellmarker、cancer cell line、human cell atlas、mouse cell atlas等,另一部分可以来自于国内外实验室及研究机构的实验数据。
13.(3)生物支架材料信息数据表:在器官芯片实验中会用到各种支架材料供细胞生长,针对此类实验需要有各种支架材料的相关信息进行存储,而此数据表正是存储着目前全球已知的较为全面的材料数据信息。此数据表中全部数据,一部分来源于网络数据库,例如matweb、matmatch、asm international、material connexion等,另一部分可以来自于国内外实验室及研究机构的实验数据。
14.(4)生物试剂信息数据表:在器官芯片实验中会用到各种生物试剂,此数据表正是存储着目前全球已知的较为全面的生物试剂数据信息。此数据表中全部数据,一部分来源于网络数据库,例如thermofisher等,另一部分可以来自于国内外实验室及研究机构的实验数据。
15.(5)器官芯片型号数据表:由于器官芯片的设计来源于不同单位,包括生产制造商、工厂、科研机构及实验室、研究团队等,他们所设计的每一款器官芯片都与众不同,即使
是同一器官类型的器官芯片也是不尽相同。此数据表用于搜集目前所有已知的器官芯片信息,将它们分类和编号存储到数据库中,这里存储着制造商、创作人员、部件组成、框架结构、所用材料、使用方法、器官类型、工作原理描述、文章名称及链接、产品官网链接等。这些数据一部分来源于产片的官网,知名期刊的文章,例如lab on a chip等,另一部分可以来自于国内外实验室及研究机构的实验作品设计。
16.(6)器官芯片参数配置数据表:进行器官芯片实验的过程中,会在指定型号的器官芯片中加入不同的药物和试剂,混合的比例和浓度也有所不同,采用何种细胞系放入器官芯片内,以及采用何种支架材料支撑起细胞组织的三维空间结构,这些数据都存储在此数据库中。此数据表中的每一行数据要有一个“配置id”用于关联后面的实验结果数据表,此数据表中的全部数据,主要来源于不同科研机构的实验数据集合,也可以来源于知名期刊文章,例如lab on a chip,biomaterials,disease models&mechanisms,journal of chemical information and modeling等。
17.(7)带有时间信息的实验结果数据表:在器官芯片实验中会有整个实验结果的数据信息,包括细胞的数量和存活率、代谢物成份及浓度等,芯片内微环境的co2浓度、ph值、温度、氧气浓度、teer、气压等,药物的是否加药、释放速率、降解速率等,针对各种不同器官芯片实验的数据结果,需要有一个数据库表储这些实验结果信息,而此数据表正是存储着较为全面的有关器官芯片实验结果的数据信息。此数据表中全部数据,主要来源于不同科研机构的实验数据集合,也可以来源于知名期刊文章,例如lab on a chip,biomaterials,disease models&mechanisms,journal of chemical information and modeling等。
18.第三步是基于已经建立好的公用数据,把公用数据按照器官芯片类型(器官芯片型号表中枚举类型的器官芯片种类这个字段)进行分类提取,导入到新的对应的器官芯片数据表中。这些新建的器官芯片数据表实际上是对上一步已经建立好的公用数据的重新分类组合,并没有增加新的数据到数据库中,这样做的目的是便于后续的人工智能算法对数据进行集中运算,而不是从不同的表中提取数据后再集中运算,省去了查询检索数据的时间,有利于提高人工智能算法执行效率和缩短预测所消耗的时间。
19.新建的数据表依据器官芯片类型的不同,包括肝芯片数据表、心脏芯片数据表、肠芯片数据表、肺芯片数据表、肾脏芯片数据表、脑芯片数据表、皮肤芯片数据表、骨骼芯片数据表等。这些数据表中都存储着同类型的器官芯片型号id,芯片参数配置id,实验结果id和时间信息,以及这些id关联的相关实体属性信息,构建成一张汇总后的数据大表。值得注意的是,不同类型的器官芯片数据表是用于考察不同的药物治疗评价目标的,例如骨髓芯片数据表主要用于检测药物免疫反应,肝芯片数据表主要用于检测药物代谢能力,肠芯片数据表主要用于检测药物吸收,肺芯片数据表也是主要用于检测药物吸收,心脏芯片数据表主要用于检测心肌收缩力和导电能力对药物的反应,肾芯片数据表主要用于排泄物检测。
20.第四步,数据库建立完成后,要对数据库中的数据进行反复的数据清洗。数据清洗的主要目的是对缺失值进行填补和对不准确、不相关的数据进行替换或删除,以提高数据库质量,保证不同数据源数据格式的统一。
21.本发明优点在于:
22.(1)目前还没有与器官芯片相关的数据库,本发明为器官芯片数据库的建立提供了切实可行方法。
23.(2)本数据库可以为各种应用于器官芯片领域的数据分析方法,包括机器学习、深度学习模型等,提供更加标准化、更全面的数据。
附图说明
24.图1为数据库构建方法的流程图;
25.图2为公用信息数据表集合示意图;
26.图3为“多种器官芯片信息数据库”建立的示意图
具体实施方式
27.本发明采用如下技术方案,一种包括了多种类型器官芯片数据的数据库构建方法,本方法建立数据库需要四个步骤完成,如图1所示。
28.第一步,首先要建立起公用信息数据表集合,如图2所示,包括药物信息相关的数据表(存储着药物名称、分子式、二维和三维结构式、靶蛋白、smile格式表达式、mol2vec编码等,其中靶蛋白信息需要建立蛋白质数据表和靶点数据表来表述drug target interaction,简称dti关联信息)、细胞信息相关的数据表(存储着细胞系名称、来源、基因序列、gene2vec编码等)、生物支架材料信息相关的数据表(存储着分子式、结构式、编码表示等)、生物试剂信息相关的数据表(存储着成份、比例、浓度、化学式、结构式、编码等)、器官芯片型号相关的数据表(存储着芯片型号id、枚举型变量的器官芯片种类、开发者、机构、文章名称及链接、官网介绍链接、芯片结构和组件描述、工作原理描述、word2vec编码等)、器官芯片参数配置数据表(存储着参数配置id,便于和实验数据表关联,一行参数配置id信息对应着带有时间数据的多行实验数据表信息,还存储着器官芯片型号id,一种或者几种药物调配信息,生物试剂调配信息,所采用的支架材料调配信息,采用了哪几种细胞系等)、带有时间信息的实验结果数据表(存储着细胞代谢物浓度、细胞的数量和存活率、芯片内微环境的ph、温度、氧气浓度、二氧化碳浓度、teer、气压、是否加入药物、药物的释放速度、降解速率等),这些存储着的数据信息都有可能与实验结果数据之间存在着某种直接或者间接的联系,这种联系可以通过人工智能的方法进行大数据学习和模式识别,进而用于预测实验结果。
29.第二步,利用网络数据库和实验室数据,向各个公用数据表中填充数据。
30.(1)药物信息数据表:在器官芯片实验中,有些实验内容是会用到药物,此数据表正是用于存储目前已知的较为全面的药物数据信息。此数据表中全部数据,一部分来源于网络数据库,例如pubchem、drugbank、ncbi等,另一部分也可以来自于国内外实验室及研究机构的实验数据。
31.(2)细胞信息数据表:在器官芯片实验中会用到细胞,此数据表正是存储着目前已知的较为全面的细胞数据信息。此数据表中全部数据,一部分来源于网络数据库,例如panglaodb、cellmarker、cancer cell line、human cell atlas、mouse cell atlas等,另一部分可以来自于国内外实验室及研究机构的实验数据。
32.(3)生物支架材料信息数据表:在器官芯片实验中会用到各种支架材料供细胞生长,针对此类实验需要有各种支架材料的相关信息进行存储,而此数据表正是存储着目前全球已知的较为全面的材料数据信息。此数据表中全部数据,一部分来源于网络数据库,例
如matweb、matmatch、asm intemational、material connexion等,另一部分可以来自于国内外实验室及研究机构的实验数据。
33.(4)生物试剂信息数据表:在器官芯片实验中会用到各种生物试剂,此数据表正是存储着目前全球已知的较为全面的生物试剂数据信息。此数据表中全部数据,一部分来源于网络数据库,例如thermofisher等,另一部分可以来自于国内外实验室及研究机构的实验数据。
34.(5)器官芯片型号数据表:由于器官芯片的设计来源于不同单位,包括生产制造商、工厂、科研机构及实验室、研究团队等,他们所设计的每一款器官芯片都与众不同,即使是同一器官类型的器官芯片也是不尽相同。此数据表用于搜集目前所有已知的器官芯片信息,将它们分类和编号存储到数据库中,这里存储着制造商、创作人员、部件组成、框架结构、所用材料、使用方法、器官类型、工作原理描述、文章名称及链接、产品官网链接等。这些数据一部分来源于产片的官网,知名期刊的文章,例如lab on a chip等,另一部分可以来自于国内外实验室及研究机构的实验作品设计。
35.(6)器官芯片参数配置数据表:进行器官芯片实验的过程中,会在指定型号的器官芯片中加入不同的药物和试剂,混合的比例和浓度也有所不同,采用何种细胞系放入器官芯片内,以及采用何种支架材料支撑起细胞组织的三维空间结构,这些数据都存储在此数据库中。此数据表中的每一行数据要有一个“配置id”用于关联后面的实验结果数据表,此数据表中的全部数据,主要来源于不同科研机构的实验数据集合,也可以来源于知名期刊文章,例如lab on a chip,biomaterials,disease models&mechanisms,journal of chemical information and modeling等。
36.(7)带有时间信息的实验结果数据表:在器官芯片实验中会有整个实验结果的数据信息,包括细胞的数量和存活率、代谢物成份及浓度等,芯片内微环境的co2浓度、ph值、温度、氧气浓度、teer、气压等,药物的是否加药、释放速率、降解速率等,针对各种不同器官芯片实验的数据结果,需要有一个数据库表储这些实验结果信息,而此数据表正是存储着较为全面的有关器官芯片实验结果的数据信息。此数据表中全部数据,主要来源于不同科研机构的实验数据集合,也可以来源于知名期刊文章,例如lab on a chip,biomaterials,disease models&mechanisms,journal of chemical information and modeling等。
37.第三步是基于已经建立好的公用数据,把公用数据按照器官芯片类型(器官芯片型号表中枚举类型的器官芯片种类这个字段)进行分类提取,导入到新的对应的器官芯片数据表中,如图3所示。这些新建的器官芯片数据表实际上是对上一步已经建立好的公用数据的重新分类组合,并没有增加新的数据到数据库中,这样做的目的是便于后续的人工智能算法对数据进行集中运算,而不是从不同的表中提取数据后再集中运算,省去了查询检索数据的时间,有利于提高人工智能算法执行效率和缩短预测所消耗的时间。
38.新建的数据表依据器官芯片类型的不同,包括肝芯片数据表、心脏芯片数据表、肠芯片数据表、肺芯片数据表、肾脏芯片数据表、脑芯片数据表、皮肤芯片数据表、骨骼芯片数据表等。这些数据表中都存储着同类型的器官芯片型号id,芯片参数配置id,实验结果id和时间信息,以及这些id关联的相关实体属性信息,构建成一张汇总后的数据大表。值得注意的是,不同类型的器官芯片数据表是用于考察不同的药物治疗评价目标的,例如骨髓芯片数据表主要用于检测药物免疫反应,肝芯片数据表主要用于检测药物代谢能力,肠芯片数
据表主要用于检测药物吸收,肺芯片数据表也是主要用于检测药物吸收,心脏芯片数据表主要用于检测心肌收缩力和导电能力对药物的反应,肾芯片数据表主要用于排泄物检测。
39.第四步,数据库建立完成后,要对数据库中的数据进行反复的数据清洗。数据清洗的主要目的是对缺失值进行填补和对不准确、不相关的数据进行替换或删除,以提高数据库质量,保证不同数据源数据格式的统一。
技术特征:
1.一种多类型器官芯片数据库的设计方法,其特征在于如下步骤:步骤1:首先要建立起公用信息数据表集合;步骤2:利用网络数据库和实验室数据,向各个公用数据表中填充数据。;步骤3:基于已经建立好的公用数据,把公用数据按照器官芯片类型(器官芯片型号表中枚举类型的器官芯片种类这个字段)进行分类提取,导入到新的对应的器官芯片数据表中;步骤4:数据库建立完成后,要对数据库中的数据进行反复的数据清洗。2.根据权利要求1所述的一种包括了多种类型器官芯片数据库的数据仓库构建方法,其特征在于,所述步骤1中的公用信息数据表集合包括药物信息相关的数据表、细胞信息相关的数据表、生物支架材料信息相关的数据表、生物试剂信息相关的数据表、器官芯片型号相关的数据表、器官芯片参数配置数据表和带有时间信息的实验结果数据表。3.根据权利要求1中所述的一种包括了多种类型器官芯片数据库的数据仓库构建方法,其特征在于,所述步骤3的器官芯片数据表包括肝芯片数据表、心脏芯片数据表、肠芯片数据表、肺芯片数据表、肾脏芯片数据表、脑芯片数据表、皮肤芯片数据表、骨骼芯片数据表等。4.根据权利要求1中所述的一种包括了多种类型器官芯片数据库的数据仓库构建方法,其特征在于,所述步骤4的具体步骤为:对缺失值进行填补和对不准确、不相关的数据进行替换或删除,以提高数据库质量,保证不同数据源数据格式的统一。
技术总结
本专利主要描述了一种包含不同器官芯片数据的数据库构建方法,多个不同类型的器官芯片数据,分别为肝芯片数据、心脏芯片数据、肠芯片数据、肺芯片数据、肾脏芯片数据、脑芯片数据、皮肤芯片数据、骨骼芯片数据等,同时还包括了各种器官芯片数据都会用到的一些公用信息,主要有药物信息、细胞信息、材料信息、生物试剂信息、器官芯片型号信息、器官芯片参数配置信息、实验结果信息。本数据库可以为各种应用于器官芯片领域的数据分析方法,包括深度学习模型等,提供更加充足、更全面的数据。更全面的数据。更全面的数据。
技术研发人员:马欣 林文斌
受保护的技术使用者:天津工业大学
技术研发日:2021.08.31
技术公布日:2022/5/25
转载请注明原文地址:https://tc.8miu.com/read-11665.html