文本分类方法、装置、电子设备及存储介质与流程

    专利查询2022-07-10  136



    1.本发明实施例涉及文本处理技术领域,尤其涉及一种文本分类方法、装置、电子设备及存储介质。


    背景技术:

    2.文本分类是指在给定分类体系下,根据文本内容自动确定文本类别的过程。文本分类是比较常见的文本分析研究方向,目前也已经有了比较多的研究和成果,主要有传统算法以及深度学习算法。
    3.然而,现有技术中只能在大量已标注文本上训练分类模型进行文本分类,其存在一些缺陷,如对文本数据标注需要大量的人工时间,需要大量的训练数据,处理量也较大等。


    技术实现要素:

    4.本发明提供了一种文本分类方法、装置、电子设备及存储介质,以解决现有技术中未标注数据不能进行文本分类以及文本数量少导致分类不准确的问题,节省了文本分类成本,在保证文本分类准确性的同时,减少了数据处理量。
    5.第一方面,本发明实施例提供了一种文本分类方法,包括:
    6.提取待分类文本的关键词;
    7.根据所述待分类文本的关键词生成所述待分类文本的文本向量;
    8.根据所述待分类文本的文本向量,在向量相似检索引擎中检索相似文本向量的向量标识,并根据所述向量标识在数据库中检索相似文本的类别信息,得到所述待分类文本的分类结果,其中,所述向量相似检索引擎和所述数据库根据未标注文本构建。
    9.可选的,在提取待分类文本的关键词之前,还包括:
    10.根据未标注文本构建所述向量相似检索引擎和所述数据库;
    11.其中,所述向量相似检索引擎用于存储各所述未标注文本的文本向量,所述数据库用于存储各所述未标注文本的类别信息,所述类别信息包括各所述未标注文本相应的向量标识和文本类别。
    12.可选的,根据未标注文本构建所述向量相似检索引擎和所述数据库,包括:
    13.提取各所述未标注文本的关键词;
    14.根据各所述未标注文本的关键词分别生成各所述未标注文本的文本向量;
    15.根据各所述未标注文本的文本向量对各所述未标注文本进行聚类,并根据各所述未标注文本的关键词确定每种类别的文本类别;
    16.将各所述未标注文本的文本向量存储至所述向量相似检索引擎,并将各所述未标注文本相应的向量标识以及文本类别存储至所述数据库。
    17.可选的,根据各所述未标注文本的关键词确定每种类别的文本类别,包括:
    18.对于每种类别,从该类别中的各所述未标注文本的关键词中提取频率最高的设定
    数量的关键词,根据所提取的关键词确定该类别的类别名称。
    19.可选的,根据各所述未标注文本的文本向量对各所述未标注文本进行聚类,包括:
    20.根据各所述未标注文本的文本向量分别计算各所述未标注文本的邻接矩阵和度矩阵;
    21.根据各所述未标注文本的邻接矩阵和度矩阵分别得到各所述未标注文本的拉普拉斯矩阵;
    22.计算各所述未标注文本的拉普拉斯矩阵的特征值和特征向量,各所述特征向量构成特征矩阵;
    23.利用聚类算法对各所述未标注文本的特征矩阵进行聚类。
    24.可选的,所述方法还包括:
    25.对于指定类别,从所述数据库中读取所述指定类别的类别信息;
    26.若所述待分类文本的关键词和/或文本向量与所述指定类别的类别信息相符,则将所述指定类别作为所述待分类文本的文本类别。
    27.可选的,所述方法还包括:
    28.根据指定条件从所述向量相似检索引擎中筛选相应的文本向量,并从所述数据库中筛选相应的类别信息;
    29.对筛选得到的文本向量和类别信息进行同步修改或更新。
    30.第二方面,本发明实施例还提供了一种文本分类装置,包括:
    31.提取模块,用于提取待分类文本的关键词;
    32.生成模块,用于根据所述待分类文本的关键词生成所述待分类文本的文本向量;
    33.检索模块,用于根据所述待分类文本的文本向量,在向量相似检索引擎中检索相似文本向量的向量标识,并根据所述向量标识在数据库中检索相似文本的类别信息,得到所述待分类文本的分类结果,其中,所述向量相似检索引擎和所述数据库根据未标注文本构建。
    34.第三方面,本发明实施例还提供了一种电子设备,包括:
    35.一个或多个处理器;
    36.存储装置,用于存储一个或多个程序;
    37.当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例提供的文本分类方法。
    38.第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如本发明实施例提供的文本分类方法。
    39.本发明实施例提供了一种文本分类方法、装置、电子设备及存储介质,首先提取待分类文本的关键词;然后根据所述待分类文本的关键词生成所述待分类文本的文本向量;最后根据所述待分类文本的文本向量,在向量相似检索引擎中检索相似文本向量的向量标识,并根据所述向量标识在数据库中检索相似文本的类别信息,得到所述待分类文本的分类结果,其中,所述向量相似检索引擎和所述数据库根据未标注文本构建。利用上述技术方案,能够通过未标注文本构建向量相似检索引擎和所述数据库,减少了人工标注数据的大量时间,节省了成本;通过在向量相似检索引擎中检索相似文本向量的向量标识,并根据所述向量标识在数据库中检索相似文本的类别信息,得到所述待分类文本的分类结果,能够
    在保证文本分类准确性的同时,减少数据处理量,提高搜索效率。
    40.应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
    附图说明
    41.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
    42.图1是根据本发明实施例一提供的一种文本分类方法的流程图;
    43.图2是根据本发明实施例二提供的一种文本分类方法的流程图;
    44.图3a为根据本发明实施例二提供的一种文本分类方法的示意图;
    45.图3b是根据本发明实施例二提供的一种文本分类方法的分类条件及条件管理的示意图;
    46.图4是根据本发明实施例三提供的一种文本分类装置的结构示意图;
    47.图5是实现本发明实施例的文本分类方法的电子设备的结构示意图。
    具体实施方式
    48.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
    49.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
    50.文本分类是比较常见的文本分析研究方向,目前也已经有了比较多的研究和成果,主要有传统算法,比如k近邻、决策树、svm(support vector machine,支持向量机)、朴素贝叶斯等算法;有集成学习算法,比如:随机森林,xgboost等;深度学习算法,比如:lstm(long short-term memory,长短期记忆网络)、rnn(recurrent neural network,循环神经网络)等。
    51.不管是传统算法还是深度学习算法,基本的流程都大同小异,主要有:文本数据标注、文本预处理、特征提取(构建向量)、构建分类模型。文本数据标注是整个训练文本分类模型中成本最高的步骤,即使现在有半监督的模型训练方法,但也要标注一部分数据;文本数据标注主要做的就是对未标注类别的训练数据、验证数据及测试数据进行标注类别,方
    便模型的训练、验证及测试。文本预处理主要是指在特征提取前对文本进行分词、去停用词、词性过滤、提取关键词等的一系列操作,让文本数据的内容更具有代表性,能够最大限度的表示文本内容。特征提取(构建向量)有多种方法:利用词袋模型的特征表示、基于tf-idf(term frequency

    inverse document frequency,词频-逆文本频率指数)的特征表示、word2vec表示等方法,最终文本表示为向量,已达到能够训练、测试的目的。再就是构建分类模型,在选择好模型训练算法后,导入数据训练模型。最终利用分类模型进行文本分类。
    52.然而,现有技术只能在大量已标注文本上训练分类模型进行文本分类,存在未标注数据不能进行文本分类以及文本数量少导致分类不准确的问题。基于此,本实施例提供了一种文本分类方法,可利用未标注文本构建向量相似检索引擎和数据库,不需要人工标注数据,减少数据处理量。
    53.实施例一
    54.图1为本发明实施例一提供了一种文本分类方法的流程图,本实施例可适用于对待分类文本进行文本分类的情况,该方法可以由文本分类装置来执行,该文本分类装置可以采用硬件和/或软件的形式实现,该文本分类装置可配置于电子设备中。
    55.如图1所示,该方法包括:
    56.s110、提取待分类文本的关键词。
    57.具体的,待分类文本可以认为是一个未被指定类别的文本,待分类文本的关键词可以认为是能够代表文本主要内容的名词、动词、人名、地名等。
    58.示例性的,可以通过分词、去停用词、词性过滤等操作来提取待分类文本的关键词,通过词性过滤的操作,主要保留了词性为名词、动词、动名词、人名、地名及机构名词等的关键词,能够提高对待分类文本进行分类的精确性。
    59.s120、根据所述待分类文本的关键词生成所述待分类文本的文本向量。
    60.具体的,可以对待分类文本的关键词进行随机向量化并累加等操作生成待分类文本的文本向量。利用待分类文本的关键词生成待分类文本的文本向量,主要有两个原因:一是在对待分类文本的分析阶段需要查看关键词以进行分析对比,二是关键词更能够代表待分类文本的内容,使待分类文本间的相似度更明确,在对待分类文本进行分类时更准确。
    61.s130、根据所述待分类文本的文本向量,在向量相似检索引擎中检索相似文本向量的向量标识,并根据所述向量标识在数据库中检索相似文本的类别信息,得到所述待分类文本的分类结果。
    62.其中,向量相似检索引擎和数据库根据未标注文本构建。
    63.具体的,未标注文本可以为由多个未标注文本构成的文档集。利用多个未标注文本,可以构建一个向量相似检索引擎和数据库,该向量相似检索引擎已经学习到未标注文本与文本类别(也就是未标注文本的文本向量与向量标识)的映射关系,从而具备检索能力,这种映射关系存储在数据库中,为后续对待分类文本的检索提供数据来源,即向量相似检索引擎和数据库之间通过向量标识关联。其中,向量标识可根据文本向量直接确定,且一种向量标识对应于一种文本类别。在实际应用中,在向量相似检索引擎中检索相似文本向量的向量标识,并根据所述向量标识在数据库中检索相似文本的类别信息,从而确定待分类文本的文本类别。
    64.需要说明的是,本实施例对未标注文本的数量不做限定,一般来讲,未标注文本的
    数量越多,构建的向量相似检索引擎和数据库更完善,对待分类文本的分类准确性越高。
    65.示例性的,根据未标注文本构建向量相似检索引擎和数据库的过程,也需要利用未标注文本的关键词生成文本向量。例如:通过对未标注文本进行文本预处理,即通过分词、去停用词、词性过滤等操作提取未标注文本的关键词;然后对提取的未标注文本的关键词进行随机向量化并累加等操作生成(即构建)未标注文本的文本向量,根据各未标注文本的文本向量对各未标注文本进行分类;根据分类结果构建向量相似检索引擎和数据库。
    66.本发明实施例提供的文本分类方法,通过提取待分类文本的关键词;然后根据所述待分类文本的关键词生成所述待分类文本的文本向量;最后根据所述待分类文本的文本向量,在向量相似检索引擎中检索相似文本向量的向量标识,并根据所述向量标识在数据库中检索相似文本的类别信息,得到所述待分类文本的分类结果,其中,所述向量相似检索引擎和所述数据库根据未标注文本构建。利用上述技术方案,能够通过未标注文本构建向量相似检索引擎和所述数据库,减少了人工标注数据的大量时间,节省了成本;通过在向量相似检索引擎中检索相似文本向量的向量标识,并根据所述向量标识在数据库中检索相似文本的类别信息,得到所述待分类文本的分类结果,能够在保证文本分类准确性的同时,减少数据处理量,提高搜索效率。
    67.实施例二
    68.图2为本发明实施例二提供的一种文本分类方法的流程图,本实施例二在上述各实施例的基础上进行优化。在本实施例中在提取待分类文本的关键词之前,需要先对未标注文本进行分类和存储,构建检索引擎和数据库,具体的,如图2所示所示,该方法包括:
    69.s210:提取各未标注文本的关键词。
    70.具体的,通过分词、去停用词、词性过滤等操作提取各未标注文本的关键词。
    71.s220:根据各所述未标注文本的关键词分别生成各所述未标注文本的文本向量。
    72.具体的,通过对各未标注文本的关键词进行随机向量化并累加等操作分别生成各未标注文本的文本向量。各未标注文本的文本向量主要有两个用途:一是通过各未标注文本的文本向量,对各未标注文本进行聚类,把相似文本聚合成一类;二是将各未标注文本的文本向量存储到向量相似检索引擎中,用于检索相似文本向量的向量标识。
    73.s230:根据各所述未标注文本的文本向量对各所述未标注文本进行聚类,并根据各所述未标注文本的关键词确定每种类别的文本类别。
    74.具体的,可以利用聚类算法对各未标注文本的文本向量进行聚类,以将为标注文本分为多个类别,并且可利用各未标注文本的关键词为每个类别确定文本类别(名称),从而得到未标注文本与文本类别的映射关系。本实施例对采用的聚类算法不做限定,例如,可以应用谱聚类的方法实现对未标注文本的聚类。
    75.可选的,根据各未标注文本的文本向量对各未标注文本进行聚类,包括:根据各未标注文本的文本向量分别计算各未标注文本的邻接矩阵和度矩阵;根据各未标注文本的邻接矩阵和度矩阵分别得到各未标注文本的拉普拉斯矩阵;计算各未标注文本的拉普拉斯矩阵的特征值和特征向量,各特征向量构成特征矩阵;利用聚类算法对各未标注文本的特征矩阵进行聚类。
    76.具体的,根据各未标注文本的文本向量分别计算各未标注文本的邻接矩阵(w)和度矩阵(d),再根据各未标注文本的邻接矩阵和度矩阵分别得到各未标注文本的拉普拉斯
    矩阵(l),主要算法公式如下:
    [0077][0078][0079]
    l=d
    i-w
    ij
    [0080]
    其中,w
    ij
    、s
    ij
    、di、l都是针对各未标注文本进行的运算,xi和xj均可以表示一个未标注文本的文本向量,s
    ij
    可以表示多个未标注文本的相似度矩阵(即表示i未标注文本和j未标注文本的相似度),w
    ij
    可以表示w矩阵,即文本相似度矩阵;di可以表示在w矩阵中第i个向量累加的结果。然后计算各未标注文本的拉普拉斯矩阵的特征值和特征向量,各特征向量构成特征矩阵;利用聚类算法(即k-means)对各未标注文本的特征矩阵进行聚类,得到聚类后的文本分类信息。在完成聚类后,本实施例会根据用户选择的文本类别,把未标注文本的文本向量存入向量相似检索引擎,存入后会对应的返回一个向量id(即向量标识)。
    [0081]
    可选的,根据各未标注文本的关键词确定每种类别的文本类别,包括:对于每种类别,从该类别中的各未标注文本的关键词中提取频率最高的设定数量的关键词,根据所提取的关键词确定该类别的类别名称。
    [0082]
    具体的,对于每种类别,可以从该类别中的各所述未标注文本的关键词中提取频率最高的设定数量的关键词,例如提取频率较高的两个词,并把这两个词合起来作为类别名称。
    [0083]
    s240:将各所述未标注文本的文本向量存储至所述向量相似检索引擎,并将各所述未标注文本相应的向量标识以及文本类别存储至所述数据库。
    [0084]
    其中,向量相似检索引擎用于存储各未标注文本的文本向量,所述文本向量对应于文本标识,数据库用于存储各未标注文本的类别信息,类别信息包括各未标注文本相应的向量标识和文本类别。
    [0085]
    具体的,向量相似检索引擎主要存储各未标注文本的文本向量及文本向量对应的文本标识,用于向量相似检索;数据库主要存储各未标注文本的类别信息,用于查询类别信息及关键词信息。向量相似检索引擎中存储的数据与数据库中存储的数据,两者的数据量是一致的(即未标注文本的数量一致),在管理数据时需要同时操作数据库和向量相似检索引擎,从而保证两者数据的一致性。
    [0086]
    可选的,对于指定类别,从数据库中读取指定类别的类别信息;若待分类文本的关键词和/或文本向量与指定类别的类别信息相符,则将指定类别作为待分类文本的文本类别。
    [0087]
    具体的,指定类别可以认为是直接判断某个待分类文本属于某一个特定的类别,此时可以从数据库中读取指定类别的类别信息;通过比较两者的关键词(也可以先将待分类文本向量化,然后比较两者的文本向量),判断是否为指定类别。若待分类文本的关键词和/或文本向量与指定类别的类别信息相符,则将指定类别作为待分类文本的文本类别。在此基础上,可以实现对指定类别的判定,提高文本分类的灵活性,能够满足不同的文本分类
    需求。
    [0088]
    可选的,根据指定条件从向量相似检索引擎中筛选相应的文本向量,并从数据库中筛选相应的类别信息;对筛选得到的文本向量和类别信息进行同步修改或更新。
    [0089]
    具体的,可以同时对数据库和向量相似检索引擎进行增加条件数据的操作,当已知待分类文本属于某一个类别时,就需要把这个待分类文本添加到指定的类别下,也就是通过文本预处理、特征提取向量化,最终把该待分类文本的文本向量存入向量相似检索引擎及把指定的类别信息(包括向量标识和文本类别)存入数据库中。还可以选定类别数据直接从数据库及向量相似检索引擎中删除、或修改数据即可,不需要对数据进行处理。查看数据时可指定文本类别条件查看或查看所有。
    [0090]
    图3a为本实施例提供的一种文本分类方法的示意图,图3b为本实施例提供的一种文本分类方法的分类条件及条件管理的示意图,如图3a和图3b所示,图3a和图3b的文本分类条件创建阶段和数据存储部分相同,在文本分类条件创建阶段,对各未标注文本(即未标注文档集)提取关键词(即文本预处理),根据各未标注文本的关键词分别生成各未标注文本的文本向量(即特征提取),根据各未标注文本的文本向量对各未标注文本进行聚类,并根据各未标注文本的关键词确定每种类别的文本类别(即分类信息),数据存储部分,将各未标注文本的文本向量存储至向量相似检索引擎,向量相似检索引擎会返回该文本向量的向量标识(即向量id),并将各未标注文本相应的向量标识、文本信息以及文本类别存储至数据库,在文本分类阶段,可以提取待分类文本的关键词,根据待分类文本的关键词生成文本向量,根据待分类文本的文本向量,通过在向量相似检索引擎中检索相似文本向量的向量标识,并根据向量标识在数据库中检索相似文本的类别信息,得到待分类文本的分类结果(即文本类别),此外,对于指定类别的文本,可以从数据库中读取指定类别的类别信息及关键词。在进行分类条件管理时,可以增加某个类别的文本,也可以对分类条件进行修改和查看。本实施例的方法可随时调整分类条件,不同于分类模型文件,在更改分类训练数据时,需要重新训练模型。
    [0091]
    本实施例的分类条件是以向量数据和文本数据存储在向量相似检索引擎和数据库中的,在调整分类数据时直接对数据库和向量相似检索引擎进行调整即可,无需重新创建分类条件。不同于文本分类的模型黑盒,本实施例可查看分类的依据关键词,可直观进行分析查看,有利于用户的判断分析。本实施例只需要少量文本数据,依据本实施例的分类原则相似的文本同属于一个类别,只需要搜索出相似文档即可判断类别。
    [0092]
    示例性的,本实施例提供一组测试数据,用于测试本实施例文本分类方法的召回率。表1为预测结果和实际结果的对比表。这里对召回率定义说明:假如现在有一个二分类问题,那么预测结果和实际结果两两结合会出现如表1所示的四种情况。
    [0093]
    表1预测结果和实际结果的对比表
    [0094]
    [0095][0096]
    由于用数字1、0表示不太方便阅读,可以转换一下,用t(true)代表正确、f(false)代表错误、p(positive)代表1、n(negative)代表0。先看预测结果(p|n),然后再针对实际结果对比预测结果,给出判断结果(t|f)。按照上面逻辑,重新分配后的结果为如表2所示:
    [0097]
    表2重新分配后预测结果和实际结果的对比表
    [0098][0099]
    具体的,表2中的tp、fp、fn、tn可以理解为:
    [0100]
    tp:预测为1,实际为1,预测正确;fp:预测为1,实际为0,预测错误;fn:预测为0,实际为1,预测错误;tn:预测为0,实际为0,预测正确。
    [0101]
    召回率:针对原样本而言的,其含义是在实际为正的样本中被预测为正样本的概率,表达式为:
    [0102]
    测试数据包括四个数据集:数据集1如表3所示为网络公开腾讯新闻数据集,数据集2如表4所示为某公司内部文档,数据集3如表5为网络公开试卷,数据集4如表6所示为从网络下载复旦大学李荣陆提供的用于分类模型训练数据集。
    [0103]
    表3数据集1
    [0104][0105][0106]
    表4数据集2
    [0107][0108]
    表5数据集3
    [0109]
    类别数量(篇)geography200math200history200physical200
    [0110]
    表6数据集4
    [0111][0112][0113]
    以上数据集1、2、3、4都是均衡数据,所述均衡数据,即每个数据集的数据量是一样的,还有对应的人工处理去除干扰数据集,就是在均衡数据集的基础上人工去除认为不是此类别文档后的数据集。
    [0114]
    测试结果:均衡数据集文本分类的平均召回率都在77%(数据集2)以上,其他数据集的平均召回率为95.5%(数据集1)、99.36%(数据集3)、87.5%(数据集4)。在处理后的数据集上的平均召回率为:95%(数据集1)、91%(数据集2)、99%(数据集3)、90.63%(数据集4)。
    [0115]
    实施例三
    [0116]
    图4为本发明实施例三提供的一种文本分类装置的结构示意图。如图4所示,该装置包括:提取模块41、生成模块42、检索模块43;
    [0117]
    其中,提取模块41,用于提取待分类文本的关键词;
    [0118]
    生成模块42,用于根据所述待分类文本的关键词生成所述待分类文本的文本向量;
    [0119]
    检索模块43,用于根据所述待分类文本的文本向量,在向量相似检索引擎中检索
    相似文本向量的向量标识,并根据所述向量标识在数据库中检索相似文本的类别信息,得到所述待分类文本的分类结果,其中,所述向量相似检索引擎和所述数据库根据未标注文本构建。
    [0120]
    在本发明实施例中,该装置首先通过提取模块41提取待分类文本的关键词;然后通过生成模块42根据所述待分类文本的关键词生成所述待分类文本的文本向量;最后通过检索模块43根据所述待分类文本的文本向量,在向量相似检索引擎中检索相似文本向量的向量标识,并根据所述向量标识在数据库中检索相似文本的类别信息,得到所述待分类文本的分类结果,其中,所述向量相似检索引擎和所述数据库根据未标注文本构建。
    [0121]
    本实施例提供了一种文本分类装置,能够解决现有技术只能在大量已标注文本上训练分类模型进行文本分类的问题,节省分类成本,提高文本分类效果。
    [0122]
    进一步的,提取模块41在提取待分类文本的关键词之前,还包括:
    [0123]
    根据未标注文本构建所述向量相似检索引擎和所述数据库;
    [0124]
    其中,所述向量相似检索引擎用于存储各所述未标注文本的文本向量,所述文本向量对应于向量标识,所述数据库用于存储各所述未标注文本的类别信息,所述类别信息包括各所述未标注文本相应的向量标识和文本类别。
    [0125]
    进一步的,根据未标注文本构建所述向量相似检索引擎和所述数据库,包括:
    [0126]
    提取各所述未标注文本的关键词;
    [0127]
    根据各所述未标注文本的关键词分别生成各所述未标注文本的文本向量;
    [0128]
    根据各所述未标注文本的文本向量对各所述未标注文本进行聚类,并根据各所述未标注文本的关键词确定每种类别的文本类别;
    [0129]
    将各所述未标注文本的文本向量存储至所述向量相似检索引擎,并将各所述未标注文本相应的向量标识以及文本类别存储至所述数据库。
    [0130]
    进一步的,根据各所述未标注文本的关键词确定每种类别的文本类别,包括:
    [0131]
    对于每种类别,从该类别中的各所述未标注文本的关键词中提取频率最高的设定数量的关键词,根据所提取的关键词确定该类别的类别名称。
    [0132]
    进一步的,根据各所述未标注文本的文本向量对各所述未标注文本进行聚类,包括:
    [0133]
    根据各所述未标注文本的文本向量分别计算各所述未标注文本的邻接矩阵和度矩阵;
    [0134]
    根据各所述未标注文本的邻接矩阵和度矩阵分别得到各所述未标注文本的拉普拉斯矩阵;
    [0135]
    计算各所述未标注文本的拉普拉斯矩阵的特征值和特征向量,各所述特征向量构成特征矩阵;
    [0136]
    进一步的,还包括:
    [0137]
    对于指定类别,从所述数据库中读取所述指定类别的类别信息;
    [0138]
    若所述待分类文本的关键词和/或文本向量与所述指定类别的类别信息相符,则将所述指定类别作为所述待分类文本的文本类别。
    [0139]
    进一步的,还包括:
    [0140]
    根据指定条件从所述向量相似检索引擎中筛选相应的文本向量,并从所述数据库
    中筛选相应的类别信息;
    [0141]
    对筛选得到的文本向量和类别信息进行同步修改或更新。
    [0142]
    本发明实施例提供了一种文本分类装置可执行本发明任意实施例所提供的文本分类方法,具备执行方法相应的功能模块和有益效果。
    [0143]
    实施例四
    [0144]
    图5示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
    [0145]
    如图5所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(rom)12、随机访问存储器(ram)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(rom)12中的计算机程序或者从存储单元18加载到随机访问存储器(ram)13中的计算机程序,来执行各种适当的动作和处理。在ram 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、rom 12以及ram 13通过总线14彼此相连。输入/输出(i/o)接口15也连接至总线14。
    [0146]
    电子设备10中的多个部件连接至i/o接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
    [0147]
    处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如实现本发明上述实施例所提供的文本分类方法。
    [0148]
    实施例五
    [0149]
    本发明实施例五提供了一种计算机可读存储介质,其上储存有计算机程序,该程序被处理器执行时实现文本分类方法,该方法包括:
    [0150]
    提取待分类文本的关键词;
    [0151]
    根据所述待分类文本的关键词生成所述待分类文本的文本向量;
    [0152]
    根据所述待分类文本的文本向量,在向量相似检索引擎中检索相似文本向量的向量标识,并根据所述向量标识在数据库中检索相似文本的类别信息,得到所述待分类文本的分类结果,其中,所述向量相似检索引擎和所述数据库根据未标注文本构建。
    [0153]
    可选的,该程序被处理器执行时还可以用于执行本发明任意实施例所提供的文本分类方法。
    [0154]
    用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被
    实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
    [0155]
    在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
    [0156]
    为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
    [0157]
    可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)、区块链网络和互联网。
    [0158]
    计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务中,存在的管理难度大,业务扩展性弱的缺陷。
    [0159]
    应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
    [0160]
    上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
    转载请注明原文地址:https://tc.8miu.com/read-4080.html

    最新回复(0)