本发明涉及数据处理领域,进一步的还涉及标签分类、预处理语言模型、自然语言向量化、向量相似度检索方法领域,具体来说是一种基于行业分类的相似语句检索方法及系统。
背景技术:
1、在金融监管透明度持续提升的背景下,投资者与上市公司之间的互动日益频繁,且所涉及的问题范围和深度不断扩展。监管机构在为投资者提供服务的同时,也期望通过整合市场对上市公司的关注点,利用相似问题的搜索和推荐,来提升投资者体验并增强监管效率。
2、为了满足市场对于在现有语句库中查询并反馈与给定语句含义相近的需求,当前技术多采用分词和模糊匹配的全文检索方法。然而,这种方法可能存在检索结果与原语句含义相差甚远的问题。因此,现在迫切需要开发一种基于行业分类的相似语句检索方法及系统,该方法应当具备以下特点:1.计算资源消耗少:新的检索方法应能够在不大量消耗计算资源的前提下运行。2.业务属性融合:能够将业务属性整合到检索过程中,以增强检索的相关性。3.聚焦能力增强:通过行业分类来提高检索的针对性和准确性。
技术实现思路
1、本发明的目的在于克服现有技术的不足,提供一种基于行业分类的相似语句检索方法及系统,通过使用较少的计算资源、在检索问题上赋予业务属性、增加检索的聚焦能力,用以解决传统检索泛化能力不足、检索结果无法满足业务相关性的问题,从而提升检索的准确性。
2、为了实现上述目的,设计一种基于行业分类的相似语句检索方法,所述方法包括:s1.查询数据库构建:在构建查询数据库时,先采用一种基于互信息算法,对现有语料进行业务分类,然后使用预训练的模型对语料进行向量化,将业务分类标签和向量化数据一同存储至数据库;s2.相似语句检索:在相似语句检索时,先将目标语句通过分词和分类特征矩阵进行运算,获得目标语句的分类标签,同时对目标语句进行向量化,然后通过分类标签筛选以及语句向量余弦值匹配最相似的结果。
3、优选的,本发明所述步骤s1具体如下:s1.1分离语料库为两部分,其中一部分提取出金融业务相关的分词,并通过业务专家为语句标注相应的业务标签,形成训练集,剩余部分语料为测试集;s1.2对于每个业务关键词和分类标签,计算它们之间的互信息,互信息的计算公式为:其中p(x,y)表示特征x和标签y同时出现的概率,p(x)和p(y)分别表示特征x和标签y单独出现的概率,通过计算互信息,可以得到每个特征与分类标签之间的相关性度量,构造业务关键词与分类标签的特征矩阵;s1.3将测试集语料提取关键分词,通过关键词与分类标签特征矩阵计算出测试机语料的分类标签,通过人工评估分类结果调整训练集数据,重新计算特征矩阵,直至分类效果符合预期;s1.4将所有语料使用向量化方法嵌入表示;s1.5将所有语料的分类标签及其向量化数据保存至数据库,完成查询数据库构建。
4、优选的,本发明所述步骤s2具体如下:s2.1将待检索语句分词,提取业务关键词;s2.2通过关键词与特征矩阵计算获得语句的业务分类标签;s2.3将待检索语句向量化;s2.4根据业务分类标签筛选以及向量化余弦值计算,检索数据库中最接近的相似语句。
5、本发明还提供一种基于行业分类的相似语句检索系统,包括所述查询数据库构建模块和相似语句检索模块。
6、本发明同现有技术相比,其优点在于:
7、本发明以较低的计算成本实现了在检索过程中融入业务属性,从而增强了检索的针对性。它有效解决了传统检索方法在泛化能力上的不足,以及检索结果与业务相关性不匹配的问题。此外,它还提高了检索结果的准确性,确保了投资者能够获得与业务紧密相关的信息。通过智能地推荐与查询问题相似的问题,这种方法不仅优化了投资者的体验,还显著提升了金融监管的效率。这种创新的检索方法,通过精确匹配行业特定的查询需求,为投资者和监管机构提供了更加高效和个性化的服务。
1.一种基于行业分类的相似语句检索方法,其特征在于所述方法包括:
2.如权利要求1所述的一种基于行业分类的相似语句检索方法,其特征在于所述步骤s1具体如下:
3.如权利要求1所述的一种基于行业分类的相似语句检索方法,其特征在于所述步骤s2具体如下:
4.一种基于行业分类的相似语句检索系统,其特征在于包括如权利要求1-3任一所述查询数据库构建模块和相似语句检索模块。
