本技术涉及自然语言处理,尤其涉及技术文档生成方法、装置、设备、介质及产品。
背景技术:
1、技术交底书作为一种技术文档,是专利申请过程中非常重要的一部分,它详细描述了发明的技术内容、背景、创新点及实施方式。传统的技术交底书撰写通常依赖于人工完成,这需要发明人或专利代理人具备深厚的技术背景和专利撰写经验。然而,撰写高质量的技术交底书是一项费时费力的工作,尤其在面对复杂的技术领域时,容易出现信息遗漏或表达不准确的情况。
2、随着人工智能技术的快速发展,特别是大规模语言模型的应用,越来越多的自动化辅助工具被引入到文本生成和处理领域。利用这些工具,可以减少人工工作量和潜在的错误,但此类工具通常基于简单的模板或规则,缺乏智能化和个性化,难以应对复杂的技术描述和逻辑推理,对人工的依赖性仍较强。
3、因此,有必要提出一种提高技术文档的撰写质量及撰写效率的解决方案。
4、上述内容仅用于辅助理解本技术的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
1、本技术的主要目的在于提供一种技术文档生成方法、装置、设备、介质及产品,旨在提高技术文档的撰写质量及撰写效率。
2、为实现上述目的,本技术提供一种技术文档生成方法,所述的方法包括:
3、获取用户输入内容;
4、根据所述用户输入内容进行全量检索,确定第一预设数量的目标参考内容,并对所述目标参考内容进行分析,生成技术内容总结;
5、基于预先训练的大语言模型,根据所述用户输入内容以及技术内容总结确定目标技术文档名称、目标技术文档摘要以及目标技术文档全文;
6、根据所述目标技术文档名称、目标技术文档摘要以及目标技术文档全文,生成目标技术文档。
7、在一实施例中,所述基于预先训练的大语言模型,根据所述用户输入内容以及技术内容总结确定目标技术文档名称、目标技术文档摘要以及目标技术文档全文的步骤包括:
8、将所述用户输入内容以及技术内容总结输入所述大语言模型,生成第二预设数量的技术文档名称;
9、响应于接收到用户的第一操作指令,对所述第二预设数量的技术文档名称进行选取和/或修改,得到所述目标技术文档名称;
10、将所述用户输入内容、技术内容总结以及目标技术文档名称输入所述大语言模型,生成初始技术文档摘要;
11、响应于接收到所述用户的第二操作指令,对所述初始技术文档摘要进行重新生成或修改,得到所述目标技术文档摘要;
12、将所述用户输入内容、技术内容总结以及目标技术文档摘要输入所述大语言模型,生成初始技术文档全文;
13、响应于接收到所述用户的第三操作指令,对所述初始技术文档全文进行重新生成或修改,得到所述目标技术文档全文。
14、在一实施例中,所述基于预先训练的大语言模型,根据所述用户输入内容以及技术内容总结确定目标技术文档名称、目标技术文档摘要以及目标技术文档全文的步骤之前还包括:
15、获取目标样本数据,其中,所述目标样本数据包括训练数据集及测试数据集;
16、选取预训练模型,并根据所述训练数据集对所述预训练模型进行监督学习训练,得到训练后的模型;
17、根据所述测试数据集对所述训练后的模型进行性能测试,得到测试结果,并根据所述测试结果对所述训练后的模型进行迭代优化,得到所述大语言模型。
18、在一实施例中,所述获取目标样本数据的步骤包括:
19、采集原始样本数据,其中,所述原始样本数据包括专利文档数据、技术文献数据以及历史输入数据;
20、对所述专利文档数据、技术文献数据以及历史输入数据进行数据清洗,得到清洗后的样本数据;
21、对所述清洗后的样本数据进行数据标注,得到样本数据标注信息;
22、将所述清洗后的样本数据及样本数据标注信息作为所述目标样本数据。
23、在一实施例中,所述专利文档数据包括专利申请文档、审查意见文档、授权专利文档及相关法律文档,所述对所述专利文档数据、技术文献数据以及历史输入数据进行数据清洗,得到清洗后的样本数据的步骤包括:
24、去除所述专利申请文档、审查意见文档、授权专利文档、相关法律文档、技术文献数据以及历史输入数据中的无关内容、重复数据以及噪音数据,得到所述清洗后的样本数据。
25、在一实施例中,所述对所述清洗后的样本数据进行数据标注,得到样本数据标注信息的步骤包括:
26、对所述清洗后的样本数据进行分割,得到各文本处理单元;
27、识别所述各文本处理单元所属的文档结构,其中,所述文档结构包括技术背景、技术内容、权利要求书、技术领域、关键技术点以及创新点中的至少一项;
28、根据所述各文本处理单元所属的文档结构,对所述各文本处理单元进行标注,得到所述样本数据标注信息。
29、在一实施例中,所述用户输入内容包括技术领域、关键词以及创意描述,所述根据所述用户输入内容进行全量检索,确定第一预设数量的目标参考内容的步骤包括:
30、提取所述技术领域、关键词以及创意描述中的文本内容,并对所述文本内容进行文本预处理及向量化处理,得到向量化文本内容;
31、根据所述向量化文本内容对预设专利数据库进行检索,计算所述预设专利数据库中的各专利文档与所述向量化文本内容的相似度得分;
32、根据所述相似度得分对所述各专利文档进行排序,并选取前第一预设数量个专利文档作为所述目标参考内容。
33、此外,为实现上述目的,本技术还提出一种技术文档生成装置,所述技术文档生成装置包括:
34、获取模块,用于获取用户输入内容;
35、检索模块,用于根据所述用户输入内容进行全量检索,确定第一预设数量的目标参考内容,并对所述目标参考内容进行分析,生成技术内容总结;
36、确定模块,用于基于预先训练的大语言模型,根据所述用户输入内容以及技术内容总结确定目标技术文档名称、目标技术文档摘要以及目标技术文档全文;
37、生成模块,用于根据所述目标技术文档名称、目标技术文档摘要以及目标技术文档全文,生成目标技术文档。
38、此外,为实现上述目的,本技术还提出一种技术文档生成设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序配置为实现如上文所述的技术文档生成方法的步骤。
39、此外,为实现上述目的,本技术还提出一种存储介质,所述存储介质为计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上文所述的技术文档生成方法的步骤。
40、此外,为实现上述目的,本技术还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现如上文所述的技术文档生成方法的步骤。
41、本技术提出的一个或多个技术方案,至少具有以下技术效果:
42、通过获取用户输入内容;根据所述用户输入内容进行全量检索,确定第一预设数量的目标参考内容,并对所述目标参考内容进行分析,生成技术内容总结;基于预先训练的大语言模型,根据所述用户输入内容以及技术内容总结确定目标技术文档名称、目标技术文档摘要以及目标技术文档全文;根据所述目标技术文档名称、目标技术文档摘要以及目标技术文档全文,生成目标技术文档,通过获取用户输入内容,可以对用户提供的内容进行分析及处理,充分理解用户的意图及提供的信息;通过根据用户输入内容进行全量检索,确定第一预设数量的目标参考内容,可以从海量的数据库中确定与用户输入内容最为相关的若干参考文档,进而通过大语言模型对目标参考内容进行分析,生成技术内容总结,进而根据用户输入内容以及技术内容总结确定目标技术文档名称、目标技术文档摘要以及目标技术文档全文,从而符合用户需求的生成目标技术文档,在此过程中,用户仅需执行简单的输入、选取或修改,即可借助大语言模型快速生成内容完整且准确表达用户意图的目标技术文档,降低了用户撰写技术文档的难度,提高了技术文档的生成效率及质量。
1.一种技术文档生成方法,其特征在于,所述的方法包括:
2.如权利要求1所述的方法,其特征在于,所述基于预先训练的大语言模型,根据所述用户输入内容以及技术内容总结确定目标技术文档名称、目标技术文档摘要以及目标技术文档全文的步骤包括:
3.如权利要求1所述的方法,其特征在于,所述基于预先训练的大语言模型,根据所述用户输入内容以及技术内容总结确定目标技术文档名称、目标技术文档摘要以及目标技术文档全文的步骤之前还包括:
4.如权利要求3所述的方法,其特征在于,所述获取目标样本数据的步骤包括:
5.如权利要求4所述的方法,其特征在于,所述专利文档数据包括专利申请文档、审查意见文档、授权专利文档及相关法律文档,所述对所述专利文档数据、技术文献数据以及历史输入数据进行数据清洗,得到清洗后的样本数据的步骤包括:
6.如权利要求1所述的方法,其特征在于,所述用户输入内容包括技术领域、关键词以及创意描述,所述根据所述用户输入内容进行全量检索,确定第一预设数量的目标参考内容的步骤包括:
7.一种技术文档生成装置,其特征在于,所述装置包括:
8.一种技术文档生成设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序配置为实现如权利要求1至6中任一项所述的技术文档生成方法的步骤。
9.一种存储介质,其特征在于,所述存储介质为计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的技术文档生成方法的步骤。
10.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的技术文档生成方法的步骤。
