HTML文件生成方法、装置、电子设备及存储介质与流程

    专利查询2025-11-13  5

    本技术涉及电子信息,更具体地,涉及一种html文件生成方法、装置、电子设备及存储介质。
    背景技术
    ::1、通过客户端访问网页已经成为人们查询资料时使用的重要手段之一。通常,由客户端接收服务器返回的html(hyper textmarkup language,超级文件标记语言)文件,然后客户端加载html文件以访问网页。2、目前,可以获取包括网页信息的pdf(portable document format,便携文件格式,是iso 32000协议及其衍生协议的文件实体)文件,并将pdf文件按页渲染为图片,再对渲染的图片进行转换,来得到html文件。然而,采用该方法对pdf文件进行转换容易产生信息丢失,导致获得的html文件的准确率较差。技术实现思路1、有鉴于此,本技术实施例提出了一种html文件生成方法、装置、电子设备及存储介质。2、第一方面,本技术实施例提供了一种html文件生成方法,方法包括:获取待处理pdf文件;若待处理pdf文件包括文本信息,从文本信息中获取原语以及原语的原语值;根据原语以及原语的原语值,确定目标元素以及目标元素的元素属性;目标元素包括文字元素和/或图形元素;根据目标元素以及目标元素的元素属性,确定文本html元素;根据预置模板以及文本html元素,生成html文件。3、第二方面,本技术实施例提供了一种html文件生成装置,装置包括:第一获取模块,用于获取待处理pdf文件,待处理pdf文件包括文本信息以及图片信息;第二获取模块,用于若待处理pdf文件包括文本信息,从文本信息中获取原语以及原语的原语值;第一确定模块,用于根据原语以及原语的原语值,确定目标元素以及目标元素的元素属性;目标元素包括文字元素和/或图形元素;第二确定模块,用于根据目标元素以及目标元素的元素属性,确定文本html元素;生成模块,用于根据预置模板以及文本html元素,生成html文件。4、可选地,第一确定模块,还用于从原语中获取第一原语以及第二原语;第一原语为第一指令类别的原语,第二原语为第二指令类别的原语;根据第一原语的原语值,确定目标元素;根据第二原语的原语值,确定目标元素的元素属性。5、可选地,目标元素包括文字元素;第一确定模块,还用于从第二原语中获取与文字元素对应的第二原语,作为文字属性原语;从文字属性原语的原语值中获取符号代码,作为文字元素的目标符号代码;从文字样式库中获取与文字元素的目标符号代码对应的文字样式,作为文字元素的目标文字样式;文字样式库包括不同符号代码对应的文字样式;从文字属性原语的原语值中获取文字元素的文字姿态信息、文字颜色以及文字大小;获取文字姿态信息、文字颜色、文字大小以及目标文字样式,作为文字元素的元素属性。6、可选地,第二确定模块,还用于根据文字元素的文字姿态信息以及文字大小,确定文字元素的边界框;根据各个文字元素的边界框,对各个文字元素进行合并处理,得到至少一个文字元素串,每个文字元素串包括至少一个文字元素;根据每个文字元素串、每个文字元素串中相邻文字元素的文字元素间距、每个文字元素串中各个文字元素各自的文字姿态信息、文字样式、文字大小以及文字颜色,确定每个文字元素串各自的html数据;获取并汇总各个述文字元素串各自的html数据,得到文本html元素。7、可选地,第二确定模块,还用于确定每个文字元素以及每个文字元素的可视范围的比对结果;根据比对结果,确定每个文字元素的文字显示样式;根据每个文字元素串、每个文字元素串中相邻文字元素的文字元素间距、每个文字元素串中各个文字元素各自的文字姿态信息、文字样式、文字大小、文字颜色以及文字显示样式,确定每个文字元素串各自的html数据。8、可选地,各个文字元素按照顺序排列;第二确定模块,还用于若任意相邻的两个文字元素的边界框沿着目标方向平移后重合,将任意相邻的两个文字元素结合,得到至少一个初始文字元素串;根据补位符对每个初始文字元素串中任意相邻的文字元素之间的间距进行调整,得到每个初始文字元素串对应的文字元素串。9、可选地,目标元素包括图形元素,图形元素包括线条元素以及填充元素;第一确定模块,还用于从第二原语中获取与线条元素对应的第二原语,作为线条属性原语;根据线条属性原语的原语值,确定线条元素的线条颜色、线条形状、线条宽度以及线条路径,作为线条元素的元素属性;从第二原语中获取与填充元素对应的第二原语,作为填充属性原语;根据填充属性原语的原语值,确定填充元素的填充颜色、填充形状以及填充路径,作为填充元素的元素属性。10、可选地,图形元素包括线条元素、填充元素以及表格元素;第一确定模块,还用于根据第二原语的原语值,确定线条元素的元素属性以及填充元素的元素属性;线条元素的元素属性包括线条元素的线条形状,填充元素的元素属性包括填充元素的填充区域;若存在多个直线线条元素相交,对相交的多个直线线条元素进行合并处理,得到表格元素,并确定表格元素的边界框;直线线条元素是指元素属性中线条形状为直线的线条元素;若存在目标填充元素,获取目标填充元素的元素属性以及表格元素中各个直线线条元素的元素属性,作为表格元素的元素属性;目标填充元素是指填充区域与表格元素的边界框匹配的填充元素;若不存在目标填充元素,获取表格元素中各个直线线条元素的元素属性,作为表格元素的元素属性。11、可选地,第二确定模块,还用于若目标元素为表格元素,根据目标填充元素的元素属性确定第一标签,根据表格元素中各个直线线条元素的元素属性,确定第二标签,将第一标签以子标签的方式添加至第二标签中,得到第三标签,根据第三标签得到文本html元素;若目标元素为填充元素,根据填充元素的元素属性确定第四标签,根据第四标签得到文本html元素;若目标元素为线条元素,根据线条元素的元素属性确定第五标签,根据第五标签得到文本html元素。12、可选地,生成模块,还用于若待处理pdf文件还包括图片信息,通过预置的二维仿射矩阵对图片信息进行映射处理,得到图片html元素;根据预置模板、文本html元素以及图片html元素,生成html文件。13、可选地,生成模块,还用于读取图片信息的二进制流,得到读取结果通过预置的二维仿射矩阵将读取结果映射到目标空间,得到映射结果;将映射结果转换为预置格式,得到转换结果;根据转换结果,确定图片html元素。14、可选地,生成模块,还用于确定映射结果以及图片信息对应的可视范围的比对结果;根据比对结果确定图片显示样式;根据转换结果以及图片显示样式,得到图片html元素。15、可选地,文本html元素包括html标签以及与html标签对应的层叠样式表;生成模块,还用于根据预置模板、html标签以及层叠样式表,生成html文件。16、第三方面,本技术实施例提供了一种电子设备,包括处理器以及存储器;一个或多个程序被存储在存储器中并被配置为由处理器执行以实现上述的方法。17、第四方面,本技术实施例提供了一种计算机可读取存储介质,计算机可读取存储介质中存储有程序代码,其中,在程序代码被处理器运行时执行上述的方法。18、第五方面,本技术实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读取存储介质中。电子设备的处理器从计算机可读取存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述的方法。19、本技术实施例提供的一种html文件生成方法、装置、电子设备及存储介质,在本技术中,待处理pdf文件包括的文本信息的情况下,对文本信息中获取到的原语以及原语的原语值进行处理,以生成文本html元素,再根据文本html元素以及预置模板生成html文件,避免了将文本信息渲染为图片产生分辨率损失导致的信息丢失,从而极大地减少了获得的html文件中数据丢失的情况发生,提高了html文件的准确率。当前第1页12当前第1页12
    技术特征:

    1.一种html文件生成方法,其特征在于,所述方法包括:

    2.根据权利要求1所述的方法,其特征在于,所述根据所述原语以及所述原语的原语值,确定目标元素以及所述目标元素的元素属性,包括:

    3.根据权利要求2所述的方法,其特征在于,所述目标元素包括文字元素;所述根据所述第二原语的原语值,确定所述目标元素的元素属性,包括:

    4.根据权利要求3所述的方法,其特征在于,所述根据所述目标元素以及所述目标元素的元素属性,确定文本html元素,包括:

    5.根据权利要求4所述的方法,其特征在于,所述根据每个所述文字元素串、每个所述文字元素串中相邻文字元素的文字元素间距、每个所述文字元素串中各个文字元素各自的文字姿态信息、文字样式、文字大小以及文字颜色,确定每个所述文字元素串各自的html数据,包括:

    6.根据权利要求4所述的方法,其特征在于,各个所述文字元素按照顺序排列;所述根据各个所述文字元素的边界框,对各个所述文字元素进行合并处理,得到至少一个文字元素串,包括:

    7.根据权利要求2所述的方法,其特征在于,所述目标元素包括图形元素,所述图形元素包括线条元素以及填充元素;所述根据所述第二原语的原语值,确定所述目标元素的元素属性,包括:

    8.根据权利要求2所述的方法,其特征在于,所述图形元素包括线条元素、填充元素以及表格元素;所述根据所述第二原语的原语值,确定所述目标元素的元素属性,包括:

    9.根据权利要求8所述的方法,其特征在于,所述根据所述目标元素以及所述目标元素的元素属性,确定文本html元素,包括:

    10.根据权利要求1所述的方法,其特征在于,所述根据预置模板以及所述文本html元素,生成html文件,包括:

    11.根据权利要求10所述的方法,其特征在于,所述通过预置的二维仿射矩阵对所述图片信息进行映射处理,得到图片html元素,包括:

    12.根据权利要求11所述的方法,其特征在于,所述根据所述转换结果,确定所述图片html元素,包括:

    13.根据权利要求1所述的方法,其特征在于,所述文本html元素包括html标签以及与所述html标签对应的层叠样式表;所述根据预置模板以及所述文本html元素,生成html文件,包括:

    14.一种html文件生成装置,其特征在于,所述装置包括:

    15.一种电子设备,其特征在于,包括:

    16.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-13中任一项所述的方法。


    技术总结
    本申请公开了一种HTML文件生成方法、装置、电子设备及存储介质。本申请的实施例涉及云技术等技术领域。该方法包括:获取待处理PDF文件;若待处理PDF文件包括文本信息,从文本信息中获取原语以及原语的原语值;根据原语以及原语的原语值,确定目标元素以及目标元素的元素属性;根据目标元素以及目标元素的元素属性,确定文本HTML元素;根据预置模板以及文本HTML元素,生成HTML文件。本申请实施例中,对包括的文本信息进行处理以生成文本HTML元素,再根据文本HTML元素以及预置模板生成HTML文件,极大地减少了获得的HTML文件中数据丢失的情况发生,提高了HTML文件的准确率。

    技术研发人员:金元浩
    受保护的技术使用者:腾讯科技(深圳)有限公司
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-31942.html

    最新回复(0)