1.本发明涉及文档处理
技术领域:
:,更具体地,涉及一种在word文档中提取英文缩略语的方法和系统。
背景技术:
::2.英文缩略语是英文资料中常用的一种缩写形式,例如it、pc、www等就是最常见的英文缩略语。3.网络通信设备属于高科技产品,其英文资料文档往往涉及到众多专业术语的缩略语,无线路由器、交换机等产品的英文版用户使用说明书尤其如此。在上述产品的用户使用说明书中为了向客户清晰的传达产品的功能及使用方法,同时为了缩小文档篇幅会在文中采用缩略语的方式编排内容,最后在文末用附录的形式展示缩略语和其完整语句的对应关系表。4.目前的方式都是人工去收集word文档中的英文缩略语,进行汇总编辑;但是对于文档篇幅较长,采用人工去收集文中的英文缩略语和其完整语句对应关系表,往往是一个耗时费力的过程,且稍有疏忽就会出现重复或遗漏,导致对应关系表统计不全的问题。技术实现要素:5.为了克服上述现有技术存在的问题,一方面,本技术提供一种在word文档中提取英文缩略语的方法,包括以下步骤:6.s1:读取word文档中的全部语句,并将全部语句分割成单词格式;7.s2:去除重复的单词及单词前后的标点符号,并生成单词列表;8.s3:提取所述单词列表中存在两个以上大写字母的单词,并生成初选缩略语列表;9.s4:读取过滤文件,并将所述过滤文件中的单词与所述初选缩略语列表进行匹配,其中,所述过滤文件中存储有含两个以上大写字母的非缩略语单词;10.s5:删除所述初选缩略语列表中与所述过滤文件中重复的单词,生成精选缩略语列表;11.s6:输出所述精选选缩略语列表。12.作为本技术的进一步改进,在执行步骤s1之前,还包括以下步骤:13.a1:接收用户输入的word文档的文件名称;14.a2:判断当前路径是否存在所述文件名称,若存在,则执行步骤s1,若不存在,则提示错误。15.作为本技术的进一步改进,在步骤s1中,包括以下步骤:16.s11:读取所述word文档中文本部分的全部语句;17.s12:读取所述word文档中表格部分的全部语句:18.s13:将全部语句分割成单词格式。19.作为本技术的进一步改进,在步骤s3中,包括以下步骤:20.s31:提取所述单词列表中首字母为大写的单词;21.s32:提取首字母大写的单词中,除首字母外还存在至少一个大写字母的单词;22.s33:保存提取的单词,并生成初选缩略语列表。23.作为本技术的进一步改进,在执行步骤s4之前,还包括以下步骤:24.b1:接收用户录入含两个以上大写字母的非缩略语单词;25.b2:将所述非缩略语单词存储到所述过滤文件内。26.作为本技术的进一步改进,在步骤s6中,包括以下步骤:27.s61:根据当前时间生成excel文件,并将所述精选缩略语列表中的单词写入所述excel文件中;28.s62:对所述精选缩略语列表中的单词进行排序;29.s63:保存并输出所述excel文件。30.作为本技术的进一步改进,在步骤s61中,对所述精选缩略语列表中的单词进行排序的方式为依照单词中字母的升序或降序进行排序。31.另一方面,本技术还提供一种利用上述方法在word文档中提取英文缩略语的系统,包括:32.交互模块,用于提示用户输入需提取英文缩略语的word文档的文件名称,并用于接收和发送所述word文档的文件名称,同时还用于在过滤文件中录入非缩略语单词;33.读取模块,用于接收所述word文档的文件名称,并用于读取所述word文档,以及获取所述word文档中的全部语句;34.分析模块,用于生成所述精选缩略语列表,并用于对所述精选缩略语列表中的单词进行排序;35.excel写入模块,用于生成excel表格,并将排序后的所述精选缩略语列表中的单词写入excel表格内保护;36.逻辑控制模块,用于调用和控制所述交互模块、读取模块、分析模块和excel写入模块。37.与现有技术相比,采用本技术提供的方法和系统,能够在word文档中自动提取英文缩略语,不仅能够提升提取英文缩略语的效率,同时还彻底解决了人工整理容易出现错漏的问题;提高了提取英文缩略语的准确率,降低了操作人员的劳动强度,提高了工作效率。附图说明38.为了更清楚地说明本技术或现有技术中的方案,下面将对实施例或现有技术描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。39.图1是本技术实施例1的流程图;40.图2是本技术实施例2的结构框图。具体实施方式41.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术
技术领域:
:的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本技术;本技术的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本技术的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。42.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。43.为了使本
技术领域:
:的人员更好地理解本技术方案,下面将结合附图,对本技术实施例中的技术方案进行清楚、完整地描述。44.实施例145.如图1所示,一种在word文档中提取英文缩略语的方法,包括以下步骤:46.s1:接收用户输入word文档的文件名称;47.s2:判断当前路径是否存在该文件名称,若存在,则执行步骤s3,若不存在,则提示错误;48.s3:读取word文档中的全部语句,并将全部语句分割成单词格式;49.s4:去除重复的单词及单词前后的标点符号,并生成单词列表;50.s5:提取所述单词列表中存在两个以上大写字母的单词,并生成初选缩略语列表;51.s6:读取过滤文件,并将所述过滤文件中的单词与所述初选缩略语列表进行匹配,其中,所述过滤文件中存储有含两个以上大写字母的非缩略语单词;52.s7:删除所述初选缩略语列表中与所述过滤文件中重复的单词,生成精选缩略语列表;53.s8:输出所述精选选缩略语列表。54.采用上述方法能够在word文档中自动提取英文缩略语,不仅能够提升提取英文缩略语的效率,同时还彻底解决了人工整理容易出现错漏的问题。55.实施例256.如图2所示,一种利用实施例1提供的方法提取word文档中英文缩略语的系统,包括交互模块、读取模块、分析模块、excel写入模块和逻辑控制模块,其中,逻辑控制模块用于调用和控制交互模块、读取模块、分析模块和excel写入模块。57.逻辑控制模块的控制过程如下:首先调用交互模块接收用户输入需要英文提取缩略语的word文档文件名称;其次调用读取模块获取word文档中文本部分和表格部分的全部语句,并拆分成单词格式;再次调用分析模块对全部单词进行解析、去重及与过滤文件比对,生成精选缩略语列表;最后调用excel写入模块将精选缩略语列表内的单词写入excel表格里,并将单词排序后输出excel表格。58.在进行提取word文档中英文缩略语之前需进行如下准备工作:59.1、首先用户通过交互模块编辑过滤文件,将含有两个以上大写字母的非缩略语单词输入到文件名为filterlist.xls的excel表格中,例如ok、huawei等,输入完成后,保存过滤文件;其中,表格文件filterlist.xls是系统自带的一个表格模板。60.2、用户将需要提取英文缩略语的word文档存入指定的路径上。61.具体提取word文档中英文缩略语的过程如下:62.1、首先通过交互模块调用inputwordname方法,接收用户输入需要提取英文缩略语的word文档的文件名称。63.2、交互模块调用inputwordname方法判断当前路径是否存在该文件名称,若存在,则将该文件名称发送给读取模块,若不存在,则提示错误。64.3、读取模块调用printword方法读取word文档中文本部分的全部语句,并将其分割成单词格式;同时,读取模块还调用printtable方法读取word文档中表格部分的全部语句,并将其分割成单词格式;最后将全部单词生成单词列表发送给分析模块。65.4、分析模块调用stripduplication方法去除单词列表中重复英文单词和标点符号,生成一个无重复单词和标点符号的单词列表。66.5、分析模块首先调用excucelist方法提取单词列表中首字母为大写单词,然后再次调用excucelist方法提取首字母大写的单词中,除首字母外还存在至少一个大写字母的单词,最后生成初选缩略语列表。67.6、分析模块获取过滤文件中的非缩略语单词,将过滤文件中的非缩略语单词与初选缩略语列表进行匹配,并在初选缩略语列表中删除过滤文件中存在的非缩略语单词,生成精选缩略语列表并将精选缩略语列表发送给excel写入模块。68.7、excel写入模块调用_upaexcelname方法根据当前时间生成一个excel表格,以当前的年月日时分秒命名该excel表格文件;例如,当前时间为1998年10月20日11时36分27秒,即生成excel表格文件名称为19981020113627。69.8、excel写入模块调用writetoexcel方法将精选缩略语列表中的单词写入excel表格文件内,并对单词进行排序。排序规则为:按照单词中的字母升序进行排序,即先按单词首字母按升序排序,首字母相同的单词再按第二个字母升序排序,以此类推。在其它实施例中,也可以按照单词中字母的降序进行排序。70.9、excel写入模块保存excel表格文件,并输出该excel表格文件到交互模块,从而完成对word文档中英文缩略语的提取工作。71.显然,以上所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例,附图中给出了本技术的较佳实施例,但并不限制本技术的专利范围。本技术可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本技术的公开内容的理解更加透彻全面。尽管参照前述实施例对本技术进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本技术说明书及附图内容所做的等效结构,直接或间接运用在其他相关的
技术领域:
:,均同理在本技术专利保护范围之内。当前第1页12当前第1页12
转载请注明原文地址:https://tc.8miu.com/read-375.html