一种词向量构建方法、装置、设备及计算机可读存储介质与流程

    专利查询2023-07-07  77



    1.本技术涉及人工智能领域中的自然语言处理技术,特别涉及一种词向量构建方法、装置、设备及计算机可读存储介质。


    背景技术:

    2.随着人工智能(artificial intelligence,ai)的迅速发展,端侧设备(如手机、智能机器人和蓝牙耳机等)也可以执行自然语言处理(nature language processing,nlp)相关任务。端侧设备主要是通过调用预先从服务器侧下载的词向量库和nlp任务模型来执行nlp任务,换而言之,端侧设备依赖该词向量库来识别待处理语料的语义,进而调用nlp任务模型根据该语义执行nlp任务。可见,当词向量库中不包含待处理语料中的任一词汇时,端侧设备则无法识别该待处理语料,进而无法执行nlp相关任务。例如,词向量库中存在“蓝瘦”这一词汇,当智能问答机器人接收到待处理语料为“今天很蓝瘦”时,智能问答机器人将无法识别此待处理语料。
    3.服务器通常构建未登录词的词向量的具体操作是:从已有词向量库中确定出与该未登录词的语义最相近的近义词,并将该近义词的词向量作为该未登录词的词向量。例如,待构建词向量的词为“奥利给”,与其语义最相近的词为“加油”,则服务器可以将“加油”的词向量作为“奥利给”的词向量。但若该未登录词的近义词存在一词多义时(如“加油”的词向量还具有“加汽油”的含义),通过用该近义词的词向量作为未登录词的词向量并不准确。


    技术实现要素:

    4.本技术提供了一种词向量构建方法、装置、设备及计算机可读存储介质,可以根据去除冗余信息的近义词的词向量来构建该近义词对应的新词的词向量,使得该新词的词向量更加的准确。
    5.第一方面,本技术提供一种词向量构建方法,该方法可以应用于服务器,该方法包括:
    6.获取新词,新词为未登录词或旧词新义的词汇,新词具有第一语义,未登录词为服务器中不存在其词向量的词汇,旧词新义的词汇为服务器中存在其词向量的词汇,且其词向量指示的语义与第一语义不相同;基于新词对应的至少一个近义词的词向量,确定各个近义词包含的第二语义的词向量,第二语义与第一语义相对应;基于新词对应的近义词的数量和各个近义词包含的第二语义的词向量,构建新词的词向量;向端侧设备发送新词的词向量。
    7.基于第一方面所描述的方法,服务器可以获取未登录词或旧词新义的词汇的近义词,并去除该近义词对应词向量中的冗余信息,使得该近义词的词向量更贴合该未登录词或旧词新义的词汇的语义,进一步地,根据去除冗余信息后的近义词的词向量构建该未登录词或旧词新义的词汇的词向量,可以提升该未登录词或旧词新义的词汇的词向量的准确性。
    8.在一个可能的实现中,服务器针对至少一个近义词中的每个近义词,确定该近义词是否包含除第二语义外的第三语义;若近义词包含第三语义,则获取第三语义对应的词向量;基于近义词的词向量和第三语义对应的词向量,确定近义词包含的第二语义的词向量。通过实现这样的可能,服务器可以更准确地去除各个近义词的词向量中的冗余信息,使得该近义词的词向量更贴合该未登录词或旧词新义的词汇的语义。
    9.在一个可能的实现中,若近义词不包含至少一个第三语义,则服务器确定近义词的词向量为第二语义的词向量。通过实现这样的可能,当近义词中不包含冗余信息时,服务器可以直接根据该近义词的词向量构建未登录词或旧词新义的词汇的词向量,进而可以节省计算资源。
    10.在一个可能的实现中,服务器获取各个近义词对应的权重值,并基于各个近义词对应的权重值、新词对应的近义词的数量和各个近义词包含的第二语义的词向量,构建新词的词向量。通过实现这样的可能,当未登录词或旧词新义的词汇有多个近义词时,服务器可以根据各个近义词与未登录词或旧词新义的词汇之间的贴合度,获取各个近义词的权重值,进而根据各个近义词的权重值、近义词的数量和去除冗余信息的近义词的词向量,构建一个更加准确的未登录词或旧词新义的词汇的词向量。
    11.第二方面,本技术提供一种语义识别方法,该方法可以应用于端侧设备,该方法包括:
    12.接收服务器发送的新词的词向量,新词具有第一语义,该新词为未登录词或旧词新义的词汇,未登录词为服务器中不存在其词向量的词汇,旧词新义的词汇为服务器中存在其词向量的词汇,且其词向量指示的语义与第一语义不相同;存储新词的词向量于第二词向量库;切分待处理语料,得到至少一个分词;若第一目标词汇在第一词向量库具有第一词向量,且该第一目标词汇在第二词向量库中具有第二词向量,则基于第一词向量或第二词向量确定待处理语料对应的语言概率,第一目标词汇为至少一个分词中的任意一个词汇;基于语言概率确定第一词向量或第二词向量作为第一目标词汇在待处理语料中对应的词向量。
    13.基于第二方面所描述的方法,端侧设备通过从服务器中获取并存储新词(未登录词或旧词新义的词汇)的词向量,进一步地,端侧设备可以基于该新词(未登录词或旧词新义的词汇)的词向量对包含新词的待处理语料进行语义识别,从而提升了端侧设备的语义识别能力。
    14.在一个可能的实现中,若第一目标词汇在第一词向量库不具有词向量,且第一目标词汇在第二词向量库中具有词向量,则确定第一目标词汇在第二词向量库中词向量为第一目标词汇在待处理语料中对应的词向量。通过实现这样的可能,端侧设备可以找出待处理语料中的前述未登录词,并确定该未登录词的词向量对该未登录词进行语义识别。
    15.在一个可能的实现中,端侧设备基于第一词向量和第二目标词汇在第一词向量库中的词向量,调用语言模型,确定待处理语料对应的语言概率,第二目标词汇为至少一个分词中除第一目标词汇之外的词汇;若该语言概率小于概率阈值,则确定第二词向量作为第一目标词汇在待处理语料中对应的词向量;若语言概率大于或等于概率阈值,则确定第一词向量作为第一目标词汇在待处理语料中对应的词向量。通过实施这样的可能,端侧设备可以从待处理语料中区分出旧词新义的词,并能准确的区分该旧词新义的词在当前应用场
    景的语义,提升了端侧设备语义识别能力的准确性。
    16.在一个可能的实现中,基于第二词向量和第二目标词汇在第一词向量库中的词向量,调用语言模型,确定待处理语料对应的语言概率,第二目标词汇为至少一个分词中除第一目标词汇之外的词汇;若语言概率大于或等于概率阈值,则确定第二词向量作为第一目标词汇在待处理语料中对应的词向量;若语言概率小于概率阈值,则确定第一词向量作为第一目标词汇在待处理语料中对应的词向量。通过实施这样的可能,端侧设备可以从待处理语料中区分出旧词新义的词,并能准确的区分该旧词新义的词在待处理语料中所表达的语义,提升了端侧设备语义识别能力的准确性。
    17.第三方面,本技术提供一种词向量构建装置,该装置可以是服务器中的装置,或者是能够和服务器匹配使用的装置,该词向量构建装置可包括:获取单元,用于获取新词,新词为未登录词或旧词新义的词汇,新词具有第一语义,未登录词为服务器中不存在其词向量的词汇,旧词新义的词汇为服务器中存在其词向量的词汇,且其词向量指示的语义与第一语义不相同;确定单元,用于基于新词对应的至少一个近义词的词向量,确定各个近义词包含的第二语义的词向量,第二语义与第一语义相对应;构建单元,用于基于新词对应的近义词的数量和各个近义词包含的第二语义的词向量,构建新词的词向量;发送单元,用于向端侧设备发送新词的词向量。
    18.在一种可能的实现中,该确定单元具体用于:针对至少一个近义词中的每个近义词,确定近义词是否包含除第二语义外的第三语义;若近义词包含第三语义,则获取第三语义对应的词向量;基于近义词的词向量和第三语义对应的词向量,确定近义词包含的第二语义的词向量。
    19.在一种可能的实现中,该确定单元还用于:若近义词不包含至少一个第三语义,则确定近义词的词向量为第二语义的词向量。
    20.在一种可能的实现中,该构建单元具体用于:获取各个近义词对应的权重值;基于各个近义词对应的权重值、新词对应的近义词的数量和各个近义词包含的第二语义的词向量,构建新词的词向量。
    21.该词向量构建装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的单元。该单元可以是软件和/或硬件。该词向量构建装置执行的操作及有益效果可以参见上述第一方面所述的方法以及有益效果,重复之处不再赘述。
    22.第四方面,本技术提供一种语义识别装置,该装置可以是端侧设备中的装置,或者是能够和端侧设备匹配使用的装置,该语义识别装置可包括:接收单元,用于接收服务器发送的新词的词向量,新词具有第一语义,该新词为未登录词或旧词新义的词汇,未登录词为服务器中不存在其词向量的词汇,旧词新义的词汇为服务器中存在其词向量的词汇,且其词向量指示的语义与第一语义不相同;存储单元,用于存储新词的词向量于第二词向量库;切分单元,用于切分待处理语料,得到至少一个分词;确定单元,用于若第一目标词汇在第一词向量库具有第一词向量,第一目标词汇在第二词向量库中具有第二词向量,则基于第一词向量或第二词向量确定待处理语料对应的语言概率,第一目标词汇为至少一个分词中的任意一个词汇;该确定单元,还用于基于语言概率确定第一词向量或第二词向量作为第一目标词汇在待处理语料中对应的词向量。
    23.在一种可能的实现中,该确定单元还用于:若第一目标词汇在第一词向量库不具有词向量,且第一目标词汇在第二词向量库中具有词向量,则确定第一目标词汇在第二词向量库中词向量为第一目标词汇在待处理语料中对应的词向量。
    24.在一种可能的实现中,该确定单元具体用于:基于第一词向量和第二目标词汇在第一词向量库中的词向量,调用语言模型,确定待处理语料对应的语言概率,第二目标词汇为至少一个分词中除第一目标词汇之外的词汇;若语言概率小于概率阈值,则确定第二词向量作为第一目标词汇在待处理语料中对应的词向量;若语言概率大于或等于概率阈值,则确定第一词向量作为第一目标词汇在待处理语料中对应的词向量。
    25.在一种可能的实现中,该确定单元具体用于:基于第二词向量和第二目标词汇在第一词向量库中的词向量,调用语言模型,确定待处理语料对应的语言概率,第二目标词汇为至少一个分词中除第一目标词汇之外的词汇;若语言概率大于或等于概率阈值,则确定第二词向量作为第一目标词汇在待处理语料中对应的词向量;若语言概率小于概率阈值,则确定第一词向量作为第一目标词汇在待处理语料中对应的词向量。
    26.该语义识别装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的单元。该单元可以是软件和/或硬件。该语义识别装置执行的操作及有益效果可以参见上述第二方面所述的方法以及有益效果,重复之处不再赘述。
    27.第五方面,本技术实施例还提供一种服务器,该服务器可以包括存储器和处理器,所述存储器用于存储支持设备执行上述方法的计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面任一项所述的词向量构建方法。
    28.第六方面,本技术实施例还提供一种端侧设备,该端侧设备可以包括存储器和处理器,所述存储器用于存储支持设备执行上述方法的计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第二方面任一项所述的语义识别方法。
    29.第七方面,本技术实施例还提供一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面任一项所述的任一种词向量构建方法或上述第二方面任一项所述的任一种语义识别方法。
    30.第八方面,本技术实施例还提供了一种计算机程序,所述计算机程序包括计算机软件指令,所述计算机软件指令当被计算机执行时使所述计算机执行如第一方面任一项所述的任一种词向量构建方法或第二方面任一项所述的任一种语义识别方法。
    31.第九方面,本技术还提供一种芯片,所述芯片用于实现上述第一方面任一项所述的任一种词向量构建方法或第二方面任一项所述的任一种语义识别方法。
    附图说明
    32.图1a为本技术实施例提供的一种语言模型的架构示意图;
    33.图1b为本技术实施例提供的另一种语言模型的架构示意图;
    34.图2为本技术实施例提供的一种端侧设备的结构示意图;
    35.图3为本技术实施例提供的一种端侧设备的软件结构框图;
    36.图4为本技术实施例提供的一种服务器的结构示意图;
    37.图5为本技术实施例提供的一种语言模型的架构示意图;
    38.图6为本技术实施例提供的一种词向量构建方法的流程示意图;
    39.图7为本技术实施例提供的一种词向量分解的示意图;
    40.图8为本技术实施例提供的一种未登录词的构建词向量构建方法的示意图;
    41.图9为本技术实施例提供的一种旧词新义的词汇的构建词向量构建方法的示意图;
    42.图10为本技术实施例提供的一种语义识别方法的流程示意图;
    43.图11为本技术实施例提供的一种概率阈值的确定方法的示意图;
    44.图12为本技术实施例提供的另一种概率阈值的确定方法的示意图;
    45.图13为本技术实施例提供的另一种语义识别方法的流程示意图;
    46.图14为本技术实施例提供的一种词向量构建装置的结构示意图;
    47.图15为本技术实施例提供的一种语义识别装置的结构示意图。
    具体实施方式
    48.为了使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术作进一步地详细描述。
    49.本技术的说明书、权利要求书及附图中的术语“第一”和“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列操作或单元的过程、方法、系统、产品或设备没有限定于已列出的操作或单元,而是可选地还包括没有列出的操作或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它操作或单元。
    50.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
    51.在本技术中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上,“至少两个(项)”是指两个或三个及三个以上,“和/或”,用于描述对应对象的对应关系,表示可以存在三种关系,例如,“a和/或b”可以表示:只存在a,只存在b以及同时存在a和b三种情况,其中a,b可以是单数或者复数。字符“/”一般表示前后对应对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
    52.为了更好地理解本技术实施例提供的词向量构建方法和语义识别方法,下面先对本技术实施例应用的系统架构进行介绍。
    53.请参见图1a,图1a是本技术实施例提供的一种系统架构示意图,其中,系统架构10包括端侧设备100和服务器200。应知晓的是,图1a中所示的端侧设备100的数量和服务器200的数量仅为示意性的,本技术对此不做具体限定。
    54.其中,请参见图1b,图1b为另一种系统架构图,在图1b中反映了端侧设备100和服务器200之间的数据交互过程,服务器200主要用于获取新词,构建该新词的词向量;根据服务器200存储空间中的文本语料集合训练语言模型;根据文本语料集合和语言模型,计算概率阈值。进一步地,服务器200向端侧设备100发送新词词向量、语言模型和概率阈值,以使端侧设备100可以根据服务器200发送的新词向量、语言模型和概率阈值进行nlp任务处理,该nlp任务处理可以包括智能问答、文本分类、自然语言生成、情感分类和对话管理等。
    55.在本技术实施例中所涉及的端侧设备100,也可称为终端设备,是用户侧的一种用于运行自然语言处理模型(如切分待处理语料和运行语义识别方法)的实体。例如,端侧设备100可以是具有无线连接功能的手持式设备、车载设备等。端侧设备也可以是连接到无线调制解调器的其他处理设备。端侧设备也可以与无线接入网(radio access network,ran)进行通信,为无线终端设备、订户单元(subscriber unit)、订户站(subscriber station),移动站(mobile station)、移动台(mobile)、远程站(remote station)、接入点(access point)、远程终端设备(remote terminal)、接入终端设备(access terminal)、用户终端设备(user terminal)、用户代理(user agent)、用户设备(user device)、或用户设备(user equipment,ue)等等。端侧设备还可以是移动终端设备,如移动电话(或称为“蜂窝”电话)和具有移动终端设备的计算机,例如,可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,它们与无线接入网交换语言和/或数据。端侧设备也可以是个人通信业务(personal communication service,pcs)电话、无绳电话、会话发起协议(session initiation protocol,sip)话机、无线本地环路(wireless local loop,wll)站、个人数字助理(personal digital assistant,pda)、等设备。常见的端侧设备100可以包括:汽车、无人机、机械臂、手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device,mid)、可穿戴设备,例如智能手表、智能手环、计步器等,但本技术实施例不限于此。
    56.下面对端侧设备100的结构进行介绍。请参阅图2,图2是本技术实施例提供的端侧设备100的结构示意图。
    57.端侧设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,usb)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170a,受话器170b,麦克风170c,耳机接口170d,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,sim)卡接口195等。其中传感器模块180可以包括压力传感器180a,陀螺仪传感器180b,气压传感器180c,磁传感器180d,加速度传感器180e,距离传感器180f,接近光传感器180g,指纹传感器180h,温度传感器180j,触摸传感器180k,环境光传感器180l,骨传导传感器180m等。
    58.可以理解的是,本发明实施例示意的结构并不构成对端侧设备100的具体限定。在本技术另一些实施例中,端侧设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
    59.处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,ap),调制解调处理器,图形处理器(graphics processing unit,gpu),图像信号处理器(image signal processor,isp),控制器,存储器,视频编解码
    器,数字信号处理器(digital signal processor,dsp),基带处理器,和/或神经网络处理器(neural-network processing unit,npu)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
    60.其中,控制器可以是端侧设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
    61.处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
    62.在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,i2c)接口,集成电路内置音频(inter-integrated circuit sound,i2s)接口,脉冲编码调制(pulse code modulation,pcm)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,uart)接口,移动产业处理器接口(mobile industry processor interface,mipi),通用输入输出(general-purpose input/output,gpio)接口,用户标识模块(subscriber identity module,sim)接口,和/或通用串行总线(universal serial bus,usb)接口等。
    63.i2c接口是一种双向同步串行总线,包括一根串行数据线(serial data line,sda)和一根串行时钟线(derail clock line,scl)。在一些实施例中,处理器110可以包含多组i2c总线。处理器110可以通过不同的i2c总线接口分别耦合触摸传感器180k,充电器,闪光灯,摄像头193等。例如:处理器110可以通过i2c接口耦合触摸传感器180k,使处理器110与触摸传感器180k通过i2c总线接口通信,实现端侧设备100的触摸功能。
    64.i2s接口可以用于音频通信。在一些实施例中,处理器110可以包含多组i2s总线。处理器110可以通过i2s总线与音频模块170耦合,实现处理器110与音频模块170之间的通信。在一些实施例中,音频模块170可以通过i2s接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。
    65.pcm接口也可以用于音频通信,将模拟信号抽样,量化和编码。在一些实施例中,音频模块170与无线通信模块160可以通过pcm接口通信。在一些实施例中,音频模块170也可以通过pcm接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。所述i2s接口和所述pcm接口都可以用于音频通信。
    66.uart接口是一种通用串行数据总线,用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中,uart接口通常被用于连接处理器110与无线通信模块160。例如:处理器110通过uart接口与无线通信模块160中的蓝牙模块通信,实现蓝牙功能。在一些实施例中,音频模块170可以通过uart接口向无线通信模块160传递音频信号,实现通过蓝牙耳机播放音乐的功能。
    67.mipi接口可以被用于连接处理器110与显示屏194,摄像头193等外围器件。mipi接口包括摄像头串行接口(camera serial interface,csi),显示屏串行接口(display serial interface,dsi)等。在一些实施例中,处理器110和摄像头193通过csi接口通信,实现端侧设备100的拍摄功能。处理器110和显示屏194通过dsi接口通信,实现端侧设备100的显示功能。
    68.gpio接口可以通过软件配置。gpio接口可以被配置为控制信号,也可被配置为数据信号。在一些实施例中,gpio接口可以用于连接处理器110与摄像头193,显示屏194,无线通信模块160,音频模块170,传感器模块180等。gpio接口还可以被配置为i2c接口,i2s接口,uart接口,mipi接口等。
    69.usb接口130是符合usb标准规范的接口,具体可以是mini usb接口,micro usb接口,usb type c接口等。usb接口130可以用于连接充电器为端侧设备100充电,也可以用于端侧设备100与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。该接口还可以用于连接其他电子设备,例如ar设备等。
    70.可以理解的是,本发明实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对端侧设备100的结构限定。在本技术另一些实施例中,端侧设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
    71.充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。
    72.电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,外部存储器,显示屏194,摄像头193,和无线通信模块160等供电在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
    73.端侧设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
    74.天线1和天线2用于发射和接收电磁波信号。端侧设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
    75.移动通信模块150可以提供应用在端侧设备100上的包括2g/3g/4g/5g等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,lna)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
    76.调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170a,受话器170b等)输出声音信号,或通过显示屏194显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
    77.无线通信模块160可以提供应用在端侧设备100上的包括无线局域网(wireless local area networks,wlan)(如wi-fi网络),蓝牙(bluetooth,bt),ble广播,全球导航卫
    星系统(global navigation satellite system,gnss),调频(frequency modulation,fm),近距离无线通信技术(near field communication,nfc),红外技术(infrared,ir)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
    78.在一些实施例中,端侧设备100的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得端侧设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications,gsm),通用分组无线服务(general packet radio service,gprs),码分多址接入(code division multiple access,cdma),宽带码分多址(wideband code division multiple access,wcdma),时分码分多址(time-division code division multiple access,td-scdma),长期演进(long term evolution,lte),bt,gnss,wlan,nfc,fm,和/或ir技术等。所述gnss可以包括全球卫星定位系统(global positioning system,gps),全球导航卫星系统(global navigation satellite system,glonass),北斗卫星导航系统(beidou navigation satellite system,bds),准天顶卫星系统(quasi-zenith satellite system,qzss)和/或星基增强系统(satellite based augmentation systems,sbas)。
    79.端侧设备100通过gpu,显示屏194,以及应用处理器等实现显示功能。gpu为图像处理的微处理器,连接显示屏194和应用处理器。gpu用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个gpu,其执行程序指令以生成或改变显示信息。
    80.显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,lcd),有机发光二极管(organic light-emitting diode,oled),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的,amoled),柔性发光二极管(flex light-emitting diode,fled),miniled,microled,micro-oled,量子点发光二极管(quantum dot light emitting diodes,qled)等。在一些实施例中,端侧设备100可以包括1个或n个显示屏194,n为大于1的正整数。
    81.端侧设备100可以通过isp,摄像头193,视频编解码器,gpu,显示屏194以及应用处理器等实现拍摄功能。
    82.isp用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给isp处理,转化为肉眼可见的图像。isp还可以对图像的噪点,亮度,肤色进行算法优化。isp还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,isp可以设置在摄像头193中。
    83.摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,ccd)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,cmos)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给isp转换成数字图像信号。isp将数字图像信号输出到dsp加工处理。dsp将数字图像信号转换成标准的rgb,yuv等格式的图像信号。在一些实施例中,端侧设备100可以包括1个或n个摄像头193,n为大于1的正整数。
    84.数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当端侧设备100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
    85.视频编解码器用于对数字视频压缩或解压缩。端侧设备100可以支持一种或多种视频编解码器。这样,端侧设备100可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,mpeg)1,mpeg2,mpeg3,mpeg4等。
    86.npu为神经网络(neural-network,nn)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过npu可以实现端侧设备100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
    87.外部存储器接口120可以用于连接外部存储卡,例如micro sd卡,实现扩展端侧设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
    88.内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令,从而执行端侧设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储端侧设备100使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,ufs)等。
    89.端侧设备100可以通过音频模块170,扬声器170a,受话器170b,麦克风170c,耳机接口170d,以及应用处理器等实现音频功能。例如音乐播放,录音等。
    90.音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
    91.扬声器170a,也称“喇叭”,用于将音频电信号转换为声音信号。端侧设备100可以通过扬声器170a收听音乐,或收听免提通话。
    92.受话器170b,也称“听筒”,用于将音频电信号转换成声音信号。当端侧设备100接听电话或语音信息时,可以通过将受话器170b靠近人耳接听语音。
    93.麦克风170c,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170c发声,将声音信号输入到麦克风170c。端侧设备100可以设置至少一个麦克风170c。在另一些实施例中,端侧设备100可以设置两个麦克风170c,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,端侧设备100还可以设置三个,四个或更多麦克风170c,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
    94.耳机接口170d用于连接有线耳机。耳机接口170d可以是usb接口130,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,omtp)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the usa,
    ctia)标准接口。
    95.压力传感器180a用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器180a可以设置于显示屏194。
    96.陀螺仪传感器180b可以用于确定端侧设备100的运动姿态。在一些实施例中,可以通过陀螺仪传感器180b确定端侧设备100围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器180b可以用于拍摄防抖。陀螺仪传感器180b还可以用于导航,体感游戏场景。
    97.气压传感器180c用于测量气压。在一些实施例中,端侧设备100通过气压传感器180c测得的气压值计算海拔高度,辅助定位和导航。
    98.磁传感器180d包括霍尔传感器。端侧设备100可以利用磁传感器180d检测翻盖皮套的开合。
    99.加速度传感器180e可检测端侧设备100在各个方向上(一般为三轴)加速度的大小。当端侧设备100静止时可检测出重力的大小及方向。还可以用于识别端侧设备姿态,应用于横竖屏切换,计步器等应用。
    100.距离传感器180f,用于测量距离。端侧设备100可以通过红外或激光测量距离。在一些实施例中,拍摄场景,端侧设备100可以利用距离传感器180f测距以实现快速对焦。
    101.接近光传感器180g可以包括例如发光二极管(led)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。端侧设备100通过发光二极管向外发射红外光。端侧设备100使用光电二极管检测来自附近物体的红外反射光,以便自动熄灭屏幕达到省电的目的。接近光传感器180g也可用于皮套模式,口袋模式自动解锁与锁屏。
    102.环境光传感器180l用于感知环境光亮度。端侧设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180l也可用于拍照时自动调节白平衡。环境光传感器180l还可以与接近光传感器180g配合,检测端侧设备100是否在口袋里,以防误触。
    103.指纹传感器180h用于采集指纹。端侧设备100可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
    104.温度传感器180j用于检测温度。在一些实施例中,端侧设备100利用温度传感器180j检测的温度,执行温度处理策略。
    105.触摸传感器180k,也称“触控面板”。触摸传感器180k可以设置于显示屏194,由触摸传感器180k与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180k用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180k也可以设置于端侧设备100的表面,与显示屏194所处的位置不同。
    106.骨传导传感器180m可以获取振动信号。在一些实施例中,骨传导传感器180m可以获取人体声部振动骨块的振动信号。
    107.按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。端侧设备100可以接收按键输入,产生与端侧设备100的用户设置以及功能控制有关的键信号输入。
    108.马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作,马达191也可对应不同的振动反馈效果。
    不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
    109.指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
    110.sim卡接口195用于连接sim卡。sim卡可以通过插入sim卡接口195,或从sim卡接口195拔出,实现和端侧设备100的接触和分离。端侧设备100可以支持1个或n个sim卡接口,n为大于1的正整数。sim卡接口195可以支持nano sim卡,micro sim卡,sim卡等。同一个sim卡接口195可以同时插入多张卡。所述多张卡的类型可以相同,也可以不同。sim卡接口195也可以兼容不同类型的sim卡。sim卡接口195也可以兼容外部存储卡。端侧设备100通过sim卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,端侧设备100采用esim,即:嵌入式sim卡。esim卡可以嵌在端侧设备100中,不能和端侧设备100分离。
    111.端侧设备100的软件系统可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。本发明实施例以分层架构的android系统为例,示例性说明端侧设备100的软件结构。图3是本技术实施例的端侧设备100的软件结构框图。分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将android系统分为四层,从上至下分别为应用程序层,应用程序框架层,安卓运行时(android runtime)和系统库,以及内核层。
    112.应用程序层可以包括一系列应用程序包。如图3所示,应用程序包可以包括相机,图库,日历,通话,地图,导航,wlan,蓝牙,音乐,视频,短信息等应用程序。
    113.应用程序框架层为应用程序层的应用程序提供应用编程接口(application programming interface,api)和编程框架。应用程序框架层包括一些预先定义的函数。如图3所示,应用程序框架层可以包括窗口管理器,内容提供器,视图系统,电话管理器,资源管理器,通知管理器等。
    114.窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。
    115.内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。
    116.视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
    117.电话管理器用于提供端侧设备100的通信功能。例如通话状态的管理(包括接通,挂断等)。
    118.资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
    119.通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,电子设备振动,指示灯闪烁等。
    120.android runtime包括核心库和虚拟机。android runtime负责安卓系统的调度和管理。
    121.核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
    122.应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
    123.系统库可以包括多个功能模块。例如:表面管理器(surface manager),媒体库(media libraries),三维图形处理库(例如:opengl es),2d图形引擎(例如:sgl)等。
    124.表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2d和3d图层的融合。
    125.媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如:mpeg4,h.264,mp3,aac,amr,jpg,png等。
    126.三维图形处理库用于实现三维图形绘图,图像渲染,合成,和图层处理等。
    127.2d图形引擎是2d绘图的绘图引擎。
    128.内核层是硬件和软件之间的层。内核层至少包含显示驱动,摄像头驱动,音频驱动,传感器驱动。
    129.下面对服务器200的结构进行介绍。请参阅图4,图4是本技术实施例提供的服务器200的结构示意图。
    130.该服务器200包括:处理器201、通信接口202以及存储器203,上述处理器201、通信接口202以及存储器203通过内部总线204相互连接。
    131.上述处理器201可以由一个或者多个通用处理器构成,例如中央处理器(central processing unit,cpu),或者cpu和硬件芯片的组合。上述硬件芯片可以是专用集成电路(application-specific integrated circuit,asic)、可编程逻辑器件(programmable logic device,pld)或其组合。上述pld可以是复杂可编程逻辑器件(complex programmable logic device,cpld)、现场可编程逻辑门阵列(field-programmable gate array,fpga)、通用阵列逻辑(generic array logic,gal)或其任意组合。
    132.总线204可以是外设部件互连标准(peripheral component interconnect,pci)总线或扩展工业标准结构(extended industry standard architecture,eisa)总线等。上述总线204可以分为地址总线、数据总线、控制总线等。为便于表示,图2中仅用一条粗线表示,但不表示仅有一根总线或一种类型的总线。
    133.存储器203可以包括易失性存储器(volatile memory),例如随机存取存储器(random access memory,ram);存储器203也可以包括非易失性存储器(non-volatile memory),例如只读存储器(read-only memory,rom)、快闪存储器(flash memory)、硬盘(hard disk drive,hdd)或固态硬盘(solid-state drive,ssd);存储器203还可以包括上述种类的组合。
    134.为了更好地理解本技术提供的方案,下面对本技术实施例涉及的相关术语进行介绍:
    135.词汇,本技术中也成为词或分词,是一种语言(包括汉语、英语等)中所有的或特定
    范围内的单词和/或短语的总和。在本技术实施例中,如果不加说明,“词汇”可以表示单词,也可以表示短语。其中,这里的单词包括汉字中的“字”和“词”,以及英文等语言中的“单词”。
    136.词汇的语义,是用于描述该词的特征信息构成的集合。其中,词的特征信息可以包括但不限于以下至少一种:词的含义、词性(如名词、形容词等)、近义词和反义词等。例如,“美丽”的语义信息可以包括:含义为“好看,即在形式、比例、布局、风度、颜色或声音上接近完美或理想境界,使各种感官极为愉悦”;词性为形容词;近义词为“漂亮”;反义词为“丑陋”等。词汇的语义信息可以包括该词汇所包含的该词的特征信息,本技术中词汇的语义信息多表示该词汇的含义。
    137.词向量,也可以称为词特征向量,是词的特征信息所映射成的数字构成的向量,用于表征词的特征信息。
    138.未登录词:即没有被收录在分词词表(或词向量库)中但必须切分出来的词,包括各类专有名词(人名、地名、企业名等)、缩写词、新增词汇等等。
    139.旧词新义的词汇:已被收录于分词词表(或词向量库)中,但由于应用场景的变化被人们赋予了新的含义。例如,通常“香菇”为一个名词,是一种食物。但现在在某些场景下,人们将“香菇”表示为动词,为想哭的意思。
    140.语言模型,是对文本语料构建的概率分布模型,用于计算文本语料对应的语言序列的概率,可以用于判断一个语言序列是否是正常语句,即判断一个文本语料是否通顺。如图5所示为一种语言模型的架构示意图,该语言模型包括嵌入(embedding)层、神经网络层和输出层,其中,embedding层用于接收词表中的词汇,并输出各个词汇对应的词向量;神经网络层用于对该词向量进行处理分析;输出层输出该语言序列的概率。需要知晓的是,本技术所提及语言模型包括但不限于embedding层为word2vec模型或glove模型,神经网络层为循环神经网络(recurrent neural network,rnn)或长短时记忆神经网络(long short-term memory networks,lstm)。示例性地,当embedding层接收到待处理语料为“我想吃香菇”,分别输出“我”的词向量,“想”的词向量,“吃”的词向量和“香菇”的词向量。神经网络层对“我”的词向量,“想”的词向量,“吃”的词向量和“香菇”的词向量进行处理分析,并且为了使首词“我”的条件概率有意义,在语言序列首词“我”前加上起始符《s》。输出层,输出“我”的词向量出现的条件概率为p(我|《s》),“想”的词向量出现的条件概率为p(想|《s》,我),“吃”的词向量出现的条件概率为p(吃|《s》,我,想),以及“香菇”的词向量出现的条件概率为p(香菇|《s》,我,想,吃)。
    141.下面对本技术实施例提供的词向量构建方法进一步进行详细描述:
    142.请参见图6,图6是本技术实施例提供的一种词向量构建方法的流程示意图。如图6所示,该词向量构建方法包括如下步骤601~步骤604。图6所示的方法执行主体可以为服务器或为服务器中的芯片。图6以服务器为词向量构建方法的执行主体为例进行说明。其中:
    143.601、获取新词,该新词为未登录词或旧词新义的词汇,该新词具有第一语义,未登录词为服务器中不存在其词向量的词汇,旧词新义的词汇为服务器中存在其词向量的词汇,且其词向量指示的语义与第一语义不相同。
    144.服务器可以接收运营人员输入的词向量构建指令,并获取该词向量构建指令中携带的新词。例如,在一个应用场景中,运营人员按照固定时间周期,对该周期内的网络热门
    词汇进行互联网搜索,或,根据网络热点事件进行互联网搜索,对并根据搜索结果判断是否出现新词。若运营人员确定出现新词,则向服务器发送针对该新词的词向量构建指令。示例性地,运营人员通过互联网搜索的方式发现词汇“奥利给”,并根据自身常识(或知识储备)确定“奥利给”为未登录词,即服务器的词向量库中不包含其词向量的词汇,则运营人员向服务器发送针对“奥利给”的词向量构建指令。进而,服务器可以从该词向量构建指令中获取新词“奥利给”。
    145.需要知晓的是,服务器获取新词的个数可以是单个获取,也可以是服务器批量获取,对此本技术不做过多限定,本技术中设计的实施例,均以获取单个新词为例。
    146.602、基于新词对应的至少一个近义词的词向量,确定各个近义词包含的第二语义的词向量,第二语义与第一语义相对应。
    147.服务器获取该新词后,运营/开发人员根据自身知识储备或常识对该新词的近义词进行列举。服务器获取运营/开发人员列举的该新词对应的至少一个近义词,并从词库中获取每个近义词的词向量,进一步地,服务器可以基于每个近义词的词向量确定该近义词包含的第二语义的词向量。
    148.需要说明的是,第二语义与第一语义相对应可以包括第二语义与第一语义相同的情形,例如“妈妈”和“母亲”,也可以包括第二语义与第一语义的语义相近的情况,例如“领略”和“领会”都表示“理解、体会和认识”的意思,但“领略”着重于情感上的体验和欣赏,而“领会”着重指理性的了解。
    149.在一个可能的实现中,服务器可以针对至少一个近义词中的每个近义词,确定该近义词是否包含除第二语义外的第三语义。若该近义词包含第三语义,则获取该第三语义对应的词向量,并基于该近义词的词向量和该第三语义对应的词向量,确定该近义词包含的第二语义的词向量。
    150.服务器获取每个近义词的词向量之后,针对每个近义词,确定该近义词是否为多义词(即前述该近义词除了包含第二语义还包含第三语义)。换而言之,服务器确定该近义词是否包含两类语义(第二语义和第三语义)。其中,第二语义是与新词的第一语义相同或相近的语义;第三语义是与新词的第一语义不相同或不相近的语义,第三语义可以有一种或多种。若该近义词是多义词,且第三语义明确(即能从词向量库中获取该第三语义对应的近义词或者同义词的词向量),而第二语义不明确(即不能从词向量库中获取该第二语义对应的近义词或同义词的词向量)时,服务器根据该近义词包含的第三语义,从词向量库中获取该第三语义对应的近义词或者同义词的词向量,并基于该第三语义对应的近义词或者同义词的词向量确定第三语义的词向量。进一步地,服务器从词向量库中获取该近义词的词向量,并基于该第三语义对应的词向量,对该近义词的词向量进行分解,得到该近义词包含的第二语义的词向量。
    151.需要知晓的是,服务器确定该近义词是否是多义词的具体方式本技术不做具体限定,例如可以由运营人员根据公知常识确定该近义词是否为多义词(或具有多个语义)。
    152.示例性地,运营人员向服务发送待构建词向量的新词为“奥利给”,并列出“奥利给”的近义词为“加油”。服务器输出第一提示信息为
    “‘
    加油’是否为多义词?”,运营人员根据该第一提示信息输入“是多义词”的操作指令。服务器基于该操作指令触发输出第二提示信息“请输入其他语义的近义词”,运营人员根据该第二提示信息输入其他语义(即前文所
    指的第三语义)的近义词为“加汽油”“加燃油”。如图7所示,图7为一种词向量分解示意图,服务器获取第三语义的近义词“加汽油”的词向量和“加燃油”的词向量,并计算“加汽油”的词向量和“加燃油”的词向量的平均词向量y,将该平均词向量y确定为第三语义的词向量。进一步地,服务器获取“加油”的词向量x,并根据公式(1)去除“加油”的词向量x中的第三语义词向量y,得到第二语义词向量z。
    [0153][0154]
    其中,z为第二语义的词向量z,x为“加油”的词向量x,y为第三语义的词向量y,x.y是词向量x和词向量y的内积,||y||2为词向量y的二范数。
    [0155]
    在一个可能的实现中,若该近义词不包含至少一个第三语义,则确定该近义词的词向量为第二语义的词向量。
    [0156]
    服务器输出提示信息,提示运营人员确定该近义词是否为多义词,运营人员根据该提示信息输入“不是多义词”的操作指令,则服务器确定该近义词不包含两类语义,即该近义词近仅包含前述第二语义时,则服务器可以将该近义词的词向量确定为第二语义的词向量。
    [0157]
    603、基于新词对应的近义词的数量和各个近义词包含的第二语义的词向量,构建新词的词向量。
    [0158]
    服务器可以根据新词对应的近义词的数量和各个近义词包含的第二语义的词向量,计算得近义词包含的第二语义的词向量的平均词向量。例如,新词对应的近义词的数量为3个,分别是近义词1、近义词2和近义词3,各个近义词对应的第二语义的词向量分别为词向量1、词向量2和词向量3,则服务器计算词向量1、词向量2和词向量3的平均词向量,并将该平均词向量,确定为新词的词向量。
    [0159]
    在一个示例中,如图8所示,为未登录词的一种构建词向量构建方法的示意图。当待构建词向量的词为未登录词“蓝瘦”时,服务器获取运营人员基于公知常识输入的近义词“难受”“悲伤”“痛苦”,由于“难受”“悲伤”“痛苦”均仅包含一个语义(即前述第二语义),则服务器可以从自身对应的词向量库中获取“难受”的词向量、“悲伤”的词向量和“痛苦”的词向量分别作为“难受”“悲伤”“痛苦”包含的第二语义的词向量,即计算“难受”的词向量、“悲伤”的词向量和“痛苦”的词向量的平均词向量,并将该平均词向量确定为蓝瘦的词向量。服务器将构建后的“蓝瘦”的词向量存储于服务器对应的词向量库中。
    [0160]
    在另一个示例中,如图9所示,为旧词新义的词汇的一种构建词向量构建方法的示意图。当待构建词向量的词为旧词新义的词汇“香菇”时,服务器根据运营人员基于公知常识输入的近义词“想哭”和“欲哭无泪”,由于“想哭”和“欲哭无泪”均仅包含一个语义(即前述第二语义),则服务器可以从自身对应的词向量库中获取“想哭”的词向量和“欲哭无泪”的词向量分别作为“想哭”包含的第二语义的词向量“欲哭无泪”包含的第二语义的词向量,即计算“想哭”的词向量和“欲哭无泪”的词向量的平均词向量,服务器将该平均词向量确定为“香菇”的词向量。由于“香菇”为旧词新义的词汇,即服务器对应的词向量库中存在“香菇”的词向量(如图9的词向量库中香菇1对应的词向量),则服务器将前述平均词向量确定为“香菇”的词向量后,以香菇2的标识存储该“香菇”的词向量存储于服务器对应的词向量库中。
    [0161]
    在一个可能的实现中,服务器获取各个近义词对应的权重值,并基于各个近义词对应的权重值、新词对应的近义词的数量和各个近义词包含的第二语义的词向量,构建新词的词向量。其中,各个近义词对应的权重值由运营人员根据该近义词的语义和待构建词向量的新词的语义之间的相关程度设定,可以根据具体情况进行调整,对此本技术不做过多限定。
    [0162]
    示例性地,基于各个近义词对应的权重值、新词对应的近义词的数量和各个近义词包含的第二语义的词向量,构建新词的词向量的具体方法,可如公式(2)所示。
    [0163][0164]
    其中,n为新词对应的近义词的数量,v1为新词对应第一个近义词包含的第二语义的词向量,v2为新词对应第二个近义词包含的第二语义的词向量,vn为新词对应第n个近义词包含的第二语义的词向量,ω1为新词对应第一个近义词包含的权重,ω2为新词对应第二个近义词包含的权重,ωn为新词对应第n个近义词包含的权重,为新词对应近义词包含的平均词向量,也为服务器构建的新词的词向量。
    [0165]
    604、向端侧设备发送新词的词向量。
    [0166]
    服务器将构建的新词的词向量发送至端侧设备,以便端侧设备可以根据该新词的词向量进行自然语言处理的相关任务,进一步提升端侧设备的自然语言处理任务的处理能力。需要知晓的是,服务器可以根据预设时间周期,向端侧设备发送至少一个新词的词向量,其中,预设时间周期为开发/运营人员根据具体应用场景设定,在此不做具体限定。服务器也可以创建一个新词的词向量后,便向端侧设备发送该新词的词向量。
    [0167]
    可见,通过实施图6所描述的词向量构建方法,端侧设备可以将新词对应的近义词的词向量进行分解,并从分解后的近义词的词向量中,确定出与该待构建词向量的词汇语义(第一语义)相同或相似的语义(近义词包含的第二语义)对应的词向量。进一步地,服务器可以通过该近义词包含的第二语义对应的词向量构建新词的词向量,可以提升构建的新词的词向量的准确性。
    [0168]
    请参见图10,图10是本技术实施例提供的一种语义识别方法的流程示意图。如图6所示,该语义识别方法包括如下步骤1001~步骤1005。图10所示的方法执行主语可以为端侧设备或为端侧设备中的芯片。图10以端侧设备为语义识别方法的执行主体为例进行说明。
    [0169]
    其中:
    [0170]
    1001、接收服务器发送的新词的词向量,该新词具有第一语义,该新词为未登录词或旧词新义的词汇,该未登录词服务器中不存在其词向量的词汇,旧词新义的词汇为服务器中存在其词向量的词汇,且其词向量指示的语义与第一语义不相同。
    [0171]
    服务器向端侧设备发送新词的词向量,端侧设备可以输出提示信息,该提示信息用于提示用户输入是否接收该新词的词向量的指令信息。若端侧设备接收到用户输入的接收新词的词向量的指令信息,则接收服务器发送的新词的词向量。若端侧设备未接收到用户输入的接收新词的词向量的指令信息,则忽略服务器发送的新词的词向量。需要知晓的是,服务器将新词的词向量发送至端侧设备的具体实施方式可参见前述实施例中的步骤604的具体实现方式,在此不再进行过多赘述。
    [0172]
    1002、存储该新词的词向量于第二词向量库。
    [0173]
    端侧设备将该新词的词向量存储于第二词向量库。需要说明的是,该第二词向量库可以是仅包含新词的词向量的词向量库,换而言之,第二词向量库和端侧设备出厂或系统安装时的预设词向量库(即第一词向量库)之间没有交集数据。通过这样的方式,可以有效的区分服务器发送的新词中旧词新义的词汇对应的词向量1(即新语义对应的词向量)和该词汇在第一词向量库中对应的词向量2(即旧语义对应的词向量)。需要知晓的是,端侧设备存储该新词的词向量后,可根据该新词的词向量进行如智能问答、文本分类、自然语言生成、情感分类和对话管理等自然语言处理的应用场景中。
    [0174]
    1003、切分待处理语料,得到至少一个分词。
    [0175]
    端侧设备接收待处理语料,并基于预设的分词模型对该待处理语料进行切分,得到至少一个分词(也可以称为词汇)。其中,预设的分词模型为开发人员根据实验语料对现有分词模型进行训练得到,本技术对此不做具体限定,例如:现有分词模型可以为结巴分词模型等。
    [0176]
    示例性地,端侧设备接收到待处理语料为“今天很香菇”时,可以根据预设的分词模型对该待处理语料进行切分,得到3个分词:“今天”“很”“香菇”。
    [0177]
    1004、若第一目标词汇在第一词向量库具有第一词向量,且该第一目标词汇在第二词向量库中具有第二词向量,则基于第一词向量或第二词向量确定待处理语料对应的语言概率,该第一目标词汇为至少一个分词中的任意一个词汇。
    [0178]
    端侧设备将切分待处理语料得到的至少一个分词中的各个分词,与第二词向量库进行匹配,若匹配成功,则确定该词汇为第一目标词汇。进而,端侧设备将该第一目标词汇与第一词向量库进行匹配,若匹配成功,则确定该待处理语料中包含旧词新义的词汇,进而,端侧设备可以基于第一词向量/第二词向量和语言模型确定待处理语料对应的语言概率,换而言之,端侧设备调用语言模型和待处理语料中各个分词在第一词向量库中的词向量或在第二词向量库中的词向量,得到该待处理语料的语言概率。需要知晓的是,语料通顺时对应的语言概率较大,语料不通顺时对应的语言概率较小。
    [0179]
    示例性地,第一词向量库和第二词向量库如表1所示。其中,“香菇”在第一词向量库中的第一词向量表示语义为食物,“香菇”在第二词向量库中的第二词向量表示语义为想哭。
    [0180]
    表1
    [0181][0182][0183]
    端侧设备将待处理语料“今天很香菇”进行切分,得到3个分词为“今天”“很”“香菇”,端侧设备分别将“今天”、“很”和“香菇”与第二词向量库进行匹配,“香菇”与第二词向量库匹配成功,则端侧设备将“香菇”确定为第一目标词汇(即新词,可能时未登录词也可能时旧词新义的词)。进一步地,端侧设备将“香菇”与第一词向量库进行匹配,匹配成功,则端
    侧设备确定“香菇”为新词中的旧词新义的词。但“香菇”在该待处理语料中可能是用的新义,对应第二词向量库中的第二向量,“香菇”也可能用的旧义,对应第一词向量库中的第一词向量。进一步地,端侧设备可以根据第一词向量库中“香菇”对应的第一词向量、“今天”对应的词向量1和“很”对应的词向量3,调用语言模型得到待处理语料“今天很香菇”的语言概率。或者,端侧设备可以根据第二词向量库中“香菇”对应的第一词向量、“今天”对应的词向量1和“很”对应的词向量3,调用语言模型得到待处理语料“今天很香菇”的语言概率。
    [0184]
    1005、基于该语言概率确定第一词向量或第二词向量作为第一目标词汇在待处理语料中对应的词向量。
    [0185]
    端侧设备将步骤1004得到的待处理语料的语言概率与概率阈值进行对比,并根据对比结果确定第一词向量或第二词向量作为第一目标词汇在待处理语料中对应的词向量。换而言之,若端侧设备根据对比结果确定第一词向量作为第一目标词汇在待处理语料对应的词向量,则表明该第一目标词汇在待处理语料中表达的语义是该词汇的旧义。若端侧设备根据对比结果确定第二词向量作为该第一目标词汇在待处理语料对应的词向量,则表明该第一目标词汇在待处理语料中表达的语义是该词汇的新义。
    [0186]
    其中,概率阈值由服务器根据实验语料和语言模型测算得到后,发送至端侧设备,本技术对概率阈值的具体数值不做具体限定。如图11所示,为一种概率阈值的确定方法的示意图。服务器根据第一文本语料集合,调用语言模型计算第一文本语料集合中各个文本语料的语言概率,得到如图11中111所示的概率密度曲线。其中,第一文本语料集合中的文本语料不包含旧词新义的词汇,如第一文本语料集合中的文本语料可以为“今天很想哭。”、“加油呀!”、“他很难受。”等。服务器根据第二文本语料集合,调用语言模型计算第二文本语料集合中各个文本语料的语言概率,得到如图11中110所示的概率密度曲线。其中,第二文本语料集合中的文本语料中包含新词,且第二文本语料集合中的文本语料与第一文本语料集合中的文本语料相对应,即第二文本语料集合中的文本语料与第一文本语料集合中的文本语料,表示相同/相似的含义,如第一文本语料集合中的文本语料为“今天很想哭”、“加油呀”、“他很难受”,则第二文本语料集合中的文本语料可以为“今天很香菇”、“奥利给”、“他很蓝瘦”。需要知晓的是,根据统计学原理,概率密度曲线110和概率密度曲线111分别与横轴围成的面积均为1。在一个应用场景下,假设针对任一旧词新义的词汇,在第一文本语料集合与第二文本语料集合的包含该词汇的总文本语料数量中,该词汇表示新义(即旧词新用)的文本语料数量与表示旧义(即旧词旧用)的文本语料数量相同,示例性地,包含“香菇”的文本语料在第一文本语料集合与第二文本语料集合中共有1000条,其中500条文本语料中“香菇”表示想哭,剩下的500条文本语料中“香菇”表示食物香菇。则服务器将该旧词新义的词汇表示为新义时的判断正确次数与该旧词新义的词汇判断为新义的总次数的比值确定为精准率,例如“香菇”被判断为新义(即想哭)的总次数为700次,其中有500次是正确的,即该700次判断中有500次判断“香菇”表示新义(即想哭)是正确的,剩下200次判断“香菇”表示新义(即想哭)是错误的,那200词判断中“香菇”实为表示旧义(即食物香菇),则精准率的表达式为换而言之,该精准率(accuracy)公式可以如公式(3)所示,召回率(recall)公式如公式(4)所示。
    [0187][0188]
    recall=1-s2ꢀꢀꢀꢀꢀꢀ
    (4)
    [0189]
    其中,s1为图11中概率阈值k的左侧横轴与概率密度曲线111所围面积,s2为图11中概率阈值k的右侧横轴与概率密度曲线110所围面积。如图11可见,s1和s2均可视为以概率阈值k为自变量的因变量,即可将s1和s2分别表示为函数表达式s1(k)和函数表达式s2(k)。在机器学习的分类问题中,通常会将精准率和召回率的调和平均数作为一个衡量指标,该衡量指标为f
    1-分数(score),该f
    1-score的表达式如公式(5)所示。
    [0190][0191]
    进一步地,服务器可以根据求取f
    1-score的最大值来确定概率阈值k。
    [0192]
    如图12所示,为另一种概率阈值的确定方法的示意图。服务器可以使用前述第一文本语料集合,调用语言模型计算第一文本语料集合中各个文本语料的语言概率,其概率密度曲线如图12中120所示,其中,k为待求取的概率阈值。为了节省计算资源,服务器可以根据k值左侧横轴与概率密度曲线120所围面积s3、以横轴与概率密度曲线120所围面积s4(根据统计学原理,概率密度曲线120和横轴围成的面积s4为1)以及预设数值进行确定,该预设数值为开发人员根据实验测算数据设定,对此本技术不做具体限定。换而言之,当s3与s4之间的比值为预设数值时,可以根据s3的面积确定k值(即概率阈值)。服务器通过这样的概率阈值确定方法可以节省计算资源。
    [0193]
    在一个可能的实现中,若第一目标词汇在第一词向量库不具有词向量,且该第一目标词汇在第二词向量库中具有词向量,则确定第一目标词汇在第二词向量库中词向量为第一目标词汇在待处理语料中对应的词向量。
    [0194]
    端侧设备将切分待处理语料得到的至少一个分词中的各个分词,与第二词向量库进行匹配,若匹配成功,则确定该词汇为第一目标词汇。进而,端侧设备将该第一目标词汇与第一词向量库进行匹配,若匹配不成功,则端侧设备确定该第一目标词汇在第二词向量库中词向量为第一目标词汇在待处理语料中对应的词向量。
    [0195]
    示例性地,第一词向量库和第二词向量库如上表1所示。端侧设备将待处理语料“今天很蓝瘦”进行切分,得到3个分词为“今天”“很”“蓝瘦”,则端侧设备分别将“今天”、“很”和“蓝瘦”与第二词向量库进行匹配,“蓝瘦”与第二词向量库匹配成功,则端侧设备将“蓝瘦”确定为第一目标词汇(即新词,可能时未登录词也可能时旧词新义的词)。进一步地,端侧设备将“蓝瘦”与第一词向量库进行匹配,匹配不成功,则端侧设备根据第二词向量中“蓝瘦”的词向量4为其在待处理语料中对应的词向量。
    [0196]
    在一个可能的实现中,端侧设备基于第一目标词汇的第一词向量和第二目标词汇在第一词向量库中的词向量,调用语言模型确定该待处理语料对应的语言概率,第二目标词汇为至少一个分词中除第一目标词汇之外的词汇。进一步地,若该语言概率小于概率阈值,则确定第二词向量作为第一目标词汇在待处理语料中对应的词向量。若该语言概率大于或等于该概率阈值,则确定第一词向量作为第一目标词汇在待处理语料中对应的词向
    量。
    [0197]
    示例性地,端侧设备将待处理语料“今天很香菇”进行切分,得到3个分词为“今天”“很”“香菇”,端侧设备分别将“今天”、“很”和“香菇”与第二词向量库进行匹配,“香菇”与第二词向量库匹配成功,则端侧设备将“香菇”确定为第一目标词汇(即新词,可能时未登录词也可能时旧词新义的词),将“今天”、“很”确定为第二目标词汇。进一步地,端侧设备将“香菇”与第一词向量库进行匹配,匹配成功,则端侧设备确定“香菇”为新词中的旧词新义的词。若端侧设备根据第一词向量库中“香菇”对应的第一词向量、“今天”对应的词向量1和“很”对应的词向量3,调用语言模型得到待处理语料“今天很香菇”的语言概率a。若概率阈值为b,a小于b,则确定第二词向量库中“香菇”对应的第二词向量作为第一目标词汇在待处理语料中对应的词向量。
    [0198]
    在一个可能的实现中,端侧设备基于第一目标词汇对应的第二词向量和第二目标词汇在第一词向量库中的词向量,调用语言模型,确定该待处理语料对应的语言概率,该第二目标词汇为至少一个分词中除第一目标词汇之外的词汇。进一步地,若该语言概率大于或等于概率阈值,则确定第二词向量作为第一目标词汇在所述待处理语料中对应的词向量。若该语言概率小于概率阈值,则确定第一词向量作为第一目标词汇在待处理语料中对应的词向量。
    [0199]
    示例性地,若端侧设备根据第二词向量库中“香菇”对应的第二词向量、第一词向量库中“今天”对应的词向量1和“很”对应的词向量3,调用语言模型得到待处理语料“今天很香菇”的语言概率c。若概率阈值为b,c大于或等于b,则确定第二词向量库中“香菇”对应的第二词向量作为第一目标词汇在待处理语料中对应的词向量。
    [0200]
    示例性地,如图13所示为一种语义识别方法的流程示意图,端侧设备接收待处理语料,并对该待处理语料进行切分后得到至少一个分词,针对每一个分词,端侧设备将该分词与第二词向量库进行匹配,若匹配不成功,则根据第一词向量库确定该分词的词向量。若该分词与第二词向量库匹配成功,则将该分词与第一词向量库进行匹配,若匹配不成功,则根据第二词向量库确定该分词的词向量。若该分词与第二词向量库匹配成功,且该分词与第一词向量库匹配成功,则调用语言模型,基于第一向量库确定该待处理语料的语言概率。端侧设备将该语言概率与概率阈值进行对比,并根据该语言概率与概率阈值的对比结果,确定该分词为旧词新用(即旧词新义的词汇在该待处理语料中表示含义为新义),还算是为旧词旧用(即旧词新义的词汇在该待处理语料中表示含义为旧义)。若基于第一向量库确定该待处理语料的语言概率大于或等于概率阈值,则从第一向量库中确定该分词的第一词向量为其在待处理语料中对应的词向量,即该分词为旧词旧用(即旧词新义的词汇在该待处理语料中表示含义为旧义)。若基于第一向量库确定该待处理语料的语言概率小于概率阈值,则从第二向量库中确定该分词的第二词向量为其在待处理语料中对应的词向量,即该分词为旧词新用(即旧词新义的词汇在该待处理语料中表示含义为新义)。
    [0201]
    可见,通过实施图10所描述的语义识别方法,端侧设备可以正确识别旧词新义的词汇在待处理语料中表示的是新义(即旧词新用的情况)还是表示的是旧义(即旧词旧用的情况),同时还通过不断地从服务器接收新词的词向量扩充端侧设备的词向量库,提升了语义识别的准确性。
    [0202]
    需要说明的是,在具体实施中可以选择附图中的部分步骤进行实施,还可以调整
    图示中步骤的顺序进行实施,本技术对此不做限定。应理解,执行图示中的部分步骤或调整步骤的顺序进行具体实施,均落在本技术的保护范围内。
    [0203]
    请参见图14,图14示出了本技术实施例的一种词向量构建装置的结构示意图。图14所示的词向量构建装置可以用于实现上述图6所描述的方法实施例中服务器的部分或全部功能。图14所示的词向量构建装置可以包括获取单元1401、确定单元1402、构建单元1403和发送单元1404。其中:
    [0204]
    获取单元1401,用于获取新词,所述新词为未登录词或旧词新义的词汇,所述新词具有第一语义,所述未登录词为所述服务器中不存在其词向量的词汇,所述旧词新义的词汇为所述服务器中存在其词向量的词汇,且其词向量指示的语义与所述第一语义不相同;
    [0205]
    确定单元1402,用于基于所述新词对应的至少一个近义词的词向量,确定各个所述近义词包含的第二语义的词向量,所述第二语义与所述第一语义相对应;
    [0206]
    构建单元1403,用于基于所述新词对应的近义词的数量和各个所述近义词包含的第二语义的词向量,构建所述新词的词向量;
    [0207]
    发送单元1404,用于向端侧设备发送所述新词的词向量。
    [0208]
    在一种可能的实现中,所述确定单元1402具体用于:针对所述至少一个近义词中的每个近义词,确定所述近义词是否包含除所述第二语义外的第三语义;若所述近义词包含所述第三语义,则获取所述第三语义对应的词向量;基于所述近义词的词向量和所述第三语义对应的词向量,确定所述近义词包含的所述第二语义的词向量。
    [0209]
    在一种可能的实现中,所述确定单元1402还用于:若所述近义词不包含所述至少一个第三语义,则确定所述近义词的词向量为所述第二语义的词向量。
    [0210]
    在一种可能的实现中,所述构建单元1403具体用于:获取各个所述近义词对应的权重值;基于各个所述近义词对应的权重值、所述新词对应的近义词的数量和各个所述近义词包含的第二语义的词向量,构建所述新词的词向量。
    [0211]
    需要说明的是,本技术实施例中所描述的词向量构建装置1400中各功能单元的功能,可参见上述图6中的方法实施例中步骤601-步骤604的相关描述,此处不再赘述。
    [0212]
    请参见图15,图15示出了本技术实施例的一种语义识别装置的结构示意图。图15所示的语义识别装置可以用于实现上述图10所描述的方法实施例中端侧的部分或全部功能。图15所示的语义识别装置可以包括接收单元1501、存储单元1502、切分单元1503和确定单元1504。其中:
    [0213]
    接收单元1501,用于接收服务器发送的新词的词向量,所述新词具有第一语义,所述新词为未登录词或旧词新义的词汇,所述未登录词为所述服务器中不存在其词向量的词汇,所述旧词新义的词汇为所述服务器中存在其词向量的词汇,且其词向量指示的语义与所述第一语义不相同;
    [0214]
    存储单元1502,用于存储所述新词的词向量于第二词向量库;
    [0215]
    切分单元1503,用于切分待处理语料,得到至少一个分词;
    [0216]
    确定单元1504,用于若第一目标词汇在第一词向量库具有第一词向量,第一目标词汇在第二词向量库中具有第二词向量,则基于所述第一词向量或所述第二词向量确定所述待处理语料对应的语言概率,所述第一目标词汇为所述至少一个分词中的任意一个词汇;
    [0217]
    所述确定单元1504,还用于基于所述语言概率确定所述第一词向量或所述第二词向量作为第一目标词汇在所述待处理语料中对应的词向量。
    [0218]
    在一种可能的实现中,所述确定单元1504还用于:若所述第一目标词汇在所述第一词向量库不具有词向量,且所述第一目标词汇在所述第二词向量库中具有词向量,则确定所述第一目标词汇在所述第二词向量库中词向量为第一目标词汇在所述待处理语料中对应的词向量。
    [0219]
    在一种可能的实现中,所述确定单元1504具体用于:基于所述第一词向量和第二目标词汇在所述第一词向量库中的词向量,调用语言模型,确定所述待处理语料对应的语言概率,所述第二目标词汇为所述至少一个分词中除所述第一目标词汇之外的词汇;若所述语言概率小于概率阈值,则确定所述第二词向量作为第一目标词汇在所述待处理语料中对应的词向量;若所述语言概率大于或等于所述概率阈值,则确定所述第一词向量作为第一目标词汇在所述待处理语料中对应的词向量。
    [0220]
    在一种可能的实现中,所述确定单元1504具体用于:基于所述第二词向量和第二目标词汇在所述第一词向量库中的词向量,调用语言模型,确定所述待处理语料对应的语言概率,所述第二目标词汇为所述至少一个分词中除所述第一目标词汇之外的词汇;若所述语言概率大于或等于概率阈值,则确定所述第二词向量作为第一目标词汇在所述待处理语料中对应的词向量;若所述语言概率小于所述概率阈值,则确定所述第一词向量作为第一目标词汇在所述待处理语料中对应的词向量。
    [0221]
    需要说明的是,本技术实施例中所描述的语义识别装置1500中各功能单元的功能,可参见上述图10中的方法实施例中步骤1001-步骤1005的相关描述,此处不再赘述。
    [0222]
    本技术实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,可以实现上述方法实施例中记载的任意一种的部分或全部步骤,以及实现上述图6或图10所描述的任意一个功能模块的功能。
    [0223]
    本技术实施例还提供了一种计算机程序产品,当其在计算机或处理器上运行时,使得计算机或处理器执行上述图6或图10中任一个方法中的一个或多个步骤。上述所涉及的设备的各组成模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取存储介质中。
    [0224]
    在上述实施例中,对各个实施例的描述各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
    [0225]
    应理解,本文中涉及的第一、第二、第三、第四以及各种数字编号仅为描述方便进行的区分,并不用来限制本技术的范围。
    [0226]
    应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
    [0227]
    还应理解,在本技术的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。
    [0228]
    本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟
    以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
    [0229]
    所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
    [0230]
    在本技术所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
    [0231]
    上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
    [0232]
    另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
    [0233]
    上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台终端设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
    [0234]
    需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本技术所必须的。
    [0235]
    本技术提供的各实施例的描述可以相互参照,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。为描述的方便和简洁,例如关于本技术实施例提供的各装置、设备的功能以及执行的步骤可以参照本技术方法实施例的相关描述,各方法实施例之间、各装置实施例之间也可以互相参考、结合或引用。
    [0236]
    最后应说明的是:以上各实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述各实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的范围。

    技术特征:
    1.一种词向量构建方法,其特征在于,所述方法应用于服务器,所述方法包括:获取新词,所述新词为未登录词或旧词新义的词汇,所述新词具有第一语义,所述未登录词为所述服务器中不存在其词向量的词汇,所述旧词新义的词汇为所述服务器中存在其词向量的词汇,且其词向量指示的语义与所述第一语义不相同;基于所述新词对应的至少一个近义词的词向量,确定各个所述近义词包含的第二语义的词向量,所述第二语义与所述第一语义相对应;基于所述新词对应的近义词的数量和各个所述近义词包含的第二语义的词向量,构建所述新词的词向量;向端侧设备发送所述新词的词向量。2.根据权利要求1所述方法,其特征在于,所述基于所述新词对应的至少一个近义词的词向量,确定各个所述近义词包含的第二语义的词向量,包括:针对所述至少一个近义词中的每个近义词,确定所述近义词是否包含除所述第二语义外的第三语义;若所述近义词包含所述第三语义,则获取所述第三语义对应的词向量;基于所述近义词的词向量和所述第三语义对应的词向量,确定所述近义词包含的所述第二语义的词向量。3.根据权利要求2所述方法,其特征在于,所述方法还包括:若所述近义词不包含所述至少一个第三语义,则确定所述近义词的词向量为所述第二语义的词向量。4.根据权利要求1-3中任一项所述方法,其特征在于,所述基于所述新词对应的近义词的数量和各个所述近义词包含的第二语义的词向量,构建所述新词的词向量,包括:获取各个所述近义词对应的权重值;基于各个所述近义词对应的权重值、所述新词对应的近义词的数量和各个所述近义词包含的第二语义的词向量,构建所述新词的词向量。5.一种语义识别方法,其特征在于,所述方法应用于端侧设备,所述方法包括:接收服务器发送的新词的词向量,所述新词具有第一语义,所述新词为未登录词或旧词新义的词汇,所述未登录词为所述服务器中不存在其词向量的词汇,所述旧词新义的词汇为所述服务器中存在其词向量的词汇,且其词向量指示的语义与所述第一语义不相同;存储所述新词的词向量于第二词向量库;切分待处理语料,得到至少一个分词;若第一目标词汇在第一词向量库具有第一词向量,且所述第一目标词汇在第二词向量库中具有第二词向量,则基于所述第一词向量或所述第二词向量确定所述待处理语料对应的语言概率,所述第一目标词汇为所述至少一个分词中的任意一个词汇;基于所述语言概率确定所述第一词向量或所述第二词向量作为第一目标词汇在所述待处理语料中对应的词向量。6.根据权利要求5所述方法,其特征在于,所述方法还包括:若所述第一目标词汇在所述第一词向量库不具有词向量,且所述第一目标词汇在所述第二词向量库中具有词向量,则确定所述第一目标词汇在所述第二词向量库中词向量为所述第一目标词汇在所述待处理语料中对应的词向量。
    7.根据权利要求5或6所述方法,其特征在于,所述基于所述第一词向量或所述第二词向量确定所述待处理语料对应的语言概率,包括:基于所述第一词向量和第二目标词汇在所述第一词向量库中的词向量,调用语言模型,确定所述待处理语料对应的语言概率,所述第二目标词汇为所述至少一个分词中除所述第一目标词汇之外的词汇;所述基于所述语言概率确定所述第一词向量或所述第二词向量作为第一目标词汇在所述待处理语料中对应的词向量,包括:若所述语言概率小于概率阈值,则确定所述第二词向量作为第一目标词汇在所述待处理语料中对应的词向量;若所述语言概率大于或等于所述概率阈值,则确定所述第一词向量作为第一目标词汇在所述待处理语料中对应的词向量。8.根据权利要求5或6所述方法,其特征在于,所述基于所述第一词向量或所述第二词向量确定所述待处理语料对应的语言概率,包括:基于所述第二词向量和第二目标词汇在所述第一词向量库中的词向量,调用语言模型,确定所述待处理语料对应的语言概率,所述第二目标词汇为所述至少一个分词中除所述第一目标词汇之外的词汇;所述基于所述语言概率确定所述第一词向量或所述第二词向量作为第一目标词汇在所述待处理语料中对应的词向量,包括:若所述语言概率大于或等于概率阈值,则确定所述第二词向量作为第一目标词汇在所述待处理语料中对应的词向量;若所述语言概率小于所述概率阈值,则确定所述第一词向量作为第一目标词汇在所述待处理语料中对应的词向量。9.一种词向量构建装置,其特征在于,所述装置配置于服务器,所述装置包括:获取单元,用于获取新词,所述新词为未登录词或旧词新义的词汇,所述新词具有第一语义,所述未登录词为所述服务器中不存在其词向量的词汇,所述旧词新义的词汇为所述服务器中存在其词向量的词汇,且其词向量指示的语义与所述第一语义不相同;确定单元,用于基于所述新词对应的至少一个近义词的词向量,确定各个所述近义词包含的第二语义的词向量,所述第二语义与所述第一语义相对应;构建单元,用于基于所述新词对应的近义词的数量和各个所述近义词包含的第二语义的词向量,构建所述新词的词向量;发送单元,用于向端侧设备发送所述新词的词向量。10.根据权利要求9所述装置,其特征在于,所述确定单元具体用于:针对所述至少一个近义词中的每个近义词,确定所述近义词是否包含除所述第二语义外的第三语义;若所述近义词包含所述第三语义,则获取所述第三语义对应的词向量;基于所述近义词的词向量和所述第三语义对应的词向量,确定所述近义词包含的所述第二语义的词向量。11.根据权利要求10所述装置,其特征在于,所述确定单元还用于:若所述近义词不包含所述至少一个第三语义,则确定所述近义词的词向量为所述第二
    语义的词向量。12.根据权利要求9-11中任一项所述装置,其特征在于,所述构建单元具体用于:获取各个所述近义词对应的权重值;基于各个所述近义词对应的权重值、所述新词对应的近义词的数量和各个所述近义词包含的第二语义的词向量,构建所述新词的词向量。13.一种语义识别装置,其特征在于,所述装置配置于端侧设备,所述方法包括:接收单元,用于接收服务器发送的新词的词向量,所述新词具有第一语义,所述新词为未登录词或旧词新义的词汇,所述未登录词为所述服务器中不存在其词向量的词汇,所述旧词新义的词汇为所述服务器中存在其词向量的词汇,且其词向量指示的语义与所述第一语义不相同;存储单元,用于存储所述新词的词向量于第二词向量库;切分单元,用于切分待处理语料,得到至少一个分词;确定单元,用于若第一目标词汇在第一词向量库具有第一词向量,第一目标词汇在第二词向量库中具有第二词向量,则基于所述第一词向量或所述第二词向量确定所述待处理语料对应的语言概率,所述第一目标词汇为所述至少一个分词中的任意一个词汇;所述确定单元,还用于基于所述语言概率确定所述第一词向量或所述第二词向量作为第一目标词汇在所述待处理语料中对应的词向量。14.根据权利要求13所述装置,其特征在于,所述确定单元还用于:若第一目标词汇在第一词向量库不具有词向量,且第一目标词汇在第二词向量库中具有词向量,则确定第一目标词汇在第二词向量库中词向量为第一目标词汇在所述待处理语料中对应的词向量。15.根据权利要求13或14所述装置,其特征在于,所述确定单元具体用于:基于所述第一词向量和第二目标词汇在所述第一词向量库中的词向量,调用语言模型,确定所述待处理语料对应的语言概率,所述第二目标词汇为所述至少一个分词中除所述第一目标词汇之外的词汇;若所述语言概率小于概率阈值,则确定所述第二词向量作为第一目标词汇在所述待处理语料中对应的词向量;若所述语言概率大于或等于所述概率阈值,则确定所述第一词向量作为第一目标词汇在所述待处理语料中对应的词向量。16.根据权利要求13或14所述装置,其特征在于,所述确定单元具体用于:基于所述第二词向量和第二目标词汇在所述第一词向量库中的词向量,调用语言模型,确定所述待处理语料对应的语言概率,所述第二目标词汇为所述至少一个分词中除所述第一目标词汇之外的词汇;若所述语言概率大于或等于概率阈值,则确定所述第二词向量作为第一目标词汇在所述待处理语料中对应的词向量;若所述语言概率小于所述概率阈值,则确定所述第一词向量作为第一目标词汇在所述待处理语料中对应的词向量。17.一种服务器,其特征在于,包括处理器和存储器,所述处理器和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用
    于调用所述程序指令,执行如权利要求1-4中任一项所述的方法。18.一种端侧设备,其特征在于,包括处理器和存储器,所述处理器和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求5-8中任一项所述的方法。19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序或指令,当所述计算机程序或指令被处理器执行时,实现如权利要求1-4中任一项所述词向量构建方法或实现如权利要求5-8中任一项所述语义识别方法。

    技术总结
    本申请提供一种词向量构建方法、装置、设备及计算机可读存储介质,该方法应用于终端人工智能领域以及对应子领域自然语言处理,该方法包括:获取新词,该新词为未登录词或旧词新义的词汇,并且该新词具有第一语义;基于新词对应的至少一个近义词的词向量,确定各个近义词包含的第二语义的词向量,该第二语义与该第一语义相对应;基于各个近义词包含的第二语义的词向量和近义词的数量,构建新词的词向量;向端侧设备发送新词的词向量。采用本申请,根据去除冗余信息后的近义词的词向量构建新词的词向量,使得该近义词的词向量更贴合该待构建词向量的新词的语义,可以提升构建的词向量的准确性。的准确性。的准确性。


    技术研发人员:兰国兴 许娟婷 张少永
    受保护的技术使用者:华为技术有限公司
    技术研发日:2020.11.23
    技术公布日:2022/5/25
    转载请注明原文地址:https://tc.8miu.com/read-17399.html

    最新回复(0)