用户行为处理方法、装置、电子设备及计算机可读介质与流程

    专利查询2022-07-06  205



    1.本技术涉及大数据技术领域,具体涉及数据分析与挖掘技术领域,尤其涉及一种用户行为处理方法、装置、电子设备及计算机可读介质。


    背景技术:

    2.基于日志的用户行为分析的基础数据主要来自于记录用户浏览行为的web日志,通过对web日志文本进行分析和特征提取,实现用户行为的分析和预测,但该现有的分析预测用户行为的方法不具有通用性且整体分析效率较低。
    3.在实现本技术过程中,发明人发现现有技术中至少存在如下问题:
    4.现有的通过web日志文本进行分析和特征提取的分析预测用户行为的方法分析周期长、准确率低、不具有通用性且对用户行为分析的整体处理效率较低。


    技术实现要素:

    5.有鉴于此,本技术实施例提供一种用户行为处理方法、装置、电子设备及计算机可读介质,能够解决现有的通过web日志文本进行分析和特征提取的分析预测用户行为的方法不具有通用性且整体分析效率较低的问题。
    6.为实现上述目的,根据本技术实施例的一个方面,提供了一种用户行为处理方法,包括:
    7.接收用户行为处理请求,获取对应的网站标识和用户标识,基于网站标识获取对应的网站日志;
    8.基于网站日志确定用户标识对应的用户点击路径,获取用户点击路径中的各节点的转化率;
    9.根据转化率确定各节点中的目标节点,进而调用频繁模式挖掘程序以根据目标节点确定频繁路径;
    10.将频繁路径输入至预测模型,以生成预测用户点击路径,进而基于预测用户点击路径调整网站标识对应的网站结构。
    11.可选地,根据转化率确定各节点中的目标节点,包括:
    12.确定各节点中的转化率小于预设阈值的节点;
    13.将转化率小于预设阈值的节点确定为各节点中的目标节点。
    14.可选地,调用频繁模式挖掘程序以根据目标节点确定频繁路径,包括:
    15.筛选得到目标节点对应的目标节点会话;
    16.确定目标节点的转化率,将目标节点的转化率确定为支持度阈值;
    17.将目标节点会话和支持度阈值输入频繁模式挖掘程序,以得到频繁路径。
    18.可选地,方法还包括:
    19.响应于频繁路径为空,基于预设的阈值梯度调整支持度阈值,直至得到的频繁路径为非空。
    20.可选地,得到频繁路径,包括:
    21.根据目标节点会话生成各候选路径;
    22.确定各候选路径的支持度;
    23.将大于支持度阈值的支持度对应的候选路径确定为频繁路径。
    24.可选地,生成预测用户点击路径,包括:
    25.将频繁路径转换为频繁路径向量;
    26.基于频繁路径向量预测用户点击分布,进而生成预测用户点击路径。
    27.可选地,基于网站日志确定用户标识对应的用户点击路径,包括:
    28.获取网站日志中与用户标识对应的会话标识;
    29.基于会话标识获取对应的会话数据;
    30.基于会话数据构造用户标识对应的用户点击路径。
    31.可选地,基于预测用户点击路径调整网站标识对应的网站结构,包括:
    32.获取用户标识对应的当前访问路径,确定预测用户点击路径中的各节点的访问概率;
    33.确定最大访问概率对应的节点,进而根据当前访问路径和最大访问概率对应的节点生成预测网站结构;
    34.获取预期网站结构,进而基于预测网站结构更新预期网站结构。
    35.另外,本技术还提供了一种用户行为处理装置,包括:
    36.接收单元,被配置成接收用户行为处理请求,获取对应的网站标识和用户标识,基于网站标识获取对应的网站日志;
    37.获取单元,被配置成基于网站日志确定用户标识对应的用户点击路径,获取用户点击路径中的各节点的转化率;
    38.频繁路径确定单元,被配置成根据转化率确定各节点中的目标节点,进而调用频繁模式挖掘程序以根据目标节点确定频繁路径;
    39.调整单元,被配置成将频繁路径输入至预测模型,以生成预测用户点击路径,进而基于预测用户点击路径调整网站标识对应的网站结构。
    40.可选地,频繁路径确定单元进一步被配置成:
    41.确定各节点中的转化率小于预设阈值的节点;
    42.将转化率小于预设阈值的节点确定为各节点中的目标节点。
    43.可选地,频繁路径确定单元进一步被配置成:
    44.筛选得到目标节点对应的目标节点会话;
    45.确定目标节点的转化率,将目标节点的转化率确定为支持度阈值;
    46.将目标节点会话和支持度阈值输入频繁模式挖掘程序,以得到频繁路径。
    47.可选地,调整单元进一步被配置成:
    48.响应于频繁路径为空,基于预设的阈值梯度调整支持度阈值,直至得到的频繁路径为非空。
    49.可选地,频繁路径确定单元进一步被配置成:
    50.根据目标节点会话生成各候选路径;
    51.确定各候选路径的支持度;
    52.将大于支持度阈值的支持度对应的候选路径确定为频繁路径。
    53.可选地,调整单元进一步被配置成:
    54.将频繁路径转换为频繁路径向量;
    55.基于频繁路径向量预测用户点击分布,进而生成预测用户点击路径。
    56.可选地,获取单元进一步被配置成:
    57.获取网站日志中与用户标识对应的会话标识;
    58.基于会话标识获取对应的会话数据;
    59.基于会话数据构造用户标识对应的用户点击路径。
    60.可选地,调整单元进一步被配置成:
    61.获取用户标识对应的当前访问路径,确定预测用户点击路径中的各节点的访问概率;
    62.确定最大访问概率对应的节点,进而根据当前访问路径和最大访问概率对应的节点生成预测网站结构;
    63.获取预期网站结构,进而基于预测网站结构更新预期网站结构。
    64.另外,本技术还提供了一种用户行为处理电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上述的用户行为处理方法。
    65.另外,本技术还提供了一种计算机可读介质,其上存储有计算机程序,程序被处理器执行时实现如上述的用户行为处理方法。
    66.为实现上述目的,根据本技术实施例的又一个方面,提供了一种计算机程序产品。
    67.本技术实施例的一种计算机程序产品,包括计算机程序,程序被处理器执行时实现本技术实施例提供的用户行为处理方法。
    68.上述发明中的一个实施例具有如下优点或有益效果:本技术通过接收用户行为处理请求,获取对应的网站标识和用户标识,基于网站标识获取对应的网站日志;基于网站日志确定用户标识对应的用户点击路径,获取用户点击路径中的各节点的转化率;根据转化率确定各节点中的目标节点,进而调用频繁模式挖掘程序以根据目标节点确定频繁路径;将频繁路径输入至预测模型,以生成预测用户点击路径,进而基于预测用户点击路径调整网站标识对应的网站结构。将通过漏斗模型发现的单步转化率低的节点作为目标节点,将目标节点的点击数,作为阈值输入给频繁模式挖掘程序,从而最大限度的挖掘出关联的频繁路径,通过使用漏斗模型和频繁模式挖掘相结合的方法,分析网站的转化率,采用大数据处理技术,快速对这些海量的点击路径数据进行挖掘,缩短分析周期,并通过基于神经网络的预测模型预测用户点击路径,为网站运营人员优化重点页面的信息结构提供参考依据,提升对用户的行为进行处理的方法的通用性和准确性,并提升对用户行为分析的整体处理效率。
    69.上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
    附图说明
    70.附图用于更好地理解本技术,不构成对本技术的不当限定。其中:
    71.图1是根据本技术第一实施例的用户行为处理方法的主要流程的示意图;
    72.图2是根据本技术第二实施例的用户行为处理方法的主要流程的示意图;
    73.图3是根据本技术第三实施例的用户行为处理方法的应用场景示意图;
    74.图4是根据本技术实施例的用户行为处理装置的主要单元的示意图;
    75.图5是本技术实施例可以应用于其中的示例性系统架构图;
    76.图6是适于用来实现本技术实施例的终端设备或服务器的计算机系统的结构示意图。
    具体实施方式
    77.以下结合附图对本技术的示范性实施例做出说明,其中包括本技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本技术的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。本技术技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
    78.图1是根据本技术第一实施例的用户行为处理方法的主要流程的示意图,如图1所示,用户行为处理方法包括:
    79.步骤s101,接收用户行为处理请求,获取对应的网站标识和用户标识,基于网站标识获取对应的网站日志。
    80.本实施例中,用户行为处理方法的执行主体(例如,可以是用户行为分析系统对应的服务器)可以通过有线连接或无线连接的方式,接收用户行为处理请求。用户行为处理请求,例如可以是对用户的浏览行为进行分析并预测的请求。在用户行为处理请求中可以携带网站标识和用户标识。网站标识用于表征是针对哪个网站进行的用户行为分析。用户标识用于表征是针对哪个用户进行的用户行为分析。执行主体在得到网站标识后,可以基于网站标识获取对应的网站日志,更具体地,执行主体还可以根据用户标识从获取的网站日志中筛选出与用户标识对应的网站日志以供进行后续具体分析。
    81.步骤s102,基于网站日志确定用户标识对应的用户点击路径,获取用户点击路径中的各节点的转化率。
    82.本技术实施例中,用户点击路径中的各节点对应的是网页,也就是说每一个节点对应一个网页。
    83.用户在网页间的跳转结构形成了图结构,网页是顶点,浏览的跳转是边。执行主体从网站日志中可以筛选出包含有用户标识的点击网页,并将筛选得到的每一个包含用户标识的网页作为节点并依次连接,从而形成用户点击路径。
    84.示例的,用户点击路径的构造,包括:经过web网站日志清洗、用户识别、会话识别、用户点击路径还原这几个步骤。通过对web网站日志进行处理,并解决海量数据处理的可扩展性问题,即能够实现随时横向扩展来应对数据的快速增长。在进行web日志预处理的过程中,执行主体可以使用mapreduce分布式计算框架来处理大量非结构化的web日志数据。电子商务网站用户的搜索、点击和其他浏览行为,都被记录在网站的web日志(即网站日志)中。网站的web日志包含网站所有资源的日志,以及网络爬虫的访问,通常是非结构化、半结构化数据。用户识别:为了更准确地识别用户,执行主体可以使用浏览器提供的cookie技术
    来实现用户识别。会话识别:web服务器会为浏览者生成会话,以标识用户与网站的一段时间的交互。浏览者两次之间的操作超过一定的阈值(一般为30分钟)则会产生另一起会话。网站会使用此会话技术来保存用户的登录状态。为了提升未登录浏览者的访问体验,电子商务网站不会使用web服务器提供的会话技术来区分用户的会话,但这个机制可以为会话识别提供参考依据。对web日志执行格式解析,通过web日志预处理(日志数据清洗,汇总),用户识别和会话识别,形成特定的数据,通过会话数据构造出浏览者的所有点击路径,并记录节点的点击次数、节点的点击顺序、父节点的位置和数量(回溯次数)等数据,并根据节点的点击次数、节点的点击顺序、父节点的位置和数量等数据生成用户标识对应的用户点击路径,以作为下一步分析用户行为的基础。获取用户点击路径中的各节点的转化率,(转化率=(转化次数/点击量)
    ×
    100%)。
    85.步骤s103,根据转化率确定各节点中的目标节点,进而调用频繁模式挖掘程序以根据目标节点确定频繁路径。
    86.具体地,根据转化率确定各节点中的目标节点,包括:
    87.确定各节点中的转化率小于预设阈值的节点;将转化率小于预设阈值的节点确定为各节点中的目标节点。
    88.使用漏斗原理的概念来定量的分析用户点击路径上的转化率。漏斗模型分析是流程式数据分析,它可以反映出用户在点击路径上各节点的转化率情况。从广义上讲,漏斗模型可以看作是路径分析中的一个特例,它是针对少数人为指定的事件节点的路径分析。路径分析通常跟踪并记录每个用户的每个行为路径,它涉及到每一步的来源与去向、每一步的转化率。路径分析是探索性的去挖掘整体的行为路径,找出用户的主流路径,甚至可能发现某些事先不为人知的有趣的模式路径。而漏斗模型则是事先的、人为的、主动的设定了若干个关键事件节点路径。
    89.执行主体可以通过漏斗模型以根据转化率确定各节点中的目标节点。漏斗模型是指通过记录不同关键节点的用户转化率,发现用户流失环节,执行主体可以将用户流失环节对应的节点确定为目标节点,目标节点的用户转化率较低,从而发现用户流失原因,找到提升转化率的方式。转化率是指在一个统计周期内,已经看到广告/网站的所有用户中,达到预期目标(进行转化)的用户所占的百分比。(转化率=(转化次数/点击量)
    ×
    100%)。
    90.执行主体将在用户流失环节的转化率小于预设阈值的节点确定为目标节点。当然,执行主体也可以将用户流失环节的所有节点确定为目标节点。本技术实施例对预设阈值不做具体限定。
    91.执行主体在确定出目标节点后,可以调用频繁模式挖掘程序以根据目标节点的相关信息(例如转化率等)确定频繁路径。频繁路径可以为转化率大于预设阈值的节点连接起来得到的路径。
    92.步骤s104,将频繁路径输入至预测模型,以生成预测用户点击路径,进而基于预测用户点击路径调整网站标识对应的网站结构。
    93.预测模型的训练、评估基于tensorflow深度学习计算框架,tensorflow是google开源的深度学习工具,其中涵盖了深度学习中用到的大部分技术,对一些基本模型如cnn,rnn,lstm等都具有非常好的支持。获取训练样本集,将获取的训练样本集中的点击路径数据分成训练集和测试集,训练和测试预测模型。预测模型使用word2vec和lstm相结合。首先
    使用word2vec得到网站url的语义向量编码,然后再利用得到的url向量编码训练lstm模型获得预测模型,利用预测模型可以预测当前状态下访问其他网页的概率,来评价网站的信息结构合理性。
    94.基于训练得到的预测模型,执行主体可以将频繁路径输入至预测模型,预测模型可以输出各页面作为输入的频繁路径的下一个访问页面的对应的概率。例如,当候选页面只有页面1、页面2和页面3时,页面1对应的概率为20%,页面2对应的概率为30%,页面3对应的概率为50%。执行主体可以选择最大概率对应的页面作为输入的频繁路径的下一个访问页面,并将该最大概率对应的页面作为一个顶点顺次连接入该频繁路径,以得到预测用户点击路径。并基于预测用户点击路径调整网站标识对应的网站结构。本技术实施例中,网站结构可以包括网站展示内容、网站各页面的布局及各页面的展示顺序。本技术实施例对网站结构的具体内容不做限定。
    95.本实施例通过接收用户行为处理请求,获取对应的网站标识和用户标识,基于网站标识获取对应的网站日志;基于网站日志确定用户标识对应的用户点击路径,获取用户点击路径中的各节点的转化率;根据转化率确定各节点中的目标节点,进而调用频繁模式挖掘程序以根据目标节点确定频繁路径;将频繁路径输入至预测模型,以生成预测用户点击路径,进而基于预测用户点击路径调整网站标识对应的网站结构。将通过漏斗模型发现的单步转化率低的节点作为目标节点,将目标节点的点击数,作为阈值输入给频繁模式挖掘程序,从而最大限度的挖掘出关联的频繁路径,通过使用漏斗模型和频繁模式挖掘相结合的方法,分析网站的转化率,采用大数据处理技术,快速对这些海量的点击路径数据进行挖掘,缩短分析周期,并通过基于神经网络的预测模型预测用户点击路径,为网站运营人员优化重点页面的信息结构提供参考依据,提升对用户的行为进行处理的方法的通用性和准确性,并提升对用户行为分析的整体处理效率。
    96.图2是根据本技术第二实施例的用户行为处理方法的主要流程示意图,如图2所示,用户行为处理方法包括:
    97.步骤s201,接收用户行为处理请求,获取对应的网站标识和用户标识,基于网站标识获取对应的网站日志。
    98.步骤s202,基于网站日志确定用户标识对应的用户点击路径,获取用户点击路径中的各节点的转化率。
    99.具体地,基于网站日志确定用户标识对应的用户点击路径,包括:
    100.获取网站日志中与用户标识对应的会话标识,例如hh,本技术实施例对会话标识的具体表示形式不做限定;基于会话标识获取对应的会话数据,执行主体可以定位会话标识,进而获取会话标识所对应的会话数据,该会话数据中可以包含网页链接或网页跳转标识;基于会话数据构造用户标识对应的用户点击路径。
    101.示例的,执行主体可以按照时间顺序将会话数据排列,然后分别提取出排列后的会话数据中的网页链接或网页跳转标识(例如a页面跳转至b页面,对应的网页跳转标识可以为a-b,本技术实施例对网页跳转标识的具体表现形式不做限定)等,根据网页链接确定从哪个网页跳转到哪个网页或者根据网页跳转标识直接确定相互跳转的网页,然后将相互跳转的网页(例如网页a跳转到网页b)作为节点按照排列后的会话数据的顺序依次连接各节点得到用户点击路径,例如a-b。
    102.步骤s203,根据转化率确定各节点中的目标节点。
    103.目标节点可以为转化率较低的节点。具体为转化率低于预设阈值的节点。
    104.步骤s204,筛选得到目标节点对应的目标节点会话。
    105.执行主体可以将网站日志中目标节点对应的目标节点会话筛选出来。
    106.步骤s205,确定目标节点的转化率,将目标节点的转化率确定为支持度阈值。
    107.执行主体根据筛选得到的目标节点,获取目标节点的转化率,进而将目标节点的转化率作为支持度阈值。本技术实施例中的支持度,例如:支持度=一个节点的转化的人数/该节点发生的点击事件对应的人数。
    108.步骤s206,将目标节点会话和支持度阈值输入频繁模式挖掘程序,以得到频繁路径。
    109.执行主体可以将支持度阈值作为设定的最低的支持度输入频繁模式挖掘程序,以使频繁模式挖掘程序根据支持度阈值和输入的目标节点对话得到频繁路径。
    110.具体地,用户行为处理方法还包括:
    111.响应于频繁路径为空,基于预设的阈值梯度调整支持度阈值,直至得到的频繁路径为非空。
    112.如果返回的频繁路径为空,则说明输入的阈值过大,执行主体可以根据预设的阈值梯度适当减小输入的阈值,重新挖掘频繁路径。其中,预设的阈值梯度,例如0.5、0.45、0.4、0.35、0.3,当支持度阈值为0.5时,返回的频繁路径为空,则执行主体可以将0.45作为新的支持度阈值以重新得到对应的频繁路径,如果返回的频繁路径仍为空,则继续将0.4作为新的支持度阈值,直至得到非空的频繁路径为止,输出得到的频繁路径。
    113.具体地,得到频繁路径,包括:
    114.根据目标节点会话生成各候选路径;确定各候选路径的支持度;将大于支持度阈值的支持度对应的候选路径确定为频繁路径。
    115.各候选路径的支持度可以是各候选路径中的组成候选路径的节点对应的支持度之和或者支持度的平均值。执行主体根据输入的支持度阈值,基于各候选路径的支持度,从各候选路径中挖掘出高频率路径即频繁路径。执行主体可以通过使用spark和hadoop分布式计算框架,加速计数过程,提高整个计算的性能。
    116.示例的,对频繁路径进行挖掘的执行流程包含三个步骤:
    117.(1)筛选会话。将包含目标节点的会话筛选出来,供下一步进行频繁路径挖掘,排除了其他会话,降低了大量运算时间。
    118.(2)频繁路径挖掘。根据输入的支持度阈值,挖掘出频率路径。该处使用spark和hadoop分布式计算框架,加速计数过程,提高整个计算的性能。频繁路径挖掘算法中的候选路径支持度计算属于i/o密集型计算,整个算法执行过程中,有很大一部分时间耗费在等待i/o上,由于数据集本身数据量比较大,因此考虑使用spark和hadoop分布式计算框架,缩短由于i/o造成的时间消耗,加速apriorisome算法计数过程,从而提升整个计算过程性能。
    119.(3)检查频繁路径。如果返回的频繁路径为空,则说明输入的阈值过大,执行主体可适当减小输入的阈值,以重新挖掘频繁路径。
    120.步骤(2)中使用apriorisome进行频繁路径挖掘设计。将频繁路径挖掘过程拆分为控制模块和计数模块。控制模块负责控制执行逻辑,实现了apriorisome算法,调用计数模
    块进行候选路径的支持度计算,最终获得满足指定支持度的频繁路径,并将包含运营人员指定的目标节点的频繁路径返回。
    121.步骤s207,将频繁路径输入至预测模型,以生成预测用户点击路径,进而基于预测用户点击路径调整网站标识对应的网站结构。
    122.具体地,生成预测用户点击路径,包括:
    123.将频繁路径转换为频繁路径向量;基于频繁路径向量预测用户点击分布,进而生成预测用户点击路径。
    124.具体地,基于预测用户点击路径调整网站标识对应的网站结构,包括:获取用户标识对应的当前访问路径,确定预测用户点击路径中的各节点的访问概率;确定最大访问概率对应的节点,进而根据当前访问路径和最大访问概率对应的节点生成预测网站结构;获取预期网站结构,进而基于预测网站结构更新预期网站结构。
    125.用户在网页间的跳转结构形成了图结构,网页是顶点,浏览的跳转是边。通过词向量可以描述每个url页面的语义特征;通过使用循环神经网络lstm,能够预测当前访问路径的下一个访问页面的概率分布;确定最大访问概率对应页面,并将该对应页面作为顶点连接进入当前访问路径中,形成预测用户点击路径构成的预测网站结构,将得到的预测网站结构与预期网站结构(其中,预期网站结构是原本就设定好的网站结构)进行对比,当对比存在差异时,执行主体可以根据该差异慢慢调整预期网站结构使预期网站结构向着预测网站结构靠拢直至重合。
    126.图3是根据本技术第三实施例的用户行为处理方法的应用场景示意图。本技术实施例的用户行为处理方法,可以应用于用户行为分析场景。如图3所示,服务器302接收用户行为处理请求301,获取对应的网站标识303和用户标识304,基于网站标识303获取对应的网站日志305。服务器302基于网站日志305确定用户标识304对应的用户点击路径306,获取用户点击路径306中的各节点的转化率307。服务器302根据转化率307确定各节点中的目标节点308,进而调用频繁模式挖掘程序以根据目标节点308确定频繁路径309。服务器302将频繁路径309输入至预测模型310,以生成预测用户点击路径311,进而基于预测用户点击路径311调整网站标识303对应的网站结构312。
    127.作为本技术的一个整体实施例,示例的,web站点用户的浏览和点击行为记录在web网站服务器日志中。通过挖掘web网站日志,电子商务企业可以更加详细和清晰的了解用户的浏览兴趣和行为模式。有助于企业更精准、有效的制定营销策略,提升网站的转化率,还可以优化网站的信息结构。本技术提供了一个大型电子商务网站用户行为分析系统(即可以是执行主体),用于扩展web日志挖掘的应用范围,进一步发挥web日志挖掘的使用价值和意义。通过提供一个包含点击路径构造、转化率分析和信息结构评价等功能的系统,从网站日志中构造用户的点击路径,再使用漏斗模型和频繁模式挖掘相结合的方法,分析网站的转化率;采用大数据处理技术,快速对这些海量的点击路径进行建模和挖掘,缩短分析周期;基于神经网络预测用户点击,为网站运营人员优化重点页面的信息结构提供参考依据。
    128.本技术实施例的用户行为分析系统由三个核心模块构成,分别是点击路径构造模块、转化率分析模块和信息结构评价模块。实现了从原始的网站日志处理,到网站的转化率和信息结构分析与展示等功能需求。本技术实施例的用户行为分析系统执行以下逻辑:
    129.构造用户点击路径的方法并解决可扩展性。经过web网站日志清洗、用户识别、会话识别、用户点击路径还原这几个步骤,对web网站日志进行处理,并解决海量数据处理的的可扩展性问题,即让用户行为分析系统能够随时横向扩展来应对数据的快速增长。在进行web日志预处理的过程中,使用mapreduce分布式计算框架来处理大量非结构化的web日志数据。
    130.漏斗模型结合频繁模式挖掘分析网站的转化率。利用漏斗模型分析页面的转化率,将问题节点的转化率作为频繁模式挖掘的输入,分析用户点击路径中转化率薄弱的原因,为网站运营人员提升网站转化率提供参考依据。同时,在分析转化率的过程中,充分利用了hadoop和spark的特点,将两者结合起来使用,充分利用分布式计算的思想,将较大的日志文件进行拆分,用spark的并行计算提升整体解决方案的效率问题,一方面,解决了海量数据计算的可扩展性问题,另一方面也解决了hadoop带来的性能损失,提升了整体的分析效率。
    131.基于神经网络分析网站信息结构的合理性。引入人工智能领域的技术知识,利用神经网络技术代替传统的通过特征提取分析来进行预测的算法,提升算法的通用性和扩展性,先通过word2vec将用户的点击路径向量化,然后通过神经网络lstm模型训练、预测用户的点击分布,通过分析预测结果,分析网站链接和用户点击行为之间的关联关系,来指导网站运营人员优化web网站信息结构。
    132.本技术实施例通过使用mapreduce编程模型,对原始的web网站日志进行处理,还原出用户真实的点击路径,为转化率分析和网站信息结构评价提供基础数据。在用户点击路径数据的基础之上,将漏斗模型和频繁路径挖掘相结合,分析网站用户的转化率情况。即将通过漏斗模型发现的单步转化率低的节点的点击数,作为阈值输入给频繁模式挖掘程序,从而最大限度的挖掘出关联的频繁路径,为电子商务网站运营人员优化网站转化率提供依据。使用词向量工具word2vec和循环神经网络lstm,学习用户点击路径数据,从而获得预测模型,对用户的点击行为进行预测,帮助网站运营人员发现页面信息结构是否合理,为网站的信息结构优化提供参考依据。在工程实现上,本技术实施例采用的方法很大程度上改进了传统方法的性能,同时解决了针对大型电子商务网站海量数据分析的可扩展性问题。
    133.图4是根据本技术实施例的用户行为处理装置的主要单元的示意图。如图4所示,用户行为处理装置包括接收单元401、获取单元402、频繁路径确定单元403和调整单元404。
    134.接收单元401,被配置成接收用户行为处理请求,获取对应的网站标识和用户标识,基于网站标识获取对应的网站日志;
    135.获取单元402,被配置成基于网站日志确定用户标识对应的用户点击路径,获取用户点击路径中的各节点的转化率;
    136.频繁路径确定单元403,被配置成根据转化率确定各节点中的目标节点,进而调用频繁模式挖掘程序以根据目标节点确定频繁路径;
    137.调整单元404,被配置成将频繁路径输入至预测模型,以生成预测用户点击路径,进而基于预测用户点击路径调整网站标识对应的网站结构。
    138.在一些实施例中,频繁路径确定单元403进一步被配置成:确定各节点中的转化率小于预设阈值的节点;将转化率小于预设阈值的节点确定为各节点中的目标节点。
    139.在一些实施例中,频繁路径确定单元403进一步被配置成:筛选得到目标节点对应的目标节点会话;确定目标节点的转化率,将目标节点的转化率确定为支持度阈值;将目标节点会话和支持度阈值输入频繁模式挖掘程序,以得到频繁路径。
    140.在一些实施例中,调整单元404进一步被配置成:响应于频繁路径为空,基于预设的阈值梯度调整支持度阈值,直至得到的频繁路径为非空。
    141.在一些实施例中,频繁路径确定单元403进一步被配置成:根据目标节点会话生成各候选路径;确定各候选路径的支持度;将大于支持度阈值的支持度对应的候选路径确定为频繁路径。
    142.在一些实施例中,调整单元404进一步被配置成:将频繁路径转换为频繁路径向量;基于频繁路径向量预测用户点击分布,进而生成预测用户点击路径。
    143.在一些实施例中,获取单元402进一步被配置成:获取网站日志中与用户标识对应的会话标识;基于会话标识获取对应的会话数据;基于会话数据构造用户标识对应的用户点击路径。
    144.在一些实施例中,调整单元404进一步被配置成:获取用户标识对应的当前访问路径,确定预测用户点击路径中的各节点的访问概率;确定最大访问概率对应的节点,进而根据当前访问路径和最大访问概率对应的节点生成预测网站结构;获取预期网站结构,进而基于预测网站结构更新预期网站结构。
    145.需要说明的是,在本技术用户行为处理方法和用户行为处理装置在具体实施内容上具有相应关系,故重复内容不再说明。
    146.图5示出了可以应用本技术实施例的用户行为处理方法或用户行为处理装置的示例性系统架构500。
    147.如图5所示,系统架构500可以包括终端设备501、502、503,网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
    148.用户可以使用终端设备501、502、503通过网络504与服务器505交互,以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
    149.终端设备501、502、503可以是具有用户行为处理屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
    150.服务器505可以是提供各种服务的服务器,例如对用户利用终端设备501、502、503所提交的用户行为处理请求提供支持的后台管理服务器(仅为示例)。后台管理服务器可以接收用户行为处理请求,获取对应的网站标识和用户标识,基于网站标识获取对应的网站日志;基于网站日志确定用户标识对应的用户点击路径,获取用户点击路径中的各节点的转化率;根据转化率确定各节点中的目标节点,进而调用频繁模式挖掘程序以根据目标节点确定频繁路径;将频繁路径输入至预测模型,以生成预测用户点击路径,进而基于预测用户点击路径调整网站标识对应的网站结构。将通过漏斗模型发现的单步转化率低的节点作为目标节点,将目标节点的点击数,作为阈值输入给频繁模式挖掘程序,从而最大限度的挖掘出关联的频繁路径,通过使用漏斗模型和频繁模式挖掘相结合的方法,分析网站的转化率,采用大数据处理技术,快速对这些海量的点击路径数据进行挖掘,缩短分析周期,并通
    过基于神经网络的预测模型预测用户点击路径,为网站运营人员优化重点页面的信息结构提供参考依据,提升对用户的行为进行处理的方法的通用性和准确性,并提升对用户行为分析的整体处理效率。
    151.需要说明的是,本技术实施例所提供的用户行为处理方法一般由服务器505执行,相应地,用户行为处理装置一般设置于服务器505中。
    152.应该理解,图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
    153.下面参考图6,其示出了适于用来实现本技术实施例的终端设备的计算机系统600的结构示意图。图6示出的终端设备仅仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。
    154.如图6所示,计算机系统600包括中央处理单元(cpu)601,其可以根据存储在只读存储器(rom)602中的程序或者从存储部分608加载到随机访问存储器(ram)603中的程序而执行各种适当的动作和处理。在ram603中,还存储有计算机系统600操作所需的各种程序和数据。cpu601、rom602以及ram603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。
    155.以下部件连接至i/o接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(crt)、液晶征信授权查询处理器(lcd)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至i/o接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
    156.特别地,根据本技术公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本技术公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(cpu)601执行时,执行本技术的系统中限定的上述功能。
    157.需要说明的是,本技术所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由
    指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。
    158.附图中的流程图和框图,图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
    159.描述于本技术实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括接收单元、获取单元、频繁路径确定单元和调整单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
    160.作为另一方面,本技术还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备接收用户行为处理请求,获取对应的网站标识和用户标识,基于网站标识获取对应的网站日志;基于网站日志确定用户标识对应的用户点击路径,获取用户点击路径中的各节点的转化率;根据转化率确定各节点中的目标节点,进而调用频繁模式挖掘程序以根据目标节点确定频繁路径;将频繁路径输入至预测模型,以生成预测用户点击路径,进而基于预测用户点击路径调整网站标识对应的网站结构。
    161.本技术的计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现本技术实施例中的用户行为处理方法。
    162.根据本技术实施例的技术方案,将通过漏斗模型发现的单步转化率低的节点作为目标节点,将目标节点的点击数,作为阈值输入给频繁模式挖掘程序,从而最大限度的挖掘出关联的频繁路径,通过使用漏斗模型和频繁模式挖掘相结合的方法,分析网站的转化率,采用大数据处理技术,快速对这些海量的点击路径数据进行挖掘,缩短分析周期,并通过基于神经网络的预测模型预测用户点击路径,为网站运营人员优化重点页面的信息结构提供参考依据,提升对用户的行为进行处理的方法的通用性和准确性,并提升对用户行为分析的整体处理效率。
    163.上述具体实施方式,并不构成对本技术保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本技术的精神和原则之内所作的修改、等同替换和改进等,均应包含在本技术保护范围之内。
    转载请注明原文地址:https://tc.8miu.com/read-315.html

    最新回复(0)