1.本发明涉及网约车领域,尤其涉及一种乘客画像数据生产方法。
背景技术:
2.乘客画像数据,全量乘客数目前积累已经2亿级别,涵盖的标签范围广泛,主要涉及基础属性、出行偏好、消费偏好、充值属性、优惠劵偏好、设备信息、行为属性、用户挑剔度、账户属性、评价投诉、逾期行为、特殊标签属性等等超过160个,计算乘客标签属性的来源包括了基础和运营数据,每天更新指标数320亿量级,生产这些数据需要消耗大量的时间和软硬件资源,且越到后面,随着数据量增加,终究会达到瓶颈,一定是不可持续。
3.综上所述,持续增长的乘客数和标签数,需要解决减少计算复杂度和计算量,可以把乘客进行分类,区分出活跃乘客、非活跃乘客、注销乘客三类,首约用180天的运营数据判定是否活跃乘客,用基础数据判定注销乘客;活跃乘客每天参与数据更新,非活跃和注销乘客不参与计算。
技术实现要素:
4.鉴于上述问题,提出了本发明以便提供克服上述问题或者至少部分地解决上述问题的一种乘客画像数据生产方法。
5.根据本发明的一个方面,提供了一种乘客画像数据生产方法,所述生产方法包括:
6.创建乘客码表;
7.维护所述乘客码表;
8.根据所述乘客码表判断活跃乘客,获得活跃乘客id;
9.根据所述活跃乘客id获取需要更新的日期和乘客;
10.获取数据范围;
11.根据所述数据范围分批处理活跃用户。
12.可选的,所述创建乘客码表具体包括:
13.乘客id是自动增长的数字类型;
14.把所述乘客id加上注册日期前缀yyyymmdd,用年月日分区存储,制作一张乘客id 注册日期的码表dim_regdate_userid。
15.可选的,所述维护所述乘客码表具体包括:
16.每日新增的乘客id同步入库到dim_regdate_userid,历史数据无需处理。
17.可选的,所述根据所述乘客码表判断活跃乘客,获得活跃乘客id具体包括:运营数据包括订单、日志、优惠券、账户、评价投诉5类订单;
18.评价投诉取近180天数据,日志、优惠券、账户取近1天数据,获取乘客id。
19.可选的,所述根据所述活跃乘客id获取需要更新的日期和乘客具体包括:获取活跃乘客id,与码表关联,确认出注册日期。
20.可选的,所述获取数据范围具体包括:乘客按照注册日期,取订单、评价投诉的数
据范围大于等于注册日期且取近180天。
21.可选的,所述根据所述数据范围分批处理活跃用户具体包括:将所述活跃用户所在注册日期,分开并行处理。
22.本发明提供的一种乘客画像数据生产方法,所述生产方法包括:创建乘客码表;维护所述乘客码表;根据所述乘客码表判断活跃乘客,获得活跃乘客id;根据所述活跃乘客id获取需要更新的日期和乘客;获取数据范围;根据所述数据范围分批处理活跃用户。保障乘客画像数据完整前提下,仅对活跃乘客数据更新,减少生产软硬件开销,有效释放硬件资源供其他项目的使用。
23.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
24.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
25.图1为本发明实施例提供的一种乘客画像数据生产方法的流程图。
具体实施方式
26.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
27.本发明的说明书实施例和权利要求书及附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元。
28.下面结合附图和实施例,对本发明的技术方案做进一步的详细描述。
29.如图1所示,本发明是解决乘客画像数据生产耗时过长,占用软硬件资源过多,影响了运营对数据及时性需求和同期其他项目对硬件资源的需求。
30.由于乘客画像的特点是,乘客唯一,乘客与标签是1对多的关系,用近180天的运营数据判断乘客是否活跃,对活跃用户的标签进行生产。
31.处理步骤和逻辑:
32.创建乘客码表:乘客id是自动增长的数字类型,首先把乘客id加上注册日期前缀yyyymmdd,用年月日分区存储,做一张乘客id 注册日期的码表dim_regdate_userid。
33.维护乘客码表:每日新增的乘客id同步入库到dim_regdate_userid,历史数据无需处理。
34.判断活跃乘客:运营数据包括订单、日志、优惠券、账户、评价投诉5类,订单、评价投诉因为状态变化,取近180天数据,日志、优惠券、账户取近1天数据,找出乘客id。
35.需要更新的日期和乘客:找出的活跃乘客id,与码表关联,确认出注册日期。
36.获取数据范围:乘客按照注册日期,取订单、评价投诉的数据范围大于等于注册日期且取近180天,即时间谁大取谁,保障取到的数据范围是有效且是最少,减少后面的计算量。
37.分批处理:活跃用户所在注册日期,分开并行处理,提升产出时效。
38.有益效果:保障乘客画像数据完整前提下,仅对活跃乘客数据更新,减少生产软硬件开销,有效释放硬件资源供其他项目的使用;能及时产出数据,支持运营。
39.以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
技术特征:
1.一种乘客画像数据生产方法,其特征在于,所述生产方法包括:创建乘客码表;维护所述乘客码表;根据所述乘客码表判断活跃乘客,获得活跃乘客id;根据所述活跃乘客id获取需要更新的日期和乘客;获取数据范围;根据所述数据范围分批处理活跃用户。2.根据权利要求1所述的一种乘客画像数据生产方法,其特征在于,所述创建乘客码表具体包括:乘客id是自动增长的数字类型;把所述乘客id加上注册日期前缀yyyymmdd,用年月日分区存储,制作一张乘客id 注册日期的码表dim_regdate_userid。3.根据权利要求1所述的一种乘客画像数据生产方法,其特征在于,所述维护所述乘客码表具体包括:每日新增的乘客id同步入库到dim_regdate_userid,历史数据无需处理。4.根据权利要求1所述的一种乘客画像数据生产方法,其特征在于,所述根据所述乘客码表判断活跃乘客,获得活跃乘客id具体包括:运营数据包括订单、日志、优惠券、账户、评价投诉5类订单;评价投诉取近180天数据,日志、优惠券、账户取近1天数据,获取乘客id。5.根据权利要求1所述的一种乘客画像数据生产方法,其特征在于,所述根据所述活跃乘客id获取需要更新的日期和乘客具体包括:获取活跃乘客id,与码表关联,确认出注册日期。6.根据权利要求1所述的一种乘客画像数据生产方法,其特征在于,所述获取数据范围具体包括:乘客按照注册日期,取订单、评价投诉的数据范围大于等于注册日期且取近180天。7.根据权利要求1所述的一种乘客画像数据生产方法,其特征在于,所述根据所述数据范围分批处理活跃用户具体包括:将所述活跃用户所在注册日期,分开并行处理。
技术总结
本发明提供的一种乘客画像数据生产方法,所述生产方法包括:创建乘客码表;维护所述乘客码表;根据所述乘客码表判断活跃乘客,获得活跃乘客ID;根据所述活跃乘客ID获取需要更新的日期和乘客;获取数据范围;根据所述数据范围分批处理活跃用户。保障乘客画像数据完整前提下,仅对活跃乘客数据更新,减少生产软硬件开销,有效释放硬件资源供其他项目的使用。有效释放硬件资源供其他项目的使用。有效释放硬件资源供其他项目的使用。
技术研发人员:曾科源
受保护的技术使用者:首约科技(北京)有限公司
技术研发日:2022.02.22
技术公布日:2022/5/25
转载请注明原文地址:https://tc.8miu.com/read-3553.html