一种基于时空数据聚类的出行兴趣区域提取方法及系统

    专利查询2022-07-07  159



    1.本发明属于交通运输技术领域,尤其涉及一种基于时空数据聚类的车辆出行兴趣区域提取方法和系统。


    背景技术:

    2.城市交通的兴趣区域是指居民出行量较大,停留时间较长,商业较发达的区域,因此其交通状态相对复杂,对该区域的研究对城市交通管理和城市规划具有指导性的意义。传统的数据大多采用的是出租车gps数据,采用dbscan算法,对参数的依赖大,传统的方法大多只注重空间上的聚集性而忽略了时间序列的偏好性,只能反映出城市居民出行的特定空间地理区域,而无法挖掘特定时间上居民喜欢访问的地方,在特定区域居民停留行为的长短同样一定程度反映了兴趣区域的偏好性,如何结合空间聚集性,时间偏好性,停留时间等维度来挖掘城市出行兴趣区域是当前亟待解决的问题。


    技术实现要素:

    3.针对上述技术问题,本发明提供了一种基于时空数据聚类的出行兴趣区域提取方法和系统,使用层次密度聚类的hdbscan算法,相比较传统的dbscan算法,降低了对参数的依赖。本发明注重空间上的聚集性和时间序列的偏好性,反映出城市居民出行的特定空间地理区域,并挖掘出特定时间上居民喜欢访问的区域,以及在特定区域居民停留行为的长短,结合了空间聚集性、时间偏好性和停留时间的维度来挖掘城市出行兴趣区域,使用hdbscan算法和时间特性相结合,发现了更多的聚类,降低了对dbscan算法对参数的依赖,使时空挖掘结果更加精确。
    4.本发明的技术方案是:一种基于时空数据聚类的出行兴趣区域提取方法,包括以下步骤:
    5.步骤s1.原始车牌识别与数据预处理:识别原始车牌号码作为区分不同车辆的标识,对车牌识别数据进行预处理,剔除不合理数据;
    6.步骤s2.通过预处理后的车牌识别数据提取车辆行驶轨迹;
    7.步骤s3.提取od数据集:根据时间阈值,对提取的车辆行驶轨迹截断,提取出车辆行驶出发点o到目的地点d的od数据集;
    8.步骤s4.提取空间兴趣点区域:基于层次密度聚类算法对所述od数据集聚类得到空间聚集区域,发现空间兴趣点区域;
    9.步骤s5.提取时空兴趣点区域:对所述空间兴趣点区域进行时间序列上的聚类得到时空兴趣点区域;
    10.步骤s6.提取所述时空兴趣点区域的经纬度。
    11.上述方案中,所述步骤s1中识别车牌号码具体为:
    12.识别的车牌号码lpn作为区分不同车辆的标识,车辆vehiclei经过路口,卡口系统会对车辆记录一条数据,包括车牌号码,行驶方向drection,点位经纬度(lng,lat),过车时
    间ti的字段,原始车牌识别过车数据结构如下:
    13.vehiclei=(lpn,drection,lng,lat,ti)
    14.上述方案中,所述步骤s1对车牌识别数据进行预处理具体为:
    15.对所述原始车牌识别数据中的异常数据、冗余数据或不完整的数据进行删除处理;
    16.所述异常数据为原始车牌识别数据中经纬度坐标不在预设范围内的车牌识别数据;
    17.所述冗余数据为当车牌号码、检测点编号属性都一致的情况下,且这些记录的相邻时间差小于该路口的最小红绿灯时间时,将这些数据视为冗余数据;
    18.所述不完整数据为当实验数据中存在车牌号码、检查点编号、检测时间任何一个不完整时,需将记录从数据库中删除。
    19.上述方案中,所述步骤s2具体为:
    20.将车辆经过各个卡口点位的过车数据按时间序列线性排列,即可构成该车辆行驶轨迹tracki:
    [0021][0022]
    其中,k表示车辆轨迹序列的索引号,n为分析周期内车辆轨迹k的总长度,表示车辆在时刻下的时空特性,和表示车辆在时刻的经度和纬度。
    [0023]
    上述方案中,所述步骤s3中轨迹截断具体为:
    [0024]
    车辆出行的轨迹是由多个子轨迹组成,通过时间阈值对轨迹截断,在所有的轨迹数据遍历中,当且仅当数据之间的时间间隔超过设计的阈值时,才会将该点视为车辆的停留点,作为上段轨迹的终点和下个轨迹的起点,提取出所有的od数据对,构成车辆轨迹k的od数据集sk:
    [0025][0026]
    其中,j代表车辆轨迹k的不同子轨迹,m为子轨迹的总个数,和分别表示不同轨迹的起点和终点。
    [0027]
    上述方案中,所述步骤s4中层次密度聚类算法:
    [0028]
    所述层次密度聚类算法只需要设置一个参数,即簇中的最小点数min_cluster_size,该算法计算数据集中各个点的可达性距离:
    [0029]dmreach-k
    (a,b)=max{corek(a),corek(b),d(a,b)}
    [0030]
    其中,corek(a)表示采样点a到核心的距离,corek(b)表示采样点b到核心的距离,d(a,b)是采样点a和采样点b之间的原始度量距离;
    [0031]
    以样本点之间的相互可达距离为边,建立最小生成树,并将树转化为层次结构,设置聚类参数min_cluster_size(最小簇包含点个数),使用输入参数min_cluster_size查找压缩的簇树,通过稳定性函数得到密度自适应的聚类结果。
    [0032]
    上述方案中,所述步骤s4提取空间兴趣点区域具体为:
    [0033]
    调用arcgis工具中基于密度的聚类算法,选择自调整(hdbscan),设置聚类的主要参数min_cluster_size,输入车辆目的地d点数据集进行聚类,得到聚类id,表示各个点所
    属的簇,提取出各个簇,形成空间兴趣点区域。
    [0034]
    上述方案中,所述步骤s5具体为:
    [0035]
    基于空间兴趣点区域对时间轴二度聚类,在空间兴趣点区域单一簇内部进行基于时间轴的密度聚类,从而对用户是否在特定时间内访问特定兴趣区域进行挖掘,获得综合了时间、空间两个维度的兴趣区域,即时空兴趣点区域。
    [0036]
    一种实现所述基于时空数据聚类的出行兴趣区域提取方法的系统,包括原始车牌识别模块、数据预处理模块、车辆行驶轨迹提取模块、od数据集提取模块、空间兴趣点区域提取模块、时空兴趣点区域提取模块、兴趣点区域经纬度提取模块:
    [0037]
    所述原始车牌识别模块用于识别原始车牌号码作为区分不同车辆的标识,并传递给数据预处理模块,数据预处理模块用于对车牌识别数据进行预处理,剔除不合理数据;
    [0038]
    所述车辆行驶轨迹提取模块用于通过预处理后的车牌识别数据提取车辆行驶轨迹;
    [0039]
    所述od数据集提取模块用于根据时间阈值,识别车辆停留点,对提取的车辆行驶轨迹截断,提取出车辆行驶出发点到目的地点的od数据集;
    [0040]
    所述空间兴趣点区域提取模块用于基于层次密度聚类算法对所述od数据集聚类得到空间聚集区域,发现空间兴趣点区域;
    [0041]
    所述时空兴趣点区域提取模块用于对所述空间兴趣点区域进行时间序列上的二次聚类得到时空兴趣点区域;
    [0042]
    所述兴趣点区域经纬度提取模块用于提取时空兴趣点区域的经纬度。
    [0043]
    上述方案中,所述原始车牌识别模块为路网上的卡口系统,所述数据预处理模块、车辆行驶轨迹提取模块、od数据集提取模块、空间兴趣点区域提取模块、时空兴趣点区域提取模块、兴趣点区域经纬度提取模块均集成在计算机中。
    [0044]
    与现有技术相比,本发明的有益效果是:本发明结合了空间聚集性、时间偏好性和停留时间的维度来挖掘城市出行兴趣区域,使用hdbscan算法和时间特性相结合,发现了更多的聚类,降低了对dbscan算法对参数的依赖,使时空挖掘结果更加精确。
    附图说明
    [0045]
    图1是本发明一总体流程图;
    [0046]
    图2是本发明一实施方式的dbscan聚类结果;
    [0047]
    图3是本发明一实施方式的hdbscan聚类结果;
    [0048]
    图4是本发明一实施方式的对时间约束的层次密度聚类结果,其中,图4(a)为聚类id为1的簇,图4(b)为聚类id为1的簇,图4(c)为聚类id为1的簇,图4(d)为聚类id为1的簇,图4(e)为聚类id为1的簇,图4(f)为聚类id为1的簇;
    [0049]
    图5是本发明一实施方式的结合时间空间聚类提取出的兴趣点分布经纬度情况。
    具体实施方式
    [0050]
    下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
    [0051]
    在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
    [0052]
    一种基于时空数据聚类的出行兴趣区域提取方法,包括以下步骤:
    [0053]
    步骤s1.原始车牌识别与数据预处理:识别原始车牌号码作为区分不同车辆的标识,对车牌识别数据进行预处理,剔除不合理数据,提高数据质量;
    [0054]
    步骤s2.通过预处理后的车牌识别数据提取车辆行驶轨迹;
    [0055]
    步骤s3.提取od数据集:根据时间阈值,对提取的车辆行驶轨迹截断,提取出车辆行驶出发点o到目的地点d的od数据集;
    [0056]
    步骤s4.提取空间兴趣点区域:基于层次密度聚类算法对所述od数据集聚类得到空间聚集区域,发现空间兴趣点区域;
    [0057]
    步骤s5.提取时空兴趣点区域:对所述空间兴趣点区域进行时间序列上的聚类得到时空兴趣点区域;
    [0058]
    步骤s6.提取所述时空兴趣点区域的经纬度。
    [0059]
    本实施例,优选的,运行环境是window10操作系统,硬件配置是amd ryzen 7 5800h with radeon graphics的cpu,内存为8gb;算法的编写使用python3.7语言,结果可视化主要通过arcgis工具实现。
    [0060]
    本实施例使用的数据集是深圳市630个卡口系统的摄像头采集到的数据,记录了357辆车同一天的行程轨迹,包含14819条数据。
    [0061]
    根据本实施例,优选的,所述步骤s1中识别车牌号码具体为:
    [0062]
    通过路网上摄像头识别的车牌号码lpn(license plate number)作为区分不同车辆的标识,车辆vehiclei经过路口,卡口系统会对车辆记录一条数据,包括车牌号码,行驶方向drection,点位经纬度(lng,lat),过车时间ti的字段,原始车牌识别过车数据结构如下:
    [0063]
    vehiclei=(lpn,drection,lng,lat,ti)
    [0064]
    根据本实施例,优选的,所述步骤s1对车牌识别数据进行预处理具体为:
    [0065]
    对所述原始车牌识别数据中的异常数据、冗余数据或不完整的数据进行删除处理,提高数据分析和应用的准确度;
    [0066]
    所述异常数据为原始车牌识别数据中经纬度坐标不在预设范围内的车牌识别数据;本实施例的研究数据是深圳市车牌识别数据,坐标系采用wgs 1984 worldmercator,研究区域范围为经度为113.67至114.50,纬度为22.46至22.97,因此剔除原始数据中经纬度坐标不在该范围的数据。
    [0067]
    所述冗余数据为当车牌号码、检测点编号属性都一致的情况下,且这些记录的相邻时间差小于该路口的最小红绿灯时间时,将这些数据视为冗余数据,做删除处理;
    [0068]
    所述不完整数据为当实验数据中存在车牌号码、检查点编号、检测时间任何一个不完整时,需将记录从数据库中删除。
    [0069]
    根据本实施例,优选的,所述步骤s2具体为:
    [0070]
    将车辆经过各个卡口点位的过车数据按时间序列线性排列,即可构成该车辆行驶轨迹tracki:
    [0071][0072]
    其中,k表示车辆轨迹序列的索引号,n为分析周期内车辆轨迹k的总长度,表示车辆在时刻下的时空特性,和表示车辆在时刻的经度和纬度。
    [0073]
    根据本实施例,优选的,所述步骤s3中轨迹截断具体为:
    [0074]
    车辆出行的轨迹是由多个子轨迹组成,通过时间阈值对轨迹截断,在所有的轨迹数据遍历中,当且仅当数据之间的时间间隔超过设计的阈值时,才会将该点是为车辆的停留点,作为上段轨迹的终点和下个轨迹的起点,提取出所有的od数据对,构成车辆轨迹k的od数据集sk:
    [0075][0076]
    其中,j代表车辆轨迹k的不同子轨迹,m为子轨迹的总个数,和分别表示不同轨迹的起点和终点。
    [0077]
    根据本实施例,优选的,所述步骤s4中层次密度聚类算法:
    [0078]
    相比较传统的基于密度的聚类算法dbscan,基于分层密度的空间聚类算法在检测随机形状区域的方面十分有效,如对兴趣点区域的检测,可以发现更多的密度区域,并可以有效的将噪声点从聚类区域分散开来,dbscan算法需要两个初始参数,各个点之间的最大距离即邻域半径,和聚类中的最小点数即密度阈值,dbscan算法对参数的选择十分敏感,初始参数选择不佳可能会导致灾难性的聚类效果,并对聚类的大小和数量产生影响,而层次密度聚类算法hdbscan是对dbscan的增强,是以数据为驱动的算法,只需要设置一个参数,即簇中的最小点数min_cluster_size,降低了聚类结果对初始参数选择的依赖,该算法计算数据集中各个点的可达性距离:
    [0079]dmreach-k
    (a,b)=max{corek(a),corek(b),d(a,b)}
    [0080]
    其中,corek(a)表示采样点a到核心的距离,用欧几里得距离表示,corek(b)表示采样点b到核心的距离,d(a,b)是采样点a和采样点b之间的原始度量距离;在此度量下,密集区域的采样距离不受影响,而稀疏区域的采样点与其他采样点之间的距离增大,增强了算法对噪声点的鲁棒性。
    [0081]
    以样本点之间的相互可达距离为边,建立最小生成树,并将树转化为层次结构,设置聚类参数min_cluster_size(最小簇包含点个数),使用输入参数min_cluster_size查找压缩的簇树,通过稳定性函数得到密度自适应的聚类结果
    [0082]
    根据本实施例,优选的,所述步骤s4提取空间兴趣点区域具体为:
    [0083]
    调用arcgis工具中基于密度的聚类算法,选择自调整(hdbscan),设置聚类的主要参数min_cluster_size,输入车辆目的地点数据集进行聚类,得到聚类id,表示各个点所属的簇,提取出各个簇,形成空间兴趣点区域。
    [0084]
    根据本实施例,优选的,所述步骤s5具体为:
    [0085]
    基于空间兴趣点区域对时间轴二度聚类,在空间兴趣点区域单一簇内部进行二度的基于时间轴的密度聚类,从而对用户是否在特定时间内访问特定兴趣区域进行挖掘,获
    得综合了时间、空间两个维度的兴趣区域,即时空兴趣点区域。
    [0086]
    如图2和3所示,可以看出,hdbscan算法在设置了更少的参数的情况,其自适应的特性可以发现更多的聚类,并且每个聚类中样本点的个数要多于dbscan,验证了hdbscan算法对发现在兴趣点聚集区域更有效。
    [0087]
    对时间约束的层次密度聚类结果如图4(a)-(f)所示,最终有六个簇,其中聚类id为1的簇,居民访问的时间段集中在10点到14点;聚类id为2,3,4的簇,居民访问的时间段集中在5点到9点之间,呈现出早高峰的态势,聚类id为6的簇,居民访问的时间段集中在14点到17点,聚类id为5的簇,居民访问的时间段集中在21点半到23点,一般为夜间活动频繁的区域。
    [0088]
    提取兴趣区域经纬度结果如图5所示,从图5可以看出车辆目的地兴趣区域分布,其中聚类id为1和6的簇分布在深圳站附近,可见居民大多会选择早上九点到下午18点乘坐火车,聚类id为5的簇分布在商场,酒店,餐厅附近,是夜间较活跃的区域,聚类id为2的簇分布在宝安机场,聚类id为3的簇分布在学校,写字楼附近,呈现早高峰的态势,聚类id为4的簇分布在罗田区,在地铁7号线和4号线交界处,附近具有时代广场,福田口岸商业广场商圈,是人流量较多,商业较繁华的地段。
    [0089]
    本发明注重空间上的聚集性和时间序列的偏好性,反映出城市居民出行的特定空间地理区域,并挖掘出特定时间上居民喜欢访问的区域,以及在特定区域居民停留行为的长短,结合了空间聚集性、时间偏好性和停留时间的维度来挖掘城市出行兴趣区域,使用hdbscan算法和时间特性相结合,发现了更多的聚类,降低了对dbscan算法对参数的依赖,使时空挖掘结果更加精确。
    [0090]
    一种实现所述基于时空数据聚类的出行兴趣区域提取方法的系统,包括原始车牌识别模块、数据预处理模块、车辆行驶轨迹提取模块、od数据集提取模块、空间兴趣点区域提取模块、时空兴趣点区域提取模块、兴趣点区域经纬度提取模块:
    [0091]
    所述原始车牌识别模块用于识别原始车牌号码作为区分不同车辆的标识,并传递给数据预处理模块,数据预处理模块用于对车牌识别数据进行预处理,剔除不合理数据;
    [0092]
    所述车辆行驶轨迹提取模块用于通过预处理后的车牌识别数据提取车辆行驶轨迹;
    [0093]
    所述od数据集提取模块用于根据时间阈值,识别车辆停留点,对提取的车辆行驶轨迹截断,提取出车辆行驶出发点到目的地点的od数据集;
    [0094]
    所述空间兴趣点区域提取模块用于基于层次密度聚类算法对所述od数据集聚类得到空间聚集区域,发现空间兴趣点区域;
    [0095]
    所述时空兴趣点区域提取模块用于对所述空间兴趣点区域进行时间序列上的二次聚类得到时空兴趣点区域;
    [0096]
    所述兴趣点区域经纬度提取模块用于提取时空兴趣点区域的经纬度。
    [0097]
    优选的,所述原始车牌识别模块为路网上的摄像头,通过路口摄像头使得路网上的车辆的地理位置信息和车辆经过路口的过程能够以时空数据的形式被记录下来,海量连续型的车辆时空轨迹数据为识别城市兴趣区域进而挖掘居民出行时空特征提供了数据支撑和保障。
    [0098]
    所述数据预处理模块、车辆行驶轨迹提取模块、od数据集提取模块、空间兴趣点区
    域提取模块、时空兴趣点区域提取模块、兴趣点区域经纬度提取模块均集成在计算机中。
    [0099]
    本发明采用的卡口车牌识别数据扩大了样本,结果更加能反映城市居民出行特征,使用层次密度聚类的hdbscan算法,相比较传统的dbscan算法,降低了对参数的依赖。
    [0100]
    应当理解,虽然本说明书是按照各个实施例描述的,但并非每个实施例仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
    [0101]
    上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施例的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施例或变更均应包含在本发明的保护范围之内。
    转载请注明原文地址:https://tc.8miu.com/read-1147.html

    最新回复(0)