首页 国匠精神:认真坚持梦想 (国匠规划论坛:规划行业交流平台) 常用规范 天气与日历 切换到宽版 开启辅助访问
日报 讨论 问答 学堂 招聘

admin 管理员

有 1098 人收听 TA
1292主题 2911回复 191772积分

发新帖

学员作品:出租车数据的处理与可视化展示

时间:2016-12-14 20:50 5 820 | 复制链接 |

发送原创文章至admin@caup.net,可申请注册邀请码

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

【城市数据研习社——优秀学员作品展示】


出租车数据的处理与可视化展示

0?wx_fmt=jpeg.jpg

前言:本期数据实践栏目,来自城市数据研习社社员魏小帅的实践案例,学号A40。

魏小帅目前就读于同济大学城市规划系,于2016年8月报名参加了由国匠城和城市数据团共同举办的《面向规划实践的数据能力增强计划》,是城市数据研习社苏州分社成员,具备城市数据综合分析能力,特此颁发认证,以资鼓励。

0?wx_fmt=jpeg.jpg

本栏目将持续推出城市数据研习社社员作品,并作为课程考核环节,为达到实践能力的社员,提供在线能力认证,证书网址:www.caup.net/cert ,也可在公众号菜单中查询。

往期回顾:


大家好,我是小帅,人同其名,如果帅是一种罪,那我已经罪恶滔天,本帅目前就读于同济大学城市规划系,研究生三年级。本期,我将为大家分享一下如何处理城市出租车数据。

在城市级交通大数据中,较为常见的有地铁刷卡数据、常规公交刷卡数据、出租车GPS数据。另外,还有在互联网浪潮的推动下兴起的滴滴打车GPS数据以及Mobike行车记录的GPS数据等。

但是一直以来,对于出租车GPS数据的应用主要集中在两个方面。第一,作为出租车运营管理中心监控使用,可以实时获知每辆出租车的位置信息、载客状态等。第二,通过出租车不断上传的GPS数据,包括运营速度字段,推算城市道路的拥堵情况。但是,利用出租车GPS数据分析客流需求以及出租车司机群体的运营路线,这样的研究还较少。

关于出租车GPS数据研究较少的原因,本帅斗胆臆断一下。

首先,出租车作为交通工具受到人们的重视程度不如地铁和常规公交。地铁和常规公交的乘客人次也远远高于出租车。其次,相对于地铁和常规公交而言,出租车没有固定的站点和线路,导致研究问题不易聚焦。

最后,出租车GPS数据的数据结构相对复杂,数据处理难度也相对较大。

于是,本帅怀着强烈的好奇心,开始着手处理上海市某日的出租车GPS数据,看看能玩儿出什么花样。

Step1:提取载客状态

原始数据中,每辆车每隔一段时间(一般为秒数级)就会上传一条状态数据,包括 taxi_id,time,lng,lon,speed,state。根据运营状态(state)的切换区分空驶状态与载客状态,并识别出每一单行程的路径。

随机抽选一辆出租车,识别出了运单42次。这一步是为了将无序的GPS数据处理成了有序地,并增加了trip_id字段,以下为上海某一老司机一天之内的订单形成轨迹图:

0?wx_fmt=jpeg.jpg

这位出租车师傅,一天共接42单,主要活动在徐汇区和黄浦区。

Step2:打车需求空间及时间分布

将step1得到的数据,取每次载客的起点,即可得到打车需求的空间分布。

0?wx_fmt=jpeg.jpg
从空间分布上看,打车需求主要集中在外环线以内的地区,以及市级对外交通枢纽,如虹桥综合交通枢纽、浦东机场。在中心城区内,淮海中路、人民广场、陆家嘴、徐家汇、五角场等商业中心的打车需求明显高于其他地区。

0?wx_fmt=jpeg.jpg

从打车需求的时间分布上看,中午12点至13点是打车需求最旺盛的时间段。此外,晚上20点至21点也存在一个明显的小高峰。

当然,也可以进一步得到去特定地点的打车需求。例如,打车去浦东机场的空间需求分布。

0?wx_fmt=jpeg.jpg

去浦东机场的打车需求主要集中在中心城区,特别是淮海中路、人民广场及陆家嘴地区。

Step3:出租车OD空间分布

在step1所得到的有序的载客记录中,选取每次载客的起点和终点,即可得到出租车出行的OD空间分布。

0?wx_fmt=jpeg.jpg

可以明显看到,市级商业中心与交通枢纽等人流密集地之间的打车需求较大。特别是虹桥枢纽与淮海中路和人民广场的联系很强

由这万余辆出租车所描绘出的轨迹中,我们可以看到这座城市清晰的结构。虹桥--市中心、五角场、陆家嘴等等。似乎所有出租车的可能性都已标注在一张巨大的城市蓝图上,不再有改变的空间。

Step4:出租车全天绩效分析

前三步都是从城市规划的角度所做的一些分析。但是,无法遏制的好奇心将我带到了出租车运营状况的问题上。以出租车为单位,统计每辆车每天的接单数、载客里程、运营收入、平均载客里程、全天总行驶里程、夜间接单数等等指标。通过这些指标,可以勾勒出出租车司机群体的工作状态。

0?wx_fmt=jpeg.jpg

0?wx_fmt=jpeg.jpg

辛苦工作的出租车司机接单数主要集中在30-45之间。当然,极少数老司机能突破60。

0?wx_fmt=jpeg.jpg

出租车司机一天的运营收入(毛收入)的平均值为1130元,而在运营收入在1000元至1400元之间的占到40%以上。

Step5:出租车江湖门派分类

数据越玩越有劲儿!于是,本帅以出租车司机不同的接单策略,总结出了出租车江湖的五大派别。

0?wx_fmt=jpeg.jpg

0?wx_fmt=jpeg.jpg

可以看到:

1,接单王以平均1566元的运营收入在高手间的角逐中,率先败下阵来。看来只靠苦力努力以及暴力刷单,在套路深厚的老司机流派中显然是没有太大前途的。

2,另辟蹊径的夜行侠和盘踞区域的稳定僧,分别以1599元、1616元的成绩位列第二梯队。只要在特定的时间和空间上找到属于自己的领域,就算竞争再激烈也有自己的一席之地。

3,而高手中的高手,将在效率帝和长途哥中间产生。在最后的决斗中,效率帝凭借1710元的运营收入,以微弱的优势战败了长途哥,获得了年度最佳老司机流派的殊荣。

虽然在各类老司机中,效率帝的平均收入最高,但是大家都知道高手之间过招,胜负往往在一念之间。

因此,在不同的预期目标下,最优策略可能会有所不同。请看下图:

0?wx_fmt=jpeg.jpg

可以看到,长途哥和效率帝这两条曲线在不同的预期收益之间来回波动,交替上升。当预期收入设定在1500元时,长途哥会占据上风,而在1500元至1870元之间,则是效率帝胜出,但假如要拼极限收入能力,最后还是长途哥独领风骚。

五大派别策略的详细介绍,请参看城市数据团《老司机的江湖》。



一个数据分析师的自我修养

在做了这么多数据分析工作之后,我来想谈谈自己的感触。

1.基本的分析数据、处理数据、数据可视化的能力。这些技能层面的东西是基本工,必须掌握,且要不断进步、更新。

2.对数据所包含信息的敏感性。什么样的数据有价值,什么样的数据能做到何种深度的研究。这种直觉性需要慢慢培养。从事数据分析的经验越多,我们的直觉判断就越准。这可以保证我们不会在一堆破烂儿数据中做无用功。

3.保持强烈的好奇心。我很多时候在分析数据的过程中,真的是完全停不下来。因为自己特别好奇会得到什么样的结果。数据结果是否会符合自己的预期?如果不符,又是什么原因造成了。

就在这环环相扣的好奇心驱动下,我不断深入探寻数据以及数据背后的故事。所以对我来说,每一次分析一批数据都是一次奇妙的探秘之旅!



5回复

jackyliu0918 发表于 2016-12-25 00:28:48 | 显示全部楼层 | 举报
估计大家都会问数据来源,呵呵
叶汐 发表于 2016-12-16 09:16:18 | 显示全部楼层 | 举报
最上面的分析图像打车需求是怎么做出来的
小葱 发表于 2016-12-24 18:34:19 | 显示全部楼层 | 举报
想请教下,数据是怎么获得的?
kkmm130 发表于 2017-2-14 09:35:50 | 显示全部楼层 | 举报
LZ说得好啊,发现面对日渐繁重的生活和生(加)存(班)压力,保持旺盛的好奇心实属不易。。。
热牛奶! 发表于 2017-2-23 08:35:39 | 显示全部楼层 | 举报
江湖门派很有意思哦,看来平时看点小说还是很有用的,嘻嘻~~
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 5 返回列表 返回顶部