欢迎来到工作报告网!

基于大数据的城轨线路通过能力分析方法

安全自查报告 时间:2021-07-29 10:13:26


打开文本图片集

摘 要:在城市轨道交通线路的升级改造中,需要通过牵引计算得到线路通过能力,分析改造后的系统能力是否满足需求,为确定及改进设计方案提供依据。文章设计一种基于大数据分析技术的线路通过能力分析方法,利用海量CBTC历史运营数据及通信数据计算系统能力。新的分析模型可充分提高面向线路升级改造的线路通过能力分析准确度,从而合理设计冗余,提高经济效益,实现了对线路数据资源的有效利用。通过具体方案实现验证该方法的可行性与准确性。

关键词:通过能力;大数据;牵引计算;升级改造

1 概述

城市轨道交通线路通过能力是决定列车运行系统以及线路闭塞方案是否合理的重要依据之一。 为适应线路设备更新升级及网络化运营的需求,对既有线的升级改造已经成为我国城市轨道交通建设的一项重要内容。能力分析结果用于对改造方案进行评估优化,而现有的分析模型通常来源于车辆和信号系统制造商提供的设计参数,不能完整真实地反映列车和信号设备在外部环境动态影响下的功能表现。因此,有必要从参数模型的角度,利用大数据方法对线路历史运营数据进行分析挖掘,可以充分提高能力分析模型的准确度和应用价值。

2 能力分析与CBTC系统数据

2.1 线路升级改造中的能力分析

城市轨道交通线路的升级改造类型众多,与信号系统相关的项目主要有线路结构改造、车辆扩编、能力瓶颈点扩能、信号系统升级扩容等。不同的升级改造项目对能力分析参数的关注有侧重,也对能力分析的准确度提出了更高要求。线路的升级改造通常为增量更新,主要改造影响系统提升能力或需要扩容的部分,其他设备仅进行必要配套调整。因此,线路前期运营中产生的历史数据对于升级改造方案的确定具有重要参考价值。

2.2 线路运营中的海量数据

在城市轨道交通运营中,线路各子系统产生的历史数据可真实反映线路运营,描述列车运行与设备工作状态,为升级改造方案提供决策支持。数据及特征如表1所示。

2.3 能力分析模型的大数据特征

线路运营产生的系统数据量巨大。在CBTC系统中,车载ATP的设备记录至少保留7天,文件大小约为几十GB,一条线路一个月的数据量即可达到TB级;APM单台主机单日的数据量也在GB级,汇集多种来源的数据后,数据量将更为庞大。此外,综合监控等系统中包含大量半结构化的文本和图像、视频、配置文件等非结构化数据,如果要对这些数据加以利用,传统的关系型数据库难以满足对于这种巨量复杂数据的承载及处理要求。大数据具有数据体量大、数据类型繁多、处理速度快、价值密度低的特点,其核心价值就在于对海量数据的存储分析。因此,可应用大数据分析挖掘技术对能力分析模型进行优化。

3 基于大数据的能力分析方法设计

应用大数据进行线路通过能力分析的业务流程包括对系统数据的采集存储、预处理、数据挖掘和牵引计算4个阶段。方法核心是针对充分利用线路运营过程中CBTC及其他监控系统产生的海量数据,从参数模型的角度,研究外部环境对于能力分析模型参数取值普遍性、规律性的影响,对线路通过能力的限制条件进行挖掘细分,研究不同运营场景下的线路通过能力,对牵引计算数据模型和仿真模型进行改进。

3.1 线路和车辆模型优化

车辆模型主要指列车的牵引制动特性,线路模型数据包括线路、车站、坡度、曲率、折返区域、轨旁设备、线路限速、轨道分区及其限速、道岔及其限速等。由于列车运行过程中的工况复杂多变,站停时间、运营限速等线路运营参数和车辆模型参数往往随运营条件动态变化。因此,不同的运营条件下线路条件和车辆性能不能仅用一套模型进行描述。在众多大数据应用系统中,Hadoop表现出优越的运算效率。因此,分析模型将以Hadoop框架为核心进行整体设计。

3.1.1 原始数据获取

CBTC车载子系统可记录保存各系统的数据。将数据写入HDFS框架作为基本数据存储,经过预处理剔除格式错误及不完整的数据。由于可用数据仅占数据总体的一小部分,如车载ATP中与能力分析直接相关的运营数据仅占不到10%。因此,还需要将这些数据进行属性选择,剔除与列车运行曲线无直接关联的数据,如软件版本号、通信信息、开关量信息、列车位置标志、应答器信息、ZC切换信息、车门/屏蔽门控制信息等。利用HDFS分布式文件系统和HBase数据库模型结构实现数据的并行化存储。

3.1.2 模型动态参数合成

与列车运行相关的动态参数取值是决定模型准确度的重要因素之一。利用并行执行技术和运动学原理,根据瞬时速度的记录信息,从车载ATP应用数据中计算列车回转质量系数、分级牵引加速度、常用制动率、紧急制动率等参数,通过聚类分析对列车牵引制动特性进行分级,确定列车在实际运行的分级加速度与制动率,并确定对应级别的速度值。下面以列车分级加速度的合成步骤为例进行说明。

(1)速度属性选择。在并行执行条件下,针对加速度数据进行冗余属性处理,根据瞬时速度的变化趋势,剔除列车速度曲线中完全呈下降过程的数据,即表示列车减速的信息。(2)牵引加速度离散值的计算。根据运动学加速度公式分别对相邻的离散瞬时速度值进行牵引加速度的计算,t取车载ATP的计算周期,表2中采集的数据周期为200ms。(3)牵引加速度分级。在列车性能参数中,列车的牵引加速度是根据速度值进行分级确定。在实际运行中列车的加速情况可以通过聚类方式进行确定,包括速度等级的划分和对应的加速度值。由于K-Means方法计算速度快,且可以得到更紧密的簇,即得到的加速度分级更加严格准确,因此采用K均值聚类算法对每个加速过程的牵引加速度离散值进行分级,进行并行化实现。规定数据格式为(v,a),则问题转换为对二维数据的聚类分析。在map过程中抽取其中一个分块的部分数据为例说明,表2的数据是某列车从0-10km/h的加速过程,经聚类过程和平方误差准则函数收敛,以聚类的个数确定加速度等级划分,得到的牵引加速度分级结果为:(2,0.35);(4,0.58);(6.5,0.79);(10,0.92)四个聚类。要准确计算列车全加速过程的牵引特性,则需要通过大数据的并行计算实现。(4)列车运行过程的分级加速度确定。对各分块执行的分级加速度进行度量,相邻时间段内有个别较大偏离的表示列车性能受到外部条件干扰,进行剔除;利用欧几里得度量判断数据对象的相异度,如果有群体性的偏离数据产生,说明运营条件存在差异,需要通过划分运营场景簇的方式进行3.1.3的过程;如果运营条件类似,则不会上述情况,对于剩余相同分级且加速度取值相近的数值进行均值处理即得到最终的分级加速度。

3.1.3 线路运营场景分布式挖掘

当运营环境发生变化时,用同一套模型描述列车运行状态是不准确的。轨道交通系统作为一个复杂系统,车辆和信号设备的工况受到外部环境的影响,如高峰期列车满载条件下,列车的牵引制动性能与平峰时段会有明显差异;雨雪天气下的列车性能、道岔等固定设备的性能与干燥条件下也不能一概而论。考虑到能力分析是信号系统的固有能力,因此只考虑可预见的因素对系统能力规律性的影响,通过聚类过程把运营条件按照相似性的原则划分为若干类别。为避免多种因素对数据的共同影响,同时排除故障、突发状况等不可控因素对聚类结果的影响,对单一影响因素的参数要分别进行聚类过程,并用多因素影响的参数进行验证。以客流量和天气为主要因素进行实验。由于列车的牵引制动性能受到湿度和列车重量的共同影响,因此需要将天气和客流量两大因素同时考虑。与天气和客流相关的车辆设备参数有:

(1)客流量影响参数:站停时间、回转质量系数、列车质量;(2)天气影响参数:运营限速、列车冲击率、列车牵引加速度、列车常用制动减速度、列车紧急制动减速度、道岔动作时间。

为保证聚类质量,需要对数据进行筛选预估,研究单一因素时采用控制变量的方法,剔除掉可能从两方面同时影响运营的数据,进行单一因素聚类;同时对列车的分级加速度和常用制动率分别进行聚类过程,以排除单一参数计算结果的偏差。聚类过程通过对CURE算法的并行化实现。完成数据标准化后,从所有运营数据中抽取一个随机样本S,这个数据样本至少包含单列车一天的运营信息;再将数据分片处理为K个簇,通过Map过程计算簇之间的距离,由Reduce节点对这些簇进行统计合并。循环进行Map-Reduce过程,直到分区内的最近簇距离大于阈值,则完成聚类。聚类的结果即为不同的运营场景,对应建立不同的分析模型。

3.1.4 运营场景描述

场景描述是对运营数据挖掘的结果。完成运营数据获取和场景聚类后,完成对于多次聚类过程的结果分析,异常值的处理等过程,获取各运营场景下的线路参数及列车模型参数,即为最终的线路与列车模型。除线路参数为固定信息外,经数据挖掘得到的参数内容如表3所示。

3.2 信号系统参数模型获取

为获取准确的信号系统模型,需要提取CBTC系统的网络通信数据。DCS管理系统可以实时记录信号系统地面子系统之间与车-地之间的数据交互,通过查询记录文件可以查看网络中的数据包信息。由于数据体量和集成的需要,同样采用MapReduce进行分布式计算。对信号系统参数模型的提取包括以下过程。

3.2.1 数据信息获取

从DCS中提取通信控制器ZC与其它地面子系统、联锁与其它地面子系统、地面子系统与车载ATP/ATO之间的数据交互中,与信号系统相关的数据发送时间、源IP、目的IP、数据包内容、数据包协议和数据长度等信息,并储存在HDFS中。数据中的时间精度应足够精确。

3.2.2 参数匹配与模型建立

主要任务是根据线路和列车模型中的参数,以及对运营场景的聚类结果,使通信数据与线路控车模型中的时钟及设备的IP地址相匹配,即可对信号系统的各设备的动作时间及延时进行截取,并根据运营场景进行数据归类。由于APM与时钟系统进行时钟同步,因此可将信号系统数据与运营数据相对应,根据已经完成的聚类过程确定通信数据所属的应用范围。对完成归类的通信数据进行分析处理,得出最终的信号系统模型。建立的信号系统参数模型包括信号系统类型、闭塞制式、闭塞时间、车载设备处理时间、折返信号系统反应时间、道岔动作时间等。闭塞时间加上车载设备处理时间组成了正线系统反应时间。

3.2.3 利用行为数据进行知识发现

信号系统模型中包括一些与司机操作及乘客乘坐行为相关的参数,如启动列车操作的反应时间、司机换端过程中的处理时间、旅客上下车时间等。目前这些参数通常以实际观测和统计计算取经验值,作为信号系统模型的一部分。可以发挥大数据知识发现的优势,从CBTC车载数据中对这些数据进行提取,用以评价司机驾驶熟练程度、进行高峰期列车停站时间、折返时间的规划等,为相关研究提供辅助支持。

3.3 牵引计算仿真模型应用

3.3.1 牵引计算通用模型

能力分析的牵引计算通用模型采用单车仿真算法实现,利用运动学原理对列车追踪过程进行仿真,生成能力分析数据曲线。正线能力分析计算仿真的通用方法如图1所示。

3.3.2 特殊运营场景下的计算模型

由于特殊运营场景下设备状态和运营组织都会发生变化,影响系统能力,因此需要对突发情况持续时间T内的通过能力进行研究。经过数据建模已经对不同的运营场景进行了划分,为研究临时限速、站停时间延长导致晚点等特殊运营场景下的线路通过能力提供了数据准备。突发事件条件下能力计算有一定的不确定性。由于列车的平均旅行速度、停站时间、追踪间隔等在一定程度上都具有模糊性,因此通过能力本身具有模糊性。利用模糊随机过程对经牵引计算通用模型计算的结果进行处理,对区间能力的根据速度值进行再次细分,由速度转移概率得到通过能力转移概率,将各部分的通过能力求和后得出特殊运营场景下的系统能力,更能容错各类因素及其不确定性,计算思路如图2所示。

4 方法实现

根据以上建模方法进行基于大数据的线路通过能力分析平台设计,并通过线路历史运营数据进行验证。系统架构包括数据处理层、算法层、业务处理层、应用层和决策层,整体架构及功能如图3所示。系统实现包括Hadoop集群配置和牵引计算仿真两部分。

4.1 Hadoop集群部署配置

主要目标是完成Hadoop环境的安装配置。通过虚拟机设置实现远程登录和对数据节点的管理,通过Host文件修改、从节点用户名添加、namenode、datanode配置等操作完成Hadoop安装;配置连接参数,导入Hadoop类库后进行数据处理的代码编写,最终打包成jar文件后部署到Hadoop环境上运行。

4.2 牵引计算仿真

牵引计算利用基于大数据的能力分析平台实现。平台由基础数据库、列车模型及信号系统数据库、能力分析及评估和综合仿真演示系统构成,如图4所示。

系统根据基础数据库输入和能力分析模型自动计算列车运行数据,生成列车运行V-S、T-S曲线,计算所需的正线间隔与折返、出入段间隔,输出能力分析结果和安全距离,并通过能力评估给出提高能力的措施。利用北京地铁7号线车载记录系统CCOV及DCS的管理子系统APM的线路运营数据、通信数据对模型进行验证,系统能够准确对高峰、恶劣天气、突发客流等条件下的运营场景进行分类,并计算出对应的系统能力,满足线路升级改造中对于线路通过能力分析的需求。利用大数据合成的列车牵引计算曲线如图5所示。

5 结束语

将大数据分析挖掘技术应用于城市轨道交通线路通过能力分析过程,提取线路历史数据作为模型参数的来源,从参数模型的角度对线路通过能力进行研究,是对能力分析概念的深层次理解与应用,提高了能力分析的实用价值。方法可以对不同运营场景下的系统能力进行计算仿真,从应用角度提高了能力分析准确度,有助于线路升级改造方案的优化,从而合理设计冗余,提高经济效益。这种方法充分利用了线路前期运营信息,实现了对数据资源的有效利用。今后应进一步充分利用CBTC系统数据的隐藏价值,从数据仓库及牵引计算结果中深入挖掘有用信息,将大数据分析应用拓展到牵引供电、节能优化、人员培训、设备健康管理等领域,实现资源多价值应用。

参考文献

[1]赵刚.大数据技术与应用实践指南[M].北京: 电子工业出版社, 2013.

[2]马琳, 陈德旺, 吴智利.一种城轨移动闭塞正线通过能力的分析方法[J].铁路计算机应用,2012, 21 (6): 11-14.

[3]王秀磊, 刘鹏.大数据关键技术[J].中兴通讯技术, 2013, 19 (4): 17-21.

[4]贾琨.基于数据挖掘技术的交通信息处理与分析系统[D].山东师范大学, 2005.

作者简介:杨文轩,在读硕士研究生。

王伟,工程师。

推荐访问:线路 能力 方法 分析 数据

热门文章