avatar

二手车交易价格预测-赛题理解

摘要:本文介绍了二手车价格预测的赛题理解部分,主要包括了赛题概况、数据概况、预测指标以及赛题分析等。

赛题概况


比赛要求参赛选手根据给定的数据集,建立模型,二手汽车的交易价格。

来自 Ebay Kleinanzeigen (这个似乎是美国的二手车数据)报废的二手车,数量超过 370,000,包含 20 列变量信息,为了保证比赛的公平性,将会从中抽取10万条作为训练集,5 万条作为测试集 A,5 万条作为测试集 B。同时会对名称、车辆类型、变速箱、model、燃油类型、品牌、公里数、价格等信息进行脱敏。

通过这道赛题来引导大家走进 AI 数据竞赛的世界,主要针对竞赛新人进行自我练习、自我提高。

数据概况


已对name、model、brand和regionCode等信息进行了脱敏,即转化为数字形式。

预测指标


本赛题的评价标准为MAE(Mean Absolute Error):

其中代表第个样本的真实值,其中代表第个样本的预测值。


一般问题评价指标说明:

什么是评估指标:

评估指标即是我们对于一个模型效果的数值型量化。(有点类似与对于一个商品评价打分,而这是针对于模型效果和理想效果之间的一个打分)

一般来说分类和回归问题的评价指标有如下一些形式:

分类算法常见的评估指标如下:

  • 对于二类分类器/分类算法,评价指标主要有accuracy, [Precision,Recall,F-score,Pr曲线],ROC-AUC曲线。
  • 对于多类分类器/分类算法,评价指标主要有accuracy, [宏平均和微平均,F-score]。

对于回归预测类常见的评估指标如下:

  • 平均绝对误差(Mean Absolute Error,MAE),均方误差(Mean Squared Error,MSE),平均绝对百分误差(Mean Absolute Percentage Error,MAPE),均方根误差(Root Mean Squared Error), R2(R-Square)

平均绝对误差
平均绝对误差(Mean Absolute Error,MAE):平均绝对误差,其能更好地反映预测值与真实值误差的实际情况,其计算公式如下:

均方误差
均方误差(Mean Squared Error,MSE),均方误差,其计算公式为:

R2(R-Square)的公式为
残差平方和:

总平均值:

其中表示的平均值
得到表达式为:

用于度量因变量的变异中可由自变量解释部分所占的比例,取值范围是 0~1,越接近1,表明回归平方和占总平方和的比例越大,回归线与各观测点越接近,用x的变化来解释y值变化的部分就越多,回归的拟合程度就越好。所以也称为拟合优度(Goodness of Fit)的统计量。

表示真实值,表示预测值,表示样本均值。得分越高拟合效果越好。

赛题分析


价格影响因素

首先我们来看一下二手车的价格受到什么因素的影响?根据影响因素可以构造有用的特征。

  • 品牌和车型:对应数据列(brand,bodyType),在同等条件下,保有量大(一个地区拥有汽车的数量)、品牌知名度高的二手车型价格可能会比较高些。因此还需要和地区regionCode结合起来。

  • 汽车注册时间:对应数据列(regDate),简单来说就是汽车使用多久了。新车前五年的折旧率分别是:16%、12%、10%、8%、6%,逐年递减,因此选购3到4年左右的二手车比较划算,当然不同品牌不同车型的折旧率也不一样。因此,使用年限是二手车价格的决定性因素。

  • 车况和里程数:对应数据列(notRepairDamage,kilometer),车况即看是否有过大维修,以及目前是否有损坏等。里程数也是一项重要的指标,比如两年6万公里,算较为正常,两年10万公里,价格会明显低于前者,但也要根据车型的不同来衡量。

  • 配置和颜色:对应数据列(fuelType,gearBox,power,color竟然没有?),高配高价。对于家用车来说,黑色和银色的保值率会比较高。而对于跑车来说,鲜艳色的保值率可能会比较高。

  • 新车价格:对应数据列(没有?)新车价格如果下降,势必会引起二手车价格的降低。

  • 购车时间:对应数据列(createDate),但是我感觉不是,上架时间和购车时间应该不同吧。二手车也有淡旺季。旺季价格都会上涨。这个是Ebay Kleinanzeigen的二手车数据,似乎是美国的,我也⑧知道美国购车的淡旺季是什么时候?

估值方法

公平价重置成本法

重置成本法是指在现时条件下重新购置一辆全新状态的被评估车辆所需的全部成本(即完全重置成本。简称重置全价),减去该被评估车辆的各种陈旧贬值后的差额作为被评估车辆现时价格的一种评估方法。一般来讲,一辆车一年之内二手车价格较其新车价格相比损失20%左右,一年之后按每年折价10%来进行计算。

计算公式:评估价 = 当前新车价 x ( 180 - 已使用月份 ) ÷ 180

公平价现行估价法

现行估价法是指以同款式、同年份、同使用期限的车辆在二手车市场上的平均价格为基础,再考虑所评估车辆的现时技术状况评定系数,以平均价格乘以系数从而判定车辆价格。这种方法是最贴近于市场真实价格的方法,不过有一个前提条件是具备大量的市场真实交易数据作为样本,这样的平均价格更具代表性。

残值法

新车使用10年视为报废,把15%作为不折旧的固定部分为残值,其余85%为浮动折旧值。可分三个阶段:3年4年3年来折旧,折旧率分别为11%、10%和9%,前三年每年折11%。

计算公式:评估价=市场现行新车售价×[15%(不动残值)+85%(浮动值)×(分阶段折旧率)]+评估值。

评估值:应考虑该车在当地的保有量和车况(外观、保养程度),酌情给出评估值(一般为新车价的2%~5%)。

里程法

具体为:一部车有效寿命30万公里,将其分为5段,每段6万公里,每段价值依序为新车价的5/15、4/15、3/15、2/15、1/15。假设新车价12万元,已行驶7.5万公里(5年左右),那么该车估值为12万元×(3+3+2+1)÷15=7.2万元。

Author: WJZheng
Link: https://wellenzheng.github.io/2020/03/22/%E4%BA%8C%E6%89%8B%E8%BD%A6%E4%BA%A4%E6%98%93%E4%BB%B7%E6%A0%BC%E9%A2%84%E6%B5%8B-%E8%B5%9B%E9%A2%98%E7%90%86%E8%A7%A3/
Copyright Notice: All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.

Comment