大数据分析——二手汽车价格乏味cc

一、选题背景当今是大数据的时代,随着数据分析工具和技术的不断改进,掌握大数据分析技能可以为个人的职业发展带来很大的好处我分析的是二手汽车的价格预测,汽车作为现在普遍的代步工具,在我们的出行无论是远门或平时出门都基本上会选择的一个交通工具。根据现在公安交管局的最新统计数,全国家用车的普及率为37.4%。而还有很多公共的交通工具,滴滴出行、出租车,

所以要置换下来的汽车的数量也是一个庞大的基数。所以通过大数据的分析对于二手汽车价格的预测也是一个需要发展的地方。

(2)对数据集进行python可视化处理,判断影响二手汽车价格的因素。

(3)通过模型训练探求影响二手汽车价格的因素。

数据共有301条共有9条特征

缺失值分析

数据统计

#numericalstatsdf_main.describe()

汽车数据集缺失值查找

数据预处理

1fig,axes=plt.subplots(nrows=3,ncols=2)2fig.set_size_inches(25,13)34sns.barplot(x=df_main['Year'],y=df_main['Selling_Price'],ax=axes[0][0])5sns.barplot(x=df_main['Fuel_Type'],y=df_main['Selling_Price'],ax=axes[0][1])6sns.barplot(x=df_main['Seller_Type'],y=df_main['Selling_Price'],ax=axes[1][0])7sns.barplot(x=df_main['Transmission'],y=df_main['Selling_Price'],ax=axes[1][1])8sns.barplot(x=df_main['Owner'],y=df_main['Selling_Price'],ax=axes[2][0])9sns.scatterplot(x=df_main['Kms_Driven'],y=df_main['Selling_Price'],ax=axes[2][1])

从这些图中我们可以得出结论:

自动挡vs手动挡的数据

1fig,(ax1,ax2)=plt.subplots(nrows=2)2fig.set_size_inches(22,15)3sns.barplot(x=df_main['Year'],y=df_main['Selling_Price'],hue=df_main['Transmission'],ax=ax1)4sns.scatterplot(x=df_main['Present_Price'],y=df_main['Selling_Price'],ax=ax2)

从2012年起,自动驾驶汽车一直占据汽车行业的主导地位;汽车的售价与汽车的当前价格成正比。

1#把车辆年份转换为车辆使用的年数数据集是2020年的所以用2020-去age随后删除year这一列2df_main['Age']=2020-df_main['Year']3df_main.drop('Year',axis=1,inplace=True)4df_main.rename(columns={'Selling_Price':'Selling_Price(lacs)','Present_Price':'Present_Price(lacs)','Owner':'Past_Owners'},inplace=True)

探索性数据分析

单变量分析

df_main.columns

cat_cols=['Fuel_Type','Seller_Type','Transmission','Past_Owners']i=0whilei<4:fig=plt.figure(figsize=[10,4])#ax1=fig.add_subplot(121)#ax2=fig.add_subplot(122)#ax1.title.set_text(cat_cols[i])plt.subplot(1,2,1)sns.countplot(x=cat_cols[i],data=df_main)i+=1#ax2.title.set_text(cat_cols[i])plt.subplot(1,2,2)sns.countplot(x=cat_cols[i],data=df_main)i+=1plt.show()

从中可以看出不同数据的占比是不同的,所以在模型的预测上存在着不平衡数据集的问题,比如前一任雇主绝大多数是0,绝大多数是手动挡,绝大多数是商人售卖,绝大多数是汽油

对于数值型变量绘制箱型图进行异常值检测

num_cols=['Selling_Price(lacs)','Present_Price(lacs)','Kms_Driven','Age']i=0whilei<4:fig=plt.figure(figsize=[13,3])#ax1=fig.add_subplot(121)#ax2=fig.add_subplot(122)#ax1.title.set_text(num_cols[i])plt.subplot(1,2,1)sns.boxplot(x=num_cols[i],data=df_main)i+=1#ax2.title.set_text(num_cols[i])plt.subplot(1,2,2)sns.boxplot(x=num_cols[i],data=df_main)i+=1plt.show()

异常值在数据集中是存在的,可以先保留不进行替换,具体也可以考验模型能否很好地你和这两类数据。

1defnum_summary(dataframe,numerical_col):2quantiles=[0.05,0.10,0.20,0.30,0.40,0.50,0.60,0.70,0.80,0.90]3print(dataframe[numerical_col].describe(quantiles).T)4fornum_colindf_main[['Present_Price(lacs)','Selling_Price(lacs)','Kms_Driven']].columns:5num_summary(df_main,num_col)

多变量分析

sns.heatmap(df_main.corr(),annot=True,cmap="RdBu")plt.show()

结果显示

df_main.corr()['Selling_Price(lacs)']

df_main.pivot_table(values='Selling_Price(lacs)',index='Seller_Type',columns='Fuel_Type')

df_main.pivot_table(values='Selling_Price(lacs)',index='Seller_Type',columns='Transmission')

数据集划分

标准线性回归或普通最小二乘标准线性回归或普通最小二乘

fromsklearn.linear_modelimportLinearRegressionlr=LinearRegression()car_pred_model(lr,"Linear_regressor.pkl")

Lasso回归模型

fromsklearn.linear_modelimportLassofromsklearn.model_selectionimportRandomizedSearchCVls=Lasso()alpha=np.logspace(-3,3,num=14)#rangeforalphals_rs=RandomizedSearchCV(estimator=ls,param_distributions=dict(alpha=alpha))car_pred_model(ls_rs,"lasso.pkl")

准确率还有可以提升的空间,不过也还不错,在±5之间波动

随机森林

准确度相当高,基本上都分布在0的周围相比较而言说明随机森林的拟合能力很强

梯度提升树

结果显示:这个绘图的比例尺与之前都不同,但是不难看出,GBDT的精度超过了前面所有的精度,

每个误差在±0.2之间分布

#Technique=["LinearRegression","Ridge","Lasso","RandomForestRegressor","GradientBoostingRegressor"]results=pd.DataFrame({'Model':Technique,'RSquared(Train)':R2_train,'RSquared(Test)':R2_test,'CVscoremean(Train)':CV})display(results)print(len(Technique),len(R2_train),len(R2_test),len(CV))

我们先后进行了数据预处理、数据可视化和模型训练来探求二手汽车价格的影响因素。随着二手汽车年份越久,前任的雇主越多,汽车的价格就会相对比较低。也可以看出绝大多数是手动挡,但是现在自动挡是越来越普及。通过经销商处理的手动挡汽油类的汽车会价格较高。与当前汽车售价才是最紧密联系的。

对于本次实验,我学到了如何对数据进行预处理和可视化,学会了如何根据模型与数据的匹配程度进行调参,以及更加熟悉了整个模型训练和数据分析过程。我还学会了如何根据分析结果得出有益的结论并提出建议。在未来的工作中,我觉得对数据进行更深入的分析,对数据进行实时更新,以便更好地反映市场变化并进行及时调整。

这一次动手进行实验和体会,让我对大数据分析有了更多的体会,但还需要在之后进行更多的学习。

THE END
1.两万左右自动挡二手车推荐便宜的自动挡二手汽车→MAIGOO知识两万左右自动挡二手车排行榜,CNPP小编主要盘点了售价区间在1.5-3万的自动档二手车车型(车龄5年以内且质检合格的轿车、面包车、SUV),参考了各大汽车资讯及销售平台(优信二手车、汽车之家、人人车、瓜子二手车、58二手车)的实时售价、已驾驶公里数综合总结得出。榜单仅供参考,相关数据截止至2024年4月11日,如有疑问,https://www.maigoo.com/goomai/211218.html
2.桂林二手车信息桂林汽车信息高端汽车美容养护用品 个人DIY用品。自己动手就能做保养 五菱宏光S 1.5H豪华型出租带司机 桂林物流配送 落地配 网购大件配送 拉货 货运 桂林金卡精品二手车 【全款6.98万】2013改款奥迪Q5舒适版2.0T高配 浩然车行 19年7月东风560自动挡七座 更多》 二手车转让 https://2shou.guilinlife.com/list-221-1.html
3.二手车自动档怎么样美系车经典款福克斯可买09 款后颜值不错两厢自动挡 4AT 虽油耗稍高但稳定性不错。 韩系车起亚弗瑞迪和起亚 K2 自动挡能买到 12 年甚至 13 年的注意检查三元催化。 法系车因老款 4AT 变速箱费油不建议。 国产车在这个价位里变速箱和发动机匹配差也不建议。 总之选二手车自动挡要综合考虑车辆的稳定性、价格https://m.pcauto.com.cn/baike/834018/1634181/
4.自动挡车挂N挡熄火,对车有伤害吗?汽车N档熄火对车辆影响主要是发动机和变速器,对于发动机来讲,车辆N挡熄火,发动机转速从怠速一直到零,扭矩变化非常小,变速器对发动机没有任何反作用力,中间不受冲击,N挡熄火也就不会对车辆发动机造成损伤;对于变速器来讲,自动挡车挂N挡熄火,N档时,自动变速器扭矩传递中断,发动机扭矩突然消失,对于变速器齿轮没有影响,https://k.sina.cn/article_5144002415_1329b3f6f00100kht8.html
5.自动挡汽车二手批发价格优质货源免费查询更多自动挡汽车二手详细参数、实时报价、行情走势、优质商品批发/供应信息等,您还可以发布询价信息。https://b2b.baidu.com/slist/1e1d7f667c7b0f327a7c7f37031f
6.济南二手车济南二手车市场但是随着汽车大方向的流行趋势自动挡上手简单挂上D档踩油门就可以往前走,在城市拥堵路段,左脚不会疲劳,会开手动挡车的人基本上都会开自动挡的,很多家庭的女性驾驶员,对手动挡档位掌握不好,买一辆自动挡车型家里有驾驶证的都可以轻松驾驶。 自动挡费油吗? https://m.jnesc.com/news/49021/-4
7.自动挡二手车23万下载APP最高享万元购车好礼 更能享受更多看选车使用功能立即领取 汽车资讯汽车图片销量排行真实口碑更多答案自动挡 二手车 1一 2 万元自动挡二手车1-2万元有如下几款:1.日产蓝鸟:9.98-14.58万。2.雪佛兰乐风:6.58-9.28万。3.别克GL8:21.98-23.98万。4.本田思迪:11.98-12.98万。5.标致307:11.87-16.77万。6.https://m.yoojia.com/wenda/999989.html
8.2013年马自达星骋,自动挡,13800开走#二手车搬运工懂车帝用户威海海栋车行发布了一条小视频,视频内容为:2013年马自达星骋,自动挡,13800开走#二手车搬运工 #二手车买卖 #每天一辆代步车 #自动挡https://www.dongchedi.com/article/7444017597852552489
9.科学小野怪你真的会开自动挡汽车?这几种错误方式分分钟都在毁车简介:科学小野怪上传的资讯视频:你真的会开自动挡汽车?这几种错误方式分分钟都在毁车!,粉丝数17023,作品数3205,免费在线观看,视频简介:每天关注,每天分享,世界就是如此简单! UP主简介 科学小野怪 粉丝数:17023 作品数:3205泡泡活动 茶余饭后,轻松一刻资讯在线观看 茶余饭后,轻松一刻资讯完整版在线观看 茶余https://www.iqiyi.com/v_19rqu5an7o.html
10.收一辆一万元左右自动挡汽车阿拉汽车新北仑阿拉宁波网求购二手自动挡汽车一辆,自己开。个人一手车优先。没有什么大毛病的,有的联系 来自安卓APP客户端 https://www.cnnb.com/forum.php?mod=viewthread&tid=7745936