大数据分析——二手汽车价格乏味cc

一、选题背景当今是大数据的时代,随着数据分析工具和技术的不断改进,掌握大数据分析技能可以为个人的职业发展带来很大的好处我分析的是二手汽车的价格预测,汽车作为现在普遍的代步工具,在我们的出行无论是远门或平时出门都基本上会选择的一个交通工具。根据现在公安交管局的最新统计数,全国家用车的普及率为37.4%。而还有很多公共的交通工具,滴滴出行、出租车,

所以要置换下来的汽车的数量也是一个庞大的基数。所以通过大数据的分析对于二手汽车价格的预测也是一个需要发展的地方。

(2)对数据集进行python可视化处理,判断影响二手汽车价格的因素。

(3)通过模型训练探求影响二手汽车价格的因素。

数据共有301条共有9条特征

缺失值分析

数据统计

#numericalstatsdf_main.describe()

汽车数据集缺失值查找

数据预处理

1fig,axes=plt.subplots(nrows=3,ncols=2)2fig.set_size_inches(25,13)34sns.barplot(x=df_main['Year'],y=df_main['Selling_Price'],ax=axes[0][0])5sns.barplot(x=df_main['Fuel_Type'],y=df_main['Selling_Price'],ax=axes[0][1])6sns.barplot(x=df_main['Seller_Type'],y=df_main['Selling_Price'],ax=axes[1][0])7sns.barplot(x=df_main['Transmission'],y=df_main['Selling_Price'],ax=axes[1][1])8sns.barplot(x=df_main['Owner'],y=df_main['Selling_Price'],ax=axes[2][0])9sns.scatterplot(x=df_main['Kms_Driven'],y=df_main['Selling_Price'],ax=axes[2][1])

从这些图中我们可以得出结论:

自动挡vs手动挡的数据

1fig,(ax1,ax2)=plt.subplots(nrows=2)2fig.set_size_inches(22,15)3sns.barplot(x=df_main['Year'],y=df_main['Selling_Price'],hue=df_main['Transmission'],ax=ax1)4sns.scatterplot(x=df_main['Present_Price'],y=df_main['Selling_Price'],ax=ax2)

从2012年起,自动驾驶汽车一直占据汽车行业的主导地位;汽车的售价与汽车的当前价格成正比。

1#把车辆年份转换为车辆使用的年数数据集是2020年的所以用2020-去age随后删除year这一列2df_main['Age']=2020-df_main['Year']3df_main.drop('Year',axis=1,inplace=True)4df_main.rename(columns={'Selling_Price':'Selling_Price(lacs)','Present_Price':'Present_Price(lacs)','Owner':'Past_Owners'},inplace=True)

探索性数据分析

单变量分析

df_main.columns

cat_cols=['Fuel_Type','Seller_Type','Transmission','Past_Owners']i=0whilei<4:fig=plt.figure(figsize=[10,4])#ax1=fig.add_subplot(121)#ax2=fig.add_subplot(122)#ax1.title.set_text(cat_cols[i])plt.subplot(1,2,1)sns.countplot(x=cat_cols[i],data=df_main)i+=1#ax2.title.set_text(cat_cols[i])plt.subplot(1,2,2)sns.countplot(x=cat_cols[i],data=df_main)i+=1plt.show()

从中可以看出不同数据的占比是不同的,所以在模型的预测上存在着不平衡数据集的问题,比如前一任雇主绝大多数是0,绝大多数是手动挡,绝大多数是商人售卖,绝大多数是汽油

对于数值型变量绘制箱型图进行异常值检测

num_cols=['Selling_Price(lacs)','Present_Price(lacs)','Kms_Driven','Age']i=0whilei<4:fig=plt.figure(figsize=[13,3])#ax1=fig.add_subplot(121)#ax2=fig.add_subplot(122)#ax1.title.set_text(num_cols[i])plt.subplot(1,2,1)sns.boxplot(x=num_cols[i],data=df_main)i+=1#ax2.title.set_text(num_cols[i])plt.subplot(1,2,2)sns.boxplot(x=num_cols[i],data=df_main)i+=1plt.show()

异常值在数据集中是存在的,可以先保留不进行替换,具体也可以考验模型能否很好地你和这两类数据。

1defnum_summary(dataframe,numerical_col):2quantiles=[0.05,0.10,0.20,0.30,0.40,0.50,0.60,0.70,0.80,0.90]3print(dataframe[numerical_col].describe(quantiles).T)4fornum_colindf_main[['Present_Price(lacs)','Selling_Price(lacs)','Kms_Driven']].columns:5num_summary(df_main,num_col)

多变量分析

sns.heatmap(df_main.corr(),annot=True,cmap="RdBu")plt.show()

结果显示

df_main.corr()['Selling_Price(lacs)']

df_main.pivot_table(values='Selling_Price(lacs)',index='Seller_Type',columns='Fuel_Type')

df_main.pivot_table(values='Selling_Price(lacs)',index='Seller_Type',columns='Transmission')

数据集划分

标准线性回归或普通最小二乘标准线性回归或普通最小二乘

fromsklearn.linear_modelimportLinearRegressionlr=LinearRegression()car_pred_model(lr,"Linear_regressor.pkl")

Lasso回归模型

fromsklearn.linear_modelimportLassofromsklearn.model_selectionimportRandomizedSearchCVls=Lasso()alpha=np.logspace(-3,3,num=14)#rangeforalphals_rs=RandomizedSearchCV(estimator=ls,param_distributions=dict(alpha=alpha))car_pred_model(ls_rs,"lasso.pkl")

准确率还有可以提升的空间,不过也还不错,在±5之间波动

随机森林

准确度相当高,基本上都分布在0的周围相比较而言说明随机森林的拟合能力很强

梯度提升树

结果显示:这个绘图的比例尺与之前都不同,但是不难看出,GBDT的精度超过了前面所有的精度,

每个误差在±0.2之间分布

#Technique=["LinearRegression","Ridge","Lasso","RandomForestRegressor","GradientBoostingRegressor"]results=pd.DataFrame({'Model':Technique,'RSquared(Train)':R2_train,'RSquared(Test)':R2_test,'CVscoremean(Train)':CV})display(results)print(len(Technique),len(R2_train),len(R2_test),len(CV))

我们先后进行了数据预处理、数据可视化和模型训练来探求二手汽车价格的影响因素。随着二手汽车年份越久,前任的雇主越多,汽车的价格就会相对比较低。也可以看出绝大多数是手动挡,但是现在自动挡是越来越普及。通过经销商处理的手动挡汽油类的汽车会价格较高。与当前汽车售价才是最紧密联系的。

对于本次实验,我学到了如何对数据进行预处理和可视化,学会了如何根据模型与数据的匹配程度进行调参,以及更加熟悉了整个模型训练和数据分析过程。我还学会了如何根据分析结果得出有益的结论并提出建议。在未来的工作中,我觉得对数据进行更深入的分析,对数据进行实时更新,以便更好地反映市场变化并进行及时调整。

这一次动手进行实验和体会,让我对大数据分析有了更多的体会,但还需要在之后进行更多的学习。

THE END
1.北汽银翔m20知嘹汽车 2024年01月31日 北汽这一次终于All In了 智驾网 2024年08月08日 雷军现身北汽集团总部,直言"感谢北汽集团帮助" 吴雪55 2024年04月29日 北汽股份受托接手,北汽蓝谷逆袭有望? 青橙汽车评论 2024年03月14日 ?北汽极狐,幡然醒悟 车壹条 https://news.yiche.com/tag/13541.html
2.北京202汽车懂车帝提供北京202汽车的详细内容,懂车帝是一个汽车资讯平台,懂车更懂你。我们提供最新汽车报价,汽车图片,汽车价格大全,行情、评测、导购等内容,看车选车买车就上懂车帝。https://www.dongchedi.com/tag/pgc/10058310
3.中国新能源汽车市场这么卷,都不要命了[哈202回眸一笑百媚生 中国新能源汽车市场这么卷,都不要命了 14天前1 回复@202回眸一笑百媚生 表情0/300发表评论 其他用户评论 名人小雪诺 换电模式不错,之前考虑买特斯拉,现在可能得再等等看乐道表现 15天前回复4 一到饭点就很饿 搞得高大上结果赔钱,烧钱容易赚钱难,不过车还是不错的 15天前回复3 乙不做二不https://www.ximalaya.com/sound/774411798/838791515
4.启动巡游出租汽车油价联动机制的通知(大发改价格字2024202目前大连市92号汽油零售价格为8.40元/升,根据《关于调整我市出租汽车运价的通知》(大价发〔2014〕34号)相关规定,汽油价格已达到巡游出租汽车燃油附加费起征点(8.00元/升)。为疏导成品油价格上涨对巡游出租汽车营运成本带来的影响,经市政府同意,决定启动巡游出租汽车油价联动机制。中山区、西岗区、沙河口区、甘井子区https://pc.dl.gov.cn/art/2024/4/23/art_2481_2324503.html
5.拉萨租车去成都价格及四川还车费用是多少自2024年6月20日起,拉萨租车去成都,在原有的价格基础上降低22%。 “拉萨租车去成都自驾游多少钱一天”,“拉萨租车四川还车费用多少”,是根据不同的汽车品牌,不同的“川藏线自驾游”季节决定的。今年“西藏租车去成都价格”,会高于前三年。但成都神马租车公司,依然免收“拉萨租车成都还车费用”。请游客不用担心,http://www.smzuc.com/lsz/1364.html
6.宁德时代202Ah240Ah271Ah磷酸铁锂3.2V大单体方形铝壳锂电池宁德时代202Ah 240Ah 271Ah磷酸铁锂3.2V大单体方形铝壳锂电池电车逆变器房车 ***供货、优惠、货源长期稳定、A品动力聚合物、聚合物锂电芯、动力聚合物电芯、,动力铝壳锂离子电芯等;***应用于;动力电池、电动汽车、电动工具、高尔夫球车、观光旅游车、电动摩托车、太阳能,逆变器等领域应用***、期待与您的合作https://www.china.cn/lidianchi/4671443292.html
7.无人驾驶汽车价格无人驾驶车辆暂时没有售价。也没有完全能够进行无人驾驶的车辆。无人驾驶汽车是通过车载传感系统感知道路环境,自动规划行车路线并控制车辆到达预定目标的智能汽车。它是利用车载传感器来感知车辆周围环境,并根据感知所获得的道路、车辆位置和障碍物信息,控制车辆的转向和速度,从而使车辆能够安全、可靠地在道路上行驶。集自https://3g.china.com/auto/mip/1664.html
8.2023款克蒂帝亚2.0T帝亚MH1报价参数图片58汽车为您提供2023款克蒂帝亚2.0T帝亚MH1信息,包含2023款克蒂帝亚2.0T帝亚MH1报价,参数,图片等信息,全国2023款克蒂帝亚2.0T帝亚MH1经销商及报价信息,尽在58汽车!https://product.58che.com/china/index267763.shtml
9.2023年本田汽车价格表本田系列所有车型和价格表2023本田汽车报价→本田汽车公司是一家日本大型汽车制造商,进入中国市场后成立了东风本田和广汽本田等合资企业,热门车型有本田HR-V、本田CR-V、思域、雅阁等。那么本田汽车各车型价格多少?本文小编带来了2023年本田系列所有车型和价格表,下面一起来了解2023本田汽车报价信息吧。 本田汽车品牌介绍 本田技研工业株式会社成立于1948年9月,https://www.maigoo.com/news/652202.html
10.乐乐汽车网乐乐汽车网提供最新汽车报价,汽车图片,汽车价格大全,最精彩的汽车新闻、行情、评测、导购内容,是提供信息最快最全的中国汽车网站。https://www.llocbiw.com/
11.标普调查显示消费者购买电动汽车意愿下降,价格过高是最大阻碍标普全球汽车(S&P Global Mobility)进行的一项调查发现,全球48%的消费者认为电动汽车价格过高,即使在电动汽车市场渗透率很高的地区也是如此。只有不到一半的受访者认为电动汽车技术已经为大众市场做好了准备。只有42%的人考虑在下次购车时购买电动汽车,这与2021年相比有显著下降,当时67%的受访者表示愿意购买电动汽车。https://finance.sina.cn/7x24/2023-11-10/detail-imzuasmy6525849.d.html
12.金刚汽车资讯网汽车新闻汽车报价金刚汽车资讯网_一个专注于为用户提供汽车相关资讯、导购和服务的在线平台。我们致力于为用户带来全面、及时、可靠的汽车行业动态、新车发布、车型评测和购车指南等内容。http://ibikjg.com/
13.金恒德汽车用品价格指数2020年全国汽车用品市场9月份价格指数分析 更多 每周行情分析 2020年全国汽车用品市场8月份价格指数分析 根据“中国金恒德汽车用品价格指数网”信息系统监测显示8月份汽车用品价格指数为124.71,较202 2019年2月第三周座垫座套线上销售分析 2019年2月第二周汽车美容养护用品线上销售分析 http://www.jhdindex.com/
14.汽车座椅皮套价格阿里巴巴为您找到6,241个今日最新的汽车座椅皮套价格,汽车座椅皮套批发价格等行情走势,您还可以找市场价格、批发价格等相关产品的价格信息。阿里巴巴也提供相关汽车座椅皮套供应商的简介,主营产品,图片,销量等全方位信息,为您订购产品提供全方位的价格参考。http://wuxi.1688.com/shop/www/jiage/-C6FBB3B5D7F9D2CEC6A4CCD7.html
15.汽车之家2020最新报价汽车之家2020最新下载安装选车买车便宜放心 — 拥有上万家4S店,致力为消费者提供及时、全面、准确的价格信息。 汽车之家2020最新报价功能介绍: 【专业内容 更快更全】 1、信息更快、更全、更专业的中国汽车媒体 2、汇集知名汽车媒体人,内容一定有你喜欢 【上亿网友 互动聊车】 1、火热汽车论坛-全面覆盖各个车系、品牌、地区,应有尽有https://m.18183.com/soft/2734562.html
16.新能源汽车市澈争加剧价格战难以平息截至1月31日,仅新能源汽车市场已有10多款新车上市。“据我们不完全统计,2024年中国汽车市场将有202款新品上市,其中新能源产品152款,占比75%。”长安汽车总裁王俊说。价格战难以平息 在车企新品加快上市的同时,价格战也在不断加剧。仅1月份,就有特斯拉、理想、极氪、零跑、智己、小鹏等超过16家车企下调某些http://baijiahao.baidu.com/s?id=1789612948366088368&wfr=spider&for=pc
17.专汽家园专汽家园网汇聚300大型汽车信息数据资源-为您提供最新的专用汽车报价表、专用汽车图片、专用汽车新闻资讯以及专用汽车视频,买专用汽车,上专汽家园网http://www.hc39.com/