#数据分析的过程和别的过程没什么区别只要明确思路其他都不难拿做菜举例
数据分析过程做菜过程
明确需求明确做什么菜品
收集采集去菜市场买菜
数据清洗洗菜切菜配菜
数据分析炒菜
数据报告+数据可视化拍照发朋友圈吃
数据清洗是从记录表、表格、数据库中检测、纠正或删除损坏或不准确记录的过程
1.脏数据
没有经过处理自身含有一定问题的数据(缺失、异常、重复...)
2.干净数据
经过处理完全符合规范要求的数据
1.读取外部数据
1#读取不同文件格式命令2read_csv3read_excel4read_sql5read_html2.数据概览
1#2index3columns4head5tail6shape7describe8info9dtypes3.简单处理
移除首尾空格大小写转换...
4.重复值处理
duplicated()查看是否含有重复数据drop_duplicates()删除重复数据5.缺失值处理
删除缺失值、填充缺失值
6.异常值处理
删除异常值、修正异常值(当做缺失值处理)
7.字符串处理
切割、筛选...
YmdHMS
"""以上步骤三到步骤八没有固定顺序"""
1#先是导入数据分析三剑客模块2importnumpyasnp3importpandasaspd4importmatplotlib.pyplotasplt#选择需要进行数据分析的软件df=pd.read_csv(r'qunar_freetrip.csv')#随后便是查看其数据进行分析
"""MySQL中如何快速判断某列是否还有重复数据"""
#思路:统计某个字段选数据的个数在利用去重操作两者结合判断
#先统计数据个数(重复也会统计进去)selectcount(name)fromuserinfo;#利用去重操作先去重再计数selectcount(distinct(name))fromuserinfo;#如果两者数字相同表示name列没有重复的数据不同则表示含有重复的数据