Python大数据正态分布之箱型图上下限值计算腾讯云开发者社区

首先,正态分布是最重要的一种概率分布,正态分布(Normaldistribution),也称高斯分布(Gaussiandistribution),具体详细的介绍可自行网上查阅资料;

其次,如下图中所示的:分位数、中位数、众数等;

再者,就是今天要重点介绍的箱型图,如下图所示

通过下图所示,可初步了解下正态分布图的分布状况。

图中所示的百分比即数据落入该区间内的概率大小,由图可见,在正负一倍的sigmam内,该区间的概率是最大的。达到34.1%,而超过正负3倍的sigma以外的区间概率是最小的,只有0.1%。所以通常会使用3sigma作为分界节点。

箱型图上下限取值为什么要使用

IQR=Q3-Q1

上边缘=Q3(上四分位数)+1.5IQR

下边缘=Q1(下四分位数)-1.5IQR

原因在于Q3(上四分位数)+1.5IQR与Q1(下四分位数)-1.5IQR比较接近于正负3sigma的界限值,如下截图所示:

二、上面简单介绍了下正态分布及箱型图的知识,接下来就看如何用Python来实现大数据量的数据中上下边缘值的计算吧。

(在贴代码之前简单说下需求背景,即:公司网页上某个指标数据需要每天check下展示给用户看到的数据是否正常,且这个数据每天都会随实际的线下营业情况而不同,所以不能简单判断是否为一固定值,经过分析可以采用箱型图的上下边缘值来做判断,正常情况下应该是服从正态分布的,即落入正负3sigma的区间内,如果没有落入该区间程序则报警反馈页面数据展示异常)

以下是Python的代码实现:

该实现方法中共需要传递4个参数:

(1)、indicators_path:excel文件的路径

(2)、sheet_name:excel文件路径下对应的sheet的名称

(3)、all_data_list:数据列表,相当于Python中的list

(4)、singal_data:all_data_list中的单个元素

以下截图为excel中的大量数据集:

Line3-6:读取excel表中每列数据并转成list集合

Line7:删除excel中每列最后一行的值

Line9-10:判断如果某列的值完全一样,则赋值一个固定的字符串,供调用方判断时使用

Line12:对list中的所有数据进行反转,且由小到大的排序

Line13-17:目的是将list中除了为“nan”的数据全部放置于另一个list中

Line20-24:利用numpy函数求出箱型图中的四分之一和四分之三分位的值

Line25-30:利用前面所讲到的公式求出箱型图中上下边缘的值,也是该方法的终极目的

调用方在调用该函数时只需按规则传入对应的参数,拿到该方法返回的上下边缘值对页面上返回的数据进行区间判断即可。

THE END
1.「东方6+1基本走势图」东方6+1走势图彩经网基本走势图频道提供专业的基本走势图带连线,并免费提供上百种东方6+1走势图指标,为还在中奖路上的彩民服务。https://m.cjcp.cn/zst/cjwdf/df61_haoma.html
2.东方6+1第2024139期11月30日开奖号码结果查询乐彩网东方6+1 热点导读: 乐彩论坛乐彩网乐币排行榜太湖字谜3D走势图3D试机号分析3D和值和尾3D和值跨距排列3走势图双色球号码分布 关于乐彩|联系方式|意见反馈|免责声明|用户协议|隐私政策|网站地图|手机版 本站开奖数据仅供参考,最终结果请以福彩和体彩官方公告为准。本站展示的模拟开机号和模拟试机号来源于网络,与https://www.17500.cn/kj/detail-df61-2024139.html
3.浙江体彩网>>历史开奖查询>>6+1浙江体彩网、足彩竞猜、开奖分析、6+1、超级大乐透、中国足球彩票、20选5、大奖分布、进球游戏https://www.zjlottery.com/win/SResult.asp?flag=1
4.浙江6+1基本走势图2024088 4 2 7 56 50 1 22 8 17 9 9 11 5 3 2 23 17 3 10 8 5 14 36 3 1 3 7 4 8 6 0 15 3 1 7 9 36 4 6 13 2 13 34 19 1 5 10 9 4 3 0 7 10 8 3 6 14 1 5 9 9 2 4 26 15 5 3 10 14 1 2024089 5 3 8 57 51 2 23 7 18 1 10 12 6 3 3 24 https://lotto.sina.cn/trend/qxc_qlc_proxy.d.html?actionType=chzs&lottoType=zj61
5.浙江6+1走势图总和走势综合版带连线首页>浙江6+1总和走势 号码走势 历史开奖 基本走势 定位走势 五行走势 两面走势 升平降走势 总和走势 012路走势 大小比走势 单双比走势 质合比走势 期 至期 查看 近30期 近50期 近100期 期数 开奖号码 总和 单 双 大≧27 小< 27 24137期 787760 https://www.cpzyrj.com/zj61zhzs
6.浙江体彩6+1走势图标注形式选择: 折线 不带遗漏数据 遗漏分层 期号第一位第二位第三位第四位第五位第六位第七位 0123456789012345678901234567890123456789012345678901234567890123456789 24087 8 10 4 15 1 5 16 2 9 7 4 13 35 3 10 2 6 3 7 5 7 14 2 1 4 8 35 3 5 12 1 12 33 3 24 5 9 8 3 2 3 6 9 https://www.55128.cn/zs/63_356.htm?record=50
7.证券投资实务实训实验课精品资源共享课1、主菜单栏 如果对股票软件还不熟悉,那么通过菜单栏可以找到几乎所有它能够实现的功能。(图3) 2、综合信息栏和状态栏 在画面最低端有两行信息,即是综合信息栏和状态栏。 ①综合信息栏 图4 上证指数、涨跌、成交金额(亿):鼠标单击此处即可直接切换到上证指数分时走势图。 https://www.wdu.edu.cn/gljg/jjxy/xkjs/jpzygxk/201605/t20160527_25181.shtml
8.USDCNYUSDCNH配对交易4.4 最优协整货币对热力图 4.5 滑动时间窗口寻找最优协整货币对 5. CNY-CNH协整分析 5.1 整体数据回归的残差直方图 5.2 逐年回归的残差直方图 6. CNY-CNH配对策略交易代码 6.1 提取交易信号 6.2 计算回测收益并画图 7. 结语 1. 策略思路: 设 代表USDCNY序列, https://blog.csdn.net/lijunscut/article/details/126954619
9.福彩3D选号秘籍单选图里0、1、2路位置不固定,只在3D的百、十、个位填写当期开出的号码路数,如2006006期7 1 3在百位填1、十位填1、个位填0表示路数复式110组合,表示百、十、位的号码1、4、7个位号码是0、3、6、9,投资72元,中奖100元。 012路综合走势图里的组选图可以帮助我们判断哪路号码将缺失,一般情况我们多考虑http://www.360doc.com/content/15/0927/19/27902029_501865318.shtml
10.股票技术指标分析详解单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,股票技术分析详解,技术分析,分时图的基础知识,K,线图的基础知识,第一节,分时图的基础知识,分时走势图也叫即时走势图,它是把股票市场的交易信息实时地用曲线在http://m.zhuangpeitu.com/article/252979418.html
11.实践阿里QuickBI智能图表入门为了分析毛利额下滑原因,您需要先查看月度毛利额的走势,确认毛利额在哪个月份出现下滑。同时需要分析销售额的月度走势,确认近几个月的销售情况。本文以线图来展示月度毛利额和月度销售额的走势图。 查看月度毛利额统计 您可以通过线图查看毛利额的月度走势数据。 https://www.jianshu.com/p/f498b1ef7aae
12.煤炭价格最新行情走势图详解及指导手册,最新动态与操作指南1、确定数据来源 通过搜索引擎查找各大煤炭行业网站、财经网站等,关注其发布的煤炭价格信息,确保数据来源的可靠性,以确保获取的数据准确。 2、访问相关网站 打开浏览器,输入网址,访问相关网站,寻找煤炭价格信息,一般会有专门的煤炭价格行情页面。 3、查看煤炭价格走势图 https://zhuoyanxinli.com/post/8006.html
13.ICS2023国际尿控协会年会华西医院沈宏罗德毅教授团队16项研究亮相,展望结果:共收集中文社交媒体UI相关帖子24,770篇,LDA将其分为六个UI内容主题:1. UI对生活质量的影响(5,908);2. 传统中医治疗UI(4,793);3. 女性压力性尿失禁(4,651);4. 神经源性下尿路功能障碍(4,408);5. UI的病因(3,348);和6. 老年患者并发尿失禁(1,662)。与主题1、2、4和6相关的情感都是负面https://www.cd120.com/public/department/Urology/dynamics/76136.html
14.Python学习笔记StatsModels统计回归——可视化1、如何认识可视化? 图形总是比数据更加醒目、直观。解决统计回归问题,无论在分析问题的过程中,还是在结果的呈现和发表时,都需要可视化工具的帮助和支持。 需要指出的是,虽然不同绘图工具包的功能、效果会有差异,但在常用功能上相差并不是很大。与选择哪种绘图工具包相比,更重要的是针对不同的问题,需要思考选择什么https://www.flyai.com/article/893