摘要:根据遗漏模型;建立<期望遗漏,当前遗漏,平均遗漏,最大遗漏,遗漏方差>进行knn分类;挖掘模式;
直接在代码中传递表达信息;结论预测精度比期望值约高20%;
importnumpyasnpimportpandasaspddata=pd.read_csv('F:/2014.csv')data=np.array(data.value)data=data[np.arange(0,300)]foriinnp.arange(0,len(data)):data[i]=data[i].split(',')data[i]=np.array(data[i],dtype='int32')#到这里,301个数字已经完全提取完毕;开始计算遗漏值ylz={}forkinnp.arange(10):ws=ylz[k]=[]#这里是起始空列表forjinnp.arange(0,len(data)):ifkindata[j]:ws.append(1)else:ws.append(0)'''#对于0-1序列,返回其中首个1到最终添加1的间隔数;例[0,1,0,0,1,1,0,0]目标返回[2,4,1,2];总长为len+1[0,0,0,1,1]返回[4,1,1]'''ylxl={}forsinnp.arange(10):ylxl[s]=[]ylz[s].append(1)ycc=ylz[s]forsoinnp.arange(0,len(ycc)):ifycc[so]==1:ylxl[s].append(so)else:passzc={}foroiinnp.arange(10):tu=np.array(ylxl[oi])zc[oi]=[tu[1:len(tu)]-tu[0:(len(tu)-1)]]zc[oi].insert(0,tu[0])zc#记录各个值在3D彩票2014年中的历史遗漏序列#开始记录每个值得历史遗漏,最大遗漏,平均遗漏,数学期望遗漏上面的文件命名为zcp3d.py;另外excel历史数据表修改------将excel中对应值得一列命名为value;