命名实体识别数据预处理西西嘛呦

背景:从提供的金融文本中识别出未出现的未知金融实体

一、简单的熟悉数据

使用数据:

importpandasaspd#原始数据集train_df=pd.read_csv('./train.csv',encoding='utf-8')test_df=pd.read_csv('./test.csv',encoding='utf-8')部分数据如下:

二、清理数据

(1)找出所有的非中文、非英文、非数字符号

#一些需要保留的符号extra_chars=set("!#$%&\()*+,-./:;<=>@[\\]^_`{|}~!#¥%&?《》{}“”,:‘’。()·、;【】")print(extra_chars){')','\\','+','>','¥','‘','=','【','#',';','^','|','{','@','}','-','/',':','%','“','、','!','',']','_','】','&','~','(',')','*','?','。','[',':',';',',',',','!','.','<','’','`','(','》','·','《','”','$'}(3)找出他们之间的差异

train_df['text']=train_df['title'].fillna('')+train_df['text'].fillna('')test_df['text']=test_df['title'].fillna('')+test_df['text'].fillna('')#清除噪声train_df['text']=train_df['text'].apply(stop_words)test_df['text']=test_df['text'].apply(stop_words)train_df=train_df.fillna('')可视化train_df:

三、探索数据

(1)原始数据中可能存在一些错误的标签我们需要将其找出来

train_df['unknownEntities']=label_listtrain_df=train_df[~train_df['unknownEntities'].isnull()]#删除空标签train_df.to_csv('new_train_df.csv')new_test_df=test_df[:]#测试集new_test_df.to_csv('new_test_df.csv',encoding='utf-8',index=False)(4)看一下句子长度的分布

重新加载初步处理好的数据:

统计一下每个区间的长度的个数:

看下总体描述:

最大长度是32212,最小长度是4,75%的数据长度在1357以下。

句子还是比较长的,我们需进分句处理:

new_train_df=new_train_df.loc[:,~new_train_df.columns.str.contains("^Unnamed")]#切分训练集,分成训练集和验证集,在这可以尝试五折切割print('TrainSetSize:',new_train_df.shape)new_dev_df=new_train_df[4000:]frames=[new_train_df[:2000],new_train_df[2001:4000]]new_train_df=pd.concat(frames)#训练集new_train_df=new_train_df.fillna('')new_test_df=new_train_df[:]#测试集同样的我们要对测试集也进行相应的划分,这里的测试集是没有标签的:

#数据切分defcut_test_set(text_list):cut_text_list=[]cut_index_list=[]fortextintext_list:temp_cut_text_list=[]text_agg=''iflen(text)

五折划分数据(可选)

fromsklearn.model_selectionimportKFoldtrain_text_list=train_df['text'].values[:,None]train_label_list=train_df['unknownEntities'].values[:,None]kf=KFold(n_splits=5)fortrain_index,dev_indexinkf.split(train_text_list):train_x,dev_x=train_text_list[train_index],train_text_list[dev_index]train_y,dev_y=train_label_list[train_index],train_label_list[dev_index]验证切分是否正确:

"""测试切分是否正确"""flag=Truefori,textinenumerate(train_cut_text_list):label_list=train_cut_label_list[i].split(';')forliinlabel_list:iflinotintext:print(i)print(li)print(text)flag=Falseprint()breakifli=='':print(li)print(text)flag=Falseprint()ifflag:print("训练集切分正确!")else:print("训练集切分错误!")flag=Truefori,textinenumerate(dev_cut_text_list):label_list=dev_cut_label_list[i].split(';')forliinlabel_list:iflinotintext:print(i)print(li)print(text)print()flag=Falseifflag:print("验证集切分正确!")else:print("验证集切分错误!")

THE END
1.有色与新材料行业2025年年度策略报告:贵金属应势而上顺周期恰逢其时投资建议:以黄金为代表的贵金属货币属性预计持续凸显,全年来看金价中枢预计仍将提升,建议关注山东黄金、中金黄金;工业金属铜长周期资源瓶颈托底,内外政策驱动下需求弹性有望逐步释放,建议关注紫金矿业、洛阳钼业;电解铝方面供需格局持续向好,供应弹性缩小下需求端维持较高增速,铝价长期中枢有望进一步抬升,建议关注https://stock.finance.sina.com.cn/stock/go.php/vReport_Show/kind/search/rptid/787279952655/index.phtml
2.预计未来几个月间金价将迭创历史新高并将带动银价走高贵金属MetalsFocus:预计未来几个月间金价将迭创历史新高 并将带动银价走高 MetalsFocus发布2024年12月贵金属月报称,在各种因素的叠加作用下,现在至2025年投资者对贵金属的兴趣都应会上升。有鉴于此,MetalsFocus的贵金属价格预测值保持不变,预计未来几月间金价将迭创历史新高,并将带动银价走高。 本文源自:金融界AI电报https://www.163.com/dy/article/JJ7CR26N0519QIKK.html
3.创富盈汇贵金属贵金属代理贵金属投资炒黄金现货黄金近日,创富盈汇推出全新官网栏目“最新动态”,诚邀共赏品牌荣耀时刻,创富盈汇作为全球贵金属投资领域的领先品牌,为了满足各类投资者不断升级的贵金属投资需求,在新栏目里,你可以获取创富盈汇的最新资讯,包括所获荣誉、媒体报道以及最新活动详情,帮助投资者全方位的了解创富盈汇实力,帮助大家解决选择平台的难题。 … https://www.megarich8888.com/about/news.html
4.环融贵金属经营有限公司(澄海分公司)招聘未来,环融还将全力以赴,致力于打造中国贵金属交易行业的领军巨舰。 环融商城 环融商城(www.huanrong9999.com)是全国首家实时报价销售实物黄金的线上商城,是由环融独立运营的线上综合贵金属现货投资商城。主要业务为:投资金银条,黄金、白银、珠宝玉石饰品销售,现货回购以旧换新,金银现货定制,黄金定投等投资理财项目http://dg.pcwl.com/company/info/com_48583.html
5.宁夏融安汇通贵金属经营有限公司怎么样宁夏融安汇通贵金属有限公司是宁夏银汇合约交易中心的第189号会员。主要经营宁夏银汇合约交易中心的白银等贵金属现货及现货延期交收业务。 组织文化: 愿景:致力于切实保护广大投资者的合法权益,一步一个脚印稳健发展,不断开创新纪 元。 经营理念:以价值*大化为导向、以结果为向导员工价值与公司价值的关系;公司价值*https://www.jobui.com/company/12146006/
6.口袋贵金属下载口袋贵金属安卓版下载【品牌保证】口袋贵金属携手工行、浦发、广西黄金等黄金交易所会员单位,并作为中国银行战略合作伙伴及中国黄金会员单位,以实力铸就信誉,为您提供卓越金融服务【品牌入驻】国泰君安期货、银河期货、东吴期货、国联期货、中财期货、中泰期货、中大期货、广东期货、长安期货、海证期货、弘业期货、徽商期货、新纪元期货、国投http://www.appchina.com/app/org.sojex.finance
7.颠覆认知!这枚熊猫银币成交价高达172.5万!金银币学堂熊猫金银币是自1982年起每一年都会发行的一个经典系列,也是中国现代贵金属纪念币的最具代表性的产品。在收藏界中,熊猫金银币自然不会被大众忽略,一直以来就受到多数藏友的青睐。 根据以往的市场行情来看,熊猫金币的受欢迎程度远远大于熊猫银币,因此一些藏友的固有认知就是熊猫银币不值钱。殊不知,一枚1983年精制10元http://m.bjzxcp.com/article-54478.html
8.高温贵金属铂铑热电偶在社会大数据中心的应用推动了能源效率的新适用于各种生产过程中高温场合,广泛应用于玻璃及陶瓷及工业盐浴炉等测温。 我的主要技术参数 电气出口:M20x1.5,NPT1/2 精度等级:I 、 II 防护等级:IP65 偶丝直径:Φ0.5 公称压力:常压 我的型号及规格型 号分 度 号测温范围℃保护管材料热响应时间规 格dL x lWRP-130WRP2-130S0-1300高铝质<150SΦ16300https://www.dswjmckv.cn/gong-ye-dian-qi-she-bei/682972.html