>>>f=DFAFilter()>>>f.add("sexy")>>>f.filter("hellosexybaby")hello****baby敏感词包括政治、脏话等话题词汇。其原理主要是基于词典的查找(项目中的keyword文件),内容很劲爆。。。
pipinstalllangid
pipinstalllangdetect
跟上一个语言检测比较,准确率低,效率高。
fromphoneimportPhonep=Phone()p.find(18100065143)#return{'phone':'18100065143','province':'上海','city':'上海','zip_code':'200000','area_code':'021','phone_type':'电信'}支持号段:13*,15*,18*,14[5,7],17[0,6,7,8]
记录条数:360569(updated:2017年4月)
npminstallphone
pipinstallngender
>>>importngender>>>ngender.guess('赵本山')('male',0.9836229687547046)>>>ngender.guess('宋丹丹')('female',0.9759486128949907)7.抽取email的正则表达式
email_pattern='^[*#\u4e00-\u9fa5a-zA-Z0-9_.-]+@[a-zA-Z0-9-]+(\.[a-zA-Z0-9-]+)*\.[a-zA-Z0-9]{2,6}$'emails=re.findall(email_pattern,text,flags=0)8.抽取phone_number的正则表达式
cellphone_pattern='^((13[0-9])|(14[0-9])|(15[0-9])|(17[0-9])|(18[0-9]))\d{8}$'phoneNumbers=re.findall(cellphone_pattern,text,flags=0)9.抽取身份证号的正则表达式
中文(现代、古代)名字、日文名字、中文的姓和名、称呼(大姨妈、小姨妈等)、英文->中文名字(李约翰)、成语词典(可用于中文分词、姓名识别)
此package的敏感词库分类更细:
文本纠错会用到
saywoini#说:我爱你相当于用英文音标,模拟中文发音。
>>>importwordninja>>>wordninja.split('derekanderson')['derek','anderson']>>>wordninja.split('imateapot')['im','a','teapot']21.IP地址正则表达式:
[1-9]([0-9]{5,11})23.国内固话号码正则表达式:
[0-9-()()]{7,18}24.用户名正则表达式:
中文词向量大全
已整理到本repo的data文件夹中.
词库已整理到本repo的data文件夹中.
文本相似度匹配算法的集合,包含多个深度学习的方法,值得尝试。
36.bert资源:
基于Tensorflow的开源工具包,旨在支持广泛的机器学习,特别是文本生成任务,如机器翻译、对话、摘要、内容处置、语言建模等
中文复合事件抽取,包括条件事件、因果事件、顺承事件、反转事件等事件抽取,并形成事理图谱。