怎么处理文本数据?自动文本分析的三种类别SocialScienceResearch澎湃号·湃客澎湃新闻

文本正越来越成为社会科学研究中的重要的可观察足迹。大规模利用这些数据为社会科学提供了独特的机会,但也提出了与之对应的独特挑战。本文用较为易懂的语言解释了作者对自动文本分析三个类别的解释,它有助于我们更为生动地理解:什么是自动文本分析?其优缺点何在?我们何以看待其未来发展?本次编译节选了其中较为清晰易懂的解释性部分,希望能为大家打开一扇自动文本分析的小小窗户。

自动文本分析的三种类别

摘要:本世纪以来,社会科学家越来越多地使用由人类生成的、机器可读格式的文本数据,这些数据为我们了解社会生活提供了一个独特的窗口。然而,如何系统地利用这些高度非结构化的海量数据,在分析和方法上都面临着独特的挑战。幸运的是,我们对如何克服这些挑战的理解在同一时期也有了很大的发展。在本文中,我将对社会科学家在大规模分析文本数据时所使用的方法进行新颖的分类。在本文中,我将对社会科学家用于大规模分析文本数据以检验和发展社会理论的方法进行新颖的分类。我将其分为三类:(1)词频分析,(2)文档结构分析,以及(3)语义相似性分析。对于每个方法系列,我都会讨论它们的逻辑和统计基础、分析的优缺点,以及突出的变体和应用。

作者简介:

AustinvanLoon,美国斯坦福大学

本文作者:AustinvanLoon

本文将当今最常见的自动文本分析方法分为三类。第一类是词频分析法,它将文本表示为某些字符串(如单词)出现频率不同的观察结果。第二个系列是文档结构分析,它假定人们可以从词语共现统计中提取出任何给定文档的“内容”(即适当的关键词或主题),并将文本表示为在这一特征上各不相同的观察结果。第三个系列是语义相似性分析,它试图量化字符串的含义,并将文本表示为这些含义的集合。

一、词频分析法

社会科学家们利用越来越多的计算资源和机器可读的自然语言来测量词语选择的模式,即特定词语的使用频率,此类方法称为词频分析。这类方法大致分为两类。第一类是封闭式词汇方法,先验地指定一套理论构造,通过选词和文本元数据进行操作。第二种是开放式词汇方法,即通过对选词进行归纳分析,找出能解释文本元数据某些方面的模式。下面我将依次描述并举例说明这两种方法,然后在讨论部分对它们进行比较。

(1)封闭式词汇方法

词频的一种用途是作为标准假设检验框架中的变量。也就是说,我们首先要对两个或多个理论概念之间的关系提出一个理论,而某些词汇的频率(通常是归一化的)就是这些概念中的一个或多个概念的可操作化呈现。然后,这些词汇的频率被用作回归分析等统计程序中的变量。其中的关键假设在于,一个或一组词汇的流行程度与理论上的构架是有意义的。

没有一个固定的方法来得出一组用于理论结构的单词,但我们可以观察到一个大致的框架。首先,开发一组“种子词”,即与感兴趣的概念紧密对应的关键字。然后,这些种子词可以通过人类的判断加以扩展。也可能有一个修剪阶段,与感兴趣的概念关系太远的单词被删除。这些步骤可以重复多次,直到达到一个令人满意的词汇组为止。类似地,在编译后也没有验证的单一方法。牢记一点:我们应该回到语料库中使用的词汇中的特定示例,以确认它们是否按预期使用。

(2)开放式词汇方法

图1:开放词汇和封闭词汇的词频分析法的过程比较

在预测文本作者的重要心理变量时,开放词汇方法一般优于封闭词汇方法。然而,社会科学家通常对预测不感兴趣,而是对检验现有的社会理论感兴趣。词频分析的核心假设是一个词汇的流行程度始终反映了文档、其作者或文档产生的上下文等有意义的东西。然而,单词有多种含义,这可能会导致研究人员误入歧途。所有的词汇频率分析,无论是开放词汇还是封闭词汇,最终都依赖于研究人员确定的验证来证明词汇频率和理论结构之间的对应关系。

二、文档结构分析

词汇词频分析通常将词汇视为原子,而文档通常是日常生活中有意义地使用文本的单位。我们更经常谈论的是具体的推文、政策平台和文本信息,而不是个人使用某个词或某类词的频率。我所讨论的第二类方法分析文档层面,试图估算词语在文档中分布的隐性模式。

文档结构分析在理论构建和检验中的作用至少有两个方面。首先,它可以通过突出语料库中的重要主题来辅助基础理论或其他归纳法。另外,文档中出现的主题也可以作为衡量标准,用来概括语料库的内容,对预先指定的理论进行演绎测试。

文档结构分析有两种主流方法。第一种是通过贝叶斯推理推断主题的方法集,被广泛称为“主题模型”。第二种方法将文档词汇矩阵(或其转换)视为邻接矩阵,然后将其建模为网络。然后采用社区发现算法(CommunityDetectionAlgorithms)来识别主题。

三、语义相似性分析

在语义相似性分析中,研究者对语料库中所使用的概念或单词给出一个与其含义相对应的定量表示,随后再对其定量表示进行比较。原则上,这可以用各种工具来实现。然而在社会科学中,绝大多数用于定量表示词汇含义的方法是所谓的“单词嵌入”。分配假说指出,当两个词的“含义”更相似,使用的上下文更相似时更相似。换句话说,如果两个词汇是完全可互换的,那么它们就是完全同义的——它们的互换性越少,它们的同义性就越少。

图2中列举了一个例子,其中可见“牙医”和“正畸医生”相互使用的语境更相似,而不是“医生”,这表明“牙医”和“正畸医生”更同义,而不是“医生”。

图2:说明分布语义的核心思想的概念图

语义相似性分析的应用可以通过感兴趣的数量是单个语义空间内的单词的接近性,还是从多个语料库估计的语义空间间相同距离的差异来区分。我称前者为“语料库内方法”,后者为“语料库间方法”。

(1)语料库内方法

(2)语料库间方法

编译|Gavagai

审核|李晶晶

终审|Mono

Political理论志

本文观点仅供参考,不代表Political理论志观点

原标题:《怎么处理文本数据?自动文本分析的三种类别|SocialScienceResearch》

THE END
1.www.stats.gov.cn/zsk/snapshoot?reference=33e2b9cdb6391521c5知识库 知识分类:|知识来源: |发布日期:https://www.stats.gov.cn/zsk/snapshoot?reference=33e2b9cdb6391521c53328be6244e40b_E0674EF1D588ECF83FBFA8A59D967D14
2.机器学习数据预处理—统计分析方法条件概率权重信度系数核心原理是增加样本数较少类别中的部分样例达到类别平衡。过采样法因增加样例而增大了时间开销,但要注意防止过拟合。过采样法的代表性算法是SMOTE。 3 连续值离散化 连续属性离散化(Discretization of Continuous Attributes)是指将连续数据分段为一系列离散化区间,每个区间对应一个属性值。连续属性离散化的主要原因: https://blog.csdn.net/mnwl12_0/article/details/137429779
3.常用的数据分析方法常见问题常用的数据分析方法有:1、对比分析法;2、分组分析法;3、结构分析法;4、留存分析法;5、交叉分析法;6、漏斗分析法;7、矩阵分析法;8、象限分析法;9、趋势分析法;10、指标分析法;11、综合评价分析法。其中“对比分析法”是对数据进行比较以分析数据间的差异,包括静态比较和动态比较。 1、对比分析法 即比较分析https://m.php.cn/faq/572257.html
4.大数据分析五步法数据分析五步法是啥大数据分析五步法 数据分析五步法是啥 数据驱动的时代,无论你的工作内容是什么,掌握一定的数据分析能力,可以帮助你更好的认识这个世界,更好的提升工作效率。 数据分析流程主要分为五个关键环节:明确数据分析目的、明确数据源及数据口径、数据处理、数据分析、输出。https://blog.51cto.com/u_16213595/7028099
5.数据分析的三大方法是什么指数平滑法是一种用于预测未来数据趋势的方法。通过指数平滑法可以了解数据的趋势和波动,进而作出相应的决策。例如,企业可以通过指数平滑法预测产品销售量在未来一段时间内的趋势和波动,进而制定相应的生产计划和销售策略。 3.回归分析 回归分析是一种用于预测未来数据和因素之间关系的方法。通过回归分析可以了解数据和因素https://www.linkflowtech.com/news/2717
6.数据分析的八种方法数据分析的八种方法1.指标对比分析法 指标对比分析法,又称比较分析法——是统计分析中最常用的方法。是通过有关的指标对比来反映事物数量上差异和变化的方法。有比较才能鉴别,单独看一些指标,只能说明总体的某些数量特征,得不出什么结论性的认识; https://www.cda.cn/view/14770.html
7.《谁说菜鸟不会数据分析(入门篇)》,读书笔记萱草yy1定义:数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。 2目的:把隐藏在一大批看似杂乱无章的数据背后的信息集中和提炼出来,总结出所研究对象的内在规律。 3分类:数据分析可划分为描述性数据分析,探索性数据分析和验证性数据分析。描述性分析是日常工作中主要的数据分析,有对比分析法、平https://www.cnblogs.com/xuancaoyy/p/5816757.html
8.「数据分析」十六种常用的数据分析方法分享三、逻辑回归分析法。 「数据分析」十六种常用的数据分析方法分享,该模型要求变量为连续的正态分布变量,且自变量与变量呈线性关系,而逻辑回归模型对变量的分布没有要求,通常用于变量的离散。 类别: 逻辑回归模型有条件和非条件两种,条件Logistic回归模型与非条件Logistic回归模型的区别在于参数报价是否使用了条件概率,其它https://www.dtstack.com/news/7370
9.学会看数据流,向高级诊断师进发3、因果分析法 指对相互之间有因果关系(或有联系)的数据间响应情况和响应速度进行对比判断。如压缩机的工作,并不是直接由AC开关直接控制,而是ECU对多种信号进行评判后再确定是否让压缩机进行工作。 4、关联分析法 指对彼此有关联的数据进行分析,对比后来查看故障是否存在。如电子油门踏板的位置信号与节气门位置传感器https://www.yoojia.com/ask/17-12215014079437050870.html
10.数据分析的概念与方法(3)数据处理 数据处理是指对收集到的数据进行加工、整理,以便开展数据分析,它是数据分析前必不可少的阶段。这个过程是数据分析整个过程中时间占比最大的,也在一定程度上取决于数据仓库的搭建和数据质量的保证。 数据处理主要工作包括数据清洗、数据转化、数据抽取、数据合并、数据计算等处理方法,利用这些方法将各种原始https://www.jianshu.com/p/d236c74f6e62