文本正越来越成为社会科学研究中的重要的可观察足迹。大规模利用这些数据为社会科学提供了独特的机会,但也提出了与之对应的独特挑战。本文用较为易懂的语言解释了作者对自动文本分析三个类别的解释,它有助于我们更为生动地理解:什么是自动文本分析?其优缺点何在?我们何以看待其未来发展?本次编译节选了其中较为清晰易懂的解释性部分,希望能为大家打开一扇自动文本分析的小小窗户。
自动文本分析的三种类别
摘要:本世纪以来,社会科学家越来越多地使用由人类生成的、机器可读格式的文本数据,这些数据为我们了解社会生活提供了一个独特的窗口。然而,如何系统地利用这些高度非结构化的海量数据,在分析和方法上都面临着独特的挑战。幸运的是,我们对如何克服这些挑战的理解在同一时期也有了很大的发展。在本文中,我将对社会科学家在大规模分析文本数据时所使用的方法进行新颖的分类。在本文中,我将对社会科学家用于大规模分析文本数据以检验和发展社会理论的方法进行新颖的分类。我将其分为三类:(1)词频分析,(2)文档结构分析,以及(3)语义相似性分析。对于每个方法系列,我都会讨论它们的逻辑和统计基础、分析的优缺点,以及突出的变体和应用。
作者简介:
AustinvanLoon,美国斯坦福大学
本文作者:AustinvanLoon
本文将当今最常见的自动文本分析方法分为三类。第一类是词频分析法,它将文本表示为某些字符串(如单词)出现频率不同的观察结果。第二个系列是文档结构分析,它假定人们可以从词语共现统计中提取出任何给定文档的“内容”(即适当的关键词或主题),并将文本表示为在这一特征上各不相同的观察结果。第三个系列是语义相似性分析,它试图量化字符串的含义,并将文本表示为这些含义的集合。
一、词频分析法
社会科学家们利用越来越多的计算资源和机器可读的自然语言来测量词语选择的模式,即特定词语的使用频率,此类方法称为词频分析。这类方法大致分为两类。第一类是封闭式词汇方法,先验地指定一套理论构造,通过选词和文本元数据进行操作。第二种是开放式词汇方法,即通过对选词进行归纳分析,找出能解释文本元数据某些方面的模式。下面我将依次描述并举例说明这两种方法,然后在讨论部分对它们进行比较。
(1)封闭式词汇方法
词频的一种用途是作为标准假设检验框架中的变量。也就是说,我们首先要对两个或多个理论概念之间的关系提出一个理论,而某些词汇的频率(通常是归一化的)就是这些概念中的一个或多个概念的可操作化呈现。然后,这些词汇的频率被用作回归分析等统计程序中的变量。其中的关键假设在于,一个或一组词汇的流行程度与理论上的构架是有意义的。
没有一个固定的方法来得出一组用于理论结构的单词,但我们可以观察到一个大致的框架。首先,开发一组“种子词”,即与感兴趣的概念紧密对应的关键字。然后,这些种子词可以通过人类的判断加以扩展。也可能有一个修剪阶段,与感兴趣的概念关系太远的单词被删除。这些步骤可以重复多次,直到达到一个令人满意的词汇组为止。类似地,在编译后也没有验证的单一方法。牢记一点:我们应该回到语料库中使用的词汇中的特定示例,以确认它们是否按预期使用。
(2)开放式词汇方法
图1:开放词汇和封闭词汇的词频分析法的过程比较
在预测文本作者的重要心理变量时,开放词汇方法一般优于封闭词汇方法。然而,社会科学家通常对预测不感兴趣,而是对检验现有的社会理论感兴趣。词频分析的核心假设是一个词汇的流行程度始终反映了文档、其作者或文档产生的上下文等有意义的东西。然而,单词有多种含义,这可能会导致研究人员误入歧途。所有的词汇频率分析,无论是开放词汇还是封闭词汇,最终都依赖于研究人员确定的验证来证明词汇频率和理论结构之间的对应关系。
二、文档结构分析
词汇词频分析通常将词汇视为原子,而文档通常是日常生活中有意义地使用文本的单位。我们更经常谈论的是具体的推文、政策平台和文本信息,而不是个人使用某个词或某类词的频率。我所讨论的第二类方法分析文档层面,试图估算词语在文档中分布的隐性模式。
文档结构分析在理论构建和检验中的作用至少有两个方面。首先,它可以通过突出语料库中的重要主题来辅助基础理论或其他归纳法。另外,文档中出现的主题也可以作为衡量标准,用来概括语料库的内容,对预先指定的理论进行演绎测试。
文档结构分析有两种主流方法。第一种是通过贝叶斯推理推断主题的方法集,被广泛称为“主题模型”。第二种方法将文档词汇矩阵(或其转换)视为邻接矩阵,然后将其建模为网络。然后采用社区发现算法(CommunityDetectionAlgorithms)来识别主题。
三、语义相似性分析
在语义相似性分析中,研究者对语料库中所使用的概念或单词给出一个与其含义相对应的定量表示,随后再对其定量表示进行比较。原则上,这可以用各种工具来实现。然而在社会科学中,绝大多数用于定量表示词汇含义的方法是所谓的“单词嵌入”。分配假说指出,当两个词的“含义”更相似,使用的上下文更相似时更相似。换句话说,如果两个词汇是完全可互换的,那么它们就是完全同义的——它们的互换性越少,它们的同义性就越少。
图2中列举了一个例子,其中可见“牙医”和“正畸医生”相互使用的语境更相似,而不是“医生”,这表明“牙医”和“正畸医生”更同义,而不是“医生”。
图2:说明分布语义的核心思想的概念图
语义相似性分析的应用可以通过感兴趣的数量是单个语义空间内的单词的接近性,还是从多个语料库估计的语义空间间相同距离的差异来区分。我称前者为“语料库内方法”,后者为“语料库间方法”。
(1)语料库内方法
(2)语料库间方法
编译|Gavagai
审核|李晶晶
终审|Mono
Political理论志
本文观点仅供参考,不代表Political理论志观点
原标题:《怎么处理文本数据?自动文本分析的三种类别|SocialScienceResearch》