1、Stata操作简介第1节概述Stata最初由美国计算机资源中心开发,现在是Stata公司的产品,其最新版本是7.0版。它灵活、简单、易学易用,是一款非常有特色的统计分析软件。现在它越来越受到人们的重视和欢迎,并与SAS和SPSS一起被称为三大新的权威统计软件。斯塔塔最突出的特点是短小精悍,力量强大。Stata的整个系统的最新版本7.0只有10M左右,但它已经包含了统计分析、数据管理和绘图的所有功能,特别是它的统计分析功能极其全面,不亚于1G以上规模的SAS系统。此外,Stata在分析时将所有数据读入内存,只有在计算完成后才与磁盘交换数据,因此运算速度极快。斯塔塔的用户群总是专业的统计分析师,所
2、以他的操作模式也是独一无二的。在视窗时代,他总是坚持使用命令行程序操作模式,并拒绝启动菜单操作系统。然而,Stata的命令语句非常简洁明了,并且在统计分析命令的设置中非常有条理。它将相同类型的统计模型放在相同的命令族下,不同的命令族可以使用相同的函数选项,这使得用户易于学习。更令人印象深刻的是,Stata语句简洁灵活,让用户可以充分发挥自己的聪明才智,熟练运用各种技能,真正做到自己想做的事情。除了简单的操作模式外,Stata的用户界面在其他方面也非常简单,数据格式简单,分析结果的输出简洁易读,所有这些都使得Stata成为非常适合统计学教学的统计软件。Stata的另一个特点是,它的许多高级统计模
3、块都是由程序员用他们的宏语言编写的程序文件(ADO文件),可以自己修改、添加和下载。用户可以随时在Stata网站上找到并下载最新的升级文件。事实上,Stata的这一特性使其始终处于统计分析方法发展的前沿,用户几乎总能快速找到Stata程序的最新版本的统计算法,这使得Stata本身成为几个主要统计软件中升级最频繁的一个。由于上述特点,Stata已被广泛应用于科学研究和教育领域,现在世界卫生组织的研究人员将Stata作为主要的统计分析软件。第2节斯塔塔操作1的介绍。斯塔塔接口图1是斯塔塔7.0启动后的接口。除了窗口版本软件的菜单栏、工具栏和状态栏之外,Stata的界面主要由四个窗口组成,描述如下:
4、1结果窗口位于界面的右上角,这里列出了软件操作中的所有信息,如执行的命令、执行结果和错误消息。不同的颜色用于区分窗口中不同的文本,例如白色表示命令,红色表示错误信息。2命令窗口位于结果窗口的底部,相当于DOS软件中的命令行。该窗口用于键入要执行的命令,输入键后命令将被执行,相应的结果将显示在结果窗口中。3命令查看窗口是位于界面左上角的查看窗口。所有执行的命令将依次在此窗口中列出,点击后命令将自动复制到命令窗口;如果需要重复执行,请用鼠标双击相应的命令。4变量名窗口位于界面的左下方,列出了当前数据和其中的所有变量名。除了以上默认打开的四个窗口外,还有数据编辑窗口、程序文件编辑窗口、帮助窗口、绘图
5、窗口、日志窗口等。在斯塔塔。如果你需要使用它们,你可以用窗口或帮助菜单打开它们。第二,数据输入和存储Stata为用户提供了一个简单而完美的数据接口。熟悉它的用法是使用Stata的第一步。在Stata中读取数据有三种方式:直接从键盘输入,打开现有的数据文件,通过复制和粘贴进行数据交互。(1)从键盘输入数据。在Stata中,数据集可以通过命令行直接建立。首先,使用输入命令创建相应的变量名,然后记录一次数据。最后,end语句用于指示数据输入的结束。示例1以下数据是在实验中获得的,因此请在Stata中建立一个数据集。观测数据:X13579,Y246810解决方案:这里需要建立两个变
6、量X和Y,并分别输入相应的值。Stata中的操作如下,下划线部分由操作员输入。(2)使用Stata的数据编辑工具编辑Stata的数据编辑界面:此时,进入数据的全屏编辑状态。图3在第一列输入数据后,Stata的第一列自动命名为VAR1;在第二列中输入数据后,第二列将自动命名为var2,依此类推。输入数据后,双击列顶部的变量名列(例如Va1或Va2)来更改变量名,并在标签列中记录变量名的含义,然后单击确定(如图4所示)。使用上述示例,双击观察值所在列顶部的变量名列,将变量名更改为X,并在标签列中标记“7岁男孩的身高/厘米”。数据输入后,点击确认键确认输入数据,并按关闭键退出编辑器。数据输入完成后
7、,点击识别输入数据,按关闭键退出编辑器。(3)复制粘贴交互式数据Stata的数据编辑窗口是一个简单的电子表格,通过复制粘贴可以直接与EXCEL等软件进行交互。当数据量不大时,这种方法操作起来非常方便。例2在EXCEL中输入了三个变量,总共有五条记录。格式如下图所示。请将数据读入Stata。解决方法:首先,在EXCEL中选择A1C6的全部18个单元格,选择编辑复制菜单,将数据复制到剪贴板;然后切换到状态,选择菜单窗口-数据编辑器,打开数据编辑窗口;再次选择编辑-粘贴,相应的数据将直接粘贴到数据编辑窗口中,变量名称、记录号和变量格式将自动正确设置,如图6和图7所示。(4)打开现有数据文件。Stat
8、a可以直接打开的数据文件只能是它自己的特殊格式或由符号分隔的纯文本格式。后者的第一行可以是变量名,描述如下:点击图标,然后选择路径和文件名,打开带有扩展名的Stata特殊格式的数据文件。dta。打开Dta数据文件:该格式文件是Stata的特殊格式数据文件,也可以使用use命令打开。例如,要打开数据文件“C:data1.dta”,命令是:使用c:data1,即可以省略扩展名。如果数据集已在Stata中修改或建立,则应使用清除选项清除原始数据,命令为:使用c:data1。文本格式数据的清晰读取应该通过使用insheet命令来实现。例如,如果需要读入已建立的文本格式数据文件“C:data1.tx
9、t”,则命令为:在使用c:data1.txt的页面中,此命令将自动识别第一行是否为变量名,变量列之间的分隔符是否为制表符。如果数据集已在Stata中修改或建立,则需要使用清除选项来清除原始数据。命令是:在使用c:data1.txt的工作表中,清除(5)保存数据文件。为了便于将来重用,应保存输入Stata的数据。事实上,Stata只能以自己的特殊数据格式或纯文本格式保存数据,如下所示:单击图标,然后选择路径和文件名,然后单击。以dta格式保存:您可以直接使用文件菜单或使用保存命令。如果要保存上面在“C:”中创建的数据文件,文件名为Data1.dta,命令为:保存c:data1文件c:data
10、1.dta已保存。该命令将在c磁盘的根目录下创建一个名为“data1.DTA”的Stata数据文件。该文件只能用Stata中的use命令打开。如果指定的文件已经存在,该命令将给出以下信息:文件c:data1.DTAready存在,告诉用户相同的文件名已经存在于目标磁盘和子目录中。如果要覆盖现有文件,请添加一个选项来替换它。命令和结果如下:savec:data1.dta,replacefilec:data1.dtaseved3以文本格式保存:需要使用outsheet命令来实现。该命令的基本格式如下。外部工作表变量名列表使用文件名,非整数替换变量名列表。如果省略,
11、所有变量将存储在指定的文件中。要将上面创建的数据文件保存到文本文件“C:data1.txt”中,命令是:此时创建的文件data1.txt的第一行是变量名,第二至第六行是变量值。可变列由制表符分隔。如果不想在第一行存储变量名,可以使用nonames选项。如果文件已经存在,您需要使用替换选项。统计描述简介:1998年某市110名19岁青年男子身高/厘米数据如下,并计算出均值、标准差、中位数、百分位和频率表。统计数据结构(读者可以直接将数据粘贴到统计数据的编辑窗口)在介绍统计分析命令之前,首先介绍打开文件保存统计分析结果的操作:计算样本的均值、标准差、最大值和最小值。命令1:su变量名(允许多个
12、变量:su变量名1变量名2变量名m)命令2:su变量名,d(允许多个变量:变量名1变量名2变量名m,d)本示例命令sux本示例命令。sux。百分位数变量名(可使用多个变量),百分位数(待计算的百分位数),例如,计算百分位数变量名,如P2.5、P97.5等。百分位数(2.597.5)本示例计算P2.5、P97.5、P50、P25和P75。在本例中,我们订购了。百分位数x,百分位数(2.525507597.5)组成频率表,组距为2,从164开始,genf=int(x-164)/2)*2164,其中int()表示以整数tabf频率汇总和频率计算作为频率图形命令的图形变量,bin
13、(#)。Norm表示绘制相应的法线曲线(您可能不需要它)。在本例中,命令是图形x,bin(8)范数。为了使坐标更清晰地显示在图形上,您可以输入以下命令GraphX,bin(8)xlabelNormalgraph可以从Stata复制到word。操作如下:然后在Word中粘贴编辑,就可以得到需要的图形。几何平均值可以通过均值变量名(多变量:表示变量1m)、均值x算术、几何和调和作为饼状图来描述组成比例:每一类的频率用一个变量来表示,命令:绘制各种频率变量名,饼状图示例:下面有两个区域的血型频率分布数据,请用pie描述它:第一个区域的血型构成比的pie图的命令,如果面积=1,Pie注意
14、如果面积=1是逻辑表达式中的两个等号。在区域2中的血型组成比率的饼图的命令和如果面积=2的图表aboab,在饼图的两个区域中合并后的血型组成比率的饼图的命令和正态性检验。在上面的例子中,110名19岁的年轻人的身高数据的正态性检验如下:H0:数据服从正态分布替代假设H1:数据不服从正态分布集合=0.05(当样本较大时,取0.05;当样本很小时,取0。测量数据统计描述的主要策略总结:如果数据近似正态分布,则用均值标准差来描述。如果数据是偏态分布(明显不对称的频率图),则用中位数(P25P75)将其称为四分位间范围(IQR)。然而,当对一些临床试验数据进行统计分析时,通常会给出样本均值、标
15、准差、中位数、四分位数范围、最小值和最大值第三讲概率分布和抽样分布概率分布累积函数1。标准正态分布累积函数范数(X)2。t分布右累积函数tt1(df,x),其中df是自由度3。2分布累积函数chi2(df,x),其中df是自由度4。2分布右累积函数chi2tail(df,x),其中df是5的累积函数F(df1,df2,x)。f自由度分布,df1是分子自由度,df2是分母自由度6。F分布右侧的累积函数F(df1,df2,x),df1是分子自由度,df2是分母自由度。因此,它们被称为伪随机数。当这些随机数在实践中使用时,这些随机数通常具有真实随机数的所有概率和统计特性,因此可以产生许多序列伪随机数。序列的第一个随机数对应于一个数,这个数称为种子数,所以随机数可以通过使用种子数来重复实现。设置种子数量以设置种子数量。每次设置相同的种子号时,生成的随机序列是相同的。为了在(0,1)区间上产生均匀分布的随机数,例如,在(0,1)区间上产生20