本文属于合集:方法论
描述统计的重要性与时机
必要性:几乎所有的实证研究都需要进行描述性统计分析,除非研究完全基于理论模型推导。
实施时机:最好是做完所有检验之前&之后,都要进行描述性统计
-
初步分析:数据处理后立即进行,以自我检查数据的一致性和合理性。
- 刚下载完数据之后,也建议大家把主要的自变量 X 与因变量 Y 之间的相关关系简单的看一下,相当做一个简单的一元回归。
- 因为如果我们研究的 X 和 Y 之间的相关关系和我们预测的方向完全相反,假如我们预测它们是显著的正相关的,但是我们发现 x 和 y 它呈现的是一个显著的负相关的话,那其实这里我们就要小心了,要仔细考虑一下我们的假设是不是有问题。在最开始的时候发现问题,要好过我们都做完所有检验才发现问题。
- 之后我们再整理好数据,该开始做一些回归检验的时候呢,也建议大家每一步都做一个描述统计看一下,可以让我们知道我们在整理数据的时候踢掉了多少变量。假如我们下载数据下载了1万多个变量,但是我们经过整理之后呢只剩下了二三百个数据,那我们这里就要小心在处理数据当中是不是有错误。
- 此外我们还要看一看变量是不是有极端值,我们是不是应该对我们要做回归的变量进行缩尾处理,有没有变量缺失值。这些呢是在我们处理完数据之后做回归之前要看的描述统计
- 那等我们做完了回归之后,我们也要看一下回归结果中的样本量。
- 比如我们的样本量是5000个,但是我们回归结果报告的样本量只有1000个,那这里我们就知道要去找一找控制变量有没有缺失值。
- 还有一种可能呢就是我们用的模型是 logit 或者 probit 模型,这个模型当它的 y 值在某一个行业或者年份,它是没有变化的,比如都是0或者都是1,那他也会把整个年份或者行业的数据都剔掉。
- 以上呢都是可能造成我们回归中出现大量缺失值的原因,这些问题也都可以通过我们的描述统计进行检验出来。
- 另外在探讨内生性问题,以及其他的稳健性问题的时候,我们也可以做一些描述性统计,看看我们的 IV 或者我们外生的自然冲击选择是不是合理。
- 刚下载完数据之后,也建议大家把主要的自变量 X 与因变量 Y 之间的相关关系简单的看一下,相当做一个简单的一元回归。
-
最终分析:所有检验完成后进行,确保包含所有相关变量和控制变量。
小结
以上都是建议大家在每做一步检验之后,都做一个描述统计给自己看看。看我们的变量样本是不是合理,有没有什么明显的异常,这样做能够及时帮我们发现问题。
至于给读者看的描述统计,我还是建议大家在完成了所有检验之后再做。这个描述统计呢需要我们整理好表格并报告出来,之所以这一步建议大家在最后做,是因为我们完成了所有检验之后,才能确定我们具体需要什么变量,需要什么控制变量,包括了哪些因素,以及我们需要报告的特征是什么,那我们在处理数据以及做其他检验过程中,是没有办法确定最终我们要采取什么变量的。所以给读者看的描述统计我建议大家是在所有检验的最后再做好。
描述统计的内容
- 变量选择:需对所有有衡量意义的变量进行描述性统计,排除无次序的名义尺度变量(如股票代码、行业分类)。
- 关键统计量:样本量、平均值、标准差、最大/最小值、中位数、四分位数(25%,75%)等。
- 分类变量的分组统计:对于0-1虚拟变量,分别对两组样本的描述统计进行比较,分析差异。
- 相关性分析:分析变量间的相关性,检查控制变量间是否存在高度相关性。
Stata 中的描述统计指令
- tabstat:提供变量的平均值、标准差、最小值、最大值等描述统计量。
- 使用示例:
tabstat price mpg rep78, stat(n mean sd min max)
- 分组描述统计:通过
by()
选项按分类变量进行分组描述统计。tabstat price mpg rep78, stat(n mean sd min max) by(foreign)
- 不要总体的描述性统计,只要分组的 :
tabstat price mpg rep78, stat(n mean sd min max) by(foreign) nototal
- 转置表格:
tabstat price mpg rep78, stat(n mean sd min max) by(foreign) nototal col(stat)
- 使用示例:
- summarize:提供基本的描述统计量,如平均值、标准差、最小值和最大值。
- 使用示例:
summarize price mpg rep78
- 使用示例:
- tabulate(简称tab):用于分类变量,显示不同类别的频数和比例。
- 使用示例:
tabulate region
- 使用示例:
- correlate 和 pwcorr:分别进行变量间的相关性分析。
- correlate:排除任何含缺失值的观测。
- pwcorr:pairwise correlate,对每对变量单独处理缺失值,允许更多的数据参与分析。
- 使用示例:
pwcorr price mpg rep78, sig
,pwcorr price mpg rep78, sig star(0.01)
数据处理与检验前的描述统计
- 目的:确保数据的完整性和一致性,避免遗漏重要变量或样本量的不匹配。
- 操作:在每个数据处理步骤后,进行描述统计以自我检查和确认数据的准确性。
描述统计报告的编写
- 内容:根据研究需要和最终分析结果,决定哪些变量和统计量需要报告。
- 格式:根据期刊要求或论文指南,整理描述统计结果,使之清晰、准确地反映研究数据的基本情况。
通过上述指导,你可以更有效地在 Stata 中进行描述统计分析,为你的实证研究提供坚实的数据支持。