一、
统计知识
公式:样本误差()=Z21、 请写出计算样本误差的公式,并标明每一个字母的统计意义。
p(1-p)n其中:P为比例值,n为样本量,
Z为在标准正态发布下,对应于不同置信区间下的临界值,数值代表该点到均值的距离是标准差的倍数,Z值可以通过查找统计表“标准正态分布右侧尾部累积概率表\"获得。如取置信区间为95%,则右侧尾部累积概率为1/2*(1—95%) =0.025,查表Z=1。96.置信区间取值越高(如99%),则右侧尾部面积越小(0。005),临界Z值也越大(距离均值的距离越远).
和客户的沟通通常是:
写出这个核算样本误差的公式,然后说明:
样本误差与概率分布(标准差)有关,对应p(1-P)值,也与样本量有关,样本量越大(当然费用越高),误差越小,但两者并非线性关系,也即增加样本量,并不能等比减小样本误差,因此,超过一定的样本量,成本效益降低,我们会建议相对合适的样本量(如300个)。
核算样本误差的方法:
通常在计划书中核算出给定置信度的最大样本误差,因为我们当时并不知实际的标准差,就采用最保守的方法来核算. 通常取95%置信度时的临近Z值(1.96),p=0。5使得标准差最大,来核算最大样本误差。
其实,置信度与置信区间有不同,取95%置信度时,置信区间为µ(总体均值)+-1。96*SE(标准误差),也即今后测试到的数据,落在这个置信区间的可能性是95%,也有5%的出错可能,并未落在这个区间。
如样本量为300,则可计算出95%置信度下的最大样本误差为5。7%,如调研结果是**支持率50%,则区间 为50%-5。7%~50%+5。7%,即44.3%~55.7%,全面描述的语言是:
我有95%把握说,**支持率在44。3%~55。7%之间,也意味着,有5%的可能是错的(不在这个区间里)。
如取99%置信度(出错可能更小),则区间更大,即描述为:我有99%把握说,**支持率在“42。6%~57。4%\"之间
2、 请计算出以下样本量时,95%置信度下的最大样本误差:
样本量 150 300 850
按照前面所说公式核算,这在以后的计划书中,取不同样本数时需要了解。虽然研究部有常用的“样本量vs最大样本误差”对应表,但可能在客户处,突然提出了不同的样本数,需要你及时算出,虽然,你可以取出接近的样本数来说明,不过,感觉就没有那么专业.
1
最大样本误差 8.0% 5.7% 3。4% 3、 如在300个样本时,完全随机抽样的调研结果是:A品牌市场占有率为8%(请注意不是50%),那么,在统计上, 完整的描述是:
从调研数据结果来看,有95%把握说:A品牌市场占有率在4.9%~11。1%之间.
计算方式:
这里P不应取50%算最大误差,而算实际的样本误差,p=8%,1-p=92%,n=300,因此,按公式算出95%置信度的样本误差(绝对误差)=3.1% (显然小于5.7%),而相对误差=3。1% / 8% = 38.8%
因此,绝对误差是: 3.1% 相对误差是: 38。8%
如果B品牌市场占有率为50%,则绝对误差是:5.7%,相对误差是: 11。4%
在这里,我们可以看到,在渗透率较低时,虽然绝对误差看起来不大,但相对误差很大。
A品牌占有率的相对误差为38.8%,表示:如这一个月测试的品牌占有率与上个月占有率比值即使变化了30%(不到38。8%),数据结果上都表示为:没有显著性差异,显然,对一些监测市场细微变化的客户来说,这个误差太大,必须通过增加样本量才能解决.
4、 定量研究中,最小的统计样本数是: 30
在调研方案设计中,如果涉及细分群体的配额,难度大或成本高,通常会优先考虑30个样本,偶尔深访条件许可,也会考虑30个。
在定量报告中 ,如果细分后涉及到样本量小于30的数据结果,即使用图表呈现(通常至少大于20个),也多加一句:“样本量未达到最小统计的样本数,结果仅供参考”,以免读者有歧义.
诸位,目前客户都有兴趣了解或表示懂得统计知识,可能最常知道的是95%置信度和30个最小统计样本两个内容,希望诸位和客户对答中,能明显表示出“比客户懂得更多”。
2
因篇幅问题不能全部显示,请点此查看更多更全内容