今天我们来探讨抽样这一概念。具备统计学背景的人会对它驾轻就熟,但即便你从未系统学习过统计学,掌握一点抽样知识也会对你解题大有裨益。GMAT 考试虽不强制要求考生掌握抽样理论,却可能会以抽样为命题背景设计考题。如果你能提前了解抽样的核心逻辑,解题时就会更加得心应手。样本,是从一个更大的群体(即 “总体”)中抽取的部分个体,借助样本,我们可以用有限的精力和资源,去分析整个总体的某些特征。


举个例子:


假设我们要统计某城市全体人口中红发人群的比例,直接对全城人口进行普查耗时耗力、难度极大。这时我们可以随机抽取 100 个人作为样本(确保这些人来自不同家庭、不同地区、不同背景),再统计这 100 人里红发者的数量。


假设抽样结果是 12 人红发,我们就可以据此推断,该城总人口中大约有 12% 是红发人群。样本的随机性越强、偏差越小,对总体特征的估算就越准确。


在这个例子中,我们仅通过一个小规模样本,就得出了关于整个总体的结论,大大节省了人力、时间和资金成本。尽管抽样估算不可避免会存在误差,但这种 “以小见大” 的方法,依然因其高效性而被广泛应用。


以上就是抽样的基本原理,掌握它之后,我们再来分析下面这道 GMAT 真题:


In a certain pond, 50 fish were caught, tagged, and returned to the pond. A few days later, 50 fish were caught again, of which 2 were found to have been tagged. If the percent of tagged fish in the second catch approximates the percent of tagged fish in the pond, what is the approximate number of fish in the pond?

某池塘中捕获了 50 条鱼,做好标记后将鱼放回池塘。几天后,又在该池塘捕获了 50 条鱼,发现其中 2 条带有之前的标记。若第二次捕获的鱼中带标记的比例,大致等同于池塘中带标记鱼的整体比例,那么这个池塘中大约有多少条鱼?
A) 400

B) 625

C) 1250

D) 2500

E) 10000


我们先来梳理一下题干中的操作流程:先从池塘里捕出 50 条鱼做标记,然后放归池塘;之后再次捕出 50 条鱼,发现其中 2 条带有标记。


为什么要这样做呢?


池塘里鱼的总数就是我们要研究的总体,这个数值是未知的。由于直接数清池塘里所有鱼的数量难度很大,所以我们通过标记的方式,给 50 条鱼赋予了一个独特的 “特征”,再让它们游回池塘,与其他鱼均匀混合。


随后捕出的 50 条鱼就成为了样本。在这 50 条鱼里,有 2 条带有标记,也就是说,样本中带标记鱼的比例为502​=4%。


题干明确指出 “第二次捕获的鱼中带标记的比例,大致等同于池塘中带标记鱼的整体比例”,这就意味着我们抽取的样本具有代表性,可以反映总体的特征。由此我们可以推断:池塘中带标记鱼的数量(50 条),占池塘鱼总数的 4%。


根据这个关系计算:


鱼的总数 = 50÷4%=1250


因此,本题的正确答案是C。


借助抽样原理,我们无需逐一清点池塘里的鱼,就能估算出鱼的总数。如果想要进一步提高估算的准确性,我们可以重复多次抽样操作,再取多次结果的平均值,以此得到最接近真实情况的数值。