王孝玲教育统计学第五版考试必备
说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。
练习题 1. 教育统计学的意义和任务是什么? 答 : 教育统计学是运用数理统计的原理和方法研 究教育问题的一门应用科学。它的主要任务是研 究如何搜集、整理、分析由教育调查和教育实验 等途径获得的数字资料,并以此为依据进行科学 的推断,从而揭示蕴涵在教育现象中的客观规 律。 2. 描述统计 :对已获得的数据进行整理、概括,显 现其分布特征的统计方法称为描述统计 3. 推断统计 :根据样本所提供的信息运用概率的 理论进行分析、论证,在一定可靠程度上对总体 分布特征进行估计、推测,这种统计方法称为推 断统计。 4. 教育统计学 学习的意义 :是教育科研定量分析 的重要工具。 5. 随机变量 :具有以下三个特性的现象,称为随 机现象。第一,一次试验有多中可能结果,其所 有可能结果是已知的;第二,试验之前不能预料 哪一种结果会出现;第三,在相同的条件下可以 重复试验。随机现象的每一种结果叫做一个随机 事件。我们把能表示随机现象各种结果的变量称 为随机变量。 6. 总体和样本 : 总体是我们所研究的具有共同 特性的个体的总和。总体中的每个单位成为个 体。 7. 统计量和参数 :样本上的数据特征是统计量。 总体上的各种数字特征是参数。 8. 教育统 计资料的来源 :①经常性资料 ②专题 性资料 通过专题性的调查和实验所获得的资料 称为专题性资料。 9. 教育调查 :是指在没有预订因子不实行控制的 条件下,对现成的教育方面有关客观事实所进行 的观察和分析,它是教育科学研究中普遍采用的 一种方法 10. 教育实验: 教育实验是指在预定的控制因子影 响下对教育方面的有关客观事实,所进行的观察 和分析。 11. 数据 :是随机变量的观察值, 它是用来描述对 客观事物观察测量的数值。① 点计数据和度量 数据 ,点计数据是指计算个数所获得的数据。 度量数据是指用一定的工具或一定的标准测量 所获得的数据。②间断性随机变量的数据和连 续性随机变量的数据 :取值个数有限的数据, 称为间断性随机变量的数据。这种数据的单位是 独立的,两个单位之间不能划分成细小的单位, 一般用整数表示。取值个数无限的(不可数的) 数据,称为连续性随机变量的数据。它们可能的 取值范围能连续充满某一个区间。数据的单位之 间可以再划分成无限多个细小的单位。数据可以 用小数表示 。 12. 数据的统计分类 : 数据的统计分类,是指按 照研究对象的本质特征,根据分析研究的目的、 任务,以及统计分析时所用统计方法的可能性, 将所获得的数据进行分组归类。它是对数据进行 归纳、整理、简化、概括的第一步,为进一步分 析研究打下基础。 分类的标志按形式划分,可 分为性质类别和数量类别。 13. 统计表 是用来表达统计指标与被说明事物之 间数量关系的表格。他可以,将大量数据的分类 结果,清晰、概括,一目了然的表达出来,明显 地反映出事物的全貌及蕴涵的特性,省去冗长的 文字叙述,便于分析比较计算和记忆。 14. 统计表的结构及其编制的原则和要求。 答:① 统计表一般由标题、表号、标目、线条、数字、 表注等项构成。 ② 统计表编制的基本原则是: 表的结构简单明了,一张表只能有一个中心说明 的问题要重点突出。一目了然,避免绘制臃肿包 罗万象的大表,表的层次要清楚,项目指标的排 列就按照逻辑顺序合理安排。③要求:标题是表 的名称,应确切地、简明扼要地说明表的内容。 标题应写在表的上方必要时应在标题下注明资 料的来源和时间。表号是表的序号。 若文章中 有几张表格需要,按他们出现的先后次序编上序 号并且写带标题的左方 ,标目是表格中对统计数 据分类的项目 , 分横标目和纵标目。线条 线条 不宜过多。 数字 表内数字必须准确,一律用 阿拉伯数字表示,位次对齐,小数的位数一致。 表注 它不是表的必要组成部分 15. 统计表的种类 ①简单表 :只列出观察对象的 名称、地点、时序或统计指标名称的统计表为简 单表。 ②分组表只按一个标志分组的统计表为 分组表。 ③ 复合表 按两个或两个以上标志分 组的统计表为复合表。 ④频数分布表列法 某 一个随机事件在 n 次试验中出现的次数称为这个 随机事件的频数, 各种随机事件在 n 次试验中出 现的次数分布称为频数分布。将其用,表格的形 式表示出来称为频数分布表 16频数分布表步骤:①求全距 ②决定组数和组 距 ③决定组限 ④登记频数 17. 统计图 是用来表达统计指标与被说明事物 之间数量关系的图形,它是整理数据的一种方 法,它以直观形象,表达出事物的全貌以及分布 特征,使人一目了然便于理解印象深刻,容易记 忆。 18. 统计图的结构及其 绘制规则 ①统计图由标 题、图号、标目、图形、图注等项构成。②下面 按其构成部分说明绘图的基本规则。 标题 图 的名称应简明扼要,切合图的内容,必要时可注 明时间、地点。 图号 文章中若有几幅画,则 需按其出现的先后次序编上序号,写在图题的作 前方。 标目 对于有纵横轴的统计图,应在纵 横轴上分别标明统计项目及其尺度。 图形 图 形线在图中为最粗,而且要清晰。 图注 图注 不是图中必要组成部分。 19.. 表示间断变量的统计图 ①直条图 直条图是 用直条的长短表示统计事项数量的图形。它主要 是用来比较性质相似的间断性资料。②圆形图 圆形图是用来表示间断性资料构成比的图形。 20. 表示连续变量的统计图 线形图 线形图用来 表示连续性资料。它能表示两个变量之间的函数 关系;一种事物随另一种事物变化的情况;某种 事物随时间推移的发展趋势等。 ②频数分布图 常用的频数分布图有直方图、多边图和累积多边 图。直方图 直方图用面积表示频数分布。用各 组上下限上的矩形面积表示各组频数。多边图 多边图以纵轴上的高度表示频数的多少 21. 集中量 是代表一组数据典型水平或几种趋势 的量。它能反映频数分布中大量数据向某一点集 中的情况 22. 算术平均数的概念 .特征: 算术平均数是所有 观察值得总和除以总频数所得之商,简称为平均 数或均数均值。①观察值的总和等于算术平均数 的 N 倍; ② 各观察值与其算术平均数之差的总 和等于零; ③若一组观察值是由两部分(或几 部分)组成,这组观察值的算术平均数可以由组 成部分算术平均数而求得 24. 算术平均数的应用及其优缺点 答:算术平均 数具备一个良好的集中量所应具备的一些条件: ①反应灵敏②严密确定③简明易懂,计算方便④ 适合代数运算⑤受抽样变动的影响较小。 特殊的 优点 : ①只知一组观察值的总和及总频数就可 以求出算术平均数。 ②用加权法可以求出几 个平均数的总平均数。 ③用样本数据推断总体 集中量时,算术平均数最接近于总体集中量的真 值,它是总体平均数的最好估计值。 ④在计 算方差、 标准差、 相关系数以及进行统计推断时, 都要用到它。 算术平均数的缺点: ①易受两极 端数值(极大或极小)的影响。 ②一组数据中 某个数值的大小不够确切时就无法计算其算术 平均数。 25. 中位数 :中位数是位于依一定顺序排列的一 组数据中央位置的数值,在这一数值上、下各有 一半频数分布着。 中位数的应用及其优缺点 中 位数虽然也具备一个良好的集中量所应具备的 某些条件,例如比较严格确定、简明易懂,计算 简便,受抽样变动影响较小,但是它不适合进一 步的代数运算。它适用于以下几种情况:①一组 数据中有特大或特小两极端数值时;②一组数据 中有个别数据不确切时;③资料属于等级性质 时。 26.众数: 众数是集中量的一种指标。对众 数有理论众数及粗略众数两种定义方法。理论众 数是指与频数分布曲线最高点相对应的横坐标 上的一点。粗略众数是指一组数据中频数出现最 多的那个数。 27. 众数的应用及其优缺点 :众数虽然简明易 懂,但是它并不具备一个良好的集中量的基本条 件。它主要在以下情况下使用:①当需要快速而 粗略地找出一组数据的代表值时;②当需要利用 算术平均数、中位数和众数三者关系来粗略判断 频数分布的形态时;③利用众数帮助分析解释一 组频数分布是否确实具有两个频数最多的集中 点时。 28. 加权平均数 是不同比重数据 (或平均数) 的平 均数 ,几何平均数是 N 个数值连乘积的 N 次方根。 当一个数列的后一个数据是以前一个数据为基 础成比例增长时,要用几何平均数求其平均增长 率。 29 调和平均数 是一组数据倒数的算术平均数的 倒数。又称倒数平均数。主要用来求学习的速度 川剧是一组数据中,最大值与最小值之差,又称 极差全剧概念清楚,一一明确计算简单,大,因 为它仅有最小值和最大值,而求得,艺术两极端 数值影响, 不考虑中间数值的差异, 反应不灵敏, 只能作为差异量的出落指标,在编制频数分布表 时,决定全局范围之中四分位距,为了避免全巨 兽两极端数值影响的缺点,则用,一一定顺序排 列的一组数据中间部位 50%个平素距离的一半作 为差异量的指标称四分位距若讲从小到大排列 的一组数据分成平朔相等的四段,机,第一与第 二段的分界点称为第一个四分卫第三,与第四段 的分界点称为第三个,四分位,数字四分位距就 是第三个,四分位距,与第一个四分位距数差的 一半四分位距简单易懂记,计算简便较少数量极 端数值的影响比全剧可靠得多,他的缺点是忽略 了,左右共五十百分之五十数据的差异,又不是 和代数运算,婴儿野兽,也限制了它应用当一组 数据中,中位数表示集中亮师,就要用四分位距 表示差一辆,因为他们属于,百分体系,四分位 距与中位数一样适用于,有特大或特小两个极端 数值,有个别数字不确切不清楚以及,用等级表 示的数据等情况百分位距是指两个百分位数之 差,通常用的百分位具有两种, 30.平均差的概念 :就是每一个数据与该组数据 的中位数(或算术平均数)离差的绝对值的算术 平均数 优缺点 平均差意义明确,计算容易,每 个数据都参加了运算,考虑到全部的离差,反应 灵敏。但计算要用绝对值,不适合代数运算 。 31 . ①方差和标准差 方差是指离差平方的算术 平均数。标准差是指离差平方和平均后的方根。 即方差的平方根。 ②方差和标准差的优点 :反应 灵敏,随任何一个数据的变化而表示;一组数据 的方差和标准差有确定的值;计算简单;适合代 数计算,不仅求方差和标准差的过程中可以进行 代数运算,而且可以将几个方差和标准差综合成 一个总的方差和标准差;用样本数据推断总体差 异量时,方差和标准差是最好的估计量。 32. 相对差异量 谓差异系数是指标准差与其算术 平均数的百分比。它是没有单位的相对数。 差异 系数的用途 ①比较不同单位资料的差异程度 ②、比较单位相同而平均数相差数较大的两组资 料的差异量程度③可判断特殊差异情况 差异系 数的应用条件 :验的理论来说,只有等比量表才 使平均数等于零成为不可能。也就是说,用来测 量的量尺, 既具有等距的单位, 又具有绝对零点, 这时所测量出的数据其平均数才不可能等于零, 这时才能计算差异系数。 33. 偏态量及峰态量是用以描述数据分布特征的 统计量。 34.. 什么是频数什么是概率?答: 随机事件 a 在 n 次试验中出现 m 次, m 与 n 的比值就是随机事 件而出现的频率,即相对频数概率的定义,概率 寻求的方法不同有两种定义,后验概率和先验概 率。随机事件以随机事件 a 在大量重复试验中, 出现的稳定频率, 作为随机事件 a 的概率估计值, 这样寻的的概率为后验概率 先验概率 的定义先 验概率通过古典概率的定义加以模型故又称古 典概率,古典概率模型要求满足两个条件,①试 验所有可能的结果是有限的,②每一种可能的结 果出现的可能性概率相等,若所有可能结果的总 数为n随机事件a包括m个可能的结果之事件 a 的概率为, m/n 概率的性质, 任何随机事件 a 的 概率都在零和一之间的正数。二不可能事件的概 率等于零。必然事件的概率等于一。 概率的加法 与乘法。 在一次试验中不可能同时出现的事件称 为互不相容的事件 。 两个互不相容事件的和的概 率,等于这两个事件概率之和。。A事件出现的概 率不影响的B事件出现的概率, 这两个 事件独立 事件,两个独立事件的概率等于两个事件概率的 乘积。 35. 二项分布二项试验。 凡满足以下条件的实验称 为二项试验①,一次试验只有两种可能的结果其 成功和失败,②各次实验相互独立即各次实验之 间互不影响,③各自试验中成功概率相等各自试 验中失败的概率自然也相等。 36. 二项分布函数 。二项分布是一种离散型随机变 量的概率分布,用 n 次方的二项展开式来表达在 n 次,二项试验中成功事件出现不同次数的概率 分布叫做二项分布 37. 正态分布: 是一种连续型随机变量的概率分 布。 正态曲线的特点 ①曲线在 Z=0 处为最高点。 ②曲线以 Z=0 处为中心,双侧对称。 ③曲线从 最高点向左右缓慢下降,并无限延伸,但永远不 与基线相交。④标准正态分布上的平均数为 0, 标准差为 1 。 ⑤曲线从最高点向左右延伸时, 在 正负 1 个标准差是拐点。 38. 正态分布在测验计分方面的应用 ①将原始分 数转换成标准分数 标准分数的意义:第一,各 科标准分数的单位是绝对等价的;第二、标准分 数的正负和大小可以反映出考生在全体考分中 所处的地位。 ②确定录用分数线 ③确定等级 评定的人数 ④品质评定数量化 39. 抽样分布的概念: 要区分以下三种不同性质的 分布: 总体分布: 总体内个体数值的频数分布。 样本分布:样本内个体数值的频数分布。抽样分 布:某一种统计量的概率分布。 40. 平均数抽样分布的几个定理 ①、从总体中随机 抽出容量为n的一切可能样本的平均数之平均数 等于总体的平均数②容量为 n的平均数在抽样分 布上的标准差,等于总体标准差除以 n的平方根。 ③•从正态总体中,随机抽取的容量为 n的一切 可能样本平均数的分布也呈正态分布。④虽然总 体不呈正态分布,如果样本容量较大,反映总体 卩和b的样本平均数的抽样分布,也接近于正态 分布。41.样本平均数与总体平均数离差统计量的 形态 从正态总体中随机抽取的容量为 n的一切可能样 本平均数为中心呈正态分布。当总体标准差已知 时,一切可能样本平均数与总体平均数的离差统 计量呈标准正态分布 从正态总体中随机抽取 容量为n的一切可能样本平均数的抽样分布呈正 态分布。当总体标准准误的估计值所代替,这时 一切可能样本平均数与总体平均数的离差统计 量呈t分 41. t分布与正态分布的相似之处?: ①t分布 基线上的t值从-x— +*;②从平均数等于 0处, 左侧t值为负,右侧t值为正;③曲线以平均数 处为最高点向两侧逐渐下降,尾部无限延伸,永 不与基线相接,呈单峰对称形。区别之处在于: 3分布的形态随自由度 (df=n-1)的变化呈一簇 分布形态(即自由度不同的t分布形态也不同,t, ②t分布的峰狭窄尖翘,尾长而翘的高,在基线 上分布范围广,自由度越小分布范围越小。自由 度逐渐增大时,t分布逐渐接近正态分布。 自由 度趋于无限大时t分布与正态分布重合。自由度 是指总体参数估计量中变量值独立自由变化的 个数。 42 •什么叫总体参数的点估计和区间估计两者有 何区别?。①点估计:用某一样本统计量的值来 估计相应总体参数的值叫总体参数的点估计。② 区间估计:以样本统计量的抽样分布(概率分 布)为理论依据,按一定概率要求,由样本统计 量的值估计总体参数值的所在范围,称为总体参 数的区间估计。③区间估计涉及置信水平和置信 区间。 43什么叫总体参数的, 无偏性估计,有效性,估 计和一致性估计?①用某一个样本统计量的值估 计总体参数的值时,总会有所偏差有的大于总体 参数,有的小于总体参数,如果一切可能的样本 统计量的值与总体参数的值偏差的平均值为零 这种统计量就是总体参数的无偏估计。②当总体 不止有一种无偏估计量时,某一种估计量的一切 可能样本值的方差小者为有效性高,方差大着为 有效性低。③当样本容量无限增大时估计量的值 越来越接近他所估计的总体参数值,这种估计量 是总体差数的一次性估计量。 43. 已知条件下总体平均数的区间估计 当总体b 已知,总体呈正态分布,样本容量无论大小时, 或者当总体b已知,总体虽不呈正态分布,但样 本容量较大(n >30)时,样本平均数与总体平 均数离差统计量均呈正态分布。 44. b未知条件下总体平均数的区间估计 ①b未 知条件下总体平均数的区间估计的基本原理 当总体b未知,总体呈正态分布,样本容量无论 大小时,或者当总体 b未知,总体虽不呈正态分 布,但样本容量较大(n >30)时,样本平均数 与总体平均数离差统计量均呈 t分布 45 .假设检验的基本原理利用样本信息,根据一定 概率,对总体参数或分布的某一假设作出拒绝或 保留的决断,称为假设检验。当对某一总体参数 进行假设检验时,首先,应从该总体中随机抽取 一个样本计算出统计量的值并根据经验对相应 总体参考值提出一个假设 •,这个假设是说这个统 计量的值,是这个假设总体参数的一个随机样本 这个样本来自于这个总体 ,样本统计量的值与总 体参考值之间的差异是有出现误差所致。根据这 一假设,可以认为像这样一切可能样本统计量的 值,应当以总体参数值为中心形成统计量的一个 抽样分布,如果这个随机样本统计量的值,在其 统计量中出现的概率较大,这时只好保留这个假 设,就是说不得不承认这个样本, 来自这个总体统 计量的值的假设,与总体参数值的差异是由抽样 误差所致,如果这个样本统计量的值,在其抽样 分布上出现的概率极小。根据小概率事件在一次 随机抽样中几乎不可能发生的,于是不得不否认 这个样本统计量的值是来自这个总体参 •数值的 假设,同时也不得不承认样本统计量的值与总体 参数的值的差异不是有抽样误差所致而是存在 着本质差异,顾称这个样本统计量的值存在的本 质差异,总体参数与假设总体参数值差异显著。 46. 假设:假设检验一般有两个相互对立的假设。 即零假设(或称原假设、虚无假设、解消假设) 和备择假设(或称研究假设、对立假设) 。假设 检验是从零假设出发,视其被拒绝的机会,从而 得出决断。 47. 小概率事件:把出现小概率的随机事件称为小 概率事件。小概率事件是否出现,这是对假设作 出决断的依据。 48. 显著性水平:拒绝零假设的概率称为显著性 水平。显著性水平和可靠性程度之间的关系是: 两者之和为 1。 49. 统计决断的两类错误及其控制 :如果拒绝了 属于真实的零假设,即如果样本统计量的总体参 数正是假设的总体参数,但是由于样本统计量的 值落入了拒绝区域。而零假设遭到拒绝,这时就 会犯第一类型的错误。这种错误的可能性大小正 是显著性水平的大小,故又称这类错误为 a错 误。如果保留了属于不真实的零假设,就会犯第 二类型的错误。犯这种“假设属伪而被保留”的 第二类错误的概率,等于 B值,故又称这类错误 为B错误。 要使第一类错误的概率保持在需要的水平上,而 控制第二类错误的概率,有以下方法:①利用已 知的实际总体参数与假设参数值之间的大小关 系,合理安排拒绝领域的位置,选择双侧检验还 是单侧检验,左侧检验还是右侧检验;②加大样 本容量。 控制第一类错误,可以选择适当的显 示水平主动控制。 50. 平均数差异的显著性检验根据两个样本统计 量的差异检验两个相应总体参数差异的显著性 统计学上称为差异著性检验 51. F分布若从方差相同的两个正态总体中,随机 抽取两个独立样本,以此为基础,分别求出两个 相应总体总体方差的估计值,这两个总体方差估 计值的比值称为 F比值,F比值的抽样分布称为 F分布。F分布的形态随F比值分子和分母中自由 度的变化而形成一簇正偏态分布。一般情况下, 经常应用的是右侧 F检验,计算F值时,将大的 总体方差估计值作为分子,小的作为分母。 52. 什么是相关、相关分析和相关系数? 答:①两个变量之间不精确、不稳定的变化关系 称为相关关系有 正相关、负相关、零相关和高 度相关中度相关和低相关② 就是研究两个变量 之间是否存在相关关系③用来描述两个变量相 互之间变化方向及密切程度的数字特征量称为 相关系数。一般用「表示。 意义:相关系数的 值的范围是在一1到+ 1之间,即0 <| r |< 1 相关系数只能描述两个变量之间的变化方向及 密切程度,并不能揭示二者之间的内在本质联 系。 53. 什么是积差相关适用范围有哪些? 答:①当两 个变量都是正态连续变量,而且两者之间呈线性 关系,表示这两个变量之间的相关称为积差相 关。②积差相关使用的条件 第一两个变量都 都是由测量获得连续性数据。第二,两个变量的 总体都呈正态靠近正态分布,至少是单峰对称的 分布。第三,必须是成对数据,而且每对数据之 间相互独立。第四,两个变量之间呈线性关系。 第五,要排除共变因素的影响。第六,样本容量 n> 30,计算出的积差相关系数才有效意义。③ 积差相关系数就是两个变量标准分数乘积之和 除以n所得之商, 54. 卡方检验的特点 卡方检验是对样本的频数 分布所来自的总体分布是否服从某种理论分布 或某种假设分布所作的假设检验。即根据样本的 频数分布来推断总体的分布。它属于自由分布的 非参数检验。它可以处理一个因素分为多种类 别,或多种因素各有多种类别的资料。所以,凡 是可以应用比率进行检验的资料,都可以用卡方 检验。 55. x2值有以下几个特点:①x 2值具有可加性 ②x2值永远是正值。 ③x 2值的大小随实际频 数与理论频数差的大小而变化。 56. x2的抽样分布几个特点: ①x2分布呈正偏 态,右侧无限延伸,但永不与基线相交。② x2 分布随自由度的变化而形成一簇分布形态。 自由度度越大,x 2分布形态越趋于对称。 56.单向表的卡方检验把实得的点计数据按一种 分类标准编制成表就是单向表。对于单向表的数 据所进行的卡方检验就是单向表的卡方检验,即 单因素的卡方检验。 57.双向表的卡方检验 把 实得的点计数据按两种分类标准编制成的表就 是双向表。对双向表的数据进行的卡方检验,就 是双向表的卡方检验, 即双因素的卡方检验。 在 双向表的卡方检验中,如果要判断两种分类特 征,即两个因素之间是否有依从关系,这种检验 称为独立性卡方检验。 在双向表卡方检验中, 如果是判断几次重复实验的结果是否相同,这种 卡方检验称为同质性检验。双向表的独立性卡方 检验和同质性卡方检验,只是检验的意义不同, 而方法完全相同,对于同一组数据所进行的卡方 检验,有时即可以理解为独立性卡方检验,又可 以理解为同质性检验,两者无本质区别。 本文来源:https://www.wddqw.com/doc/91a052a6a9956bec0975f46527d3240c8547a16f.html