各小组汇报上周数据收集情况

第9-10 学时:数据分析的数学和统计基础

课中实施:

1. 基础概念

在这一部分,学生将学习统计学的基本概念,为数据分析打下基础。

样本与总体

  • 总体(Population):在统计学中,总体指的是研究对象的所有成员。例如,研究中国所有成年人健康状况时,“所有成年人”就是总体。

  • 样本(Sample):样本是从总体中随机抽取的一部分数据。例如,从中国所有成年人中随机抽取1000人作为样本进行研究。

数据的集中趋势

集中趋势是描述数据集中分布的一个重要概念,它反映了数据的中心位置。主要的集中趋势度量有:

  • 均值(Mean):数据集的平均数,是所有数据点的总和除以数据点的数量。例如,数据集[1, 2, 3, 4, 5]的均值是 (1+2+3+4+5)/5 = 3

  • 中位数(Median):将数据从小到大排列,中间的数值。如果数据点数为奇数,中位数就是中间的数;如果数据点数为偶数,中位数是中间两个数的平均值。

  • 众数(Mode):数据集中出现频率最高的数值。一个数据集可以有一个、多个或没有众数。

数据的离散程度

离散程度是用来描述数据波动或分散程度的度量。常见的离散程度度量有:

  • 方差(Variance):方差是每个数据点与均值差的平方的平均数。它反映了数据的波动范围。方差越大,数据越分散。

  • 标准差(Standard Deviation):标准差是方差的平方根,具有与原始数据相同的单位。标准差越大,数据越分散。

数据的分布

数据分布描述了数据在数值范围内的分布情况。常见的数据分布有:

  • 频率分布(Frequency Distribution):通过对数据进行分组,计算每个组内数据点的数量。可以用直方图表示。

  • 正态分布(Normal Distribution):一种对称的钟形曲线,数据大部分集中在均值附近,数据点的分布呈正态分布。很多自然界的现象遵循正态分布,如身高、体重等。

2. 观测数据

观测数据是从实验、调查、测量或其他观察手段获得的具体数据点。例如:

  • 医疗领域:一个参与者的血压测量值,如120/80 mmHg,就是一个观测值。

  • 气象领域:某地的气温测量,如25°C,也是一个观测值。

观测数据用于描述实际的情况,可以用来分析和推断总体的特征。

3. 理论数据

理论数据是理想化的、假设条件下得到的数据,通常不受实际世界中误差的影响。例如,在理想实验中,假设所有样本的健康状况相同,所得到的数据即为理论数据。理论数据通常用于理论模型或数学推导。

4. 零假设和备择假设

在假设检验中,通常有两个假设:

  • 零假设(Null Hypothesis, H0):零假设通常表示没有效果或没有差异。它是统计检验的起始假设,研究者通过检验零假设是否成立来得出结论。

  • 备择假设(Alternative Hypothesis, Ha):备择假设与零假设相对立,表示存在某种效果或差异。

假设检验的目的是检验零假设是否被拒绝,如果拒绝,则接受备择假设。

5. 数据的信度

信度(Reliability) 是衡量量表中各个项目是否一致地反映了同一特征的程度。信度高表示测量工具能够稳定地反映所要测量的变量。

  • 信度通常使用 Cronbach’s Alpha 系数来衡量,值范围从0到1,值越大,表示信度越好。通常,Cronbach's Alpha值大于0.7表示量表具有良好的信度。

6. 数据的校度

校度(Validity) 是指数据或测量工具是否能够准确地反映所要测量的对象或概念。它衡量的是数据是否真实、有效,是否准确地测量了目标变量。高校度的数据能够更有效地反映现实中的情况。

  • 因子分析相关性分析 是常用的判断数据校度的方法。

7. P值

P值(p-value) 是假设检验中的一个统计量,用于衡量观测数据与零假设之间的符合程度。P值的大小表示零假设成立的可能性。

  • P值较小(通常小于0.05):表示数据与零假设不符,可以拒绝零假设,支持备择假设。

  • P值较大:表示数据与零假设相符,无法拒绝零假设。

总结

通过学习本节内容,学生将掌握数据分析的基础知识,包括集中趋势、离散程度、数据分布等统计概念。此外,学生还将了解如何使用P值进行假设检验,学会评估数据的信度和校度,为后续的数据分析和统计推断打下坚实的基础。

作者:信息技术教研室  创建时间:2025-02-25 21:29
最后编辑:信息技术教研室  更新时间:2025-08-13 10:53