你的位置:首页 > 新闻动态 > 刊文精选

2022年第36期·问题驱动的协方差与相关系数的概念构建

2023-5-9 13:34:31点击:

[出处] 教育教学论坛_2022年第36期

陶 红,徐耀坤,侯臣平

(国防科技大学 a.理学院;b.电子科学学院,湖南 长沙 410073)

引言

概率论与数理统计是一门研究随机现象统计规律的学科,研究描述不确定性的数学模型和理论方法,可以应用于科学研究、工程实践、经济管理和人文社科等各个领域,是各大高校理工科专业的数学基础课之一。作为随机数学这一数学分支中学生所接触到的第一门课,“概率论与数理统计”肩负着引导学生逐渐学会利用随机性思维解决问题的重任。不同于以往的确定性数学课程,学生真正掌握概率统计的概念与思想具有一定难度。例如,很多学生难以完全理解条件概率、条件分布、协方差与相关系数等概念及其内涵。

数学概念反映了事物在数量关系、结构关系、空间形式等方面的本质属性。数学概念教学要让学生掌握概念的内涵和外延,理解概念间的逻辑关系。因此,数学概念教学应注重概念的构建过程,通过概念的构建过程,对学生进行思维训练。让学生在体会原理的过程中,不仅学会新概念,而且学会利用数学进行科学研究的思维方法。也就是说,数学概念教学不能仅满足于让学生接受、记忆、模仿和练习,更要教会学生自主探究,在自主探究的过程中发展智力、提高科学研究能力。

问题驱动教学模式以学生为主体,教师设置一系列问题,引导学生根据问题寻找解决方案,在解决问题的过程中达到教学目标。采用问题驱动的教学模式,有助于帮助学生了解数学概念的深刻内涵,培养数学思维方式,形成应用数学解决实际问题的能力。本文以协方差与相关系数为例,遵循问题驱动的教学原理,以“实例引入—提出问题—分析问题—解决问题”为主线,通过国内生产总值与军费支出的关系分析实际案例,提出随机变量关系描述的问题,并采用逆向推理得到协方差的定义。在此基础上,进一步深化研究如何描述随机变量关系的强弱及所研究的关系是何种关系,逐步构建协方差与相关系数的定义与内涵。

一、提出问题

为减少抽象感并激发学生的学习热情,在课程开始时通过“国内生产总值与军费支出的关系分析”这一实例提出问题:如何从数字特征的角度来描述两个随机变量之间的关系。具体地,我国2000—2013年国内生产总值(GDP)与军费支出数据如表1所示。GDP与军费支出均为随机变量,不妨分别记为和,则(,)是二维随机变量,(,)的几何意义是平面上的随机点。通过图1(a)所示散点图发现,14个样本点散落在一条直线附近,随着GDP逐年增长,军费支出也逐年增长。可见,随机变量与之间存在同向变化趋势。从而结合本章主题提出问题:如何从数字特征的角度来描述两个随机变量之间的关系。

表1 我国2000—2013年GDP与军费数据

图1 GDP与军费支出散点图

二、协方差概念引入

提出问题后,让学生思考如何从数学形式角度进行描述。通过分析,问题转变为找到一个依赖于,的数字量(,),满足:(,)≠0,则表示,之间有关系。应如何找到满足上述条件的数字量呢?通常学生难以从正面直接得到解决方案。于是基于逆向思维,引导学生从反面分析。如果存在一个数字量(,),满足:当随机变量,之间没有关系时必有(,)=0,那么利用逆否命题则可以得到:当(,)≠0时,随机变量,之间必有关系。由逆否命题的等价性,(,)所要满足的条件转换为“当随机变量,之间没有关系时必有(,)=0”。所谓没有关系即相互独立,由此引导学生回顾已经学习过的数学期望与方差在随机变量相互独立时所具有的性质。当,相互独立时,有E(,)=E()E(),D(+)=D()+D()。

如果令(,)=E(,)-E()E(),(,)=D(+)-(D()+D()),那么(,)与(,)均满足我们所提的要求。应该选择哪一个呢?由于方差本质上是随机变量函数的数学期望,而且计算比数学期望更复杂,因此优先选择(,)。

更进一步,为了使定义更简洁,如何将(,)=E(,)-E()E()写成1项?如果写成1项,其形式上必定是,的某个函数的数学期望,即需要把E(,)-E()E()变形为,的某个函数的数学期望。由于其中涉及的,交叉项的期望及各自期望的乘积,启示我们变形为E{[-E()](-E()]},进一步验证确实有E{[-E()](-E()]}=E(,)-E()E()。

此时,询问学生是不是完全得到了协方差的定义。为什么要问这个问题,协方差是利用数学期望定义的,而数学期望的存在需要满足绝对收敛的条件,因此协方差存在的前提是E[-E()][-E()]<∞。由Cauchy-Schwarz不等式知,当,的方差都存在时,E[-E()](-E()]<∞成立。

定义1(协方差):如果随机变量,的方差都存在,那么称Cov(,)=E{[-E()][-E()]}为,的协方差。

三、相关系数概念引入

当协方差的值非0时,则随机变量之间存在关系。按照由浅到深的思路,接下来探讨如何描述关系的强弱程度及是什么关系。向学生提问:协方差的大小能否用来度量关系的强弱程度,能够反映关系强弱的数字量应具有哪些特点?为辅助思考,以GDP与军费支出为例,让学生计算单位分别为亿元和亿万元时的样本协方差。通过计算学生将发现两种情况下的样本协方差之间相差10倍,然而实质上GDP与军费支出之间的关系并不会因金额单位的变化而变化。由此得出结论:协方差不能用于度量关系的强弱程度。事实上,由协方差的定义可验证,对于常数,,Cov(,)=Cov(,)。显然,协方差是一个受量纲影响的数字量。

于是,能够反映关系强弱的数字量应具有不受量纲影响(条件1)的特点。除此之外,还应具有什么特点?提及强弱实质上是为了比较,因此数字量的取值应该是限定在一定范围内(条件2),而且取值随着关系的强弱单调变化(条件3)。

四、相关系数的意义

从构建相关系数定义的过程可知ρ不受量纲影响且取值在[-1,1]。但仍没有揭示ρ的大小如何反映,何种关系的强弱。为此以常见的二维均匀分布与二维正态分布为例,利用Matlab动画演示当上述两个总体的相关系数从-1增加到1时样本点散点图的变化趋势,以此来发现ρ的大小与,之间关系强弱的对应关系,并探索ρ描述的是,之间的何种关系。具体地,所采用的二维均匀分布与二维正态分布的概率密度函数分别为

由此可得到如下结论:(1)|ρ|≤1。(2)|ρ|越大,则+与之间的均方误差越小,即与之间的线性关系越强;反之,则与之间的线性关系越弱。并且,结合图形(图2)可知,当ρ>0时,与整体上具有同向变化趋势;当ρ<0时,与整体上具有反向变化趋势;当ρ=0时,与之间没有线性关系,称为与不相关。

图2 二维均匀分布和二维正态分布总体相关系数变化时样本点的散点图

结语

数学概念在数学课程中的基础,为于课程体系的理解具有非常重要的作用。本文以概率论与数理统计中协方差与相关系数概念为例,遵循“以问题结构推进教学”的原理,围绕随机变量之间关系描述这一主题,提出一系列层层递进、步步深入、具有内在逻辑联系的问题,形成“问题—解决—问题—解决……”的问题导向结构教学过程,建构出协方差与相关系数的概念。在此过程中,引导学生探索、深究,有助于学生形成自主探究的思维模式和提升发现问题、分析问题和解决问题的能力。