基于Logistic回归分析模型的足球彩票预测方法

基于Logistic回归分析模型的足球彩票预测方法

摘要:本文收集了2010年—2011年意大利足球甲级联赛前30场比赛中得分、积分、主客场情况、净胜球数等数据,首先对数据做主成分分析,剔除影响不显著的变量,然后运用多分类Logistic回归方法,建立Logistic回归模型,预测比赛结果。结果显示:对2010年—2011意大利足球甲级联赛结果影响较大的是主客场,多分类Logistic回归模型判断正确率较高。

关键词:Logistic回归分析模型 主成分分析 足球彩票

随着我国足球彩票的发行,预测足球彩票结果一直是人们探讨的问题,以往的文献中也发现了用不同的方法预测竞猜结果。文献[1~3]采用不同的数学模型方法讨论如何更加准确地预测所涉及的比赛结果。Logistic回归通常以离散型的分类变量发生结果的概率为因变量,以影响因素为自变量建立模型。研究分类变量(因变量)与影响因素(自变量)之间关系的研究方法,属于概率型非线性回归方法。从足球比赛的一般情况来看,一场比赛的结果有三个:胜、平、负,因而对一场比赛的预测结果即因变量可以认为有三类。同时,比赛的结果除了受到球队实力的影响,还与比赛当时的天气、球队排名、球队状态、教练、球队主客场作战能力等因素有关。因而我们首先讨论如何量化以上指标,并运用主成分分析找出影响比赛结果的主要因素,进而将这些主要因素作自变量,比赛结果作为因变量建立多分类Logistic回归分析模型,并利用该模型预测每场足球比赛结果。

1 多分类Logistic回归模型

当因变量是一个多分类指标,特别是有序多分类指标时,如流行病学中某些慢性病的危险因素研究,观察结果为“无、轻、中、重”等不同等级资料,可以采用多分类Logistic回归或有序多分类Logistic进行分析。

本文用有序多分类Logistic回归预测2010年—2011年意大利足球甲级联赛结果。多分类Logistic回归是因变量为多项分类的资料,如足球联赛中的主场的结果可能是胜、平、负,这些结果通常都按3、2、1等整数序列编码。在反应变量的各类中有明确的从低到高的排序,但相邻各类之间的差距未知。对序次测度反应变量建立模型的适当方法之一是累积回归模型,也称序次Logistic回归模型或比例发生比模型。序次Logistic回归模型定义如下:

有了累积分布函数以后,既可以采用logit也可以采用probit作为对序次反应变量建模的关联函数。它们将产生累积Logistic回归模型,累积Logistic回归可以定义如下:

从上式可以看到,累积Logistic回归模型中,logit是按反应变量的类别定义的。也就是说,模型的发生比是通过该发生比分子中的时间

概率的一次连续累积而形成。累计概率可以通过以下公式进行预测:

2 数值试验结果

足彩是从欧洲各大联赛选取一部分场次的比赛进行竞猜,因而每轮竞猜的球队都会发生变化,如果只对足彩涉及的球队进行分析,不具有一般性,因而我们选择具有代表性的联赛如意大利甲级联赛进行统一分析,不论足彩选择哪场比赛都能用本文方法进行分析,其它联赛可以类似地进行讨论。

2.1 数据预处理

现实生活中的数据极易受噪声、丢失数据和不一致数据的侵扰,因为数据库太大,并且多半来自多个数据源。低质量的数据将导致低质量的数据预测结果。因此,在建模前,应进行数据预处理。本文主要运用数据的集成与变换对2010年—2011年意大利足球甲级联赛的数据进行预处理。设:(1):得分,即球队当场比赛的得分,胜得3分,平得2分,负得1分;(2):积分,即累计该场比赛以及之前比赛的得分;(3):主客场,即比赛在该球队的场地,表示主场记;否则;(4):净胜球数,即球队该场比赛胜球数减去失球数;(5):主队主场净胜球率,即主队主场净胜球数除以主队在主场已比赛的场次;(6):客队客场净胜球率,即客队客场

净胜球数除以客队在客场已比赛的场次。为了尽可能完整地获取影响足球比赛结果的相关因素,我们通过网上收集2010年—2011年意大利甲级联赛的第1场到第19场比赛的数据,整理得到得分、积分、主客场、净胜球数、主场主队净胜球率、客场客队净胜球率等指标。

2.2 变量筛选

一般来说,同一个问题所涉及的众多变量之间会存在一定的相关性,相关性会使变量的信息有所重叠,为了使收集的2010年—2011年意大利足球甲级联赛的比赛数据更简明,这里用主成分分析方法筛选预处理得到的数据,删去信息重叠的变量,用为数较少的、信息互不重叠的变量来反应原变量提供的大部分信息,从而简化了数据。为了说明主成分分析筛选过程,现以意大利甲级联赛第7场比赛的筛选为例。2010年—2011意大利足球甲级联赛第7场比赛主成分筛选变量(如表1、2)。

表1表示各样本相关系数矩阵的特征值、相邻两个特征值之差、每个特征值所解释的方差的比率和累计贡献率,可以看出第四主成分的特征值最小,为0.19817180,并且在表2中第四主成分所对应的最大权数为0.738267,所对应的变量为。所以,这一轮筛选应该删去。

删去后的主成分分析结果如表3、4。

同理,第三主成分的贡献率最小,其所对应的特征向量的最大权数为0.721887,对应的变量为。所以,这一轮应该删去。

综合2010-2011意大利足球甲级联赛各场比赛筛选删去变量如表5。

从以上统计删去变量来看,积分和得分被删去的次数最多,累计有15次,其次净胜球数被删去的次数有8次,主客场被删去的次数只有1次。为了便于模型的建立,我们选择用球队主客场比赛情况作为自变量和各场比赛胜平负情况作为因变量建立2010年—2011年意大利足球甲级联赛的多分类Logistic回归模型。

2.3 多分类Logistic模型

根据变量筛选的结果,我们收集了2010年—2011年意大利甲级联赛30场比赛各球队的主客场情况和各场比赛的胜平负情况数据,并统计各球队主客场的胜平负情况,确定自变量:

表8显示,因变量与预测概率的一致性为52%,不一致性为40.1%,

关联系数Somers‘D=0.118和Gamma=0.129表明两者之间有中等程度的关联性,从观测值和预测值之间的对比来看两者基本接近。

这里有序反应变量有3个水平即,为自变量向量,取个水平的概率,将3个水平分为两类,按两分类反应变量Logistic回归模型对多分类有序反应变量Logistic回归,这里得到Logistic回归方程:

p

其中某轮比赛胜、平、负预测概率的均值和标准差。标准化预测概率后,再根据最大隶属原则进行决策该场比赛属于哪种结果。

以2、3对样本进行预测,预测该队该场比赛为胜的赋值为3,预测该队该场比赛为平或负的赋值为2,所建预测模型的回判结果如表9所示。

在回判情况中,回判正确标为√,回判错误标为×。

表9是用2010年—2011年意大利甲级联赛第15场和第29场结果作为观测值,那不勒斯的两个观测值表示,用于回判的两场比赛都在客场进行,卡利亚里的客场有两个观测值同理。

从模型的回判结果可知,当观测值为1时,模型回判正确率为

78.57%,即通过模型预测出14场比赛中有11场比赛结果会为负或平。当观测值为2时,模型回判正确率为66.67%,12场比赛中有8场比赛结果会为负或平。当观测值为3时,模型回判正确率为69.23%,13场比赛有9场比赛结果会是胜(如表10)。

这里预测正确率都达65%以上,最高的有78.57%,实际比赛还受其他因素的影响,例如天气情况、球队球员状态、历史交锋、球员伤病情况、教练及裁判等不确定因素,致使比赛结果出现冷门现象。

3 结论

总体来说,模型以较少的、能预知的变量对意大利足球甲级联赛各场比赛结果进行评估,具有较好的现实意义。足球比赛结果具有许多不可抗力的因素,本文希望通过多分类Logistic回归模型的构建在可抗力范畴对比赛结果进行评估,为预测足彩结果提供依据。

参考文献

[1]宋鑫,林千惠,陈锡岩,等.基于预测奖金模型的足球彩票过滤方法研究[J].统计与决策,2009(23):53-56.

[2]胡茂林,徐寅峰,徐维军.足球彩票胜负游戏的优化组合—— 在线组合优化[J].系统工程理论与实践,2007(1):119-130.

[3]汪兵,易雯.参考足彩投资的概率模型[J].中南民族大学学报,2003(22):41-42.

[4]王济川,郭志刚.Logistic回归模型—— 方法与应用[M].北京:高等教育出版社,2001,9.

基于Logistic回归分析模型的足球彩票预测方法

摘要:本文收集了2010年—2011年意大利足球甲级联赛前30场比赛中得分、积分、主客场情况、净胜球数等数据,首先对数据做主成分分析,剔除影响不显著的变量,然后运用多分类Logistic回归方法,建立Logistic回归模型,预测比赛结果。结果显示:对2010年—2011意大利足球甲级联赛结果影响较大的是主客场,多分类Logistic回归模型判断正确率较高。

关键词:Logistic回归分析模型 主成分分析 足球彩票

随着我国足球彩票的发行,预测足球彩票结果一直是人们探讨的问题,以往的文献中也发现了用不同的方法预测竞猜结果。文献[1~3]采用不同的数学模型方法讨论如何更加准确地预测所涉及的比赛结果。Logistic回归通常以离散型的分类变量发生结果的概率为因变量,以影响因素为自变量建立模型。研究分类变量(因变量)与影响因素(自变量)之间关系的研究方法,属于概率型非线性回归方法。从足球比赛的一般情况来看,一场比赛的结果有三个:胜、平、负,因而对一场比赛的预测结果即因变量可以认为有三类。同时,比赛的结果除了受到球队实力的影响,还与比赛当时的天气、球队排名、球队状态、教练、球队主客场作战能力等因素有关。因而我们首先讨论如何量化以上指标,并运用主成分分析找出影响比赛结果的主要因素,进而将这些主要因素作自变量,比赛结果作为因变量建立多分类Logistic回归分析模型,并利用该模型预测每场足球比赛结果。

1 多分类Logistic回归模型

当因变量是一个多分类指标,特别是有序多分类指标时,如流行病学中某些慢性病的危险因素研究,观察结果为“无、轻、中、重”等不同等级资料,可以采用多分类Logistic回归或有序多分类Logistic进行分析。

本文用有序多分类Logistic回归预测2010年—2011年意大利足球甲级联赛结果。多分类Logistic回归是因变量为多项分类的资料,如足球联赛中的主场的结果可能是胜、平、负,这些结果通常都按3、2、1等整数序列编码。在反应变量的各类中有明确的从低到高的排序,但相邻各类之间的差距未知。对序次测度反应变量建立模型的适当方法之一是累积回归模型,也称序次Logistic回归模型或比例发生比模型。序次Logistic回归模型定义如下:

有了累积分布函数以后,既可以采用logit也可以采用probit作为对序次反应变量建模的关联函数。它们将产生累积Logistic回归模型,累积Logistic回归可以定义如下:

从上式可以看到,累积Logistic回归模型中,logit是按反应变量的类别定义的。也就是说,模型的发生比是通过该发生比分子中的时间

概率的一次连续累积而形成。累计概率可以通过以下公式进行预测:

2 数值试验结果

足彩是从欧洲各大联赛选取一部分场次的比赛进行竞猜,因而每轮竞猜的球队都会发生变化,如果只对足彩涉及的球队进行分析,不具有一般性,因而我们选择具有代表性的联赛如意大利甲级联赛进行统一分析,不论足彩选择哪场比赛都能用本文方法进行分析,其它联赛可以类似地进行讨论。

2.1 数据预处理

现实生活中的数据极易受噪声、丢失数据和不一致数据的侵扰,因为数据库太大,并且多半来自多个数据源。低质量的数据将导致低质量的数据预测结果。因此,在建模前,应进行数据预处理。本文主要运用数据的集成与变换对2010年—2011年意大利足球甲级联赛的数据进行预处理。设:(1):得分,即球队当场比赛的得分,胜得3分,平得2分,负得1分;(2):积分,即累计该场比赛以及之前比赛的得分;(3):主客场,即比赛在该球队的场地,表示主场记;否则;(4):净胜球数,即球队该场比赛胜球数减去失球数;(5):主队主场净胜球率,即主队主场净胜球数除以主队在主场已比赛的场次;(6):客队客场净胜球率,即客队客场

净胜球数除以客队在客场已比赛的场次。为了尽可能完整地获取影响足球比赛结果的相关因素,我们通过网上收集2010年—2011年意大利甲级联赛的第1场到第19场比赛的数据,整理得到得分、积分、主客场、净胜球数、主场主队净胜球率、客场客队净胜球率等指标。

2.2 变量筛选

一般来说,同一个问题所涉及的众多变量之间会存在一定的相关性,相关性会使变量的信息有所重叠,为了使收集的2010年—2011年意大利足球甲级联赛的比赛数据更简明,这里用主成分分析方法筛选预处理得到的数据,删去信息重叠的变量,用为数较少的、信息互不重叠的变量来反应原变量提供的大部分信息,从而简化了数据。为了说明主成分分析筛选过程,现以意大利甲级联赛第7场比赛的筛选为例。2010年—2011意大利足球甲级联赛第7场比赛主成分筛选变量(如表1、2)。

表1表示各样本相关系数矩阵的特征值、相邻两个特征值之差、每个特征值所解释的方差的比率和累计贡献率,可以看出第四主成分的特征值最小,为0.19817180,并且在表2中第四主成分所对应的最大权数为0.738267,所对应的变量为。所以,这一轮筛选应该删去。

删去后的主成分分析结果如表3、4。

同理,第三主成分的贡献率最小,其所对应的特征向量的最大权数为0.721887,对应的变量为。所以,这一轮应该删去。

综合2010-2011意大利足球甲级联赛各场比赛筛选删去变量如表5。

从以上统计删去变量来看,积分和得分被删去的次数最多,累计有15次,其次净胜球数被删去的次数有8次,主客场被删去的次数只有1次。为了便于模型的建立,我们选择用球队主客场比赛情况作为自变量和各场比赛胜平负情况作为因变量建立2010年—2011年意大利足球甲级联赛的多分类Logistic回归模型。

2.3 多分类Logistic模型

根据变量筛选的结果,我们收集了2010年—2011年意大利甲级联赛30场比赛各球队的主客场情况和各场比赛的胜平负情况数据,并统计各球队主客场的胜平负情况,确定自变量:

表8显示,因变量与预测概率的一致性为52%,不一致性为40.1%,

关联系数Somers‘D=0.118和Gamma=0.129表明两者之间有中等程度的关联性,从观测值和预测值之间的对比来看两者基本接近。

这里有序反应变量有3个水平即,为自变量向量,取个水平的概率,将3个水平分为两类,按两分类反应变量Logistic回归模型对多分类有序反应变量Logistic回归,这里得到Logistic回归方程:

p

其中某轮比赛胜、平、负预测概率的均值和标准差。标准化预测概率后,再根据最大隶属原则进行决策该场比赛属于哪种结果。

以2、3对样本进行预测,预测该队该场比赛为胜的赋值为3,预测该队该场比赛为平或负的赋值为2,所建预测模型的回判结果如表9所示。

在回判情况中,回判正确标为√,回判错误标为×。

表9是用2010年—2011年意大利甲级联赛第15场和第29场结果作为观测值,那不勒斯的两个观测值表示,用于回判的两场比赛都在客场进行,卡利亚里的客场有两个观测值同理。

从模型的回判结果可知,当观测值为1时,模型回判正确率为

78.57%,即通过模型预测出14场比赛中有11场比赛结果会为负或平。当观测值为2时,模型回判正确率为66.67%,12场比赛中有8场比赛结果会为负或平。当观测值为3时,模型回判正确率为69.23%,13场比赛有9场比赛结果会是胜(如表10)。

这里预测正确率都达65%以上,最高的有78.57%,实际比赛还受其他因素的影响,例如天气情况、球队球员状态、历史交锋、球员伤病情况、教练及裁判等不确定因素,致使比赛结果出现冷门现象。

3 结论

总体来说,模型以较少的、能预知的变量对意大利足球甲级联赛各场比赛结果进行评估,具有较好的现实意义。足球比赛结果具有许多不可抗力的因素,本文希望通过多分类Logistic回归模型的构建在可抗力范畴对比赛结果进行评估,为预测足彩结果提供依据。

参考文献

[1]宋鑫,林千惠,陈锡岩,等.基于预测奖金模型的足球彩票过滤方法研究[J].统计与决策,2009(23):53-56.

[2]胡茂林,徐寅峰,徐维军.足球彩票胜负游戏的优化组合—— 在线组合优化[J].系统工程理论与实践,2007(1):119-130.

[3]汪兵,易雯.参考足彩投资的概率模型[J].中南民族大学学报,2003(22):41-42.

[4]王济川,郭志刚.Logistic回归模型—— 方法与应用[M].北京:高等教育出版社,2001,9.


相关文章

  • 技术创新预测与评估模型及其应用研究开题报告
  • 一.课题来源.选题依据 课题来源:单位自拟课题或省政府下达的研究课题 选题依据: 技术创新预测和评估是企业技术创新决策的前提和依据.通过技术创新预测和评估, 可以使企业对未来的技术发展水平及其变化趋势有正确的把握, 从而为企业的技术创新决策提供科学的依据, 以减少技术创新决策过程中的主观性和盲目性. ...

  • 公共管理硕士生的开题报告
  • 一.论文名称.课题来源.选题依据 论文名称:基于bp神经网络的技术创新预测与评估模型及其应用研究 课题来源:单位自拟课题或省政府下达的研究课题 选题依据: 技术创新预测和评估是企业技术创新决策的前提和依据.通过技术创新预测和评估, 可以使企业对未来的技术发展水平及其变化趋势有正确的把握, 从而为企业

  • 国防科技大学硕士生的论文开题报告
  • 一.论文名称.课题来源.选题依据 论文名称:基于bp神经网络的技术创新预测与评估模型及其应用研究 课题来源:单位自拟课题或省政府下达的研究课题 技术创新预测和评估是企业技术创新决策的前提和依据.通过技术创新预测和评估, 可以使企业对未来的技术发展水平及其变化趋势有正确的把握, 从而为企业的技术创新决 ...

  • 公共管理硕士生的开题报告范文
  • 一.论文名称.课题来源.选题依据 论文名称:基于bp神经网络的技术创新预测与评估模型及其应用研究 课题来源:单位自拟课题或省政府下达的研究课题 选题依据: 技术创新预测和评估是企业技术创新决策的前提和依据.通过技术创新预测和评估,可以使企业对未来的技术发展水平及其变化趋势有正确的把握,从而为企业的技 ...

  • 计量经济学心得体会
  • 计量经济学的心得与体会 经过一个学期对计量经济学的学习,我收获了很多,也懂得了很多。通过以计量经济学为核心,以统计学,数学,经济学等学科为指导,辅助以一些软件的应用,从这些之中我都学到了很多的知识。 通过学习计量经济学,我发现:计量经济学便是用精简的文字概括内容要点,用朴实的语言联系现实生活,让我们 ...

  • 体育视频的内容标注和解析技术研究
  •   一,开展本课题研究的意义   近年来,数字视频的应用日趋广泛.诸如视频点播,数字电视,数字图书馆,视频会议,远程教育等等,已经为越来越多的人所接受和熟悉.面对大量涌现的视频数据,如何找到所需的视频信息就成为一个急需解决的问题.   简单的视频名查询和类似录像机的播放功能已不能满足人们的需要.正如 ...

  • 海洋经济发展与海洋环境保护问题
  • 摘 要 随着沿海经济的迅猛发展,近海海域遭到越来越严重的污染,使海域环境质量明显下降,生态环境日趋恶化,并对生物资源和人体健康产生有害影响。海洋经济的发展还面临严酷的海洋自然环境,精确预报海洋灾害的发生、发展和应该采取何种防灾减灾工程措施,也成为严重关注的环境问题。为了开发海洋资源,需要在海上进行各 ...

  • 高职课程开发文献综述范文
  • 一.关于高职课程开发模式的综述 当前国内外对高职课程开发模式的研究取得了一定的成果,形成了一些具有代表性的课程开发模式,通过对这些开发模式的分析我们发现: 第一,不管是国内还是国外,在课程开发模式上学科论取向依然浓厚,对职业论的取向仍然停留在表面,甚至是流于形式:第二,国内课程开发模式大都是对世界主 ...

  • 论文评语怎么写
  • 论文题与论文的内容基本相符,结构基本完整,语言也比较通顺,没有大的语法错误。问题是,全文引用的部分太多,自己的分析太少,有些“分析”有抄袭的痕迹。应当说,完成这篇论文所需的材料已经具备,作者可以在此基础上对材料进行分析归纳以得出自己的结论。 二稿评语: 在一稿的基础上有所改进,合并了某些不必要的段落 ...

  • 如何撰写创业计划书
  • 对于正在寻求资金的风险企业来说,创业计划书就是企业的电话通话卡片。创业计划书的好坏,往往决定了投资交易的成败。 对初创的风险企业来说,创业计划书的作用尤为重要,一个酝酿中的项目,往往很模糊,通过制订创业计划书,把正反理由都书写下来。见后再逐条推敲。创业者这样就能对这一项目有更清晰的认识。可以这样说, ...