MLFA(1):机器学习在足球数据分析中的应用-简介

  足球数据分析是体育数据分析(Sports analytics)的一个分支,是足球运动与数据分析的交叉学科。机器学习(Machine Learning)作为人工智能和数据科学中最重要的工具之一,开始被应用于这个领域。本专栏主要介绍机器学习在足球数据分析中的前沿应用(Machine Learning in Football Analytics,MLFA)。

  本专栏的第一篇文章将介绍什么是体育数据分析,为什么需要数据分析,以及机器学习在足球数据分析中的具体例子。

  体育数据分析,顾名思义,就是从数据的角度研究一项体育运动的科学规律,以提升运动队或运动员的水平。大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!

  在体育数据分析领域,魔球理论(Moneyball)是最广为人知的故事。奥克兰运动家(Oakland Athletics)在球队经理比利·比恩(Billy Beane)的带领下,根据数据分析招募了一批低身价球员,却成为了 2002 年美国职业棒球大联盟(MLB)中胜利场次最多的球队。

  相比于从 19 世纪就开始进行数据收集的棒球,其他运动的数据收集起来更加困难,但随着科技进步和对数据的重视程度增加,诸如网球、篮球、足球领域的数据分析也开始发展。其中,足球数据分析由于场上球员数量多、得分频率低、战术变化复杂等因素,发展的时间最晚。[1]

  运用数据分析,一支球队可以优化战术安排,根据本队在不同区域的射门进球率调整开火权;考察对手的战术,发现对手定位球战术的常用套路,做出针对性部署;评估球员每一次处理球是否有更合理的方式,提升球员个人策略,或者对该球员做出评价。

  除了球队和球员,赛事管理方也可以利用数据分析,例如,在现在的美国职业篮球联赛(NBA)中,球队发现投三分球是更为高效的进攻方式,三分球所占比重逐年增加,很多人认为这损害了赛事观赏性[2]。如果有关方面愿意以修改规则的方式改变这种现状,那么可以用数据分析来推算,将三分线扩大到什么程度可以将三分球比重控制在想要的范围内。NBA 三分线外出手比重

  一支成熟的球队通常有一个经验丰富的教练团队,其中主教练作为球队战术布置的主要决策者,助理教练则辅助训练工作,或者专门负责部分战术布置,例如定位球战术。此外,球队还会有一批视频分析师,通过观看对手的历史比赛录像来总结对手的特点,提供给教练团队以做针对性部署。大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!

  在数据分析涉足于一项运动之前,所有人都在依靠自己的专业知识和丰富的经验来完成选材、训练、战术安排等任务,以提升球队战绩。但是,当数据分析被引入一项运动之后,往往有很多观点、甚至领域内的共识被打破,引发新的技战术潮流。那么,人类专家在哪些方面输给了数据分析?

  人类展现出的劣势主要在两个方面:心理 和 精力 [3]。

  首先是心理方面的 可得性偏差(Availability bias),人倾向于根据自己容易获得的认知来对事物做出判断,而忽视对其他方面的细致考察。当一位球员在比赛中打进了一粒精彩绝伦的进球,人们在赛后评价时往往不会在意他在其他时刻是否尽如人意;相反,如果有一次巨大的失误,直接导致了丢球,他也很难通过后面的表现来挽回自己的风评。当然,我们可以相信专业的教练团队在这方面比球迷们做得更好,但人终究不是机器,这些心理特点难免会出来作祟。

  人的心理劣势还有 代表性偏差(Representativeness bias),人喜欢根据某些特征将事物分类,在做判断时过分关注所属类别,造成高估或低估。例如,仅仅通过球员的体型、身高、速度、甚至肤色来判断一名球员是否适合某项运动或某个位置。在魔球理论的故事中,奥克兰运动家正是通过数据的客观评估,签下了许多因为偏见而被低估的球员,在外界的冷嘲热讽下打出了辉煌的战绩。

  此外,与处理数据的机器相比,人的 精力是有限的。当一支球队备战下一个对手时,需要视频分析师观看对方的过往比赛录像。以考察对手的角球攻防战术为例,这就需要分析师手动找到过往几场录像中的所有角球,然后再对这些角球根据战术来分类。然而,一些球队会将一个角球战术使用几场,然后搁置几场,之后再重新使用,这就需要分析师考察更多的过往录像,对精力造成巨大挑战。如果把数据交给机器,则可以帮助解决这个问题大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!。[4]该案例的具体细节不在此赘述,后续的文章中会再讲到

  让我们将目光投向本赛季的比利时足球甲级联赛(比甲,Belgian First Division A),圣吉罗斯(Union St Gilloise)可谓是本赛季的最大黑马。作为时隔 48 年重返比甲联赛的升班马球队,圣吉罗斯高居积分榜榜首,剑指比甲冠军。要知道,其球队总身价仅在比甲排名第七,且只有身居第二位的传统豪门布鲁日(Club Brugge)总身价的四分之一。(当然,圣吉罗斯在百年前也是豪门)

  布鲁日俱乐部的数据科学家 Jan Van Haaren 的这篇工作[5],以从上赛季开始的所有比甲比赛数据为基础,用 深度强化学习(Deep Reinforcement Learning)评估并优化了每支球队的战术决策。

  这篇工作首先用 卷积神经网络(Convolutional Neural Networks,CNN)拟合了每支球队在每个时刻持球队员传球方向的概率分布,即原始策略,再用 策略梯度算法(Policy Gradient)优化该策略得到最优策略,以最大化进球概率。传球位置概率分布(左)与向每个位置的传球成功率(右)

  下图描述了对于布鲁日和色格拉布鲁日(Cercle Brugge)两队最优策略与原始策略的差异。例如,该算法认为,布鲁日应当在边路更多回传重新组织进攻,或者直接尝试射门,而在中路偏两侧的区域减少回传,直接向前发展或者射门,在中路则更多向前或向两侧发展,减少射门尝试。由于不同球队的球员特点和能力不同,该算法也给出了不同的进攻模式,例如布鲁日适合从肋部进攻,而色格拉布鲁日则建议向中路发起攻势。球队最优策略与原始策略的差别

  这篇工作还计算了采用最优策略可以提升多少期望进球数,即下图所展示的数据。最优策略可以帮助布鲁日平均每场比赛增加 1.6 个期望进球数,为前 6 名中最多;而对于圣吉罗斯而言,则只能增加 0.5 个,低于所有的其他球队。从这个方面来看,圣吉罗斯 在比赛中正在采用非常接近最优策略的 高效 战术,而豪门 布鲁日 则空有全比甲最高身价, 低效 的战术策略让他们被压在升班马圣吉罗斯的身下。采用最优策略每场能增加的期望进球数(最后一列)

  数据分析,当然要从数据入手。在下一篇文章中,我将介绍足球数据分析领域当前常用的几种数据类型,比较知名的数据提供商,以及当前能够找到的公开数据集。

  机器学习在足球数据分析中的应用可以根据其探索的问题进行分类,例如阵型识别、战术模式识别、球员表现评估、战术策略优化等等,从第三篇文章开始将分专题介绍这些方面的工作。

MLFA(1):机器学习在足球数据分析中的应用-简介

MLFA(1):机器学习在足球数据分析中的应用-简介

分享:
扫描分享到社交APP