人工智能与数据挖掘(人工智能与数据挖掘 北邮作业)

Mark wiens

发布时间:2022-09-04

人工智能与数据挖掘(人工智能与数据挖掘 北邮作业)

 

数字科技正逐渐渗透到经济、商业、社会生活方式等方方面面,人们对于数据智能时代的来临充满了期待。然而,从现阶段的发展来看,我们距离真正的大数据时代仍有距离,各行各业的数字化转型进程未能如期落地。

数据的力量究竟该如何激发?近期,中国人工智能产业发展联盟联合和鲸社区、中国信通院、北京邮电大学等单位推出了报告《2021人工智能竞赛白皮书》,分析全球市场人工智能竞赛发展趋势,提出对人工智能竞赛推动前沿技术落地的创新价值思考,并在业界开源优质人工智能竞赛运营方法论与最佳实践。

来源 中国人工智能产业发展联盟

《2021人工智能竞赛白皮书

作者:未注明

一、数字经济创新重要推手

人工智能竞赛是人工智能技术创新、应用发展的重要推动方式,受到 各国政府高度重视。在国家层面,人工智能竞赛助力数字经济创新发展,突破重点技术瓶颈,推动人工智能产业高质量发展。2017 年 7 月,国务院印发《新一代人工智能发展规划的通知》,人工智能正式上升至国家战略层面,此后各类关于加快推进数据应用的政策相继出台。

可以看到,在国家宏观政策的大力推进和坚实支持下,大数据、云计算以及人工智技术的不断迭代和成熟正在催生日渐规模化、网络化和生态化的内生驱动的生态经济体,其基础都在于借助算法和算力实现对数据价值的洞察。人工智能竞赛活动是人工智能技术创新、产业应用实践、赋能数字经济改革创新的重要方法。通过组织各类人工智能竞赛活动可汇聚各方技术力量,共同研究突破关键技术瓶颈,解决人工智能技术应用落地难点,并提升公众对人工智能技术的认知。

当前,全球多个国家发布人工智能国家战略,并在战略中指明应加强人工智能竞赛、合作研讨,实现本国人工智能技术的重大突破,并通过竞赛方式促进人工智能解决方案的开发,恢复本国经济增长。部分国家政府部门牵头组织竞赛,成果解决人工智能相关的科学和工程问题。

可以看到,以人工智能竞赛作为载体,以问题为导向,以人才为抓手,汇聚人工智能领域的各界科技创新力量和智慧,在共同推动人工智能 + 产业发展,加快算法产业化进程中起到重要作用。人工智能竞赛作为人工智能赋能数字经济改革创新的重要手段和窗口,也越来越受到各国的高度重视。

我国各省、市贯彻国家创新驱动战略,结合各地人工智能产业特色,举办各类人工智能创新、创业大赛,推动人工智能技术在各行各业的应用创新及成果转化,汇聚人工智能专业人才,促进地方人工智能产业发展。多地举办面向不同人群的人工智能竞赛,覆盖从学生教育、专业技术人员,到行业专家的不同类型竞赛活动,既促进人工智能技术的普及,又面向具有应用价值的场景,探寻技术解决方案。

在大众创业、万众创新的号召下,在政府资金、政策和转型决心的支持下,政务部门在大力倡导政务管理数据化、智能化的同时,也成为了有序开放优质公共数据资源、释放公共数据红利的引领者,为建设数据创新生态建设提供着政策支撑和资源支持。

如何借助数据科学建设智慧城市,是政务机构面对的重要问题。政务部门的数据积累具有数量更大、来源更多、质量更好、纬度更广等特征,其应用领域遍布城市管理的方方面面。为了探索数据科学在城市管理中的应用可能性,政务机构较为偏好开放性的产品方案赛题。具有明显的行业标签,如教育局、交通局、气象局等,赛题应用场景多与其自身行业标签一致;而没有明显行业标签的政务机构,如人民政府,其赛题场景则非常广泛。

政务部门类赛事主办方的赛题场景分布和技术类型分布

在各类人工智能竞赛活动中,赛事汇聚产学研各领域专家,实现以问题为导向的产学研协同创新。通过举办选拨各行业优秀的人工智能创新应用方案,加速形成各细分领域的人工智能应用共识和标准。

不同发展周期的前沿技术在各行业场景中的应用分布

伴随着技术水平的日趋成熟,越来越多的行业开始尝试融入信息技术,技术落地也成为数字化创新的首要目标。组织机构希望加入数字化转型的趋势性浪潮,然而,数字化却面临着诸如抗拒改变的文化氛围、有限的分享和协作、业务尚未准备就绪、人才短缺、现有实践不适宜进行数字化、以及成本投入巨大等多方面的挑战。

对绝大多数组织机构而言,推进数据科学项目耗时漫长、所费不赀。 从集思广益提出创意,到通过审慎评估形成切实可行的方案,继而投入大量尖端人力进行算法开发,成果新鲜出炉后投入现实场 景加以应用验证,再到确定其效果与回报后推行全面部署——每 一个环节都会牵涉到大量资源的协调投放与各方利益诉求的平衡,更少不了富有预瞻性的战略判断、科学专业的运营管理、以进而可以看出,在行业层面,人工智能竞赛在实现以问题为导向的产学研协同创新,选拨各行业优秀的人工智能创新应用方案,以及加速形成各细分领域的人工智能应用共识和标准方面都能够发挥重要作用。及发现误差后能够进行敏捷的优化调整。

因此,人工智能竞赛为数据驱动的技术创新落地和数字化转型升级提供了充沛的生产力。例如,近年来知名度提升的国际蛋白质结构预测竞赛(CASP)由马里兰大学的 John Moult 教授和加州大学戴维斯分校的 Krzysztof Fidelis 教授联合创建的国际性比赛,旨在评估、促进和确认最佳的蛋白质结构预测手段。2018 年,DeepMind 开发的第一代 AlphaFold 首次参加 CASP 并且拔得头筹。而 2020 年,新一代的 AlphaFold2 在 CASP 中的表现更为惊艳,其评估结果比 2018 年提升了,被媒体誉为解决生物学50 年来的重大挑战。

2006-2020 年 CASP 比赛中最佳蛋白折叠预测系统的评分表现

进而可以看出,在行业层面,人工智能竞赛在实现以问题为导向的产学研协同创新,选拨各行业优秀的人工智能创新应用方案,以及加速形成各细分领域的人工智能应用共识和标准方面都能够发挥重要作用。

二、敏捷的数据探索与应用创新方式

企业举办人工智能竞赛的核心诉求,是挖掘潜在的创新方向和应用场景。通过人工智能竞赛的举办,企业打造出了充分融合数据、算法、人才、算力等各项创新要素的标杆案例,以赛题要求切入,让创新探索过程更加具象、创新探索结果更加明确,为企业的数字化投入建立信心。

同时,人工智能竞赛作为数据研发的缩影,也成为了企业积累数据科学能力的实验室。在贴近真实业务场景的竞赛环境下,为可复用的数据科学方法论指导赛事设计与运营,厘清数字化转型的目标与路径,把握数据科学项目的生命周期,更加有的放矢地制定策略。

分析 2014 年至今国内的 400 场人工智能竞赛发现,企业在所有人工智能竞赛主办方中占比高达 67%,金融、通信、文娱传媒、交通运输和电子商务是发起人工智能竞赛数量最多的五大行业领域,合计占比高达 75%。企业最为偏好结构化数据挖掘类赛题(47.4%),其次是计算机视觉(21.6%)。具体来看,金融行业赛事主办方的赛题场景相对发散,除金融关联领域外,亦涉及电子商务、交通出行、农林养殖业、新零售等金融 +场景。通信行业在 5G 技术的商用趋势与产业互联的影响下,还会关注安防、交通、旅游、人文、社会治理、及文娱传媒等万物互联和智慧城市等相关领域。

企业类赛事主办方的赛题场景分布和技术类型分布

人工智能竞赛连接起的每一项要素都在数字化创新中扮演着不可或缺的重要角色:云计算资源和数据科学协同开发工具是基础设施,人才和 AI 技术是生产力,数据是基础生产资料,环环相扣的创新效果通过以赛题承载的应用场景得以直观呈现。以人工智能竞赛为中轴,汇聚起更多的人才、组织起更频繁的跨学科领域交流、涉足更广泛的技术面,积累更全面更优质的数据,从而带来更加敏捷高效的创新探索和性能突出的创新成果。

兼具性价比、敏捷性、持续性的人工智能竞赛带来数字化价值指数级增长的飞轮效应

各类组织机构不懈探索更简单、更便捷的数字化战略,根据Gartner 在 2017 年发布的数字化战略调研报告,在众多数字化创新手段中,人工智能竞赛依然具有相对较高的成功率。因为在确保有 100% 的信心推动数据科学项目成功着陆之前,人工智能竞赛在性价比、敏捷性和持续性等方面表现突出,不仅有利于低成本的发展策略试验和排错,亦能充分积累数据科学实战经验。

数字化创新方法投入对比

性价比:人工智能竞赛创造了化繁为简的环境条件,在更加紧凑的周期内,能够直接感受推动数据科学创新和技术落地的步骤与方法。无论是自行成立数字化研发中心,还是与产业同行进行战略合作,往往首先需要在 IT 基础设施上有巨大投入,而在竞赛环境里,赛事主办方往往只需要承担一个业务负责人的角色,与竞赛运营平台沟通其创新诉求,配合轻量级的付出即能够获得赛事运营团队和数据科学研发人员的专业服务与支持。

敏捷性:传统的数据科学项目受限于团队人数和团队精力,信息反馈也往往需要较长的周期。而人工智能竞赛由于其特殊的赛马机制,模型迭代的速度和对于数据的利用效率往往远高于常规的数据科学项目。作为缺乏前车之鉴的创新之举,推进数据科学项目总少不了反复的试验和排错,传统方式下的每一次试验往往因投入巨大可能导致决策者投鼠忌器。但籍由人工智能竞赛以更经济的投入换取更快速的反馈,便为多轮连续验证创造了空间,实现了敏捷的创新。

持续性:以人工智能竞赛为契机,加强企业、高校和科研机构、 政务部门之间广泛深入的合作,促进多方资源的整合与联通,既 。是促进产教融合的数据科学人才培养模式变革的创新之举,也为研协同打通了渠道、树立了标杆,为可持续的技术创新应用探索提供了基础设施平台,市场价值必将迎来指数型增长。

不同数字化创新方式的成本、耗时和成功率对比

各类赛事主办方的数字化创新需求与难点通过人工智能竞赛得到了满足

三、高校的学科交叉与产研融合的良药

在国家相关政策的鼓励和推动下,越来越多的高校开始进行数据科学的学科建设和人才培养。高校学科建设需要持续的资金投入和资源配套,数据相关专业仍缺乏成熟的学科建设经验,学生则需要充足的优质数据、功能完备的工具平台和贴近实战的场景来进行实践——这一系列问题都是困扰着高校的现实困难。

互联网小常识:资源记录主要有:主机地址(A)资源记录:将DNS域名映射到IP地址;邮件交换器(MX)资源记录,为邮件交换器主机提供邮件路由;别名(CNAME)资源记录:将别名映射到标准DNS域名。

人工智能竞赛作为高校推进大数据相关学科建设的重要手段,将教学、科研、实训深度结合,以赛题的形式发布,广泛吸引校内的人才参与竞争和交流学习,探索将理论知识转化为实践应用,帮助人才在竞赛场景中以赛促学,帮助人才认识理论学习、基础知识的意义与重要性。

在此背景下,高校围绕技术热点、学科建设以及创新应用三个方向进行赛题的策划,广泛涉及社会服务、工业制造、旅游、生物科技、网络安全和医疗健康等多个行业,以加强学生的理论和技能在多元场景下的应用能力。

高校类赛事主办方的赛题场景分布和技术类型分布

由于人工智能赛事涉及的赛道非常广泛,除了计算机相关的专业外,还可能需要材料科学、电气工程、自动化工程、通信工程、数学等学科的专业知识,甚至还有部分赛道需要航天工程、测绘与地理、物理学、医学、人文与社会科学等与计算机科学不太相关的学科背景。对于拥有多领域人才的高校和科研机构而言,涉及到多领域的人工智能赛事对于不同学科的交流以及交叉学科融合研究与教学都有极大的促进作用。

人工智能竞赛对高校的价值总结

科研机构是技术研究与探索的引领者,也是数字化转型的推动者。基础研究、应用研究和开发研究是科研系统中三个紧密相连的重要环节,三者协调统一的发展才能够真正实现科研成果的价值转化。

在人工智能领域,人工智能竞赛为这个过程的进化创造了条件,集中了数据、人才等必要的基础要素,提供了跨学科领域的交流环境。同时,前沿科研的实用价值通过竞赛被释放、被感知,也获得了持续的社会关注和资源支持。

科研机构的赛题技术方向和应用场景富有前瞻性,集中于和自身行业背景属性相同的场景中,地质、水利、气象、传媒是较为常见的赛题场景。

科研机构类赛事主办方的赛题场景分布和技术类型分布

四、如何组织一场人工智能竞赛

作为整合 AI 技术和应用场景的枢纽,连接数据人才和业务问题的桥梁,优质的人工智能竞赛既要能够激发数据人才的能动性和生产力, 又要满足赛事主办方的主要诉求。前者需要打造良好的参赛体验, 后者又须培养扎实的数据科学运营能力,即优质的人工智能竞赛应同时满足竞赛体验的顺畅度和竞赛成果的有效性。

竞赛体验的顺畅度以系统化、专业化的运营手段严格把控赛事质量,以易用的工具、合理的计算资源支撑赛事功能,保障各个环节的平稳推进和过渡,激励参赛选手在公平、公正的竞赛环境下充分发挥能动性和专业实力,高效创造出性能优越的竞赛成果。竞赛成果的有效性在充分理解赛事主办方业务特征与办赛诉求的基础上,通过赛题最大化呈现技术在具体应用场景下的价值,将人工智能竞赛打造成为高度整合数据 + 算力 + 算法 + 应用场景+ 人才的标杆, 为数字化创新提供借鉴与思路。

优质数据科学竞赛的关键要素

为了快捷、高效、准确地寻求数据创新的切入点和赛题方向,竞赛运营平台在日常工作中需要注重对各行业、各领域的洞察积累和研究分析,挖掘各行业的业务特征、发展趋势和价值生态。在面对具体的人工智能竞赛项目时,结合赛事主办方的实际业务价值和实现风险,快速敏捷地构建数据创新解决建议。

和鲸数据创新解决建议,以快消行业的线上营销网红渠道场景为例

数据甄选不仅要做到能够从数据源头上支撑赛题的可解性,配合赛事主办方积累数据采集和管理方面的能力。竞赛运营平台需要积累国内外的开放数据资源,形成丰富的数据案例库,以此为基准帮助赛事主办方进行数据采集和管理。

在实际竞赛中,要第一时间面向赛事主办方收集数据样例,深入了解数据采样过程、方法和数据的业务特色,结合赛题的应用场景和技术类型,从字段的完整性、关联性等多个方面系统性地检查数据集质量。过小的数据量可能不足以支撑赛题的解答,最终开发出的算法模型性能有限,而过大的数据量需要占用巨大的储存空间、消耗海量的计算资源,同时也会使得参赛选手的分析开发工作耗时日久, 从而违背了人工智能竞赛经济、高效、敏捷的初衷。

竞赛成果投入真实场景的应用,会面临种种现实约束条件,需要结合数据实际情况预判可能出现的质量风险,并采取合理的手段甄选质量优良、数量合理的数据,提出改善数据质量、或对数据进行加工的方法建议。

赛事的竞赛数据集由四个部分组成:作为模型开发输入的训练集数据、作为模型开发输出的训练集标签、作为模型测试输入的测试集数据(无标签样本)、作为评估模型的真实测试集标签。

目前普遍的数据集切分方法是按一定比例进行随机切分,这样的切分方式表面看似公允,但没有考虑数据分布特征具有的不确定性。举例来说,如果训练集和测试集过于相似,模型在训练集上的过拟合表现则无法在测试集上被验证发现,最终得分虚高;而如果训练集和测试集的相似度低,则基于训练集数据特征训练出的模型在测试集上则可能有不同的表现。

为了避免随机切分带来的潜在问题, 对抗验证(Adversarial Validation)不失为行之有效的办法。

设计科学的评价机制,能够有效评估参赛选手的真实水平和竞赛成果的价值,帮助赛事主办方对于人工智能竞赛的意义有更加直观的感受,也能为数据科学研发的迭代指明方向。从参赛选手的视角出发,在其付出和能力得到客观评价的同时,更重要的是能够在清晰合理的评价反馈引导下更加高效地优化模型性能。

五、多领域的人工智能赛事案例

1、政府赛事

南京市人民政府 – 2018 全球(南京)人工智能应用大赛:作为国内顶级规模的人工智能赛事,2018 全球(南京)人工智能应用大赛推动了产、政、学、研各界的全面联合,因其社会价值之高、调动资源之多、影响范围之广引发了各界的高度关注。南京市人民政府联合 2 家科研机构、3 所高校、15 个企业共同发布了覆盖智能制造、智能驾驶、智能生活、智能医疗、智能城市五大产业应用领域的 20 道赛题,设立 600 万元奖金池及 20 亿元人工智能产业风险投资基金,吸引了近 3000 名数据科学人才的参与。

和鲸社区承办由南京市政府主导的 2018 全球(南京)人工智能应用大赛,联合产、政、学、研、资各界机构组织针对五大产业应用领域方向共计发布 20 道并行赛题,所有赛题从解决产业实际困难出发,充分体现 人工智能 技术在各行各业的深度应用赋能价值,一批提高生产效率甚至改变商业模式的解决方案,从解决方案,从本次大赛中涌现。

通过这项赛事的成功举办,南京市人民政府向外界清晰地传达:南京市人民政府对于数字化转型人工智能产业的支持力度是空前的,通过提供坚实有力的扶持政策和对接优质资本,南京有能力、有魄力、有信心把握人工智能时代的发展趋势,以更懂科技企业的方式聚集人工智能人才、提供配套设施服务、助推人工智能全面发展。

深圳市人民政府 -2019 首届全国人工智能大赛(NAIC):规模空前的国际化人工智能大赛推动产业创新生态闭环。人工智能应用于 4K/ 高清视频处理是一个非常有前景的领域,而 4K/ 高清视频是 5G 时代的主流应用之一。深圳市人民政府专门设立人工智能领域权威赛事——全国人工智能大赛(以下简称大赛)。

大赛将立足国际视野,营造人工智能创新创造氛围,促进产业、学术、资本、人才等创新要素融合发展。大赛由深圳市人民政府主办,深圳市科创委、鹏城实验室及科技部指导成立的新一代人工智能产业技术创新战略联盟作为共同承办,多家企业与学术机构共同协办。以AI 赋能视界为主题,着眼于视觉处理领域的前沿技术难题,连接海内外优秀人工智能人才,在真实的实践机会中,共同探索技术的创新突破,加速推动前沿技术在业务场景中的落地,促进打通人工智能先进技术从科学创新到落地应用的完整闭环。

本次大赛由和鲸社区承办,吸引来自 13 个国家和地区、376 所高校、800 余家业界公司共 3000 余支团队、4000 余人报名参赛。大赛影响力及规模位列 2019 年各类人工智能大赛之首。据了解,两大赛项共设置 536 万元奖金,其中冠军团队获得 100 万元奖金,是今年国内总奖金和一等奖金额最高的人工智能赛事。获奖选手获得由鹏城实验室和顶尖人工智能企业开放的招聘绿色通道,以及科研经费、人才政策、研发空间等全方位支持。

北京市医疗保障局、北京市经信局 -2020 北京数智医保创新竞赛:为推进信息技术在医疗保障领域的应用创新,推动医保管理与高新技术的协同发展,夯实智慧医保应用基础,帮助提升首都医疗保障精细化、智能化管理水平,结合现阶段医保信息化建设工作实际,以创新融合、开放共享、安全平稳为工作原则,北京市医疗保障局、北京市经济和信息化局、北京市科学技术委员会、中关村科技园区管理委员会将在北京市联合举办首届北京数智医保创新竞赛,主题为创新北京、智慧医保,英文 Slogan为Data enabled medical insurance,简称Beijing DEMI大赛。意为此次医保竞赛通过比赛形式征集高精尖创新单位及前沿产品,以政商合作促进医保与高新技术融合发展。

本次大赛以党的十八大和十九大精神为指导,立足北京四个中心定位,坚持以提升医疗保障服务能力、改善民生保障为主线,全面发挥首都科技中心优势及医疗保障数据资源优势,深度挖掘医疗保障工作与人工智能等高新信息技术融合发展潜力,增强创新能力,提高首都医疗保障管理服务水平,推动首都医疗保障事业创新发展。

通过举办Beijing DEMI大赛,鼓励具备人工智能、大数据分析与挖掘等高精尖科技的高新技术企业、高校、研究机构等参与医疗保障管理服务,将成熟的创新科技技术转化为实践;加强政商战略合作,优选一批符合医保创新发展需要的新技术纳入医疗保障管理服务场景应用示范,不断完善首都医疗保障管理服务创新能力体系;促进高精尖产业发展,推进创新技术转化为实践产品并落地实施,形成线上线下融合、相互促进发展、规范安全高效的医保与高科技产业共同发展格局。

重庆市江津区人民政府 – 2020 数智重庆·全球产业赋能创新大赛:重庆市江津区作为重庆工业大区,集聚了大数据智能化的相关企业 36 多家,产业规模达到 50 亿元。但由于核心技术创新能力不足,缺乏自动化、智能化等方面高技术人才,严重阻碍了工业智能化转型升级。重庆市大数据应用发展管理局、重庆市江津区人民政府联合阿里云共同启动首届数智重庆·全球产业赋能创新大赛,以工业智能制造为主题,大赛围绕工业制造大数据展开,聚焦生产制造、智能仓储、最优排产及订单匹配等江津企业需求场景,深入视觉计算、运筹优化等人工智能技术,召集全球开发者众智,实现工业生产降本增效,切实服务于实体经济,用技术驱动重庆智能制造升级。

算法赛以瓶装白酒疵品质检为课题,采集 3000 余瓶酒样的约 2 万张影像,经过数据清洗、标注等流程得到比赛数据集,总共包含 10 余种缺陷类型。要求选手研究开发基于计算机视觉的人工智能质检算法,根据相机拍摄的瓶装酒图像,判断其中是否有缺陷,并且需要准确定位缺陷的位置、类别和大小,从而达到自动化质检的目的。对于酒液缺陷,选手合理利用了酒液的动态特性,算法能够很好地将酒液中移动的缺陷目标检测出,比起未利用动态特性的方法,准确率能够提升 30% 以上,最终酒液缺陷的检测准确率能够达到 95% 以上,充分体现了人工智能算法在质检中优异的表现。

大赛共吸引来自全球 13 个国家和地区共计 3872 支队伍、4371名选手报名,在本次大赛结束之后,由选手开发的算法将会落地产生实际价值,在实际生产中发挥重要角色,降低人力成本,创经济效益,助力行业数字化。

大赛共吸引来自全球 13 个国家和地区共计 3872 支队伍、4371名选手报名,在本次大赛结束之后,由选手开发的算法将会落地产生实际价值,在实际生产中发挥重要角色,降低人力成本,创造经济效益,助力行业数字化。

通过此次大赛感受到数智浪潮中澎湃涌动的力量,也在技术与产业的交流碰撞中听到了美妙的未来旋律。政府、企业、学术界,以及广大开发者,将共同构建起新制造 新消费的新生态,共同为产业赋能。同时,活动创造了让全国优秀人才关注江津、了解江津、来到江津的机会,通过进一步的对接交流以及企业引入,吸引高端人才来到江津、留在江津。相信更多创新力量的加入,将进一步释放重庆工业的产业活力,夯实重庆在制造设备产业的全国领先地位,使重庆江津在成为西南智能化工业中心和全国科技创新中心的道路上前进一大步。

福州市人民政府 – 2020 数字中国创新大赛 – 数字政府赛道:2020 数字中国创新大赛 – 数字政府赛道,作为数字中国创新大赛的主要赛道之一,以信息技术赋能政务服务,助力政府治理能力现代化水平提升为目标,聚焦智慧海洋、政务服务、智慧社区、城市治理四大领域,采用1+3双赛制模式,基于天池平台聚集全球顶级技术创新人才,发掘先进的人工智能与政务融合的创新应用成果,促进政府职能转变、再造科学决策和应急管理能力。

数字政府赛道一开始就把方案新颖、紧扣主题、极具潜力作为办赛的核心原则,引导参赛者从立意角度和思想高度接轨现代社会治理,关注福建乃至全国社会治理的热点、痛点、难点,注重技术创新与应用落地。赛事搭建了政府机构、产业资源、研究机构、投资机构的协同创新体系,投入高达 200 万的奖金及可观的落地转化资金支持。

北京市经信局 – 2020 北京数据开放创新应用大赛暨科技战疫·大数据公益挑战赛:2020 北京数据开放创新应用大赛暨科技战疫·大数据公益挑战赛,由北京市经信局、CCF 大数据专家委员会联合主办,在疫情爆发的特殊背景下,快速筹备发布赛事,大赛举办过程中,产生的所有创意、模型和方案,若符合疫情期间应用需求,经自荐与组委会推荐,将随时应用于北京及全国各地的抗疫工作,特别是在湖北省等疫情严重地区应用。

本次大赛共计 439 所高校、482 家单位的 6700 余技术团队参赛,提交作品 23000 余次,最终 60 余件作品脱颖而出,其中优秀解决方案,感染路径定位、生物预警系统等部分作品实际应用,即由北京向全国推广应用,有效助力疫情防控。

四川省大数据中心 – 2021 数字四川创新大赛:为深入贯彻党中央国务院关于加快发展数字经济的战略部署,全面落实四川省委省政府加快建设网络强省、数字四川、智慧社会,形成具有较强核心竞争力的数字经济生态体系的发展要求,四川省大数据中心、省委网信办、省发展改革委、经济和信息化厅共同主办了 2021 届数字四川创新大赛,探索利用数据资源赋能智能时代,在提升政府治理能力和推动完善大数据生态体系等方面作一次有益尝试。

2021 届数字四川创新大赛竞赛赛题围绕政府治理体系及治理能力,推动完善大数据生态体系,利用多种开放数据资源针对性解决四川省当地需要解决的难点及痛点,助推数字经济发展。获奖者还可获得孵化办公空间资源。

深圳市人民政府、鹏城实验室 -2021全国人工智能大赛(NAIC):为进一步落实科技部、工信部支持深圳建设国家新一代人工智能创新发展试验区和人工智能创新应用先导区双区驱动工作要求,加快推动深圳在人工智能、网络通信等科技创新领域建设步伐,由深圳市人民政府、鹏城实验室(PCNL)主办,深圳市科技创新委员会、新一代人工智能产业技术创新战略联盟(AITISA)联合承办 2021 年全国人工智能大赛。

为配合国家加快数字化发展,建设数字中国战略,促进无线通信和视觉信息智能编码技术领域的原始创新积累,大赛以AI赋能视界为主题,分为AI+ 无线通信、AI+ 视觉特征编码两个赛道,在 2021 年 12 月启动,面向全球开放报名参赛。

大赛立足于国际视野,营造人工智能创新创造氛围,促进产业、学术、资本、人才等创新要素融合发展,以高规格、高质量、高难度的理念加速培养人工智能领域的高精尖人才,推动人工智能技术的落地。

2、科研赛事

CCF BDCI:CCF 大数据与计算智能大赛(以下简称 CCF BDCI)由中国计算机学会 2013 年创办,是大数据与人工智能领域的算法、应用、系统、创业大型挑战赛事,面向重点行业和应用领域征集需求,以前沿技术与行业应用问题为导向,以促进行业发展及产业升级为目标,以众智、众包的方式,汇聚海内外产学研用多方智慧,为社会发现和培养了大量高质量数据人才。

2020 CCF BDCI,上半年发布疫情专题赛季(9 道赛题,算法类、解决方案类两大赛道),下半年发布正式赛季(14 道赛题,算法类、自主平台类、系统类三大赛道),以及 9 道算法类训练赛题。本届大赛共吸引了全球 25 个国家、1247 所高校、1873 家企业的43795 人、37994 支队伍参赛,提交作品 83361 次。大赛是目前由学术组织发起的全球最大参与规模赛事,全国有超过 80 所高校将 CCF BDCI 大赛作为检验学习成果的实践推荐,每年汇编作品集供广大数据科学爱好者学习,历届优质赛题也将作为经典赛持续开放评测、训练。

互联网小常识:网络应用软件开发与运行环境包括网络数据库管理系统与网络软件开发工具。

NLPCC:NLPCC 国际会议从 2012 年开始举办,是由中国计算机学会(CCF)主办的 CCF 中文信息技术专业委员会年度学术会议。NLPCC 专注于自然语言处理及中文计算领域的学术和应用创新,致力于推动该领域学术界和工业界研究、创新与应用的发展,成为覆盖全国、具有国际影响力的学术与创新交流平台。

LIC 比赛 (Language and Intelligence Challenge) 自 2019 年开始举办,由中国计算机学会(CCF)和中国中文信息学会(CIPS)联合主办。LIC2021 组织了机器阅读理解、对话和信息提取三项任务,并提供大型中文数据集。获胜队伍将分享 30 万元人民币的总奖金。比赛论坛及颁奖典礼将在第六届语言与情报峰会上举行。

LIC 比赛赛制非常成熟,内容为 NLP 传统内容,数据集内容完整且丰富,同时比赛对参赛选手的基础和理论功底有着较高的要求。

CCKS 竞赛:CCKS 是 全 国 知 识 图 谱 与 语 义 计 算 大 会(CCKS: China Conference on Knowledge Graph and Semantic Computing)的附属竞赛,竞赛平台为 biandata。由中国中文信息学会语言与知识计算专业委员会组织和承办,根据比赛内容的不同,与包括华为、腾讯、军事科学院系统工程研究院及清华大学等多家企业、大学及研究院共同举办。

CCKS 竞赛与企业及研究所合作相当密切,其比赛领域相当广泛,比赛主题往往正切入各领域发展需要突破的关键点,同时也要求参赛人员不仅在人工智能领域有所研究,也在相关专业领域有充足的专业知识。

KDDCup :全球人工智能竞赛市场已经历了 20 余年的探索,其发展起点可追溯至 1997 年首次问世的 KDD Cup,这也是数据科学领域迄今为止最重要的国际赛事之一。推出 KDD Cup 的 KDD(Conference on Knowledge Discovery and Data Mining,知识发现和数据挖掘会议)隶属于 ACM(Association for Computing Machinery,国际计算机学会),是响誉全球的顶级学术会。

连续举办 20 余年的 KDD Cup 以创新为核心驱动力,加之积极拥抱全球化的态度,对工业界产生了强大的吸引力。正是越来越多来自世界各地的企业以其真实业务问题与相关数据为基础提出赛题建议,从而促使 KDD Cup 通过设立更丰富的赛道来探索前沿技术在真实场景中的应用价值,并创立了总额突破 10 万美元的丰厚奖金,吸引了逾 1600 支国际参赛队伍的加盟,影响力创历年之最。

NTIRE:NTIRE 全 称 为 New Trends in Image Restoration and Enhancement ,研究图像恢复、增强新趋势,聚焦图像视频的质量改进与评估,虽然底层图像视频处理是传统方向,但 New Trends 却给这个领域带来新内涵,目前是 CV 研究社区近几年非常热门的话题,从 2017 年开始,每年与 CVPR 同期举行,包含Workshop 与相关的挑战赛,CVPR2020 共产出 62 篇文章,已经是 CVPR 每年热门 Workshop 之一。

2021 年 NTIRE @ CVPR 2021 比赛时间在 1 月至 6 月,挑战赛分图像和视频两个赛道,由主办方提供比赛需要数据集。NTIRE 挑战赛有众多赛道,聚集于前沿学术问题的解决,包括传统的计算机视觉问题和新出现的计算机视觉问题,历年挑战赛都为各类计算机视觉问题的解决提供了许多有价值的参考方案。

TREC:文本检索会议 TREC 由美国国家标准和技术局(NIST)等联合主办,已有 20 余年的历史,从 2017 年开始举办精准医学赛道评测,成为生物医药领域检索任务的国际权威评测。TREC PM 2020 吸引了梅奥诊所、滑铁卢大学、康奈尔大学、苏黎世联邦理工学院、清华大学、复旦大学等 16 支世界知名团队参加。

根据组委会提供的癌症患者信息,参赛队伍需要从 3000 万篇生物医学文献中找到包含相应临床证据的文章。按照 NDCG@30 和NDCG@5 两项搜索评价指标,组委会对搜索结果进行评分。

IJCAI 2021:IJCAI 2021 挑战赛为 IJCAI 的附属竞赛,比赛时间为 3 月至 8 月,竞赛与多个企业与机构共同举办,赛题类型独特。

大赛由提供专业数据集,如 2021 年歧义消除挑战赛由 AMiner 提供全球最大的人工标注姓名消歧数据集——WhoIsWho(https://www.aminer.cn/whoiswho),拥有超过 90 万篇论文。IJCAI 2021 的附属挑战赛的赛题类型丰富多样,部分挑战赛专注于采用人工智能解决实际问题,部分挑战赛则专注于技术前沿,也有部分挑战赛专注于一些新奇有趣的主题,参赛者可以根据自己的能力和兴趣参与挑战赛。

Face Anti-spoofingChallenge:从 2019 年开始举办,前两届与 CVPR 合作。2021 是第三届,与ICCV 合作由包括百度、巴黎 – 萨克雷大学、中国科学院自动化研究生在内的多家企业、大学和研究所联合主办。

2021 年挑战赛由主办方提供一个大型的 High-Fidelity Mask 数据集,即 CASIA-SURF HiFiMask(简称 HiFiMask),用于人脸反欺骗。它包括三个协议。该挑战基于协议 3,该协议评估了算法在开放集场景下的区分能力和泛化能力。换句话说,训练集和开发集只包含部分常见的掩码类型和场景,而测试集上有更通用的掩码类型和场景。协议 3 考虑了可见和不可见域以及掩码类型,它们对于实际部署更通用且更有价值。

Face Anti-spoofing Challenge 一直聚焦于人脸反欺骗这一计算机视觉热点问题,有着来自于各大企业、研究所及大学的丰富且不断更新的数据集,希望世界参赛人员能够给这一工程上的技术难点提出更优秀的解决方案。

3、产业赛事

2021X-GAME 上海新能源汽车大数据竞赛:2021X-GAME 上海新能源汽车大数据竞赛由上海市经济和信息化委员会、共青团上海市委员会、中国汽车人才研究会共同指导,上海国际汽车城、嘉定区科学技术委员会、上海青年管理干部学院共同主办。

2021 上海新能源汽车大数据竞赛以新能源汽车领域数据分析应用和算法创新为重点,围绕由上海市新能源汽车公共数据采集与监测研究中心和上海市城乡建设和交通发展研究院提供的相关数据,聚焦行业热点问题,面向全国高校征集高水平的解决方案或成熟产品。

大赛以数联万物,车载未来为主题,立足上海智慧城市的建设和数字化基础设施,瞄准碳达峰、碳中和工作目标,旨在实现算法创新和人才挖掘,加强政府、企业、高校和平台间的合作,推进新能源汽车大数据分析应用技术发展,打造良好的数据生态圈,促进构建绿色低碳循环发展的经济体系。

2021 中国大学生保险数字挑战赛:2021 年中国大学生保险数字挑战赛,是由中国银行保险监督管理委员会主管唯一工作日报《中国银行保险报》、中国保险学会、中国平安财产保险组成的大赛组委会主办,深圳市大数据研究院协办,知乎作为内容合作平台的校园综合赛事项目。旨在打造专业、权威及具有广泛影响力的中国大学生保险科技类赛事,为大学生提供了解保险行业数字科技战略前沿趋势,展现自我、挑战自我、增值成长的舞台。

2021 届大赛赛制全新升级,突破以往区域选拔模式,面向全球范围选拔优秀人才。大赛将聚焦产品和数字双赛道,共分初赛、复赛和全国总决赛三个赛段,并为全球参赛选手在各赛段准备多元奖励池及权威赛事证书。同时本次大赛将联合内外部行业顶级导师为参赛选手提供专业培训,优秀作品可获赛事成果研究孵化机会。

好未来 – 中国创新挑战赛智慧教育专题赛:由国家科技部指导,科技部火炬高技术产业开发中心、国家高新区管委会、北京市科学技术委员会与好未来教育集团联合承办的中国创新挑战赛智慧教育专题赛,今年就将赛题设置为了教育手写公式识别,旨在通过 OCR 深层次研究,突破关键技术来攻克现阶段教育科技领域内对于复杂学习场景中面临的手写公式识别这一难点,进而推动业界对真实教育场景的 OCR 研究中相关重要问题和关键技术的深入理解以及相关方法与技术的发展与突破,使得 OCR 技术能向自动批改等典型场景落地更进一步。

中国南方电网公司 – 数字电网开发大赛:中国南方电网公司服务广东、广西、云南、贵州、海南五省区,并与香港、澳门地区以及东南亚国家的电网相联,供电面积 100万平方公里。供电人口 2.54 亿人,供电客户 9270 万户。2019年南方电网公司提出把握第四次工业革命历史机遇,以数字化推进电网企业战略转型,全面启动数字电网建设。

由中国南方电网公司主办的数字电网开发大赛,本着任务从业务中来,成果到应用中去的原则,旨在推动新一代数字化技术与电网业务深度融合,解决电网实际业务的技术难题。题目和数据都来源于真实的电网场景,共有 7 个数字电网建设及数字化转型关键任务,主要涉及云化数据中心、智能电网和人工智能三个方向,具体包含 4 道算法比拼任务,3 道方案评比任务。

英特尔创新大师杯:2021 年第一届英特尔创新大师杯由阿里云和英特尔联合举办,聚焦计算机视觉 OCR 领域以及自然语言处理方向的经典技术方向,通过三个实用场景向社会各界的开发者征集解决方案。本次大赛由三个深度学习经典场景的任务组成:通用场景中文 OCR 文本识别任务,中文 NLP 地址要素解析、中文 NLP 地址相关性任务。

大赛面向全社会开放,个人、高等院校、科研单位、企业、创客团队等人员均可报名参赛。由天池平台提供相关数据集。

中国造船工程学会 – 海上争锋中国智能船艇挑战赛:海上争锋中国智能船艇挑战赛由中国造船工程学会与院校联合主办,其目的是贯彻海洋强国战略,培育创新人才,助力船舶工业高质量发展。

易华录 – 江苏大数据开发与应用大赛:自 2020 年启动,由江苏省工业和信息化厅、无锡市人民政府主办,江苏省大数据管理中心提供支持,无锡市大数据管理局、梁溪区人民政府、北京易华录信息技术股份有限公司共同承办。

2021 年华录杯比赛时间为 7 月至 9 月,共设置医疗卫生、智慧水利、车联网、数字运河四个赛道,大赛总奖金 100 万,每个赛道奖金25 万。

腾讯 – 广告算法大赛:伴随 5G 时代来临,视频广告迎来爆发式增长,在广告创意 / 投放 / 策略等广告系统的关键环节中,对视频广告内容的深度理解越发显得重要且迫切。腾讯广告算法大赛已连续举办 5 年,大赛围绕视频广告议题,从广告应用场景痛点出发,进行赛道设置。排名前三的队伍将有机会参与 ACM MULTIMEDIA 2021 GRAND CHALLENGE SESSION。

极市角科技有限公司 – ECV 极市计算机视觉开发者榜单大赛:ECV 极市计算机视觉开发者榜单大赛自 2017 年启动,由青岛市人民政府指导,极市角科技有限公司、 青岛市委台港澳办、青岛市工业和信息化局、青岛西海岸新区管委和青岛市城市管理局主办,英特尔(中国)有限公司为战略合作伙伴, 中国模式识别与计算机视觉大会(PRCV 2021)提供学术支持,极市平台、OpenVINO ™工具套件提供技术支持,马达智数提供数据支持。累计吸引超过 1 万名开发者参与。

达观数据 – 达观杯:达观杯系列算法大赛是由达观数据发起并主办的全球性人工智能算法竞赛,由中国计算机学会自然语言处理专业委员会特别支持。每年一届,大赛参与人员为全国高校大学生、科技型企业和自然语言处理爱好者共同参与和研究实际业务场景下的人工智能技术问题。

4、高校赛事

2018 中国高校计算机大赛——大数据挑战赛:2018 中国高校计算机大赛——大数据挑战赛(以下简称大赛)是由教育部高等学校计算机类专业教学指导委员会、教育部高等学校软件工程专业教学指导委员会、教育部高等学校大学计算机课程教学指导委会、全国高等学校计算机教育研究会主办,由清华大学和北京快手科技有限公司联合承办,以脱敏和采样后的数据信息为基础开展的高端算法竞赛。大赛面向全球高校在校生开据信息为基础开展的高端算法竞赛。大赛面向全球高校在校生开放,旨在通过竞技的方式提升人们对数据分析与处理的算法研究与技术应用能力,探索大数据的核心科学与技术问题,尝试创新大数据技术,推动大数据的产学研用,本次大赛鼓励高校教师参与指导。

2021 中国数字人文开放创新研究大赛:数字人文回答了如何在新一轮科技革命所引发的重大知识生产变革中建设新型人文科学的重要命题,它综合了科学理性与人文诗性的研究框架,直面技术挑战的人文关怀;回到对象本身的数据研究和刻画社会场景的数字描绘,提供远读与近读的深入路径;以人文批判视野谨慎审视技术的高速发展,赋予技术以内涵;培养人文素养、科学思维和技术能力兼具的新时代人才,塑造改变社会的力量。

时代经纬:迈向新文科的数字人文学术研讨会由南京大学人文社会科学高级研究院与中国索引学会主办,是中国索引学会数字人文分委会 2021 年会,也是中国数字人文的第三届年会。本次会议旨在从多重维度就若干具体议题邀请国内外学者及专业人士展开脑力激荡与学术交流,描绘数字人文当代图景,深入探讨数字人文知识生产范式。

本次会议首次设置开放人工智能竞赛环节,面向全球征集开放数据集,集中在和鲸数据科学协同平台进行发布,邀请全球数字人文研究者和爱好者参加竞赛,并组织专家对竞赛结果进行评选,最后邀请获奖者参加此次数字人文大会发表论文并领取奖励。本次大赛鼓励海内外数字人文研究者及数据分析爱好者利用各种数字人文新技术对开放数据进行具备人文性的探索研究与应用。通过人文数据的创新研究竞赛,促成数字领域与人文领域研究者在竞赛合作过程中的深度协作,培育出新一代在数字与人文之间融通无间的 DH 学人,夯实中国的数字人文研究领域人才与成果基石。

清华大学 – 安全 AI 挑战者计划:没有网络安全就没有国家安全。针对人工智能安全风险,阿里安全联合清华大学,以人工智能的对抗安全为核心,提供场景、技术、数据等支持,召集 挑战者 以攻击者或防守者的身份共同打磨AI 模型安全;为广大安全爱好者提供数字基建安全的试炼场,在高难度的真实环境中提升技术,培养真正有安全实战能力的安全基建人才。清华大学人工智能研究院院长张钹院士表示,校企联合打造全球顶尖安全 AI 赛事,就是为了培养一流的实战型网络安全人才,推动我国人工智能领域的快速发展。

上海交通大学 – 2020 第二届华为云人工智能⼤赛·无人车挑战杯:人工智能作为战略新兴产业,已经开始广泛应用于多个领域,⽆⼈驾驶及机器⼈是其中的重要载 体。华为云联合上海交通⼤学举办 2020 第⼆届华为云⼈⼯智能⼤赛·⽆⼈⻋挑战杯,此次⼤赛是在华为云⼈⼯智能平台(华为云⼀站式 AI 开发平台 ModelArts、端云协同解决⽅案 HiLens)及⽆⼈驾驶⼩⻋基础上,全⾯锻炼和提⾼赛队的 AI 解决⽅案能⼒及⽆⼈驾驶编程技巧。

比赛选手拥有与华为云人工智能平台技术专家导师和上海交通大学创新中心专家导师团队进行深入沟通交流的机会,了解并动手实践华为云提供的智能硬件及人工智能平台等服务。自大赛启动以来,累计 777 ⼈次报名,198 ⽀团队参与。报名高校 150+,提交作品 4000 余份。人工智能竞赛作为高校推进人工智能相关学科建设的重要手段,将教学、科研、实训深度结合,以赛题的形式发布,广泛吸引校内外的人才参与竞争和交流学习,探索将理论知识转化为实践应用,帮助人才在竞赛场景中以赛促学,帮助人才认识理论学习、基础知识的意义与重要性,加强学生的理论和技能在多元场景下的应用能力。

大连理工大学 – 全国水下机器人大赛:全国水下机器人大赛是一项由国家自然科学基金委员会支持,由大连理工大学和鹏城实验室等单位具体承办的水下机器人领域的重要赛事。大赛每年夏季在大连市举办,至今已成功地举办了三年,对推动我国水下机器人技术与装备的发展发挥了重要作用。

2020 年大赛组委会邀请 5 名相关领域的院士和包括 100 余名长江学者杰青优青在内的相关领域知名专家学者以及150 余名产业界代表参与大赛及论坛。来自全国高校、科研机构、企业等 20 支团队参加线下现场的人机协同抓取组和自主抓取组的比赛,还有 400 余支队伍和个人报名参加了线上的目标识别组比赛。2020 届大赛较往届相比,比赛环境为真实近海水域,水下状况多变,比赛环境与技术难度更大,更加突出水下机器人的智能性,深化和拓宽水下目标检测、水声通信领域的相关研究,推进算法技术向实际产业应用进行赋能。

未来杯高校 AI 挑战赛:未来杯于 2018 年首次面向国内外高校在读学生推出,作为国内外高校在人工智能领域认知度较高的竞赛平台之一,始终致力于实现大数据与人工智能技术及应用在高校的普及。

2018 年首届大赛,赛道包含 AI 专业组—图像算法、语音算法;未来设计组—生活设计、科幻文学,吸引了来自全国 115 所高校、3418 名选手所组成的 468 支队伍参赛。2019 年第二届大赛,组委会深挖产业需求,在保留第一届 AI 专业组赛道的基础上,还增加了以人脸识别应用为基础的智慧互娱赛道,和以房产金融数据分析为基础的智慧城市赛道,共吸引到来自海内外 221 所高校、4449 名选手所组成的 1143 支队伍参赛。2020 年第三届大赛,总报名人数 4787 人,覆盖 198 所高校,2545 支战队,虽然受到疫情蔓延的影响,但参赛规模依然在扩大。

六、人工智能竞赛生态版图与竞赛平台

人工智能竞赛是指在以真实业务问题为导向,聚合广泛的、跨学科的数据人才的参与,利用数据研发算法模型、探索解决方案的新型研发模式。2014 年至今,全球范围内由各行业企业、顶级学术会议和第三方数据科学平台发起的各类人工智能竞赛总量已突破 1000 余场。

其中,仅中国市场就已通过 12 个人工智能竞赛平台发布共计逾400 场人工智能竞赛,占比近半,且年均增长率高达108.8%。236 家企业、政务部门、高校和科研机构作为赛事主办方参与其中 ;吸引约36万支团队、120 万人次参赛;奖金规模合计高达2.8亿元人民币,赛题覆盖金融、交通出行、安防、航空天文和生物科技等33 个应用场景。

利用人工智能竞赛探索数字化创新与前沿技术的落地应用方向正在成为数据科学生态必不可缺的一环。通过对这 400 场人工智能竞赛的深入分析,我们试图从更全面、更深入的角度理解中国市场的人工智能竞赛生态。

人工智能竞赛生态版图

和鲸社区:和鲸社区(heywhale.com,原科赛网 )是最早一批专注于AI 大数据竞赛的头部平台,也是国内最大的数据科学社区之一,以connect people with data的使命,注册用户超 20 万,辐射超过 100 万数据科学爱好者,累计运营 200 余场大规模人工智能竞赛,覆盖互联网、工业大数据、智能机器人、智慧金融、智慧城市、智能电网、智慧医疗、新能源汽车等领域。

阿里云天池:天池面向社会开放高质量脱敏数据集(阿里数据及第三方授权数据)和计算资源,吸引全球高水平人才创造优秀解决方案,有效帮助行业 / 政府解决业务痛点,并为企业招聘提供人才输送。作为中国产业 AI 排头兵,天池提供集品牌、生态、人才、算力为一体的数据智能解决方案,为产业创造价值。

2014 年至今,天池已成功运作 400 余场高规格数据类竞赛,覆盖全球 98 个国家和地区的 90 万数据开发者。天池平台上的竞赛课题以解决实际场景中的业务痛点为主,实战性和应用性强,场景覆盖数字政府、电商、金融、交通、物流、航空、工业、基因、电力、医疗多个领域,让 AI 普惠各行各业。近年,天池平台推出模型评估工具 TCC(TianChi Computing 的缩写),保障竞赛优胜模型质量的同时兼顾模型效率和数据安全,维护竞赛公平性并推动竞赛成果落地转化,2020 年天池在 TCC 的基础上推出业界首创的流评测机制,推动竞赛模型评估迈向新高度。

华为云大赛平台:华为云⼤赛平台,是华为公司⾯向全球开发者的创新⼤赛平台,致⼒于为想要改变世界的开发者们提供⼀个实践创新的梦想平台,⿎励更多开发者基于华为平台和能⼒进⾏产品与⽅案的创新与应用。主要赛事有:①编程和软件开发类赛事,使用华为敏捷开发DevCloud、鲲鹏、HiQ 等服务和产品,与全球编程爱好者一起探索编程与竞技的更高境界。

以赛促学,以赛促建,携手为生态建设搭建政企高校合作的桥梁。②华为云 AI 竞赛主要基于一站式 AI开发平台 ModelArts 进行参赛作品的开发、调试、提交及自动评分,其中评分测试集不可见的方式最大化保证比赛客观公正。③网络AI 算法类赛事,使用华为网络人工智能 (NAIE) 的端到端数据处理、特征工程、AI 模型训练平台,集成 200+ 网络电信领域 API 接口( 含自研接口如 Automl 等 ),与 AI 爱好者一起探索机器学习的算法挑战。

特色:基于华为全栈 AI 能力,开放华为真实业务数据集;赛事专属 AI 训练营赋能体系;云联结政府、企业多领域办赛,提供优秀人才桥接。

DataFountain:DataFountain(简称DF)是国内领先的数据智能协同创新平台,为 17 万 + 用户提供了专业的大数据竞赛、人工智能数据集、开源分享社区、建模工作台、案例实训等服务。依托创新技术与国家级赛事服务能力,自 2015 年成立以来已举办 280 余场由政府、企事业单位、科研院所主办的大型赛事,是 CCF 指定竞赛平台。

DF 平台鼓励选手赛中赛后得当开源,坚持严格反作弊,关注能力提升与实践应用,为参赛选手提供了友好、公平、高成长的竞赛环境。DF 平台打造了国内多个经典赛事 IP,其中 CCF BDCI ⼤赛已成为国内最具生命力、参赛规模最大的大数据联赛及圈内聚首盛会。

DataCastle:DC 竞赛是专业的数据科学竞赛平台,基于自主研发的 DCLab 在线编程工具,主打算法建模与创新应用两种竞赛模式,聚焦大数据与人工智能,不断开拓工业互联网、物联网、区块链、网络安全、工具开发等领域。DC 竞赛利用竞赛生态,赋能政府政务数据开放、助力政府挖掘并招募优质项目;集群智为企业优化算法、精准招聘数据科学领域人才。迄今,DC 竞赛已汇集了 15 万数据科学开发者,累计上线赛题 264 道、参赛人次 28 万、作品提交 36 万次、奖金发放 7100 余万,已服务国家部委、军委、地方政府 20 余家,企业上百家。此外,DC 竞赛还联合上海市教委,面向 K12 推出了2020AI 算法擂台赛,不断尝试并延伸用户群体。

Kaggle(国外):人工智能竞赛发展的里程碑绕不开 Kaggle,除了国际性的市场影响力和知名度外,Kaggle 更是为人工智能竞赛的平台化发展奠定了模式的基础。创立于 2010 年的 Kaggle 是目前全球最大的人工智能技术分享社区和第三方人工智能竞赛平台,面向全球用户累计举办竞赛近 400 场(含练习赛和自营赛),社区活跃用户逾百万。各类赛事主办方基于不同的目标通过 Kaggle 发布与数据相关的难题,悬赏吸引全球的人工智能人才参与竞赛。

在发展初期,Kaggle 聚集了一大批数据科学与人工智能人才,凝聚 了 Your Machine Learning and Data Science Community 的社区文化,形成了讨论氛围浓厚的数据集、代码与技术分享社区,并在此基础上开始逐渐发展人工智能竞赛服务。围绕着数据科学与人工智能,Kaggle 做出了诸多努力和尝试,平台功能也日益完善,目前包含竞赛、数据集、开发工具三个子平台,配套论坛,课程与招聘服务三大模块,逐渐发展成为连接人才和应用场景双方共同致力于人工智能与数据科学创新探索的综合性社区平台。

在中国市场,越来越多的企业、高校、科研机构和政务部门开始意识到人工智能竞赛是进行品牌宣传、人才选拔、算法创新的一种高效形式,因此投身人工智能竞赛的姿态愈发积极。在此背景下,中国市场也顺势崛起了一批人工智能竞赛平台,传统科技巨头与深耕竞赛领域的公司,凭借在资源整合、场景挖掘、工具开发、成果封装,人才转化等方面差异化的专业服务能力和经验推动着中国人工智能竞赛的专业化发展,并开始探索区别于 Kaggle的中国特色发展道路。

七、人工智能竞赛的五大趋势与展望

1、奖金投入意愿攀升,参与规模稳增

人工智能竞赛的奖金水平和参赛规模从侧面反应了各行各业的数据科学投入力度和各类技术领域内的人才结构。自 2014 年以来,无论是参赛人数还是总奖金池规模都呈现出较为显著着上涨趋势,而人均奖金也呈同步上升态势。由此可见各行各业在人工智能竞赛中的投入热情和力度不断高涨。

具体来说,除了具有跨行业应用价值的赛题外,赛题场景的行业分布与奖金、参赛规模主要呈现如下趋势:交通出行、工业制造、医疗健康是目前人工智能竞赛中奖金最丰厚、规模最宏大的三个领域,可见其对于数字化创新价值的重视和期待。

电子商务、社会公共服务、文娱传媒等赛题场景因与大众个人生活息息相关,故而也往往具有较大的参赛规模。

安防、能源、气象等赛题场景因具有一定的知识门槛,因此存在奖金丰厚但参赛者寥寥的现象。

同时,不同技术类型赛题的难易程度和发展速度也与奖金水平正向相关:越高的奖金意味着技术难度越大,丰厚的激励有望推动尖端人才投身前沿问题的解决。其中,计算机视觉类赛题的奖金水平一枝独秀,预计未来仍会有大量相关赛题涌现。而结构化数据挖掘类赛题则具有最广泛的受众面和最低的参与门槛,参赛规模庞大。

各行业赛题的奖金投入与参与规模

2、数据红利可期,数据投入姿态积极

人工智能竞赛的创新价值均以数据为基础,除了以丰厚的奖金投入来吸引优质人才的加入,越来越多的主办方也在数据安全与法规限定的范畴内不断加大竞赛数据的投入力度,为创新提供更充足的养料。

百度作为积极投身人工智能竞赛的先锋,已基于百度知道的真实问答文档建设了迄今为止规模最大的中文公开领域阅读理解数据集 DuReader,并完成了对总量类型、问答实体和观点等信息维度的标注,弥补了现有主流问答语料库对于观点类问题覆盖不足的缺陷,首批发布的阅读理解数据集包含 20 万个问题、100 万份文档及 42 万个人工撰写的优质答案,并提供开源基线系统,从而为各行各业在自然语言处理领域的创新探索奠定了坚实基础。

由中科院打造的CASIA-WebFace数据集包含了 10575 名个人的494414 张图像,是训练人脸识别模型的重要素材。此外,在由百度主导的智能问答和综艺节目精彩片段预测两场人工智能竞赛中,百度联合汽车大师和爱奇艺分别提供了汽车大师平台上的 11 万条真实问答数据、以及总长约 1200 小时的1470 条爱奇艺电视综艺视频。这些数据对最终优质成果的诞生发挥了至关重要的作用。

携程将人工智能竞赛作为推动内外协同创新、解决实际业务问题的重要手段,其发布的赛题几乎覆盖了自身业务的核心内容,包括酒店销量概率预测、客户转化概率预测、航班延误预测、渠道销售能力预测等诸多方面。为了收获具备工业应用潜力的竞赛成果,在经过严格脱敏处理和采取充分的数据安全保障措施后,携程为竞赛导入了海量真实业务数据,其信息涵盖酒店基础数据、历史订单数据、价格波动数据、竞品排名数据、历史航班动态起降数据及航班延误影响因素相关数据等。

科研机构在日常研究工作中积累了大量数据,通过人工智能竞赛的开放式创新环境闭合的数据库在一定条件下进行开源,也无疑能够进一步促进这些数据的价值释放。率先将医疗大数 据 Datathon 模 式 引 进 国 内 的 解 放 军 总 医 院, 在 2018 年 的Datathon 中就曾发布并应用了2015-2017 年间在解放军总医院急诊科就诊数据库,以其作为 Datathon 竞赛的基础资源,通过跨学科、跨领域的交叉合作,真正推动了医疗大数据应用从理念到落地的探索。

政务数据广泛覆盖自然信息、城市建设、城市管理监察、服务与民生消费等丰富的维度,是极其重要的大数据资产,开拓政务数据的创新应用场景也成为了近年来各级政务部门的重要任务。越来越多的政务部门通过人工智能竞赛开源数据红利,探索创新机遇。举例来说,在由广西壮族自治区人民政府发起的全球数据智能大赛(2019)中,2015-2018 年间广西 81 县十余个维度的气象和早、晚稻产量数据,及降雨、温度、光照、温差等气象数据被用以构建智能气象预测系统和精准预测水稻产量。

3、教育投入与日俱增,数据人才能力跃升

高校是学科研究和人才培育重要机构,自 2015 年以来,全国各省市地方高校积极开设人工智能专业和数据科学与大数据技术专业。截至 2021 年 12 月,全国开设人工智能专业的高校为 231 所,全国开设数据科学与大数据技术专业的高校为 558 所。

与此同时,考虑到前沿技术与商业场景之间存在的认知偏差阻碍了数据科学价值的释放,教育部近年来积极推动交叉学科的建设和复合型人才的培养,要求创新学科组织模式,打破传统学科之间的壁垒,加强学科协同交叉融合,构建协同共生的学科体系。

而在数字化趋势下,日益完善的社会教育体系和不断催生的复合工作能力要求,继高等教育之后也催化了大批数据科学人才的诞生。人工智能竞赛日渐成为人才成长过程中进行理论实践和能力锻炼 的重要选择。另外一方面,根据剑桥大学发布的 2019 年 AI全景报告,中国的人工智能生态已经相对较为成熟,国家数据科学人才的流失率处于相对较低的水平且人才的增长率处于相对较为稳定的水平。

主要国家 AI 人才的发展流动情况

近年来,中国在人工智能研究领域加快发展,自 2014 年以来,中国在深度学习领域发表的论文数量开始领跑全球,这一趋势一直维持至今。同时,根据 LinkedIn 发布的 《全球 AI 领域人才报告》较之美国,中国 AI 人才拥有高学历及海外留学背景的人数占比更高,从侧面反应出人工智能竞赛的目标参赛人群整体供给质量较高,从供给层面为人工智能竞赛的价值保障奠定了良好基础。

中美 AI 领域专业人才最高学历分布

数据科学人才是数据驱动下技术创新和落地的抓手,人工智能竞赛因其面向不同人群的开放性和赛题内容及技术类型的丰富性,成为 了人才成长过程中重要的实践锻炼场景,提升了培养效率,而人才的不断涌现又为人工智能竞赛的规模化开展奠定了参与基础。通过和鲸调研发现,53.6% 的人工智能竞赛参与者具备硕士础。通过和鲸调研发现,53.6% 的人工智能竞赛参与者具备硕士及以上学历。 人工智能竞赛和专业人才之间互相促进、彼此成就,为数据驱动的技术创新落地和产业转型升级提供了充沛的生产力。

4、应用场景不断扩散,标杆行业优势初显

人工智能竞赛自诞生以来,始终以数据科学落地场景的探索为主要优势特色,并对数据科学在不同场景下的应用能力和价值通过赛题进行验证和迭代。从 2014 年至今中国市场的 600 场人工智能竞赛的赛题可以看出,除了如推理问答、人脸识别等具有跨行业场景应用能力的赛题外,交通出行、金融、文娱传媒和工业制造是赛题场景涉及最多的四大行业。

5、商业数字化趋势渐强,有赖技术创新落地

根据麦肯锡全球研究院发布的 MGI 行业数字化指数报告,在产业数字化动态发展的过程中,完备的数字资产积累、充分的资本投入与研发、可持续的人才连接与协同推进了产业数字化程度的不断加深,进而带来了较高的平均利润增长率以及劳动增长率。而人工智能竞赛在中国市场的崛起并非是对国外先进模式的亦步亦趋, 而是在技术落地应用需求增长、云计算基础不断成熟、宏观政策支持、投资机构助推、媒体宣传引导、专业人才涌现等因素共力作用的必然结果。 较为主动采用数字化战略的企业也能在后续发展中与竞争对手拉开差距。建立基于数据价值流动的生态系统,充分利用生态内不断升级的人才资源和技术资源赋能商业发展,已成为越来越多商 业领袖的共识。

智东西认为,人工智能竞赛聚集当下技术与数据应用中的难点寻求解决思路,不断缩短科研成果与落地应用之间的距离。我国的政务机构也在大众创业、万众创新的政策驱动下,开始意识到数据的力量,牵头组织了多场大型人工智能竞赛。从已有经验来看,人工智能竞赛是最佳的数字化练兵场、数字化人才挖掘器和数字化生态构建器。

互联网小常识:VLAN Trunk技术是交换机与交换机之间、交换机与路由器之间存在的一条物理链路,而在这一条物理链路上要传输多个VLAN信息的一种技术。VLAN Trunk采用帧标签的方式,每个帧标签指定一个唯一的VLAN ID。划分VLAN的方法分为基于端口、MAC地址、第三层协议类型或地址。

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186