2021 CCF大数据与计算智能大赛通知

责任编辑: 日期:2021年09月19日 12:31

大/赛/介/绍

CCF大数据与计算智能大赛(CCF Big Data & Computing Intelligence Contest,简称CCF BDCI是大数据与人工智能领域的算法、应用和系统大型挑战赛事,聚焦大数据与人工智能两大领域,每年一届,迄今已成功举办八届,累计吸引全球1500余所高校1800家企事业单位80余所科研机构12万余人参与,已成为中国大数据与人工智能领域最具影响力的活动之一。

2021年,第九届CCF BDCI大赛以“数引创新,竞促汇智”为主题,以前沿技术与应用问题为导向,从百度、华为等10余家知名企业和科研院所征集大规模数据、真实场景,形成了涉及图像识别、自然语言处理、数据挖掘、系统优化等不同技术方向的20余道赛题,通过在线排行榜自动评测与院士专家评审结合选拔优秀团队。

1、国际级权威赛事

中国计算机学会(CCF)主办,杭州市余杭区人民政府支持,浙江杭州未来科技城管理委员会、CCF大数据专家委员会、CCF自然语言处理专业委员会、CCF高性能计算专业委员会、CCF计算机安全专业委员会、CCF计算机应用专业委员会,教育部易班发展中心、LandInn、北京数联众创科技有限公司联合承办,DataFountain为官方竞赛平台。

国家一级学术团体主导,政产学研多方协同,彰显赛事权威。

2、顶级专家评审指导

梅宏、李国杰、倪光南、徐宗本等七大院士指导,国内外百余名学术专家评审,百度、华为、中原银行等十余家名企技术专家参评。

豪华专家阵容,只为与你相遇~

3、价值上亿的免费算力

作为本届大赛的独家战略合作伙伴,百度携飞桨平台为所有赛题提供了价值亿元的免费GPU算力,成功报名大赛任意赛题即可领取。

4、以练备赛,以赛促练

大赛开启赛练结合模式,大奖赛和训练赛兼具,以练备赛,以赛促练。鼓励选手在训练赛道开源分享,帮助初学者锻炼基础能力,辅助高校开展相关专业及课程教学实践工作。

体验真正的数据科学实战,成为高手指日可待!

4、真诚靠谱的赛事激励

奖金池上百万元,入围决赛团队即可获得招聘绿色通道、政府及知名投资机构的融资及孵化扶持,还有各合作单位提供的项目成果应用与试点机会,以及周冠军、邀请榜等赛事花样活动大礼包收到手软~

寻找优秀的你,我们是认真的!

6、这不只是一场竞赛

入围总决赛的优秀团队,将与百余名领域顶尖专家共度两天一夜“决赛嘉年华”,数据科学家之夜、大数据及计算智能高峰论坛、颁奖盛典应有尽有,差旅食宿全安排。

数据科学家年度盛典,硬核“充电”机不可失。

7、携手精英共建开源

所有决赛入围作品,将在条件允许情况下统一开源,借由全球技术精英的力量,惠及所有大数据及人工智能参赛者、学习者及从业者。

开源之路,与你同行。

8、全流程反作弊净化赛圈

全自动反作弊机制贯穿全程,违规禁赛黑名单长期开放,人工持续复核违规行为,晋级代码云端逐行复核,特设仲裁委员会公正判决,全方位构建公平公正竞赛环境。

DF与你一起,共建和谐竞赛环境。


赛/道/赛/题

可同时选择多道赛题参赛

本届大赛共设立自主平台赛道、数据算法赛道、先进系统赛道、数字方案赛道、训练助力赛道、创新创业赛道六大赛道,首批赛题发布如下。

如果你擅长研究算法、精于钻研

自主平台赛道

通过使用国产自主平台,进行相应算法赛题的研究。


1赛题名称:花样滑冰选手骨骼点动作识别

出题单位:百度

赛题奖金:¥10万

技术方向:智能算法、目标检测

赛题背景:目前的研究数据普遍缺少细粒度语义信息,导致现存的分割或识别任务缺少时空细粒度动作语义模型,时空细粒度语义的人体动作类内方差大、类间方差小等特点,将导致产生一系列问题,而利用粗粒度语义的识别模型进行学习也难以获得理想的结果。

赛题任务:参赛选手利用比赛提供的训练集数据,构建基于骨骼点的细粒度动作识别模型,完成测试集的动作识别任务。


2赛题名称:千言-问题匹配鲁棒性评测

出题单位:百度

赛题奖金:¥5万

技术方向:智能算法、关系抽取

赛题背景:在与训练集同分布的测试集上,当前大多数工作采用单一的指标评测模型的好坏。这可能过高的估计了模型能力,并缺乏对模型鲁棒性的细粒度评估。

赛题任务:给定一组问题对,判断问题对在语义上是否匹配(等价)


3赛题名称:基于MindSpore AI框架实现零售商品识别

出题单位:华为

赛题奖金:¥5万

技术方向:智能算法、图像分类

赛题背景:在高效管控货架排面的场景下,利用AI零售商品识别技术辅助人工完成陈列审查可以在时间、精准度、数据化程度等多方面得到提升,助力企业赢得消费者的选择。

赛题任务:参赛团队将设计算法对零售商品进行识别和分类,选手需要通过分析训练集中标注数据的特点,构建AI模型,对测试集中测试数据进行识别和分类。

数据算法赛道

通过算法模型,就某场景或行为的特定指标进行优化。

▶ 金融创新专题赛(1-2)

赛题名称产品评论观点提取

出题单位:中原银行

赛题奖金:¥5万

赛题背景:随着互联网的不断深入普及,越来越多的用户在体验产品和服务时选择将感受与评论分享在互联网上。这些评价和反馈信息对企业针对性地改善产品和服务有极强的指导意义,但互联网信息的海量性让人工成本高昂。

赛题任务:通过自然语言处理的语义情感分析技术判断出银行产品评论文本的情感倾向,并能进一步通过语义分析和实体识别,标识出评论所讨论的产品关键信息。


赛题名称个贷违约预测

出题单位:中原银行

赛题奖金:¥5万

技术方向:智能算法、异常检测

赛题背景:因为缺乏对新客群的了解,对新生细分客群的风控处理往往成为金融普惠的重要阻碍。

赛题任务:利用已有信贷数据辅助目标业务风控模型的创建,基于迁移学习捕捉不同业务中用户基本信息与违约行为之间的关联,帮助实现对新业务的用户违约预测。

赛题名称:剧本角色情感识别

出题单位:爱奇艺

赛题奖金:¥4万

技术方向:智能算法、文本分类

赛题背景:剧本角色的情感识别主要是对剧本中对白和动作描述中涉及到的角色从多个维度进行分析并识别出情感。相对于通常的新闻、评论性文本的情感分析,有其独有的业务特点和挑战。

赛题任务:剧本场景下,对每句对白和动作描述中涉及到的角色情感,从多个维度进行分析和识别。

赛题名称:基于UEBA的用户上网异常行为分析

出题单位:明朝万达

赛题奖金:¥5万

技术方向:智能算法、关系抽取

赛题背景:为了有效保护企业敏感数据,践行企业安全操作行为准则,杜绝由异常操作行为导致的企业敏感数据泄露安全事件发生,用户异常行为分析与识别成为重难点技术之一。

赛题任务:利用机器学习、深度学习,UEBA等人工智能方法,基于无标签的用户日常上网日志数据,构建用户上网行为基线和上网行为评价模型,依据上网行为与基线的距离确定偏离程度。

赛题名称:POI名称生成

出题单位:高德地图

赛题奖金:¥5万

技术方向:智能算法、图像分类

赛题背景:图像资料是制作POI数据的重要来源,依据图像数据生成POI名称是其重要环节。用人工作业的方式处理POI数据,成本高,效率低。如何自动化从图像中提取POI的名称是亟需解决的一大难题。

赛题任务:根据提供的图像、挂牌检测结果、和OCR识别结果,设计算法,给图像中指定POI挂牌生成一个完整的名称。本次评测旨在算法:生成的名称正确、通顺、完整、能够体现被制作对象的起名意愿。

先进系统赛道

通过解决方案,提升对指定数据或环境的系统优化能力。


1赛题名称:openLooKeng跨域数据分析性能提升

出题单位:华为

赛题奖金:¥5万

技术方向:智能算法、性能优化

赛题背景:openLooKeng的跨域能力为“东数西算”工程及其场景提供了关键技术方案,在免数据搬迁的情况下实现跨地域跨数据中心的数据融合分析。但面对跨地域场景下存在的带宽有限、网络时延等诸多问题,如何实现高性能分析,是openLooKeng社区一直在探索的关键技术方向。

赛题任务:基于openLooKeng社区所提供的比赛分支,进行代码优化,实现性能提升。


2赛题名称:大规模金融仿真图数据中金融交易环路查询的设计与性能优化

出题单位:GeaGraph

赛题奖金:¥5万

技术方向:智能算法、关系抽取

赛题背景:目前图计算在金融场景的运用最为成熟,贷前审批、贷后管理、反欺诈、反洗钱等业务均对图计算能力有要求,包含但不限于k度邻居、找环、社区发现。

赛题任务:赛题使用简化的金融仿真数据,数据为带有时间戳和金额的账户间转账数据。基于此数据查找满足条件的交易环路,用于洗钱、反欺诈等场景的分析。

数字方案赛道

提供数据和开放式赛题,自由发挥创意,提供完整解决方案。

1赛题名称:浙江省未来五年教育基础设施数量规划容量预测分析

出题单位:浙江省发展和改革委员会

赛题奖金:¥2万

技术方向:方案应用、回归预测

赛题背景:数字社会建设作为浙江数字化改革聚焦的五大关键点之一,有力支撑全生命周期公共服务跨部门系统。在此背景下,各类提供公共服务的基础设施的规划部署与容量预测成为数字社会建设的重中之重。

赛题任务:先依据各学校信息推断各学校在天地图坐标系下的具体坐标,给出文本地址映射为具体坐标的解决方案,形成天地图坐标系下的学校地址位置数据;再结合浙江省对应设市区内历年统计数据,预测分析浙江省重点设市区未来五年教育基础设施规划方案。

训练助力赛道

根据公开数据集,出具自然语言处理、图像识别、分类预测等不同方向的低难度赛题,辅助参赛者学习。


1赛题名称:血管瘤超声图像分割

出题单位:中国计算机学会

赛题奖金:¥0(电子证书)、CCF会员名额

技术方向:智能算法、目标检测

赛题背景:目前临床对血管瘤的病灶的分割,主要由专家人工勾画,受临床经验水平的影响,分割结果无法避免人为误差。而采用人工智能,精准且海量的数据样本成本较高,如何利用小样本数据集训练血管瘤超声图像的自动精准分割,成为目前热门的研究方向之一。

赛题任务:利用深度学习方法,在小数据集训练出一个血管瘤的优秀分割模型,以达到辅助医生进行治疗血管瘤的目的。


2赛题名称:基于序列信息的microRNA和gene关系对预测

出题单位:中国计算机学会

赛题奖金:¥0(电子证书)、CCF会员名额

技术方向:智能算法、回归预测

赛题背景:micro RNA等生物小分子在生物过程中发挥着重要的作用,可以通过调控gene进而调控下游的生物过程。预测潜在的micro RNA和gene的关系可以帮助科学家更好的理解疾病的发生机理,为精准医疗提供更多潜在的靶点。

赛题任务:依据真实的microRNA和gene的序列信息,提取序列中的信息,结合已知的关系对信息,利用机器学习相关技术,建立microRNA和gene的关系预测模型,判断某一对microRNA和gene是否有关系。

创新创业赛道

提交围绕大数据、人工智能、相关技术及其在制造、健康、交通、零售、家居、教育、金融等行业场景的创新项目。(首批暂未发布赛题)

安全专题:数字安全公开赛

数字安全公开赛是CCF BDCI组委会、大数据协同安全技术国家工程实验室联合360集团,首度开设的大安全领域专题赛道,已于8月23日开赛。

1赛题名称:基于人工智能的恶意软件家族分类

出题单位:360AI安全实验室、360高级威胁研究分析中心

赛题奖金:¥10万

技术方向:智能算法、异常检测

赛题背景:近年来,各种形式的恶意软件不断涌现,恶意软件作者为逃避检测,在其中引入了多态性。虽然属于同一恶意软件“家族”的恶意文件具有相同形式的恶意行为,但由于编写者使用了各种策略不断修改和/或混淆,原本隶属同一家族的文件看起来像许多不同的文件,给检测识别的准确性带来了高度挑战。

赛题任务:设计算法对恶意软件进行识别和家族分类,选手需要通过分析训练集中各家族恶意软件的特点,构建AI模型,对测试集中各个家族的恶意软件进行区分。

2赛题名称:面向黑灰产治理的恶意短信变体字还原

出题单位:360手机卫士

赛题奖金:¥10万

技术方向:智能算法、异常检测

赛题背景:由于变体字变换方式多,变换速度快,单纯通过恶意短信检测规则进行变体词发现的效果有限,配套人工审核成本高且具有滞后性。如何精准和高效地还原变体字文本,提高非法信息的抽取能力以及新型变体字还原的泛化性和时效性,就成为了解决这一难题的“关键之钥”。

赛题任务:对训练集中的短信样本进行分析,采用深度学习建模的方法将测试集中新出现的短信变体字还原为正常信息文本。


3赛题名称:工业安全生产环境违规使用手机的识别

出题单位:大数据协同安全技术国家工程实验室、360集团

赛题奖金:¥10万

技术方向:智能算法、异常检测

赛题背景:基于工业安全生产和员工人身安全考虑,越来越多的工厂建立起员工手机使用管理规范,限制或禁止员工在生产过程中使用手机。但目前使用的传统管理办法耗费大量人力,且无法高效、准确地发现员工违规使用手机的情况。

赛题任务:结合已有数据训练集,识别判断图片上的人物是否存在使用手机行为,提高识别的正确率。

信息检索专题:全国信息检索挑战杯

全国信息检索挑战杯(CCIR Cup)专题赛由中国计算机学会(CCF)与中国中文信息学会(CIPS)联合开启,已于7月19日开赛。

1



赛题名称:预训练模型知识量度量

出题单位:中国人民大学高瓴人工智能学院、华为

赛题奖金:¥2.5万

技术方向:智能算法、文本预处理

赛题背景:相关研究表明,预训练模型不仅可以学习通用语言表示,还可以学习结构化的知识,包括常识知识和事实知识。模型将知识编码进上亿参数中,使常识(视觉)问题解答、信息检索等一系列下游任务,可以从预先捕捉的事实知识和常识知识中受益。

赛题任务:本赛题构建了完型填空形式的英文测评数据集,评估预训练模型在9个领域、两大知识类型、不同难度任务上的知识含量。


2赛题名称:智能人机交互自然语言理解

出题单位:中国中文信息学会、中国移动研究院

赛题奖金:¥2.5万

技术方向:智能算法、文本预处理

赛题背景:由于交互效率和人体工学等方面的限制,手势交互等方法短期内较难成为主流的人机交互方式,而搭载了语音交互能力的产品自落地应用起就一直受到极为广泛的关注。但在实际应用中,相关产品往往很难满足用户的各类别复杂要求,其根源在于自然语言本身较高的复杂性使得用户意图无法被较好的理解。

赛题任务:根据用户与系统的单轮对话,识别对话用户意图并进行槽位填充。除基础的意图识别及槽位填充任务外,本赛题额外包括2个子任务。


3赛题名称:中文命名实体识别算法鲁棒性评测

出题单位:复旦大学、TextFlint

赛题奖金:¥2.5万

技术方向:智能算法、文本预处理

赛题背景:在现实世界的应用场景中,模型要面对的是更加纷繁复杂的语言应用方式,待处理的数据里包含着更加庞杂的变化。一旦缺乏鲁棒性,模型在现实应用中的性能就会大打折扣。为了确保模型的实际应用价值,对模型进行鲁棒性评测是不可或缺的。

赛题任务:判断哪些词语是人名(PER),地理位置(LOC),机构(ORG)或行政单位(GPE),并以(B,M,E,S)的格式给出词语的边界。


赛/程/赛/制

机不可失 时不再来

2021 CCF BDCI秋冬正式赛将历时3个多月,于9月16日开启,12月下旬结束。


#1

大赛初赛(线上)

#

9月16日

首批赛题发布,同时开放报名

#

9月27日

第二批赛题发布,同时开放报名

#

11月20日

初赛A榜截止(报名、作品提交及评测)

#

11月22日

初赛B榜作品提交及评测,仅开放一天

#2

大赛决赛(线上)

#

12月3日

代码复现、晋级资格审核

#

12月4日—5日

决赛答辩评审

#3

大赛总决赛(线下)

#

12月中旬

线下总决赛,答辩评审及颁奖典礼


奖/金/奖/项

心动,从这一秒开始

本届大赛设置单赛题奖、综合奖、参赛特别奖、飞桨特别奖等奖项,获奖机会多多。

选手奖项

单赛题奖

单赛题将评选出一二三等奖、共5支团队,各获奖团队队员均可获得奖金、证书等奖励。

CCF BDCI综合奖

将评选出综合特等奖1名、最佳单项奖3名,参赛团队队员均可获得奖金、证书等相关荣誉。

参赛特别奖

根据线上赛中的周榜、邀请等活动,评选出特别奖项。

飞桨特别奖

百度飞桨为大赛开源生态贡献者设立的专属奖池,总金额高达50万元人民币。


除奖金奖项外,参赛优秀团队有机会获得:

绿色通道:相关赛题出题单位实习、就职绿色通道;

创业孵化:由政府、投资机构提供的融资、孵化支持;

落地应用:由大赛各合作单位提供的项目成果应用、试点机会。


其他奖项

优秀指导老师奖牌

各赛题一等奖指导老师,及对大赛辅导、宣传、组织提供重要支持的老师可获得。

特别贡献奖奖牌

在大赛组织工作中做出突出贡献的个人或单位可获得。

优秀合作伙伴奖杯

对大赛组织做出重要支持的合作单位可获得。


大/赛/活/动

活动丰富多样,展现大赛风采

大赛配备丰富多彩的活动,通过线上线下等多种形式吸引更多大数据人才加入,积极推动大赛顺利开展和最终成果落地。

助学特别计划

9月至11月,联合百所高校共同就训练赛题进行系统学习、训练,辅助教学与能力测试。

《CCF BDCI大咖说》系列专题报告

9月至11月,邀请CCF各专委专家进行相关技术方向的线上报告,讲述大数据及人工智能的算法及产业应用。

走进高校

9月下旬至11月,通过多种形式,走进20余所高校,邀请大数据及人工智能领域知名专家及企业,做大赛相关技术专题报告。

产学研线上沙龙

9月下旬至11月,邀请企业、相关领域专家、参赛者通过视频直播的形式进行人才交流、赛题答疑与线上互动。

决赛嘉年华

12月中下旬,邀请决赛入围团队现场答辩评审,举办数据科学家之夜、大数据及计算智能高峰论坛、颁奖盛典等活动。


组/织/架/构

多方协同 多方护航

政产学研用多方合作,共同为大赛保驾护航。

主办单位:中国计算机学会

支持单位:杭州市余杭区人民政府

承办单位:浙江杭州未来科技城管理委员会、CCF大数据专家委员会、CCF自然语言处理专业委员会、CCF高性能计算专业委员会、CCF计算机安全专业委员会、CCF计算机应用专业委员会、教育部易班发展中心、LandInn、数联众创

独家战略合作:百度

创新合作:华为

赛道合作:360集团未来安全研究院、中原银行、中国中文信息学会

赛题合作:明朝万达、高德地图、爱奇艺、OneFlow一流科技、清华大学电子工程系、中国联通、GeaGraph、浙江省发展和改革委员会、锐安科技、竹云

合作媒体:学术世界

官方竞赛平台:DataFountain


组/织/会/专/家

豪华阵容 倾力助阵

百余位专家学者倾力助阵,全力保障大赛工作公正、有序、规范开展,积极推动学术进步、落地技术成果应用,为实现人才培养献力献策。

指导委员会主席

梅 宏,中国科学院院士、中国计算机学会理事长

李国杰,中国工程院院士、中科院计算所研究员

倪光南,中国工程院院士、中科院计算所研究员

徐宗本,中国科学院院士、西安交通大学教授

吴建平,中国工程院院士、清华大学教授

陈 纯,中国工程院院士、浙江大学教授

管晓宏,中国科学院院士、清华大学西安交通大学双聘教授


工作委员会主席

(注:按姓名拼音首字母顺序排序)

陈学斌,华北理工大学教授、CCF计算机应用专业委员会副主任

程学旗,中科院计算所研究员、CCF大数据专家委员会秘书长

窦志成,中国人民大学教授、CCF大数据专家委员会副秘书长

金 波,公安部第三研究所所长助理、CCF大数据专业委员会常务委员

金 海,CCF副理事长、华中科技大学教授

李飞飞,阿里巴巴集团副总裁、CCF大数据专家委员会副主任

任 奎,浙江大学网络空间安全学院院长、计算机科学与技术学院副院长

唐前临,公安部网络技术研发中心高级工程师、CCF计算机安全专业委员会秘书长

万小军,北京大学计算机科学技术研究所教授、CCF自然语言处理专业委员会秘书长

张云泉,中科院计算所研究员、CCF高性能计算专业委员会秘书长


报/名/参/赛

别犹豫,就现在!

大赛面向社会各界开放,不限年龄、国籍,高校、科研院所、企业从业人员均可登录DataFountain(datafountain.cn)官网报名参赛。


现在戳左下角“阅读原文”或扫码直通官网,立即登上赛事直通车!


欢迎大家添加DF运营小助手(微信号:dfxzl01dfxzl02),加入BDCI大赛交流群,和更多小伙伴一起在线组队、竞技交流。我们将持续在群内分享评测启动、赛题解读、baseline开源、开放评测等赛事后续动态~



2021 CCF BDCI征集令


2021 CCF BDCI正式赛已于9月16日正式开赛!即日起,大赛同步开启赛事多维招募,虚位以待,欢迎加入!


招募选手

所有关注大数据与人工智能的挑战者,欢迎推荐和自荐参赛选手或团队报名参赛,国家级赛事等你破题!

征集赛题

诚邀更多政企单位加入,任何有关大数据与人工智能的真实需求和业务痛难点,都有可能成为赛点。邀您共商、让全球万名数据专家为你解决企业真实难题~

教学结合

诚邀高校老师入队,鼓励学生参赛,让教学与竞赛结合,检验能力同时获取荣誉与奖金。我们将持续提供计算资源、学习环境与赛况反馈。

走进高校

诚邀更多专家院士加入组织,一起走进高校,展开前沿技术报告,结合大赛答疑解惑。

社群合作

诚邀更多数据科学社群入“伙”,让这一权威赛事惠及更多垂直领域专业伙伴。

创业合作

创业赛道将为有投融资需求的企业/个人搭建交流机会,诚邀各方伙伴联动发布更多创业/创意赛题~

资源合作

期待与您深度合作,通过活动组织、宣传推广、资源渠道等多种灵活形式,共建互惠合作模式。

联系我们

contact@datafountain.cn

注:报名同学请加学院qq群:qq737466425,

报名和比赛情况详细内容登录下面的网站了解