首页 > 如何参加数据分析比赛丰富简历。
头像
zfs123
编辑于 2021-07-03 18:00
+ 关注

如何参加数据分析比赛丰富简历。

嗯,作为一个数学专业的学生,大二大三很难找实习,所以来参加一些数据分析比赛是不错的入门方法。列一下自己参加过的比赛吧:

  • 2019.4 安永数据分析大赛决赛全国TOP10(位置预测):上海答辩食宿报销

  • 2020.4 2020届招商银行Fintech训练营数据赛道全国第18名(信贷违约预测):
    深圳答辩食宿报销+1888元奖金

  • 2020.7 第二届翼支付杯大数据建模大赛复赛全国第25名(信贷违约预测)

  • 2021.4 山东省第二届数据应用创新创业大赛——济南算法赛道第7名(时序预测):
    济南答辩食宿报销+2000元奖金(税后)

  • 2021.4 “梧桐杯”中国移动大数据应用创新大赛——智慧生活第12名(位置预测):
    济南答辩食宿报销+2400元奖金(税后)

  • 2021.5 2021届招商银行Fintech训练营数据赛道全国第12名(时序预测):
    深圳答辩食宿报销+1888元奖金

近1万元奖金,也去了很多地方答辩(其实是免费旅游);住了5星级酒店,刷了简历;还锻炼了自己数据分析的能力。哈哈,还是推荐大家来试着参加一下的!这里给大家推荐一个科大讯飞的AI算法大赛:

http://challenge.xfyun.cn/?ch=dc-ugc-01

欢迎大家来参加哦!用我的链接报名,私戳我给大家分享baseline哦!有什么问题也可以私戳我交流一下。

那么接下来给大家介绍一下入门数据分析比赛的经验:

1.寻找比赛

数据分析比赛基本有两个类型:

  1. 自己建平台办数据分析比赛(安永,腾讯)在对应的招聘公众号中找

  2. 在第三方平台上办比赛(招行,中国移动,各省大数据局等大部分政企)

而第三方平台有哪些呢?

国外:

kaggle(国际最著名的数据竞赛平台)

www.kaggle.com

举办方类型:沃尔玛,谷歌等各种国际知名企业的比赛;

特点:

  • 可以拿奖金,kaggle名次也有一定价值;

  • 社区有很多开源baseline和交流

  • 有自己的云服务器,不需要在自己电脑上面跑。

  • 全英文

国内:

DC(datacastle)竞赛平台

DC竞赛-大数据竞赛平台

举办方类型:国内政府部门(山东省大数据局)、知名企业(华为,OPPO,中国移动,电信)都会在DC平台上举办比赛

特点:

  • 可以丰富简历,拿奖金、面试直通车、实习offer,或者报销去复赛答辩;

  • 会有比赛QQ讨论群,里面会有大佬发baseline,运营小姐姐答疑,氛围也很好。

  • 一般不需要过多计算资源,baseline简单,对新手比较友好。(新手强推)

天池

算法大赛-天池大数据竞赛-天池大赛-阿里云天池
tianchi.aliyun.com

举办方类型:很多会议级专业比赛,专业性较强。

特点:

  • 奖金多,也有实习直通车。但大佬也比较多。。。

  • TOP方案很多会公布,认真研读的话,算法和代码能力会有很大提升。

  • 很多图像、推荐的比赛。可能需要服务器,天池可能会提供。

  • 题目比较难,整体新手入门不太容易。

还有一些其他平台:和鲸,Biendata, datafountain(DF),牛客。有时候也会有比赛,但数量不多,有很多空窗期,大家也可以有时间去关注一下。

和鲸:https://www.heywhale.com/home/competition

Biendata:https://www.biendata.xyz/

datafountain:https://www.datafountain.cn/competitions

2.比赛入门

2.1 机器学习算法基础:推荐周志华老师的《机器学习》

目标:知道什么是交叉验证,逻辑回归,线性回归,决策树,集成模型等等专业名词。

https://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/MLbook2016.htm#use

2.2 Python基础:推荐这个廖雪峰的入门网站。

https://www.liaoxuefeng.com/wiki/1016959663602400/

通用的python机器学习库sklearn

https://www.w3cschool.cn/hyspo/hyspo-m7je3723.html

通用的python数据处理库pandas

https://blog.csdn.net/qq_29750461/article/details/81559848

目标:学习使用机器学习算法,数据处理。

2.3 了解一下优化之后的算法库(使用最多)xgboost,lightgbm,catboost,都是基于决策树的模型。

(不需要知道太多原理,只需要知道如何掉包,如果对原理感兴趣可以参考我的知乎)

https://zhuanlan.zhihu.com/p/130461268

https://zhuanlan.zhihu.com/p/142437971

https://zhuanlan.zhihu.com/p/144119910

以上为按部就班的学习步骤,如果有同学觉得太枯燥,可以先报名一个比赛,在比赛中不断学习。

3.比赛内容

推荐网上搜索一下kaggle训练赛:泰坦尼克号

的入门baseline

https://www.imooc.com/article/277642%E3%80%81

以及一些其他的回归问题的baseline

https://github.com/appke/Los-House-Prices

以及一些kaggle的经验贴

https://zhuanlan.zhihu.com/p/27424282

我参加的比赛,其实主要就分为这样几个阶段:

  1. 数据预处理(特征数值化,编码,合并分割)

https://www.jianshu.com/p/e1ae1dbcf138

2. 特征工程(根据业务类型构造统计特征)https://blog.csdn.net/fuqiuai/article/details/79496005

3. 以及建模(使用lightgbm模型)https://blog.csdn.net/weixin_38664232/article/details/89088957

哈哈,最后如果还有什么疑问,也可以来和我交流哦!

全部评论

(3) 回帖
加载中...
话题 回帖

推荐话题

相关热帖

热门推荐