嗯,作为一个数学专业的学生,大二大三很难找实习,所以来参加一些数据分析比赛是不错的入门方法。列一下自己参加过的比赛吧:
2019.4 安永数据分析大赛决赛全国TOP10(位置预测):上海答辩食宿报销
2020.4 2020届招商银行Fintech训练营数据赛道全国第18名(信贷违约预测):
深圳答辩食宿报销+1888元奖金2020.7 第二届翼支付杯大数据建模大赛复赛全国第25名(信贷违约预测)
2021.4 山东省第二届数据应用创新创业大赛——济南算法赛道第7名(时序预测):
济南答辩食宿报销+2000元奖金(税后)2021.4 “梧桐杯”中国移动大数据应用创新大赛——智慧生活第12名(位置预测):
济南答辩食宿报销+2400元奖金(税后)2021.5 2021届招商银行Fintech训练营数据赛道全国第12名(时序预测):
深圳答辩食宿报销+1888元奖金
近1万元奖金,也去了很多地方答辩(其实是免费旅游);住了5星级酒店,刷了简历;还锻炼了自己数据分析的能力。哈哈,还是推荐大家来试着参加一下的!这里给大家推荐一个科大讯飞的AI算法大赛:
http://challenge.xfyun.cn/?ch=dc-ugc-01
欢迎大家来参加哦!用我的链接报名,私戳我给大家分享baseline哦!有什么问题也可以私戳我交流一下。
那么接下来给大家介绍一下入门数据分析比赛的经验:
1.寻找比赛
数据分析比赛基本有两个类型:
自己建平台办数据分析比赛(安永,腾讯)在对应的招聘公众号中找
在第三方平台上办比赛(招行,中国移动,各省大数据局等大部分政企)
而第三方平台有哪些呢?
国外:
kaggle(国际最著名的数据竞赛平台)
举办方类型:沃尔玛,谷歌等各种国际知名企业的比赛;
特点:
可以拿奖金,kaggle名次也有一定价值;
社区有很多开源baseline和交流
有自己的云服务器,不需要在自己电脑上面跑。
全英文
国内:
DC(datacastle)竞赛平台
举办方类型:国内政府部门(山东省大数据局)、知名企业(华为,OPPO,中国移动,电信)都会在DC平台上举办比赛
特点:
可以丰富简历,拿奖金、面试直通车、实习offer,或者报销去复赛答辩;
会有比赛QQ讨论群,里面会有大佬发baseline,运营小姐姐答疑,氛围也很好。
一般不需要过多计算资源,baseline简单,对新手比较友好。(新手强推)
天池
算法大赛-天池大数据竞赛-天池大赛-阿里云天池
tianchi.aliyun.com
举办方类型:很多会议级专业比赛,专业性较强。
特点:
奖金多,也有实习直通车。但大佬也比较多。。。
TOP方案很多会公布,认真研读的话,算法和代码能力会有很大提升。
很多图像、推荐的比赛。可能需要服务器,天池可能会提供。
题目比较难,整体新手入门不太容易。
还有一些其他平台:和鲸,Biendata, datafountain(DF),牛客。有时候也会有比赛,但数量不多,有很多空窗期,大家也可以有时间去关注一下。
和鲸:https://www.heywhale.com/home/competition
Biendata:https://www.biendata.xyz/
datafountain:https://www.datafountain.cn/competitions
2.比赛入门
2.1 机器学习算法基础:推荐周志华老师的《机器学习》
目标:知道什么是交叉验证,逻辑回归,线性回归,决策树,集成模型等等专业名词。
https://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/MLbook2016.htm#use
2.2 Python基础:推荐这个廖雪峰的入门网站。
https://www.liaoxuefeng.com/wiki/1016959663602400/
通用的python机器学习库sklearn
https://www.w3cschool.cn/hyspo/hyspo-m7je3723.html
通用的python数据处理库pandas
https://blog.csdn.net/qq_29750461/article/details/81559848
目标:学习使用机器学习算法,数据处理。
2.3 了解一下优化之后的算法库(使用最多)xgboost,lightgbm,catboost,都是基于决策树的模型。
(不需要知道太多原理,只需要知道如何掉包,如果对原理感兴趣可以参考我的知乎)
https://zhuanlan.zhihu.com/p/130461268
https://zhuanlan.zhihu.com/p/142437971
https://zhuanlan.zhihu.com/p/144119910
以上为按部就班的学习步骤,如果有同学觉得太枯燥,可以先报名一个比赛,在比赛中不断学习。
3.比赛内容
推荐网上搜索一下kaggle训练赛:泰坦尼克号
的入门baseline
https://www.imooc.com/article/277642%E3%80%81
以及一些其他的回归问题的baseline
https://github.com/appke/Los-House-Prices
以及一些kaggle的经验贴
https://zhuanlan.zhihu.com/p/27424282
我参加的比赛,其实主要就分为这样几个阶段:
- 数据预处理(特征数值化,编码,合并分割)
https://www.jianshu.com/p/e1ae1dbcf138
2. 特征工程(根据业务类型构造统计特征)https://blog.csdn.net/fuqiuai/article/details/79496005
3. 以及建模(使用lightgbm模型)https://blog.csdn.net/weixin_38664232/article/details/89088957
哈哈,最后如果还有什么疑问,也可以来和我交流哦!
全部评论
(3) 回帖