首页 > 【求职准备专题】互联网技术·从用户画像看数据算法岗位
头像
我不知道啊?
编辑于 2021-05-28 18:58
+ 关注

【求职准备专题】互联网技术·从用户画像看数据算法岗位

大家好我目前在一家做海外社交的公司实习岗位是算法数据今天想和大家分享一下针对数据挖掘或者算法数据这个岗位自己感受到的一些东西以及面试多家公司复盘的一些经验从而让大家更有针对性地进行面试准备当然我也是学习阶段希望和大家共同学习共同成长吧


数据挖掘岗或者说算法数据岗其实比一些cv、nlp等算法研究岗更偏业务和数据一些当然也比数分岗更偏建模算法一些因此本次分享我将介绍该岗位的技能路径以及结合自己实习经历给大家介绍一个详细的知识点希望大家能够更加有针对性地进行数据挖掘方向的求职

校招岗位
该岗位一般称为数据挖掘、机器学习和数据挖掘的、数据算法,同学们在搜索的时候可以以关键字搜索,这样就不会遗漏自己心仪的岗位啦。

时间安排
一年中对于实习和求职有几个关键点,一般是:
寒假(准备春招或者暑期实习技能提升、一般刷一刷力扣题,看看八股文)
春招和暑期实习(3-6月)暑期实习一般只针对研二大三同学,有转正机会,所以比较关键

暑假(有实习的实习没实习的继续刷题看八股文咯)

然后是秋招(9-12)

简历投递
一般是牛客网、各公司招聘微信公众号、公司官网等,全方位搜索

技能路径

Sql python(pandas,numpy,sklearn,keras,pytorch) 常见的聚类回归时序方法 机器学习 深度学习、大数据的一些知识(如分布式,Hadoop,spark等,可了解)

数据挖掘流程:数据抽取、数据清洗、数据探索、特征工程到数据建模以及模型评价、检验等

  1. 其中SQL技能非常重要!!因为在建模或者算法测试都不可避免要从不同维度取数、聚合等操作,同时在面试SQL也是常考内容,我之前就忽略了这部分知识,认为数分才会用,其实根本不是这样的!!!数据挖掘同样要熟练使用,我在面试快手的数据算法实习生(商业化)时,刚开始面试官就让我写一道SQL,可是因为忽视没能写出,从那次开始也是逐渐重视起这一点。这里推荐牛客网的SQL题,每日随机一题,快乐。
  2. python做数据和算法应该是必备的,包括常用库,如果还不熟练多看项目多做吧,我实习很常用的一个库就是pandas,数据分析和处理必备,sk主要机器学习算法,包括一些数据标准化技术,keras主要用来搭神经网络
  3. 然后就是常见算法,机器学习、深度学习八股文了,没啥好说的,多记多背多手推,注意机器学习里的集成模型,树模型,比如美团网必考的一定有树模型(gbdt、xgb),然后还有一些检测指标也是常考的,具体推荐白面机器学习算法工程师。

总之,准备岗位面试,一定要早早早,只有早才能立于不败

从用户互相看数据挖掘岗位

好了下面我就要进入本次分享的主题来都是自己总结的干货我觉得包括我在哪的大多数同学无论是在面试时还是准备简历上都喜欢介绍和描述自己的曾经做的模型有多么多么高深用了什么最新方法达到了多高的精度这好吗当然好了不然哪能往简历上搬但也存在一个问题——不够“接地气”

 

如我之前说的这个岗位通常不是一个纯粹的模型研究岗本质上还是和业务场景紧密结合的岗位因此我认为一些产品运营的思想也是有必要掌握的如果咱们的自我介绍或者项目经历能从这个点切入往往更能获得面试官的好感让他能够知道你的模型不但work放在实际场景你也有办法让他work即你的模型具有商业价值所谓“落地”我认为就是下图所示三方的良性循环最后得到更高的商业回报(ROI)。


下面我简单介绍一下目前在做的一个用户画像体系调研中总结的知识让大家更加明白上面的模式

 

用户画像相信大家并不陌生这个词也经常出现在数据挖掘等岗位的JD里,它可以说是数据挖掘的根基,都说特征决定了算法的上限模型不过为了逼近这个上限那么如何构建有价值可复用可维护的用户画像标签就至关重要

 

用户画像流程可简要描述如下

了解业务需求——从商业目的出发收集构建用户标签——构建用户画像体系——用户画像标签维护——使用用户画像进行建模以及个性化服务如好友推荐广告投放精准营销等

还是看上图数据挖掘一般要和产品组以及数据组同学对接产品提出需求比如要实现某某功能某某模型然后你和数据工程师沟通看他们的埋点能提供哪些row data然后你开始数据挖掘遵循之前的流程OK但是你还应该想着我们做这个商业目的即这个特征或者用户标签是不是有潜在价值的或者可复用的如果经过你的特征工程后得到了这样的标签那么你可以和产品或者数据反馈这个标签就可以按照你的算法存入标签库以后直接用就行后续的模型选择和使用就按照你背的八股文来吧哪个好用用哪个检验就常规方法和AB-test结合

 

继续说回用户标签用户标签分为两大类静态用户标签和动态用户标签

  1. 静态标签一般是用户身份特征等基本不变或者很长一段时间都不变的标签如性别城市学历等
  2. 动态标签是动态变化的特征如用户的主要浏览商品类型用户爱好用户聊天频繁程度

 

身份特征

兴趣爱好

行为特征

心理特征

聊天特征

渠道属性

 

  • 用户标签的获得类型基于统计类的标签基于规则类的标签基于挖掘类的标签

  1. 基于统计类的标签:其获取程度由易到难统计类标签是最基础的标签一般就是埋点数据可以直接从数据库中获取的标签如用户性别年龄聊天次数时长等
  2. 基于规则类标签使用大于小于等规则可以筛选数据从而实现用户分层是一个比较粗粒度和简便的标签获取方法
  3. 基于挖掘类的标签你的价值体现,总算有一个你能做,别人做不了的了你丰富的建模技术和数据科学知识就在于此体现了包括但不限于一些数学建模方法无参数方法带参数方法(ml,dl),当然一切从业务商业回报出发

  • 用户标签的汇集分类和定义当用户标签获取完之后应该构建多维度体系化的标签库方便后续用户数据分析和算法建模使用

  1. 多维度指的是用户标签可以分为几个大类,类别之间相对独立,如用户个人信息和用户聊天情况这两个大类,社交软件还可以多一个如用户关系网,其中记录着重要的用户关系标签。
  2. 体系化是按照用户划分粒度粗细从粗到细对标签进行排列如性别年龄月使用APP情况等,这样逐渐把用户细化

  • 标签定义即为标签的信息包括业务含义和获取类型等业务含义指的是把标签解释为易于理解的描述比如我在实习中进行的亲密好友推荐通过对用户聊天记录进行数据挖掘我同时获取到了用户关系类型这一个新的有潜在价值的标签并且结合数据分析我给予了标签业务含义如该用户为文字语音用户即使用文字和语音聊天更频繁的用户关系),这样就从数据逻辑上升到了业务逻辑便于产品运营理解和使用
  • 最后是标签的维护标签维护也应该有一套成体系的规则,更新规则:标签更新周期,实时更新还是每月更新等;标签更新维度,在什么情况下触发对具体用户的更新;标签的迭代如无用标签淘汰的新标签入库等

 

最后我认为用户画像或是用户标签之所以重要就是因为它沟通了业务需求以及我们所做的模型算法一方面我们以业务需求倒推用户标签设计另一方面我们的模型特征也直接或间接依赖于用户标签了解清楚业务逻辑和用户标签库也更有利于我们开展数据挖掘和算法建模工作

所以尽早了解数据算法岗位全流程,以及用户画像体系构建,或许你未来不会进行用户画像方面工作,但了解由业务需求到特征(标签)再到模型这样的流程一定会让你更求职准备更明确,而不是只泛泛空谈几个建模比赛中用到的模型!



全部评论

(1) 回帖
加载中...
话题 回帖

推荐话题

  • 1931次浏览 22人参与

相关热帖

近期精华帖

热门推荐