首页 > plan for datamining
头像
攻城狮在Peking
编辑于 2020-10-11 11:23
+ 关注

plan for datamining

记录求职过程中的心理历程和目标方向--仅作记录用==
当初考上研究生并选取了大热的人工智能方向,我暗自窃喜,方不知自己和大学舍友的差距正在逐日拉大。有人说三年工作经验(硕士三年)并不一定比硕士学位差,我很认同这种说法。三年的工作经验真的能够学到很多很多学校里学不到的(尤其是读研期间不能出去实习的我)技能与知识,如为人处世的技巧、公司业务知识、社会上各岗位行情等等。但各有利弊。我宽慰自己=我首先拿到了硕士文凭、再者开阔了自己的视野(工作及知识)、提高了自己的能力。but--从微观的角度看腻了自己的生活,我更喜欢从宏观的角度出发来总结自己读研期间的成长与收获:课题一般般,课题方向应用性差;算法基础知识掌握一般般;没有项目经历和实习经历;上述三点直接的引发了我在本次秋招中的忧虑,从未感受到如此的就业压力。我开始寻找自己的就业出路。立足于读研期间所学知识与技能,我选定了数据分析岗作为我的毕业首份工作目标,现实是残酷的啊,投了很多公司,大小厂都有,但是回复的却很少,究其原因、一是自己不够优秀,无实习经历,竞争力太低,说到竞争力就得说说第二点:数据分析的缺口并没有网络上宣传的大,并且转行数据分析的人太了,各行各业的都在转行数据分析,why?因为数据分析偏业务,门槛低,会sql提数、会统计知识、会python、有业务理解能力就能做数据分析师,大多工作一两年的人转行数据分析的不在少数,狼多肉少。在这种大环境下,自己没有两把刷子真的很难找到一份自己心目中的工作,这两把刷子是什么?答:软实力与硬实力,逻辑思维、业务能力、工具的使用。笼统来讲:数据分析偏业务、数据挖掘偏技术,为了凸显自己的优势,我决定去做数据挖掘,在博客上看到一句话:“应该把数据分析作为数据挖掘过程中的一种能力”。
自己的知识储备还远远未能和自己的目标工作相匹配。充分准备数据挖掘工作,即使数据挖掘不成功,也能找到数据分析的工作,因为两者的区别不是很明显,无非是业务和技术上的区别。万事开头难,担心自己的行动路线不对,我和女朋友谈了自己的担忧,女朋友开导我:“放开手去干,不要因为未知而恐惧”。对啊,放手去做,技多不压身。
转做数据挖掘,就要扎实自己的机器学习、数据挖掘相关概念知识以及统计学基础知识。制定每天的学习计划,以此记录来督促自己,并每日在该文末进行学习日记更新。
----------------------------------------------------------我是10.4分界线
三天过去了,一边忙着课题室课题,一边储备知识,感觉这个秋招是凉了,知识储备不够啊,在论坛看各种大神转行、更有厉害的大佬一天有效时间能有14小时,然后进了ali,厉害,膜拜啊,我和大佬差得太多了,执行力、学习效率and so on,笨鸟继续飞
两天没有更新,两天内读了读金字塔原理,由于假设检验部分不是很熟悉,学习了统计分析。以下针对统计分析部分进行总结。
课程参考:张文彤老师的统计课程https://www.bilibili.com/video/BV1h541147xB?p=31
第一章:从简单概念入手,讲了连续变量、离散变量、统计量(样本特征指标)、总体参数(总体特征指标)、概率、频率、小概率事件(小概率原理是统计推断的基础)、初探了抽样误差,讲述了统计研究的基本步骤:设计收集、整理、分析。其中分析部分引出了统计描述(了解样本数据情况)和样本回推整体即统计推断(参数估计和假设检验)。
第二章:(连续变量)紧接着第一章上述内容说的分析部分引出的两个概念,本章讲了统计描述,包含集中趋势(描述指标:均数、中位数、几何均数、众数、截尾均数);离散趋势-个人理解为波动情况(全距、离均差、方差-正太分布适用、标准差-同上、变异系数-同上-为了不同量纲的可比性、百分位数-非正态分布适用、四分位数-同上);分布形状(正偏态和负偏态-以大头位置定义);分布特征(离群值和极端值另外分析);统计工具的实现(excel函数:average()median()geomean()mode()trimmean()var.p()stdev.p()percentile.inc()quartile.inc()or加载宏方式、python、sas、spss)
第三章:(简单讲了分类变量-eg血型)分类变量的统计描述指标(频数列表、百分比、累计百分比、众数、比、构成比、率等)
第四章:正式进入了正态分布的世界。
从概率分布到正态分布,我们统计的直方图的面积实际上可以转换成频率或者百分比,因为当样本量越大,频率趋向于概率,组距越来越小,直方条顶端变成一条曲线,该曲线即为概率密度分布曲线,曲线下的面积就是对应的累计概率(概率密度曲线就是大量重复随机抽样下个体数值变化的规律),好了,现在明白了分布曲线的含义。引出正态分布,正态分布mu是曲线的峰位置(集中趋势),sigma是离散趋势,正态分布是对称的。mu和sigma取不同的值时,正太曲线不相同,为了便于应用上的计算,计算了均值mu为0,sigma为1时曲线下的面积分布规律N(0,1),其他正太分布和标准正态分布就有了一定的转换关系,因此,只要将相应的指标转换为服从标准正态分布,就可以根据该面积分布规律计算出累计概率。
第五章:讲了二项分布的相关知识,其可应用于白细胞等参考值的确定。
第六章:讲了抽样误差和统计推断。
第七章:假设检验知识
我是分界线-------------------------------------------------------------10.11
本周学习内容为ml的应用,包含数据挖掘十大算法的代码实现及应用,算法的公式推导。gogogo
参考书目:机器学习实战:
第一章:knn算法(精度高、对异常值不敏感、无输入数据假定。计算复杂度高、空间复杂度高。)原理:存在样本集合,集合中每个样本都包含数据标签,输入新的没有标签的数据,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据的分类标签,一般来说我们选定k个最相近的数据,通常k不大于20.选择k个醉相思数据中出现次数最多的分类,作为新数据的分类。所以knn算法中没有模型训练这一步骤,可以计算欧氏距离(点差平方和开方-点与点的距离)

我是分界线----10-10---
社会在进步,不学习新知识就会和社会脱节,只有不断学习新知识才能保持自己的活力、竞争力,才能够更好的迎接新机遇,新挑战。十月假期过去了,继续进入公司的笔试面试环节。连着三天笔试:便利蜂、百度、58同城。相关record在另一篇讨论帖中哦。点我传送https://www.nowcoder.com/discuss/530702?source_id=profile_create&channel=1009


全部评论

(3) 回帖
加载中...
话题 回帖

推荐话题

相关热帖

热门推荐