雇主希望数据科学家了解哪些工具?

数据科学家应该知道的短历史课程

数据科学出生于统计和计算机科学时出生。数据在整个历史上很长一段时间很重要,但直到最近,数据科学已经发展出来。 1962年,一个统计日John W.Tukey在他的书中写了“数据分析的未来”,他如何意识到他的主要兴趣是数据分析。他看到了存储程序电子计算机崛起的重要性。

后来,1974年,彼得·纳伯发布了“简明调查计算机方法”,他将数据科学定义为“处理数据的科学,一旦建立,就会将数据与所代表的关系的关系委托给其他领域和科学 。“

国际统计计算协会成立于1977年,旨在将数据转换为信息。 1989年,第一个研讨会进行了练习数据驱动的发现。第一次在会议中包含“数据科学”一词是在日本的1996年。

让我们恢复历史一点,完成这一短暂的历史课程,有趣的事实:2012年9月,数据科学被视为21世纪最性感的工作,据 哈佛商业评论.

数据科学与大数据

数据科学是涉及数据分析,数据清理,数据准备的科学领域。大数据是指可以分析能帮助企业提高战略并做出更好决策的洞察力的大量数据。

数据科学在数字广告,推荐系统和互联网搜索中找到的地方,而大数据主要用于金融,零售和沟通。

可以说数据科学从统计,数学和编程中发展是安全的。数据科学是能够从框中寻找并以创新方式捕获数据。

通常无法存储在一台计算机上的大数据,因为它真的是大量的原始数据。通过如此多的信息,您可以说大数据是可以帮助每次业务的无穷无尽的资源来源。大数据用于客户,欺诈和合规分析。

数据科学工具

您需要成为数据科学家的技能

如果您想知道如何成为数据科学家,请查看您需要的技能:

编程技巧:Python,R(替换Excel,用于运行统计分析)或SAS,SQL,Java,Perl,C ++(不一定是所有的)

数学 :线性代数,微积分和概率

统计数据 :参数估计,最大似然估计,假设,贝叶斯分析,线性回归,非线性回归,分类数据分析等。

机器学习:随机森林,最近的邻居

大数据平台 如Hadoop平台和使用非结构化数据的能力

数据挖掘,数据清洁: 什么是数据挖掘以及如何使用它

数据可视化

软件工程技能: 开发数据驱动产品

数据直觉:解决问题,能够认识到什么是重要的,什么都没有

行业知识:根据您想要工作的行业,您需要了解在该特定行业中收集和分析数据的方式。

数据专业人士应该知道哪些数据科学工具?

现在,当您了解了数据科学家技能时,让我们看看您应该知道的数据科学工具。上面提到的几乎每组技能,与数据科学工具一起携手,例如 - 要具有编程技能,您需要学习使用不同的编程工具,用于数据可视化您还需要某些工具。

根据您作为数据科学家的角色,工具可能会有所不同。一些数据科学家专注于数据分析,其他研究。决定科学家,商业智能分析师,风险和欺诈工程师,大数据软件工程师,机器学习工程师。所以不同的角色需要不同的数据科学工具。

为了 数据分析 需要了解 R项目统计计算,熊猫(一组Python库),Julia语言(r)。

MySQL,CSV文件,Hive / Shark / Redshift是工具 数据仓库.

数据可视化 用于将Web上的工作的工具是D3.js. Python绘图的另一个数据可视化工具是Matplotlib,而GGPlot2则用于R语言。 Excel和Tableau也可以很好地可视化数据。

为了 机器学习 数据科学家使用r,python(sci-kit学习),spark(mllib),matlab,Knime,Weka,Rapidminer等编程工具。

Hadoop平台和SQL是工具 数据存储,而Bash是为了 数据清洁, 和Python也是如此。 Python和Ruby也是原型设计的工具。

统计数据 用于数据探索的工具,原型设计,假设测试,算法开发是SAS和R.

数据科学家使用的一些工具 数据工程学 任务是:Java(用于写作生产代码),Cassandra,Spark,Splung,Pig,Hive,Scala,Apache Hadoop等。

留意

鉴于技术发生变化并非常快速地发展,当您找到本文时,一些新的替代工具可能会出现。请在评论部分中分享您的建议,以帮助其他读者保持最新状态。

数据科学领域太大了,它将更大。将出现新技能,如果您想成为一个很好的数据科学家,您需要遵循趋势,永不停止学习新工具。希望这份雇主对数据科学家所期望的最常见工具列表是一个很好的开始。根据工作类型,公司和雇主,您的技能和工具可能不同。最后,你总是可以问你的雇主他/她希望你知道。或在申请工作时,请确保仔细阅读您需要知道的数据科学工具。