据说是这样数据科学家是“21的最性感职称英石世纪。”这几天为什么这是如此要求的位置?简短的答案是,在过去十年中,公司和公司以及您和我的数据都是一种大规模的爆炸。有时我们称之为“大数据”,就像一堆木材,我们想用它建造一些东西。数据科学家是从所有这些数据中理解的人,并弄清楚可以用它完成的东西。
在Alexa,我们的数据团队负责从庞大的数据集生成强大的、可操作的分析。正是这些努力让人们清楚地了解了如何与web交互,并为关键的业务策略提供了可用特性的基础。对数据科学家的需求如此迅速地增加,麦肯锡预测到2018年,数据科学家对需求提供了50%的差距。对我们来说很好,但什么是数据科学?我们要怎么处理这些数据?
什么是数据科学?
一个数据科学家是那个不能停止询问“为什么?”的人的成人版本。他们是那种进入冰淇淋店的人,在他们的锥体上获得五种不同的勺子,因为他们真的需要知道每个人的味道。同样,即使是数据科学家甚至是一个包含许多不同的工作味道的金属标题。我认为这是数据科学家和统计学家或分析师或工程师之间的主要区别。数据科学家正在做一些任务。当然,职称是数据科学家的职称将在特定公司做什么依赖于公司和该人,并且可能看起来更像是那些其他标题,而不是所有三个的混合物。对我来说,一个数据科学家是那些做以下任务的人:
1.数据分析
2.建模/统计
3.工程/原型
这些任务的顺序是有意的,它大致反映了数据科学项目的生命周期。公平,我们应该添加“0。数据清洁“到该列表,因为它可以是数据科学家的最耗时的任务之一。这也是数据科学家的令人难以置信的Litmus测试。无法解析凌乱的CSV的人不会将其作为数据科学家削减)。让我们更详细地查看这些任务。
数据清理
那里有很多数据,但它的大部分都不易于使用格式。数据科学家的工作的这一部分涉及确保数据很好地格式化并符合某些规则。
作为一个例子,考虑一个CSV,其中每一行描述一个快餐特许经营的财务状况。可能会有关于城市、州和去年汉堡销售数量的专栏。但是,与其将所有这些数据放在一个文档中(这太容易了,不是吗?),它可能会分散到许多不同的文件中,这些文件需要连接在一起。从某种意义上说,这样做比较容易。困难的部分是确保最终的组合是有意义的。通常会有一些格式不一致的地方,在数据集的某处有一行,其中出售的汉堡数是“爱达荷”,而州是25000。数据清理就是要找到这些小问题,修复它们,并确保它们在将来会被自动修复。作为额外的好处,从这一点开始的所有下游工作只能与您收集的数据一样好。
数据分析
这是大多数人认为使用Excel来完成的工作,但却大大增加了乐趣。数据科学家通常会处理一些数据集,这些数据集太大,无法在典型的电子表格程序中打开,甚至可能在单个计算机上无法处理。
数据分析是可视化的领域(表格是给机器人的)。在这里,您需要绘制大量的数据图,试图理解它(绘图也是电子表格开始落后的另一个地方)。通过这个过程,数据科学家试图编造一个故事,用一种容易沟通和容易采取行动的方式来解释数据。有时这可以是一些简单的事情,比如当新用户转变为长期用户时,找出什么属性或事件信号;或者是一些更复杂的事情,比如找出某人什么时候在慢慢地骗你一大笔钱办公空间。例如,Facebook的数据科学家讨论了至少有十个朋友有助于保证用户将在网站上保持活跃,这就是为什么在致力于寻找新朋友的网站上有这么多机械。
建模/统计
数据师是否认为他们正在进行建模或统计数据取决于他们的背景。研究统计数据的人认为自己是统计学家;其他人可能会要求更多的是更多的建模者(或者如果他们感到花哨,那么机器学习专家)。
我自己的背景是最纯粹的数学,所以我认为统计学是一种有趣的方式来讨论概率和线性代数的回归。这使我成为一个模型师。无论哪种情况,这都是深入的理论知识渗入数据科学的地方。一旦您获得了清晰的数据并理解了这些数据,您通常希望根据这些数据或类似的数据来做出预测。
我们在Alexa解决的问题之一,正在预测网站获取有多少访客。为此,我们根据我们对各个网站的流量所知以及人们与Web进行交互的情况,建立了一个模型。那里有很多事情,它真的是一个单独的博客文章的主题。但是,我只是补充说这一步往往非常复杂。我们生活在一台机器学习的黄金时代,那里的算法非常强大的算法可用作黑色盒子,产生良好的效果。然而,很容易发现自己坐在一个没有模型在框中开放的问题。因此,数据科学家花了很多时间评估和调整模型,以及返回数据以带出新功能,可以帮助提高更好的模型。
工程/原型
拥有干净的数据和良好的模型只是冰山一角。回到上一节的访问者模型,即使我有一个很好的模型来预测有多少人访问一个网站(我想我是这样认为的),如果我不能把这些预测给我们的客户,并始终如一地这样做,它对任何人都没有多大好处。这意味着要构建某种数据产品,供非数据科学家使用。这可以采取多种形式:可视化(或图表)、仪表板上的指标或应用程序。
数据科学家是否在应用程序上建立完整,或者只是概念证明通常取决于涉及的数据量,如何需要快速的东西,最终消费者将是谁。We’re still in the early days of engineering with a slant towards projects that utilize large amounts of data, and so many of the tools and techniques that make general programming easier either aren’t available in the tools used by most data or don’t work quite as well in their new context (unit tests come to this data scientist’s mind).
包起来
还记得我之前提到的蛋卷冰淇淋吗?在蛋筒的末端,你会发现所有你喜欢的味道都融化了。数据科学项目的长期生命周期看起来很像这样。你回去重新做你的分析因为你在洗澡的时候有了深刻的见解,一个新的数据来源出现了,你必须整合它,或者你的原型得到了比你预期的更多的使用。这是关于数据科学最好的一点:你做了很多事情,并且你一起做,这是一个很好的挑战——就像有点太多的冰淇淋。
想加入我们的团队吗?我们正在招聘数据科学家和工程师,很想见见你。看看我们空缺职位保持联系!