加入收藏 | 设为首页 | 会员中心 | 我要投稿 盐城站长网 (https://www.0515zz.cn/)- 运维、云管理、管理运维、智能数字人、AI硬件!
当前位置: 首页 > 大数据 > 正文

数据科学家:21世纪非常脏的工作

发布时间:2021-06-05 11:42:27 所属栏目:大数据 来源:互联网
导读:在大数据世界里,数据科学家受到人们的尊敬,他们采用人工智能或深度学习的方法,提出宝贵的商业见解,造福社会。 《哈佛商业评论》曾这样描述数据科学家数据科学家从事着21世纪最时尚的工作。 对我来说,虽然过去五年拥有着数据科学家这个头衔,但我仍然没
在大数据世界里,数据科学家受到人们的尊敬,他们采用人工智能或深度学习的方法,提出宝贵的商业见解,造福社会。
《哈佛商业评论》曾这样描述数据科学家——“数据科学家从事着21世纪最时尚的工作”。
对我来说,虽然过去五年拥有着“数据科学家”这个头衔,但我仍然没有完全弄清楚工作的哪个部分很时尚。可能是我新烫的头发使我看起来像韩国欧巴。
确实,云端的出现以及企业朝着互联网方向的发展,带来了数据的爆炸。这推动了某些部门对数据科学家的需求以及该岗位的短缺。
数据科学家
但是,数据科学家每天要做什么工作呢?
通过分析领英上发布的职位信息,可以找到此问题的答案。以下总结了一些热门的岗位要求:
了解业务和客户,验证假设理论
建立预测模型和机器学习流水线,进行A/ B测试
对业务相关者进行概念化分析
开发算法以赋能商业决策
试验并研究新技术和方法,提高技术能力。
这些听起来很时尚/高大上,不是吗?
除非工作还包括处理Kaggle数据集,否则这些工作描述只是数据科学家工作的一小部分。
以下调查结果由CrowdFlower发布,总结了数据科学家的日常活动:
数据科学家:21世纪最脏的工作
数据科学家花费时间最多的事情。[摘自CrowdFlower]
从上表可以看出,数据科学家大部分时间都在收集数据集,清理和组织数据。
21世纪的高性能数据真空
数据湖是一个集中存储库,存储着公司的所有数据。公司得以使用该数据构建机器学习模型和仪表板。遗憾的是,有些人仅仅把数据湖当作数据转储的场所,或者超大硬盘。
许多公司开始实施数据湖时,对如何处理收集到的数据一无所知。这些公司会说:“让我们收集所有的数据吧。”虽然数据湖的重点是将公司的所有数据集中在一个地方,但仍然需要根据特定的项目需求进行设计。如果不进行任何计划,你就像创建了一个新的“无标题文件夹”,然后在其中复制并粘贴公司的全部数据。
数据科学家:21世纪最脏的工作
如果把台式机视为数据转储场
从历史的角度看,糟糕的计划会带来杂乱无章的元数据,这让任何人都很难搜索或查找所需的数据。数据科学家经常需要与不同部门联系以获取数据。他们可能需要从不同的数据所有者中获取有关数据的信息。仅存储数据而不进行分类是一个很大的错误。建立有效数据湖的关键就是要确保元数据有良好的归类。
由于数据治理问题或数据所有者过于忙碌,且他们往往是不同部门的利益相关者,因此获取重要数据可能需要数周的时间。观察一段时间后,数据科学家可能最终会发现数据不相关或存在严重的质量问题。
当数据科学家最终收集到数据时,他们需要花费大量时间来探索和熟悉这些数据,必须将这些混乱的数据块重组为符合项目需求的新表。

(编辑:盐城站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读