BI、数据堆栈、ETL、大数据开辟工程师有什么区别?
发布时间:2022-11-19 11:00:42 所属栏目:大数据 来源:
导读: 一味的表明 数据堆栈 概念大概没意思,我们从差异脚色出发吧
老板:我是一家手机公司的老板,本日要向去董事局报告,我要预备一份先容已往三年的用户增长、用户留存、用户生动度、手机内里每个APP使用率
老板:我是一家手机公司的老板,本日要向去董事局报告,我要预备一份先容已往三年的用户增长、用户留存、用户生动度、手机内里每个APP使用率
|
一味的表明 数据堆栈 概念大概没意思,我们从差异脚色出发吧 老板:我是一家手机公司的老板,本日要向去董事局报告,我要预备一份先容已往三年的用户增长、用户留存、用户生动度、手机内里每个APP使用率等情况的报表,如果下面没我下面没有BI,那我肯定就蒙逼了。。 BI: 我是一名非技能BI,我每天看竞品的分析陈诉,看双十一销量,看各种品评,知道本身的产物有哪些短板有哪些长处, 我分析南北地域差异,国表里客户喜好,总之我在手机范畴有着很强的行业解读本事和数据解读本事, 我可以画出非常漂亮的图表和PPT。本日老板让我出一份报表,我还要去刷脸找ETL工程师帮我跑出这次陈诉的数据, 基于这份数据我要给出肯定的解读,为啥这个月手机卖得不如上个月,为啥用户流失越来越严厉等等都是我要去做的。 ETL工程师: 我是食品链最底层的苦逼ETL工程师,我会写shell、我会搭hadoop/hive/hbase、会写超复杂逻辑的sql, 本日谁人不会本身盘算数据的BI又让我跑几个数据,我本想让她提需求流程的,但她说这是老板要的,要加急处置惩罚, 我只能放动手头的活儿给她跑数据了,花了半个小时把数据跑好给她,渴望能就这么交差吧。 如果你以为我每天就做这点事那你就错了,我平常的工作可不但仅就是完成上面交给我的使命哦,我还负责数据ETL过程、数据建模、定时使命的分配等等,每件事都可以拿出来写本书。 就拿ETL过程来说吧,你要把原始数据从各种数据库、各种服务器的差异业务日志归一化到同一类格式,要约定好分隔符,然后导入到分布式文件体系HDFS,以致你还要和业务体系界说数据格式出规范,数据网络完,你还得出中心表,数据过滤,格式同一,ID同一,维度同一,通过差异的数据征象举行数据,完了,你就得出一些日报周报之类的数据了,这时间你要按照需求把数据构造成肯定的格式然后导Mysql、大概HBASE等等。 总之你就是必要把数据各种网络、各种处置惩罚、然后各种导入导出,是不是很故意思? 不外这些数据堆栈都非常低级,此中ETL工程师可发挥的空间太多了 1、正常情况下,老板 —> BI —> ETL 出一份陈诉,这中心可否BI直接去盘算数据?sql太复杂,那么可不可以齐备数据标签化,BI以致老板要什么就选什么? 2、ETL工程师可以把数据网络主动化、可以规范业务日志格式、可以将齐备都设置化,但是这些都是基于N+1的,也就是说本日的发生了什么肯定要到来日诰日才气看到,那么有没有一个体系能把数据分析做到实时大概准实时?参考双十一大屏,马总要是到12号才气知道成交了多少笔不劈了那帮做数据的才怪。 3、现在绝大部分分析体系都基于离线盘算(HADOOP/ODPS),那这里有个标题了,运营或BI想看个数据还得你离线慢腾腾跑完才气看到,那么有没有一个体系可以支持你再大的数据量,再复杂的逻辑,毫秒出数据? 我没有提到的尚有算法工程师、大数据运维等等,数据堆栈的概念很广很大,但在大数据应用眼前也不值一提。 如果把数据代价分层,这里分层的办法许多,我只罗列一种方法,有人分过5层 第一层: 为老板提供决定支持,比方传统的财政报表 第二层: 为运营提供决定支持,比方数据化非常彻底的淘宝运营们 第三层: 为产物提供支持,比方有产物司理们会拿着报表每天看研究本身的某一个按钮摆放位置对不对 第四层:数据用于生产,好比直接对接广告体系产生收益,好比直接对接保举体系为用户保举商品,实现千人千面,再好比使用手机APP直接为差异用户push消息 第五层:大数据互换,数据产生直担当益 大部分公司能做到前两个条理就已经很不错了,如果能做到第三层大数据堆栈,就已经很牛逼,做到第四第五条理,国内互联网公司不凌驾2家,大数据应用太大了,不知从何提及,以后聊吧。 (编辑:天瑞地安资讯网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
站长推荐

