大数据产品经理必备意识:平台架构

随着笔者负责产品体系的不断拓展,如何保障整体产品的有效运转,如何快速孵化产品等,这都需要平台架构的意识,所以本周跟大家简单分享下关于平台架构的认知。

大数据产品经理必备意识:平台架构

1、何为大数据平台

所谓大数据平台,主要是指提供海量数据存储、计算和查询展示功能的集合体。关于大数据平台的建设目标,重点不在于提供了多少种存储计算引擎,覆盖了大数据生态圈多少技术组件,或者团队的技术能力有多么无敌。而是为使用平台的用户解决了哪些问题,扫除了哪些障碍,提升了多少工作效率,附加了哪些增值效益。进一步来说,还包括平台内部组件的横向联通能力和业务流程上纵向贯穿打通上下游链路的能力,这些才是数据平台建设的根本目标和衡量平台成熟度水平的评估标准。其建设方针可分为:

1、组件工具化

工具化的本质目标是降低学习成本,提高工作效率,减少犯错概率,其背后是对组件细节的封装和简化,不仅要考虑平台组件维护,更要考虑用户应用开发;

2、工具平台化

将各种组件、工具和开发流程整合在一起,统一管理,提供成体系的开发运维管理途径,同时通过规范流程,提升平台整体稳定性和可控性,进而提升运维和业务开发的效率;

3、平台服务化

以用户体验为中心进行展开,其重点不在平台自身的架构如何先进、流程如何完善、技术如何领先,而在于用户体验是否够好,用户满意才是衡量服务水平的唯一标准;

4、平台产品化

考虑到投入产出比,必须依托良好的产品形态才能换取可衡量的价值,才能长期健康稳定地生存发展;

2、何为大数据平台架构

所谓大数据平台架构,主要是指用于摄取和处理大数据的总体系统,可视为基于组织业务需求的大数据解决方案的蓝图。

主要包含批量处理数据源、实时处理流数据、统计分析、数据挖掘、机器学习。笔者总结其好处可分为:

1、降低成本

随着基于分布式技术架构的日益成熟,能够有效降低存储和计算成本;

2、加速决策

基于实时流计算的架构,能够快速进行相应决策制定;

3、迅速孵化

基于底层能力进行包装,能够快速支撑上层服务;;

3、互联网公司大数据平台架构

阿里的云梯集群是承载了阿里巴巴过去五年来的集团及其子公司(淘宝、天猫、一淘、B2B等)业务的绝大部分业务数据基础平台,经历了近5年数据量的增长,服务器也不断的增长,从300到1000,直到现在的5000的倍数。2014年7月阿里云计算发布大数据产品——ODPS 6小时处理数据量超过100PB。

大数据产品经理必备意识:平台架构

腾讯大数据云平台有超过6000个节点,共140,000核CPU、300TB内存、 72,000块硬盘。每天接入消息量超过200TB,消息数超过20,000亿;每天支撑实时计算2000亿次需求量;分布式数据仓库存储容量超过100PB,每天JOB数超过1,000,000。

大数据产品经理必备意识:平台架构

从IT到DT,互联网公司(阿里、腾讯、百度等)沉淀了海量的丰富多样的数据,包括交易、金融、生活服务等多种类型,建设了大数据平台促使数据产品化、可视化,通过分析他们的大数据平台有助于我们建设高性能、多场景应用的大数据分析平台。其特点主要如下:

一、多种大数据技术混合

1、采用多种分布式架构,消除网络和性能瓶颈,提高数据处理效率;

2、Hadoop、MPP、Streams等多种大数据技术混合:包括在线、离线等多种技术适用于多种场景分析;

二、结构化数据&非结构化数据并存

1、结构化数据:海量数据的查询、统计、更新等操作;

2、非结构化数据:图片、视频、word、pdf、ppt等文件存储,不利于检索、查询和存储 ;

三、数据挖掘和分析技术

1、数据采集:ETL工具(Flume/Kafka)、爬虫等;

2、数据存取:关系数据库、NoSQL、NewSQL等;

3、基础架构支持:云存储、分布式文件系统等;

4、计算结果展现:标签云、关系图等;

四、大数据应用百花齐放

1、精细化营销;

2、业务运营及优化;

3、用户体验优化;

4、经营分析和战略分析;

4、大数据平台架构模板

大数据平台架构层次划分无标准可言,如果需要一个“模板”,可以将大数据平台划分为“五横一纵”。五横主要是根据数据的流向自底向上划分五层,跟传统的数据仓库类似,分别为数据采集层、数据处理层、数据分析层、数据访问层及应用层。但是大数据平台架构跟传统数据仓库有一个不同,就是同一层次为了满足不同的场景,会采用更多的技术组件,体现百花齐放的特点。

大数据产品经理必备意识:平台架构

1、 数据采集层:既包括传统的ETL离线采集,也有实时采集、互联网爬虫解析等;

2、 数据处理层:根据数据处理场景要求不同,可以划分为Hadoop、MPP、流处理等;

3、 数据分析层:主要包含了分析引擎,比如数据挖掘、机器学习、 深度学习等;

4、 数据访问层:主要是实现读写分离,将偏向应用的查询等能力与计算能力剥离,包括实时查询、多维查询、常规查询等应用场景;

5、 数据应用层:根据企业的特点不同划分不同类别的应用,比如针对运营商,对内有精准营销、客服投诉等,对外有基于位置的客流、基于标签的人群画像等;

6、 数据管理层:这是一纵,主要是实现数据的管理和运维,它横跨多层,实现统一管理;

5、结语

由于涉及到核心资产,所以细节没有具体阐述,但笔者主要是基于产品的角度去概述了大数据平台架构的相关认知,主要是增强产品架构意识,有效进行产品规划,希望与你有感触。

本文由 新媒体之家 作者: 话说数据 发表,其版权均为原作者所有,文章内容系作者个人观点,不代表 新媒体之家 对观点赞同或支持,未经许可,请勿转载,题图来自Unsplash,基于CC0协议。
2

发表评论