百韵网 >>  正文

大数据生命周期分为采集、存储、分析和日常维护四个阶段。对还是不对? 大数据的生命周期的九个阶段

来源:www.baiyundou.net   日期:较早时间
对的,大数据采集与预处理在大数据生命周期中,数据采集处于第一环节。根据Map Reduce生成的应用系统分类,大数据采集主要有四个来源。管理信息系统,网络信息系统,物理信息系统,科学实验系统。对于企业不同的数据集,可以有不同的结构。如文件、XML、关系表等,并在用于多个异构数据集,需要进一步整合处理的,从不同的数据集的数据的易购。整理、清洗、转换后,生成到一个新的数据集,为后续进行查询和分析研究问题以及处理企业提供信息统一的可视图。针对管理信息系统中异构数据库集成技术,Web信息系统中的实体识别技术和DeepWeb集成技术。传感器网络信息数据融合发展技术已经有很多问题研究主要工作,取得了较大的进展,已经推出了多种数据清洗和质量管理控制工具。例如,美国SAS公司的Data Flux,美国IBM公司的Data Stag,、美国Informatica公司的Informatica Power Center。

大数据的生命周期的九个阶段~

大数据的生命周期的九个阶段
企业建立大数据的生命周期应该包括这些部分:大数据组织、评估现状、制定大数据战略、数据定义、数据收集、数据分析、数据治理、持续改进。

一、大数据的组织
没有人,一切都是妄谈。大数据生命周期的第一步应该是建立一个专门预算和独立KPI的“大数据规划、建设和运营组织”。包括高层的首席数据官,作为sponsor,然后是公司数据管理委员会或大数据执行筹划指导委员会,再往下就是大数据的项目组或大数据项目组的前身:大数据项目预研究团队或大数据项目筹备组。这个团队是今后大数据战略的制定和实施者的中坚力量。由于人数众多,建议引入RACI模型来明确所有人的角色和职责。
二、大数据的现状评估和差距分析
定战略之前,先要做现状评估,评估前的调研包括三个方面:一是对外调研:了解业界大数据有哪些最新的发展,行业顶尖企业的大数据应用水平如何?行业的平均尤其是主要竞争对手的大数据应用水准如何?二是对内客户调研。管理层、业务部门、IT部门自身、我们的最终用户,对我们的大数据业务有何期望?三是自身状况摸底,了解自己的技术、人员储备情况。最后对标,作差距分析,找出gap。
找出gap后,要给出成熟度现状评估。一般而言,一个公司的大数据应用成熟度可以划分为四个阶段:初始期(仅有概念,没有实践);探索期(已经了解基本概念,也有专人进行了探索和探讨,有了基本的大数据技术储备);发展期(已经拥有或正在建设明确的战略、团队、工具、流程,交付了初步的成果);成熟期(有了稳定且不断成熟的战略、团队、工具、流程,不断交付高质量成果)。
三、大数据的战略
有了大数据组织、知道了本公司大数据现状、差距和需求,我们就可以制定大数据的战略目标了。大数据战略的制定是整个大数据生命周期的灵魂和核心,它将成为整个组织大数据发展的指引。
大数据战略的内容,没有统一的模板,但有一些基本的要求:
1. 要简洁,又要能涵盖公司内外干系人的需求。
2. 要明确,以便清晰地告诉所有人我们的目标和愿景是什么。
3. 要现实,这个目标经过努力是能达成的。
四、大数据的定义
我认为:“数据不去定义它,你就无法采集它;无法采集它,你就无法分析它;无法分析它,你就无法衡量它;无法衡量它,你就无法控制它;无法控制它,你就无法管理它;无法管理它,你就无法利用它”。所以“在需求和战略明确之后,数据定义就是一切数据管理的前提”。
五、 数据采集
1. 大数据时代的数据源很广泛,它们可能来自于三个主要方面:现有公司内部网各应用系统产生的数据(比如办公、经营生产数据),也有来自公司外互联网的数据(比如社交网络数据)和物联网等。
2.大数据种类很多,总的来讲可以分为:传统的结构化数据,大量的非结构化数据(比如音视频等)。
3. 数据采集、挖掘工具很多。可以基于或集成hadoop的ETL平台、以交互式探索及数据挖掘为代表的数据价值发掘类工具渐成趋势。
4. 数据采集的原则:在数据源广泛、数据量巨大、采集挖掘工具众多的背景下,大数据决策者必须清楚地确定数据采集的原则:“能够采集到的数据,并不意味着值得或需要去采集它。需要采集的数据和能够采集到的数据的"交集",才是我们确定要去采集的数据。”
六、数据处理和分析
业界有很多工具能帮助企业构建一个集成的“数据处理和分析平台”。对企业大数据管理者、规划者来讲,关键是“工具要满足平台要求,平台要满足业务需求,而不是业务要去适应平台要求,平台要去适应厂商的工具要求”。那么这个集成的平台应该有怎样的能力构成呢?它应该能检索、分类、关联、推送和方便地实施元数据管理等。见下图:
七、 数据呈现
大数据管理的价值,最终要通过多种形式的数据呈现,来帮助管理层和业务部门进行商业决策。大数据的决策者需要将大数据的系统与BI(商业智能)系统和KM(知识管理)系统集成。下图就是大数据的各种呈现形式。
八、 审计、治理与控制
1.大数据的审计、治理和控制指的是大数据管理层,组建专门的治理控制团队,制定一系列策略、流程、制度和考核指标体系,来监督、检查、协调多个相关职能部门的目标,从而优化、保护和利用大数据,保障其作为一项企业战略资产真正发挥价值。
2.大数据的治理是IT治理的组成部分,大数据的审计是IT审计的组成部分,这个体系要统筹规划和实施,而不是割裂的规划和实施。
3.大数据的审计、治理与控制的核心是数据安全、数据质量和数据效率。
九、 持续改进
基于不断变化的业务需求和审计与治理中发现的大数据整个生命周期中暴露的问题,引入PDCA等方法论,去不断优化策略、方法、流程、工具,不断提升相关人员的技能,从而确保大数据战略的持续成功!

大数据生命周期的多个阶段分析

如今,各个企业对于大数据的应用都甚为积极,但企业在建立大数据的生命周期时应注意,其中包括了这些部分:大数据组织、评估现状、制定大数据战略、数据定义、数据收集、数据分析、数据治理、持续改进这几方面,下面就来详细了解下。
大数据的现状评估和差距分析
在定战略之前,先要做必要的现状评估,评估前的调研包括三个方面:一是对外调研:了解业界大数据有哪些最新的发展,行业顶尖企业的大数据应用水平如何?行业的平均尤其是主要竞争对手的大数据应用水准如何?二是对内客户调研。管理层、业务部门、IT部门自身、我们的最终用户,对我们的大数据业务有何期望?三是自身状况摸底,了解自己的技术、人员储备情况。最后对标,作差距分析,找出gap。找出gap后,要给出成熟度现状评估。一个公司的大数据应用成熟度可以划分为四个阶段:初始期;探索期;发展期;成熟期。
大数据的发展战略
有了大数据组织、知道了本公司大数据现状、差距和需求,企业就可以制定大数据的战略目标了。大数据战略的制定是整个大数据生命周期的灵魂和核心,它将成为整个组织大数据发展的指引。大数据战略的内容,没有统一的模板,但有一些基本的要求:
要现实,这个目标经过努力是能达成的。
要简洁,又要能涵盖公司内外干系人的需求。
要明确,以便清晰地告诉所有人我们的目标和愿景是什么。
对于大数据的定义
如果不对大数据进行定义,你将无法采集到它,你没法采集它就不能分析它;而不能分析它,你就不能衡量它的价值,既然不能衡量它的价值,你也就无法真正的控制它;如果你不能很好的控制它,那么你就无法管理并且利用它。在需求和战略明确之后,数据定义就是一切数据管理的前提。

相关要点总结:

15974772113:大数据来源的几种类型
祝咐答:1.数据收集:在大数据的生命周期中,数据收集处于第一阶段。根据MapReduce数据应用系统...2.数据访问:大数据通过不同的技术路线存储和保存,大致可分为三类。第一类主要处理大规模结构化...3.基础设施:云存储、分布式文件存储等。4.数据处理:不同的数据集可能有不同的结构和模式,如文件、XML树、关系表等...

15974772113:根据数据生命周期画的hadoop生态圈是什么?
祝咐答:Hadoop生态圈通常被认为是指一系列与Hadoop相关的开源软件和工具,这些软件和工具能够实现数据生命周期的各个阶段,包括数据采集、存储、处理、分析和可视化等。下面是一个根据数据生命周期画的Hadoop生态圈:数据采集:数据采集是数据生命周期的第一阶段。在这个阶段,我们需要从各种来源收集数据,包括传感器、...

15974772113:大数据技术有哪些
祝咐答:大数据技术主要包括数据采集与预处理、数据存储和管理、数据处理与分析、数据结果呈现等几个层面的内容。1、数据采集与预处理 在大数据生命周期当中,数据采集处于第一个环节。利用ETL工具将分布的,异构数据源中的数据,抽取到临时的中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,并进行...

15974772113:大数据包括哪些内容
祝咐答:大数据包括数据采集,数据管理,数据传输,数据存储,数据安全、数据分析等内容。大数据涵盖的内容主要以数据价值化为核心的一系列操作,包括数据的采集、整理、传输、存储、安全、分析、呈现和应用。随着5G的落地应用以及物联网技术的发展,未来更多的资源将逐渐实现数据化,所以大数据能够涵盖的内容也会越来越...

15974772113:大数据生命周期的多个阶段分析
祝咐答:最后对标,作差距分析,找出gap。找出gap后,要给出成熟度现状评估。一个公司的大数据应用成熟度可以划分为四个阶段:初始期;探索期;发展期;成熟期。大数据的发展战略 有了大数据组织、知道了本公司大数据现状、差距和需求,企业就可以制定大数据的战略目标了。大数据战略的制定是整个大数据生命周期的灵魂和...

15974772113:大数据的数据处理包括哪些方面
祝咐答:大数据的数据处理一共包括四个方面分别是收集,存储,变形,和分析。收集:原始数据种类多样,格式、位置、存储、时效性等迥异。数据收集从异构数据源中收集数据并转换成相应的格式方便处理。存储:收集好的数据需要根据成本、格式、查询、业务逻辑等需求,存放在合适的存储中,方便进一步的分析。变形:原始...

15974772113:大数据的采集存储和分析能够为哪方面的创新提供基础
祝咐答:大数据关键技术有数据存储、处理、应用等多方面的技术,根据大数据的处理过程,可将其分为大数据采集、大数据预处理、大数据存储及管理、大数据处理、大数据分析及挖掘、大数据展示等。1、大数据采集技术 大数据采集技术是指通过RFID数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得各种类型的结构化、...

15974772113:大数据处理流程包括哪些环节?
祝咐答:大数据处理流程如下:1、数据采集:收集各种数据来源的数据,包括传感器数据、日志文件、社交媒体数据、交易记录等。数据采集可以通过各种方式进行,如API接口、爬虫、传感器设备等。2、数据存储:将采集到的数据存储在适当的存储介质中,例如关系型数据库、分布式文件系统、数据仓库或云存储等。选择合适的存储...

15974772113:大数据处理过程包括哪几个步骤
祝咐答:大数据处理过程包括:数据采集、数据预处理、数据存储、数据处理与分析、数据展示/数据可视化、数据应用,具体如下:1、数据采集 大数据处理的第一步是从各种来源中抽取数据。这可能包括传感器、数据库、文件、网络等。这些来源可能是物理的设备,如传感器,或者是虚拟的,如网络数据。这些数据可能以各种不同...

15974772113:大数据技术的体系是什么?任务分别是什么?
祝咐答:数据技术的体系包括以下几个方面:数据采集与存储:大数据技术的首要任务是采集和存储大量的数据。这包括从各种来源获取数据,如传感器、日志文件、社交媒体、互联网等。同时,需要选择适当的数据存储技术,如分布式文件系统、数据湖、NoSQL数据库等,以容纳和管理海量的数据。数据处理与分析:大数据技术需要处理...

(编辑:本站网友)
相关推荐
关于我们 | 客户服务 | 服务条款 | 联系我们 | 免责声明 | 网站地图
@ 百韵网