大数据分析(对规模巨大的数据进行分析)

由网友(朕の愛妃)分享简介:大数据阐发是指对于范围伟大的数据举行阐发。大数据可以归纳综合为五个V, 数据质大(Volume)、速率快(Velocity)、类型多(Variety)、价值(Value)、实真性(Veracity)。大数据做为时下最炽热的IT行业的辞汇,随之而去的数据堆栈、数据安齐、数据阐发、数据开掘等等围绕大数据的贸易价值的哄骗逐渐成为行...

大数据分析是指对规模巨大的数据进行分析。大数据可以概括为5个V, 数据量大(Volume)、速度快(Velocity)、类型多(Variety)、价值(Value)、真实性(Veracity)。大数据作为时下最火热的IT行业的词汇,随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。随着大数据时代的来临,大数据分析也应运而生。[1]

中文名

大数据分析

含义

是指对规模巨大的数据进行分析[2]

分析步骤

可视化分析

外文名

Large data analysis

大数据概括

数据量大、速度快

概述

反洗钱的未来一定是大数据分析

大数据分析是指对规模巨大的数据进行分析。大数据可以概括为4个V, 数据量大(Volume)、速度快(Velocity)、类型多(Variety)、价值密度低(Veracity)。大数据作为时下最火热的IT行业的词汇,随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。随着大数据时代[3]的来临,大数据分析也应运而生。

工具介绍

1. Hadoop HDFS、Hadoop MapReduce, HBase、Hive 渐次诞生,早期Hadoop生态圈逐步形成。

2. Hypertable是另类。它存在于Hadoop生态圈之外,但也曾经有一些用户。

一体机数据库/数据仓库

IBM PureData(Netezza), OracleExadata, SAP Hana等等。

数据仓库

Teradata AsterData, EMC GreenPlum, HP Vertica 等等。

数据集市

Style Intelligence、QlikView、 Tableau 、 国内永洪科技 Yonghong Data Mart 等等。

Yonghong Data Mart是基于自有技术研发的一款数据存储、数据处理的软件。针对客户需要处理需求数据的量级不同,IT系统架构的不同和存储系统的不同,提供了两种解决方案供客户选择一种本地模式,一种是MPP模式。当需要处理的数据量级别处于TB级以下,或者采用普通存储结构,或者单机已经足够满足性能需求,建议用户选择本地模式。当面对异构数据库存储系统,需要处理的数量级别在TB级和PB级以上,或者IT系统和存储系统采用分布式,或者需要MPP模式才能满足性能需求,基于分布式架构的并行处理模式更适合客户的需求。

Yonghong Data Mart底层技术:

1. 分布式计算

2. 分布式通信

3. 内存计算

4. 列存储

5. 库内计算

前端展现

用于展现分析的前端开源工具有JasperSoft,Pentaho, Spagobi, Openi, Birt等等。

用于展现分析商用分析工具有Cognos, BO, Microsoft, Oracle,Microstrategy,QlikView、 Tableau 、 国内永洪科技 Yonghong Z-Suite等等。

大数据分析不能碰的禁区

要分析一个数据,首先要明确自己的目的,为什么要收集和分析这样一份数据。只有明确了目的之后,才能够把握好接下来应该收集哪些数据,应该怎么收集数据,应该分析哪些数据等。

没有合理安排时间

数据分析也要合理安排时间,一般有几个步骤,收集数据、整理数据、分析数据、美化表格。在做这些之前,要预估每一个步骤需要花多少时间,哪一步比较重要,需要花更多的时间等。这些都要在开始收集数据前就计划好,然后在操作的过程中完成每一个步骤。

重收集轻分析

例如,做任务的时间为3个星期,却用了两个多星期来收集数据,最后基本没有时间去分析,紧赶慢赶最后交上来一份没有怎么分析的数据。数据分析重点应该在于分析,应该以最快的速度收集完数据,才有更多的时间整理和分析,最后经过分析的数据才是最有价值的。

收集数据太多,导致无法整理及分析

在我们开始收集数据的时候,容易犯的一个毛病就是看到什么内容比较符合的就都收集下来。这样的情况使得数据越来越多,表格里文档里的内容越来越多,到最后一看,自己都晕了。其实在收集数据的时候也要有一个标准,什么样的数据是需要的,什么数据是不符合条件的,作一个初步的判断,这样就可以减少整理的工作量了。

不懂得分析哪些数据

这是比较普遍的问题,收集了数据后不知道要分析哪些项目,哪些数据点才能体现出分析的目的。其实这也是前面说的目的不明确造成的,不清楚为什么要收集这份数据,这份数据是用来做什么用的,那就不会有一个评判标准,就没有办法找到数据的要点。

表格不美观,不清晰

做数据分析一般使用的是excel表格记录,一份美观清晰的表格不仅使我们可以清楚的看到这份数据的重点,方便查到所想要的数据。在收集数据的过程中,也可以提高收集和分析数据的效率。新型的分析工具大数据魔镜镜有500多种可视化效果,让可视化效果更美观。

阅读全文

相关推荐

最新文章