项目管理最最基本的就是对范围、时间、成本、质量(STCQ:Scope、Time、Cost、Quality)的把握,这四点其实就是项目的目标。不管项目复杂还是简单,计划还是执行,一定不能忽略这四点,必须烙印在项目经理的大脑里,就象写入电脑固件的BIOS,一启动就要加载,形成项目经理的一种下意识行为。

阅读全文 »

在数据调研工作中,客户有时候反馈的数据表会通过word的形式提供,有时候国家标准也会以word文件形式来表示。但是为了方便我们对数据表进行分析,或者方便我们的ETL工具进行导入,我们最好要把这些表格都复制到excel中。如果表的数量不多,手动即可,但是如果有成百上千张表,手动操作就显得费事费力了,而且格式可能还会有问题。于是乎,人生苦短,我会Python。也顺便帮助小伙伴提高一下工作效率。

阅读全文 »

MapReduce的原理,简单来说就是,在Map阶段为每个数据块分配一个Map计算任务,然后将所有map输出的Key进行合并,相同的Key及其对应的Value发送给同一个Reduce任务去处理。对于大数据工程师来说,只要遵循MapReduce编程模型就可以开发出复杂的大数据计算程序。

阅读全文 »

MapReduce是一种非常简单又非常强大的编程模型。

简单在于其编程模型只包含Map和Reduce两个过程,map的主要输入是一对值,经过map计算后输出一对值;然后将相同Key合并,形成;再将这个输入reduce,经过计算输出零个或多个对。

阅读全文 »

分类是大数据常见的应用场景之一,通过对历史数据规律的统计,将大量数据进行分类然后发现数据之间的关系,这样当有新的数据进来时,计算机就可以利用这个关系自动进行分类了。更进一步讲,如果这个分类结果在将来才会被证实,比如一场比赛的胜负、一次选举的结果,那么在旁观者看来,就是在利用大数据进行预测了。其实,现在火热的机器学习本质上说就是统计学习。

阅读全文 »

什么是数据仓库

数据仓库定义

数据仓库实际上是一种数据存储,它将各种异构数据源中的数据集成在一起,并保持其语义一致,为企业决策提供支持。数据仓库的应用主要有行为分析、信用分析、经济预测、安全防控、多维分析、报表、BI等。

阅读全文 »

对于一个软件系统而言,性能差一点,用户也许可以接受;使用体验差,也许也能忍受。但是如果可用性差,经常出故障导致不可用,那就比较麻烦了;如果出现重要数据丢失,那开发工程师绝对是摊上大事了。

我们从不同层面来看一下HDFS的高可用设计。

阅读全文 »

在整个大数据体系里面,最宝贵、最难以替代的资产就是数据,大数据所有的一切都要围绕数据展开。HDFS作为最早的大数据存储系统,存储着宝贵的数据资产,各种新的算法、框架想要得到人们的广发使用,必须支持HDFS才能获取已经存储在里面的数据。所以大数据技术越发展,新技术越多,HDFS得到的支持越多,我们越离不开HDFS。HDFS也许不是最好的大数据存储技术,但依然是最重要的大数据存储技术。

阅读全文 »
0%