开篇随口说说

15年毕业伊始到16年,大数据还是如火如荼,Hadoop生态圈百花齐放,基于HDFS的分布式文件系统之上,以批处理见长的MapReduce和兼顾流处理(微批处理)和批处理的内存计算Spark等引擎引擎为支撑,构建大数据应用成常态。在采集端,flume,logstash,Fluentd主要对日志数据进行监控采集,衍生出ELK的各种架构形态,还有传统的kettle,DI工具,虽说效率极差,但是基于作业项和转换项的可插拔式设计,在关系型数据库中曾经占领一席之地,sqoop1/2全量或增量HIVE,HDFS和No...

Continue Reading »
分享到:

【大数据与机器学习】二、回归

Chapter8 回归 回归:简单说就是 由果索因 的过程,是一种归纳的思想 当看到大量的事实所呈现的样态,推断出原因是如何的;当看到大量的数字对是某种样态,推断出它们之间蕴含的关系是如何的。 线性回归是利用数理统计学中的回归分析来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。其表达形式如下: y = ax + b + e , e 为误差服从均值为 0 的正态分布 从大量的函数结果和自变量反推回函数表达式的过程就是回归 把平面上一系列的点用一条光滑的曲线连接起来的过程就叫做拟...

Continue Reading »
分享到:

【大数据与机器学习】一、基本概念

Chapter1 大数据产业 数据收集,数据存储,数据建模,数据分析,数据变现 ------------------------------------------------------------------------------ Chapter2 步入数据之门 数据:承载了信息的东西 信息很可能是因场景而定,因解读者的认知而定,所以一些符号是不是可以被当做数据,有相当的因素是取决于解读者的主观视角的。 信息:用于消除随机不定性的东西 信息就是那些把我们不清楚的事情阐明的描述。 算法...

Continue Reading »
分享到:

网上有关MNIST 数据集的详细讲解链接

MNIST是在机器学习领域中的一个经典问题。该问题解决的是把28x28像素的灰度手写数字图片识别为相应的数字,其中数字的范围从0到9。 MNIST 数据集来自美国国家标准与技术研究所, National Institute of Standards and Technology (NIST). 训练集 (training set) 由来自 250 个不同人手写的数字构成, 其中 50% 是高中学生, 50% 来自人口普查局 (the Census Bureau) 的工作人员. 测试集(test set) ...

Continue Reading »
分享到:

Normalized Mutual Information 的Python 实现 (NMI.py)

NMI是Normalized Mutual Information的简称,用于比较社团划分结果与ground-truth之间的接近程度,取值范围为[0, 1],出自2006年 Danon 的论文 [1]。 有两种计算方法,为了方便大家检测结果,写了一个通用的Python版计算函数,当然也可以直接调用库函数计算。代码如下: # -*- coding: utf-8 -*- import math def NMI(c1, c2): ''' Calculate Normalized Mutual Informati...

Continue Reading »
分享到: