【大数据与机器学习】一、基本概念

Chapter1 大数据产业 数据收集,数据存储,数据建模,数据分析,数据变现 ------------------------------------------------------------------------------ Chapter2 步入数据之门 数据:承载了信息的东西 信息很可能是因场景而定,因解读者的认知而定,所以一些符号是不是可以被当做数据,有相当的因素是取决于解读者的主观视角的。 信息:用于消除随机不定性的东西 信息就是那些把我们不清楚的事情阐明的描述。 算法...

Continue Reading »
分享到:

数据标准化映射到某区间

数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。 在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。 其中最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上。 好处: 提升模型的收敛速度 提升模型的精度 Python版Sigmod函数: def sigmoid(x): ''' 归一化函数 ''' import numpy as np return 1.0 / (1.0...

Continue Reading »
分享到:

网上有关MNIST 数据集的详细讲解链接

MNIST是在机器学习领域中的一个经典问题。该问题解决的是把28x28像素的灰度手写数字图片识别为相应的数字,其中数字的范围从0到9。 MNIST 数据集来自美国国家标准与技术研究所, National Institute of Standards and Technology (NIST). 训练集 (training set) 由来自 250 个不同人手写的数字构成, 其中 50% 是高中学生, 50% 来自人口普查局 (the Census Bureau) 的工作人员. 测试集(test set) ...

Continue Reading »
分享到:

新浪微博爬虫实践

最近想要获取一些真实社交网络的数据,试了试Facebook for developers, 提供了很完善的接口: https://developers.facebook.com/tools/explorer/ 但是从2018年4月4日之后,停止了friendlists的功能。 有点可惜。并且,在服务器上暂时无法访问Facebook, 在看看Google+的api: https://developers.google.com/+/web/ 测试了一下get方法,我的id是101266749844321077...

Continue Reading »
分享到: