image
neuscfb

久久不见久久见 久久见了还想见

【大数据与机器学习】一、基本概念

neuscfb    2018-11-24 20:05

Chapter1  大数据产业

 

数据收集,数据存储,数据建模,数据分析,数据变现

 

------------------------------------------------------------------------------

 

Chapter2  步入数据之门

 

数据:承载了信息的东西

信息很可能是因场景而定,因解读者的认知而定,所以一些符号是不是可以被当做数据,有相当的因素是取决于解读者的主观视角的。

 

信息:用于消除随机不定性的东西

信息就是那些把我们不清楚的事情阐明的描述。

 

算法:计算的方法和技巧

用什么样的逻辑和步骤来处理数据和计算。

 

统计的应用大多为计数功能;

概率的应用大多则是根据样本的数量以及占比得到可能性分布比例等描述数值。

 

数据挖掘:首先是有一定量的数据作为研究对象,挖掘——顾名思义,说明有一些东西并不是放在表面上一眼就能看明白,要进行深度的研究、对比、甄别等工作,最终从中找到规律或知识。

 

机器学习:人类学习的目的是掌握知识、掌握能力、掌握技巧,最终能够进行比较复杂或者高要求的工作。类比机器,我们让机器学习,不管学习什么,最终目的都是让它独立或半独立地进行相对复杂或者高要求的工作。这里提到的机器学习更多是让机器帮助人类做一些大规模的数据识别、分拣、规律总结等人类做起来比较花时间的事情。

 

商业智能(BI):通过应用基于事实的支持系统来辅助商业决策的制定

商业智能技术提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息。

 

---------------------------------------------------------------------------------

 

Chapter3  排列组合与古典概型

 

如果一个随机试验所包含的单位事件是有限的,且每个单位事件发生的可能性均相等,则这个随机试验叫做拉普拉斯试验,这种条件下的概率模型就叫古典概型。古典概型也叫传统概率,该定义是由法国著名数学家拉普拉斯提出的。

 

-----------------------------------------------------------------------------------

 

Chapter4  统计与分布

 

指标:所有这类用单一的数据定义来概括性描述一些抽象或复杂数据的方式方法

 

加和值(总和值)、平均值、标准差,这几个值是在生产生活中大量应用的统计学指标。

平均值、标准差是客观的计算结果,是描述性的说明,但绝非是对比和评价的标准。

平均分、标准差只能做描述用,只是一种简洁的描述方法,最多只能帮助我们让数据宏观的画面感更饱满。它们既不是对比的标尺,也不是用来具体做规则制定用的硬性尺度,更不能用来孤立地评价好坏,因为好坏这种含有大量主观判断色彩以及个性化好恶的东西本身就很抽象而且标准繁多。

 

在决策中做加权平均的目的是为了让整个决策既融合众多参与方、利益方的意见,同时也尽量使它向着更权威、更理性、更科学的方面倾斜,这是它的核心思想。

 

用中位数来描述样本的分布,在一定程度上可以消除个别极端值对整个样本平均值的影响。

平时生活中用平均值来描述样本的情况比较多,而较少用众数和中位数,主要是因为平时生活中的场景中多为正态分布,所以平均值、中位数、众数非常接近,那么只用平均值最多加上标准差来表示即能够满足一般性的描述需求。

 

欧式距离为N个维度的读数差的平方和再开方

曼哈顿距离也叫出租车距离,用来标明两个点在标准坐标系上的绝对轴距总和

 

同比:与相邻时段的同一时期相比

环比:直接和上一个报告期进行比较

 

同比和环比在我们平时制作报表的时候会经常用到,对比的对象也很丰富,可以对比某些项目的加和值,也可以对比平均值,只要是同一对象同一单位的值对比就是有意义的。

月环比能够与最近一个经营周期做对比,便于快速反应;

月同比是和去年的同期月相比,这种比较会过滤掉一些周期性的波动的影响因素。

季节或人为性规律的周期性影响在生产生活中有很多,尤其是跟行业结合的时候会有很多细节值得关注。

 

抽样是一种非常好的了解大量样本空间分布情况的方法,样本越大则抽样带来的成本减少的收益就越明显。抽样统计更多地应用于一些对于样本收集和存储成本过高的领域,或者由于种种原因不能做全样本收集的情况。

 

在应用抽样中需要注意,抽样对象要更加有代表性和分散性,这样才会体现出与整个样本空间更为相近的分布特点。

正态分布又名高斯分布,是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。高斯分布本身在自然界的应用是非常广泛的,其分布特点:一般般的很多,极端的很少

 

泊松分布是一种统计与概率学中常见的离散概率分布

泊松分布的参数λ是单位时间(或单位面积)内随机时间的平均发生率。(这是一个具体的次数,不是一个概率值)

泊松分布适用于描述单位时间内随机事件发生的次数。

泊松分布适用的事件需要满足以下3个条件:

  1. 这个事件是一个小概率事件
  2. 事件的每次发生是独立的不会相互影响
  3. 事件的概率是稳定的

在泊松分布中,k每增加1,在k小于λ的时候,累积概率增加是很快的,而且每次增加的量比上一次增加的要多;而在k越过λ之后,虽然开始还在增加,但是每次增加的量比上一次增加的要少,然后越来越少。

 

伯努利分布是一种离散分布,在概率学中非常有用。

伯努利分布的应用需满足以下条件:

  1. 各次试验中的事件是互相独立的,每一次n=1n=0的概率分别是pq
  2. 每次试验都只有两种结果,即n=0,或n=1

对于满足伯努利分布的试验来说,用古典概型进行计算显得复杂和繁琐,尤其是nk比较大的时候用古典概型来做就太不方便了。

 

统计和分布本身的意义,是为描述大量样本的宏观样态而出现的,究其根本也是描述为目的,它不是算法,所以通常无法直接拿来解题,但是它能用最简洁的方式给我们带来大量样本宏观样态下的画面感,更为直观。

 

-------------------------------------------------------

 

Chapter5  指标

 

指标:衡量目标的单位或方法

指标就是为了描述一些对象的状态而制定出来的标准,在日常生产生活中有着广泛的应用。

 

指标的共性:

  1. 数字化
  2. 易衡量
  3. 意义清晰

设定的指标的定义是不容易产生二义性的;

指标基本可以通过改变运营策略在短时间内立竿见影看到反馈效果的

  1. 周期适当

太短,指标波动难以解读;太长,反馈迟钝

  1. 尽量客观

指标设置上的额外考究:

  1. 指标考核的对象
  2. 指标的周期
  3. 指标的比较

横向对比,指同一部门或同一工种之间的同一指标的对比。通常用在某一特定时段,对员工进行排名或评优等评价;

纵向对比,同一部分或者同一员工,自己某一指标在不同时段的对比。一般只用同比和环比就可以了,只比较不同时段的情况。

  1. 复合指标

基础指标一般认为是不可再分的指标,如PV数,这个指标再分是没有业务意义解释的;

复合指标一般是由基础指标和复合指标进行运算得到的。

 

------------------------------------------------------------------------------

 

Chapter6  信息论

 

在信息论中,对信息量是有确定解释并且可以量化计算的

 

事件出现的概率越小,信息量越大,即信息量的多少是与事件发生频繁程度大小(即概率大小)恰好相反的。

 

信息量:

Xi表示一个发生的事件,P表示这个事件发生的先验概率。所谓先验概率,就是这个事件按照常理,按照一般规律发生的概率

 

香农公式:

B是码元速率的极限值,S是信号功率,N是噪声功率,C表示在一个信道里面信号传输的速度上限

带宽越大传输速度越快;信噪比越大传输速度越快

 

信息熵:

信息越确定,越单一,信息熵越小;

信息越不确定,越混乱,信息熵越大

信息熵是用来度量信息混乱程度的,凡是关心信息混乱程度对系统的影响的地方都可以用信息熵来辅助调整或判断。

 

-----------------------------------------------------------------------------

 

Chapter7  多维向量空间

几何向量也称为欧几里得向量,通常简称向量、矢量,是指具有大小和方向的几何对象。

向量除了用箭头表示外,还有一种在数据计算领域更常用的方法,即用(a,b,c,d,...)来表示,其中abcd等每个元素都是一个维度上的数据取值。

 

一般来说,向量的每个维度之间是不相关的,在设计一个向量时也是希望每个维度不相关。

 

冗余的问题是,如果其中一个相关的字段发生变化,则另一个字段也必须相应地做出变化,否则就会出现信息矛盾或者不一致的现象。

至于在具体的应用场景里是否使用冗余字段需要应用者根据系统设计的经验和自己的实际需求去判断,应选择在满足自己系统业务运转要求的前提下“成本”更低的方式。

 

维度指的是参照系,有多少个维度就有多少个参照系。

维度的设置一般都是具有“正交性”的,即这两条直线互不“依赖”,一个点沿着某一条直线移动,该点投影到另一条直线上的位置始终不变。

正交向量的任何一个维度,值发生变化时都不会引起其他维度的值变化。

一般来说,向量的设计推荐采用维度正交的原则,主要原因也是为了避免两个非正交维度不一致时不知道该采信哪种更好。

 

数据立方体,是一种比较直观的大数据可视化技术,它能够帮助人们在一个研究对象和3个维度(及以下)的情况下快速找到让人感兴趣的那些小数据块,快速定位“问题”所在。

 

下钻,在一个视图下,“向下钻入”一个立方体时可以看到更多的细节;

上卷,当人们对当前的视图不再有兴趣需要回退到上一级别的视图时,可以把当前视图“向上卷起”。

在每个视图中都能在有限的研究对象里较快定位到“问题”所在,这就是上卷和下钻两种操作的作用。

 

在高维度数据的研究中,虽然数据立方体的逻辑客观存在,但是在对其进行数据挖掘和机器学习的过程中基本用不到数据立方体的可视化技术。

Views: 1.4K

[[total]] comments

Post your comment
  1. [[item.time]]
    [[item.user.username]] [[item.floor]]Floor
  2. Click to load more...
  3. Post your comment