—— Prof. Xiaowei Xu's report
首先非常感谢徐晓伟教授精彩的报告。
下面是听报告过程中的一点记录,如有记错的地方,望予以指正。
关于数据表征:一般而言,一个好的表示可以使后续的学习任务更容易。选择什么表示通常取决于后续的学习任务。 我们可以将监督学习训练的前馈网络视为表示学习的一种形式。 具体地,网络的最后一层通常是线性分类器,如~softmax~回归分类器。 网络的其余部分学习出该分类器的表示。 监督学习训练模型,一般会使得模型的各个隐藏层(特别是接近顶层的隐藏层)的表示能够更加容易地完成训练任务。 例如,输入特征线性不可分的类别可能在最后一个隐藏层变成线性可分离的。 原则上,最后一层可以是另一种模型,如最近邻分类器。 倒数第二层的特征应该根据最后一层的类型学习不同的性质。前馈网络的监督训练并没有给学成的中间特征明确强加任何条件。 其他的表示学习算法往往会以某种特定的方式明确设计表示。 定义如下:
- Data Representation refers to the form in which data is stored, processed, and transmitted.
- 繁琐
- 依赖于领域知识
- 得到的数据关联性差
六年前,一个很重要的工作,每一层的转换的物理意义,用分析的方法,用卷积网训练,拿汽车数据跑一遍,发现第一层特征都比较简单,类似直线的特征,在经过一层,得到的结果比第一层相对复杂,和人的大脑思维很像,神经网络是按照人脑思维相似的过程,一层一层逐渐抽象,最后一层,得到的结果再分类就非常准确了。
为什么深度学习的结果比传统的结果好?传统机器学习端对端,深度学习是一个分离的结构,完全不同的体系结构。
深度学习表达:多层神经网络是,很多函数的变换,做一个归一化,变成概率了。相当于多次支持向量机。实质上,每一层表达都有一个结果,通常只用最抽象的一个结果。
类似人眼,即可以看宏观的,也可以看抽象的。
每一层,加权,帮助大,权重就大,加权之后混合模型。而不是仅仅用最后一层。
应用:
- Word embedding
- 文档检索
训练一个语言模型,给一个字,就能转换成一个向量。Words are clusterd.
转成字再用pca降为二维。同意字和相关字距离比较近。语义关联。
Word2Vector 滑动窗口,每次滑动,看哪些字在前,哪些字在后。
问题:这些字怎么当做输入?一万个字,排在字典的第一行?每个字在字典中的顺序,转成了一个只有一个1,其他都是0的向量,任意两个字都可以表示了。skip-gram,得到一个一万维的向量,得到的是300维的向量。
continuous bag of words cbow模型。和skip-gram模型的过程正好相反。
这个工作很基础,决定之后的处理效果。
- Global Vectors – Glove (stanford)
- fastText ( facebook开源的一个词向量与文本分类工具,在2016年开源,典型应用场景是“带监督的文本分类问题”。提供简单而高效的文本分类和表征学习的方法,性能比肩深度学习而且速度更快。fastText结合了自然语言处理和机器学习中最成功的理念。这些包括了使用词袋以及n-gram袋表征语句,还有使用子词(subword)信息,并通过隐藏表征在类别间共享信息。我们另外采用了一个softmax层级(利用了类别不均衡分布的优势)来加速运算过程。)
- Embedding from Language models. Elmo (ELMo是一种在词向量(vector)或词嵌入(embedding)中表示词汇的新方法。这些词嵌入方法在下列几种NLP问题中能有效生成最先进(SOAT)的结果。论文下载:pdf)
- Bidirectional Encoder Representations from Transformers. BERT (BERT的新语言表示模型,它代表Transformer的双向编码器表示。与最近的其他语言表示模型不同,BERT旨在通过联合调节所有层中的上下文来预先训练深度双向表示。因此,预训练的BERT表示可以通过一个额外的输出层进行微调,适用于广泛任务的最先进模型的构建,比如问答任务和语言推理,无需针对具体任务做大幅架构修改。)
题外话:为什么一般都是 得有钱,还得有经验,把我的代码给你,可能得到的结果完全不一样。现在成了大公司的俱乐部。
每个深度学习模型至少一层,如果有n层,都混在一层,混合模型。
训练好的结果,四个独立的 multi-resolution 模型,效果怎么样?无监督,除非用合成数据,用文本检索有监督,所有的维基百科的网页,雇佣真人读数据想问题。得到问题和答案。
方法:
首先根据训练集,问题转向量,答案也转向量,得到向量,残差,算距离,不是答案,也算距离,目标优化函数,让问题答案的距离变小,问题非答案距离变大,找出问题对应距离最近的文本座位答案。
之后的是实验,记得不太全[1],用到的几个数据集介绍如下:
卷积残差网络。
Adam: (A Method for Stochastic Optimization) [2] . Adam, an algorithm for first-order gradient-based optimization of stochastic objective functions, based on adaptive estimates of lower-order moments. The method is straightforward to implement, is computationally efficient, has little memory requirements, is invariant to diagonal rescaling of the gradients, and is well suited for problems that are large in terms of data and/or parameters. The method is also appropriate for non-stationary objectives and problems with very noisy and/or sparse gradients. The hyper-parameters have intuitive interpretations and typically require little tuning. Some connections to related algorithms, on which Adam was inspired, are discussed.
SQuAD: (The Stanford Question Answering Dataset),斯坦福大学的人工收集的 “问题-答案”数据集 [3]。
QUASAR: (The Question Answering by Search and Reading) [4].
t-SNE: t-分布领域嵌入算法,读作“Tee-Snee”,它只在用于已标记数据时才真正有意义,可以明确显示出输入的聚类状况。主要想法就是,将高维分布点的距离,用条件概率来表示相似性,同时低维分布的点也这样表示。只要二者的条件概率非常接近(用相对熵来训练,所以需要label),那就说明高维分布的点已经映射到低维分布上了。
ResNet: Residual Neural Network: 残差神经网络。
参考资料:
- Cakaloglu T. Multi-Resolution Models for Learning Multilevel Abstract Representation with Application to Information Retrieval[D]. University of Arkansas at Little Rock, 2019.
- Kingma D , Ba J . Adam: A Method for Stochastic Optimization[J]. Computer Science, 2014.
- The Stanford Question Answering Dataset. https://rajpurkar.github.io/SQuAD-explorer/
- Dhingra B , Mazaitis K , Cohen W W . Quasar: Datasets for Question Answering by Search and Reading[J]. 2017.
- He K, Zhang X, Ren S, et al. Deep Residual Learning for Image Recognition[J]. 2015:770-778.