再战字符编码问题!

参考廖雪峰老师的教程: https://www.liaoxuefeng.com/wiki/1016959663602400/1017075323632896 再战字符编码问题! 首先,需要明确: 1字节(byte) = 8比特(bit) 1k = 1024字节(byte) 编码的历史(按时间顺序): 【一家独大,别人家使用不了】ASCII[1个字节](计算机是鹰酱家发明的,ASCII是仅适用于英文字母、数字和一些符号,即只有127个字符被编码到计算机中) 【多家鼎立,各家用各家的冲突明显】处理中文至少需要...

Continue Reading »
分享到:

两样本t检验

两样本 t t 检验主要用来检验两个样本是否来源于均值相等的分布。 现分别从两组抽取数据 \(x_{11},..., x_{1n_1}, x_{21},..., x_{2n_2}\) ,假设他们是从 \(N(\mu_1, \sigma^2_1)\) 与 \(N(\mu_2, \sigma^2_2)\) 两个分布抽取的样本,并希望检验零假设 ,接着计算: \[t = \frac{\bar{x_2} - \bar{x_1}}{SEDM}\] 其中,SEDM(Standard Error of Differenc...

Continue Reading »
分享到:

seq2seq+attention+beamsearch构建闲聊对话

首先介绍大家熟悉的Seq2Seq模型。 接下来介绍Beam Search。预测的时候使用,训练的时候不使用。 引入Attention的初衷,越长的距离关系,LSTM的能力在下降。 核心代码如下:(注释的很清楚了) """ Sequence To Sequence模型 定义了模型编码器、解码器、优化器、训练、预测 """ import tensorflow as tf from tensorflow.contrib.rnn import LSTMCell, GRUCell, MultiRNNCell, LS...

Continue Reading »
分享到:

R语言绘制克利夫兰点图(棒棒糖图、哑铃图等)

克利夫兰点图系列 [1] 包含:棒棒糖图(lollipop chart),克利夫兰点图(Clevelands dot plot),哑铃图(dumbbell plot)。ggplot2-exercising-with-ggalt-dumbbells [2] 给出了一个例子,但是运行之后效果并不是很好的感觉。 用Excel也可以绘制哑铃图,但是操作比较麻烦[3]。 R语言示例代码: library(ggplot2) library(reshape2) #----------------------------...

Continue Reading »
分享到: