image
VincentWei

天地间,浩然正气长存,为天地立心,为生民立命,为往圣继绝学,为万世开太平!

短文本相似度尝试

VincentWei    2019-11-04 22:11

1. 将架构思想映入算法,使得算法也有架构
2. 采用漏斗方式结构,层层过滤筛选
3. 具体步骤:
1)通过传统的距离,比如编辑距离,语义距离做计算,但要做纠正,解决比如,自体脂肪注射臀部 和 自体脂肪注射胸部, 一字之差,从编辑距离看很大,从语义上看差别很大,这时候能不能引入惩罚机制呢?
2)不仅仅引入距离,还引入文本指纹,先做hash,类似LSH,搜索一样,取小聚类集先换回,再判断
3)将得分高的,纳入结合做仲裁,实在模糊的,引入短文本相似深度学习算法,比如,基于交互的孪生网络,double embeding的DE-CNN,等相似网络,其大体架构 embedding+CNN+BiLSTM
4) 继续改进,将词向量输入,改为bert族向量,将BiLSTM改为Transformer+attention

总结,其核心在于定义“距离”,可以像这样定义序列话的层层距离筛选,但是缺点的无法并行,拉的太长难免有些慢,如果击穿的话,但大多数情况下,在浅层就已经被筛选出来,其次,还可以尝试,将距离从低位映射到高维,但是维度如何定义,值得思考!

不多说,也不能多说,点到为止!
Last Modified: 2019-11-04 22:11
Views: 429