NLP零样本学习

本文主要是选择性意译以及个人总结,文章链接放在文末。 零样本学习(zero-shot learning, ZSL), 指的是通过观察不属于训练期间所见过标签种类的样本,并对其真实标签进行预测。 目前在图像分类领域与NLP领域,有了比较成熟的预训练方式,比较常见的是few-shot learning,即通过预训练模型与少量的标注训练集进行训练与预测,并且达到了比较好的效果。 而为了做到ZSL,在图像领域一般使用featurizer对标签文本与图像分别生成嵌入,并在可用的标签子集与图像上...

Continue Reading »
分享到:

数据研发应该具备的能力-SQL(1)

作为数据研发,SQL应该是吃饭的家伙, Structured Query Language:结构化查询语言 是一种特定目的编程语言,网上关于他的介绍和教程已经很多了,不再一一赘述。 这里单独说一下跟数据研发相关的sql知识,首先不管是hadoop,spark,flink都是有Sql Api的,是什么意思呢?就是说不管hadoop底层怎么map reduce; 不管spark底层RDD怎么旋转跳跃成DAG; 不管Flink底层怎么state存储,我们都可以用一句简单的 select * from table ...

Continue Reading »
分享到:

k8s部署中谷歌docker镜像下载解决思路

k8s部署过程中很多镜像都没法直接下载,中科大等的镜像很多也没有相关的内容。总之找镜像不好找,不方便。 虽然可以通过本地代理,在本地下载镜像后,打包导出,再搬过去。但是略感复杂。 这里提供一个使用SoftetherVPN的解决方法,如果手头没有建立好的服务端,实行起来还是相当相当复杂的。权当提供思路供大家参考一下。最先用的其实也不是docker镜像下载,只是找到要连接地址后,各种无法连接的都可以这么处理,不用再应用内部设置proxy了。 首先就是先要整个服务器,建立SoftetherVPN的server,中...

Continue Reading »
分享到:

kubernetes应用分布式部署方案(1)

在粗略阅读了kubernetes详细(又臭又长,看的头都要炸了)的文档之后,对kubernetes有了些大概的了解(全靠别人录的介绍视频),写一个简单点的部署方案。 在部署了一个分布式应用后,略微介绍一下相关内容。由于了解真的是很大概,后续应该还会继续更新例如服务发现等内容(看了一遍文档真的看不懂)。 kubernetes使用docker等容器来部署相关应用,这些应用的沟通一般通过HTTP等网络协议进行沟通。而部署的应用要对外提供服务,就要对外暴露端口。而部署分布式应用,就要部署多个同一镜像,而当这些应用部...

Continue Reading »
分享到:

数据研发基本功

随着大数据的兴起, 大数据开发工程师(数据研发/ETL) 这一新岗位随之诞生,为什么会有数据研发?数据研发的定位是什么?成为数据研发需要哪些能力?数据研发的开发流程是什么?数据研发的未来怎么样?这些问题将伴随着我不断成长的同时,不断迭代,希望能带来一个越来越好的答案。 一、为什么会有数据研发 TBD 二、数据研发的定位 TBD 三、数据研发应该具备的能力 TBD 四、数据研发流程 TBD 五、数据研发的未来 TBD

Continue Reading »
分享到: