数据研发应该具备的能力-SQL(1)

作为数据研发,SQL应该是吃饭的家伙, Structured Query Language:结构化查询语言 是一种特定目的编程语言,网上关于他的介绍和教程已经很多了,不再一一赘述。 这里单独说一下跟数据研发相关的sql知识,首先不管是hadoop,spark,flink都是有Sql Api的,是什么意思呢?就是说不管hadoop底层怎么map reduce; 不管spark底层RDD怎么旋转跳跃成DAG; 不管Flink底层怎么state存储,我们都可以用一句简单的 select * from table ...

Continue Reading »
分享到:

数据研发基本功

随着大数据的兴起, 大数据开发工程师(数据研发/ETL) 这一新岗位随之诞生,为什么会有数据研发?数据研发的定位是什么?成为数据研发需要哪些能力?数据研发的开发流程是什么?数据研发的未来怎么样?这些问题将伴随着我不断成长的同时,不断迭代,希望能带来一个越来越好的答案。 一、为什么会有数据研发 TBD 二、数据研发的定位 TBD 三、数据研发应该具备的能力 TBD 四、数据研发流程 TBD 五、数据研发的未来 TBD

Continue Reading »
分享到:

ElasticSearch并发机制、悲观锁与乐观锁

背景: 普通的ES操作流程 1.先get document数据,商品信息,显示到网页上,同时在内存中缓存该document的数据 2.当网页发生了购买之后,直接基于内存中的数据,进行计算和操作 3.将计算后的结果写回ES中 我们期望的应该是说,线程A将库存-1 ,设置为99件; 然后线程B接着这个99件,将库存-1 ,变为98件,然后设置到ES中; 最终ES中应该库存是98件才对啊。。。 上面说的这个流程和过程,其实就是 ES中的并发冲突问题,会导致数据不准确 方案: 悲观锁与乐观锁两种并发控制方案 悲观...

Continue Reading »
分享到:

复杂网络之Networkx

1:数据构造 新建excel表格,输入邻接矩阵: 第一行代表边:a-b ,a-c, a-d三条有向边 其余各行以此类推。 完成数据后,将excel表格另存为.txt文件,随后保存为relation.adjlist即可。 2:读取文件及可视化 import networkx as nx import matplotlib.pyplot as plt #G = nx.read_adjlist(config/relation.adjlist)#默认无向图 G = nx.read_adjlist(config/re...

Continue Reading »
分享到:

外网连接实验室服务器

1、首先下载openVPN并安装,使用自己的学号密码登录,下载链接如下http://xwb.neu.edu.cn/2020/0130/c5481a164523/pagem.htm --感谢宇哥给的链接 。 2、连上后,接下来的步骤下载和使用Xshell和Flashxp了,软件下载直接本站搜资料。 3、Flashfxp:--用于本地和服务器传送文件,主要是数据和代码 4、Xshell:--控制台界面 双击左侧自己创建的回话,输入自己的用户名密码就可以登录。 5、常用命令: https://www.neusnc...

Continue Reading »
分享到: