数据研发应该具备的能力-SQL(1)

作为数据研发,SQL应该是吃饭的家伙, Structured Query Language:结构化查询语言 是一种特定目的编程语言,网上关于他的介绍和教程已经很多了,不再一一赘述。 这里单独说一下跟数据研发相关的sql知识,首先不管是hadoop,spark,flink都是有Sql Api的,是什么意思呢?就是说不管hadoop底层怎么map reduce; 不管spark底层RDD怎么旋转跳跃成DAG; 不管Flink底层怎么state存储,我们都可以用一句简单的 select * from table ...

Continue Reading »
分享到:

影响力最大化-独立级联 (IC)模型+贪心算法(python代码)

贪心 (1)首先|S|=1,在所有点中选一个在IC模型下跑出感染的点数量最多的点加入S (此时跑了n趟IC) (2)再在剩下的点中选一个加入S后结果最好的点加入S (此时跑了n-1趟IC) (3)重复2,直到能S扩散的结果能覆盖所有点 IC (1)激活S中的所有节点,加入活集A(本轮被激活的所有点) (2)找到A的非活邻居集N(可能被传染的所有点),对于N中的每一个点,被传染的概率都为1-(1-Pa1,n)*(1-Pa2,n)。 (3)清空A (4)标记所有被传染的点,并放入A (4)重复2、3直到步骤2已...

Continue Reading »
分享到: