记录一次微博数据的处理

场景:现有Mysql数据库中爬取的微博数据集,如: https://www.neusncp.com/user/blog?id=91 已转存为csv格式,想存储为gml格式使用Gephi进行可视化。(受服务器资源限制,NEUSNCP的DATALAB还不足以可视化这么大的数据集 ) 话不多说,直接上代码: import networkx as nx import csv def progress(percent, width=50): '''进度打印功能''' percent = 100 if percent...

Continue Reading »
分享到:

随手记:Python读取文件使用with open as 是否需要close?

在使用Python读取文件预处理时,常常会遇到这样的语句: with open(target_path, 'r') as f: for row in csv.reader(open(source_path, 'r')): # print(row[0], row[1]) # ...... f.close() 还有一种写法: G = nx.Graph() datafile = open(filepath) lines = datafile.readlines(line) length = len(lines)...

Continue Reading »
分享到:

利用LFR Benchmark 生成带标签的网络数据集

现实世界中,获取大规模带标签的网络数据集比较困难。当然,不排除斯坦福的SNAP [1] ,Newman大牛的个人主页 [2] 等给出了很多有价值的数据集。但是,如果想要构建符合自己需求的带有 ground truth的数据集就比较困难了。复杂网络领域的另一位大牛,Santo Fortunato [3] , 给出了一个Linux版本的程序,可以根据参数配置生成比较理想的数据集。下载地址: LFR Benchmark 使用方法: 命令: .\benchmark.exe -N 1000 -k 15 -maxk ...

Continue Reading »
分享到:

开篇随口说说

15年毕业伊始到16年,大数据还是如火如荼,Hadoop生态圈百花齐放,基于HDFS的分布式文件系统之上,以批处理见长的MapReduce和兼顾流处理(微批处理)和批处理的内存计算Spark等引擎引擎为支撑,构建大数据应用成常态。在采集端,flume,logstash,Fluentd主要对日志数据进行监控采集,衍生出ELK的各种架构形态,还有传统的kettle,DI工具,虽说效率极差,但是基于作业项和转换项的可插拔式设计,在关系型数据库中曾经占领一席之地,sqoop1/2全量或增量HIVE,HDFS和No...

Continue Reading »
分享到: