在使用Python读取文件预处理时,常常会遇到这样的语句:
with open(target_path, 'r') as f:
for row in csv.reader(open(source_path, 'r')):
# print(row[0], row[1])
# ......
f.close()
还有一种写法:
G = nx.Graph()
datafile = open(filepath)
lines = datafile.readlines(line)
length = len(lines)
datafile.close()
这两种方法都有close()语句,那么问题来了,到底是不是需要用到close呢?
首先来看第一种方法,使用with语句打开数据文件并把它绑定到对象f上。这种方式不比操心操作完资源后去关闭数据文件,因为with语句的上下文管理器会帮助处理。这在操作资源文件时非常方便,因为它能确保在代码执行完毕后资源会被释放掉(比如关闭文件)。
而第二种方法,在读取完文件如果不关闭的话,相关数据结构会占用内存,在进程退出之前会造成文件删不掉,所在文件系统无法 unmount。另外,在写操作的时候,不close就会一直在缓冲区,无法保存。
- Python读文件中,常见几个seek(), tell(), read(), next()总结。
序号 函数 说明
1 file.close() 关闭文件。关闭后文件不能再进行读写操作。
2 file.flush() 刷新文件内部缓冲,直接把内部缓冲区的数据立刻写入文件, 而不是被动的等待输出缓冲区写入。
3 file.fileno() 返回一个整型的文件描述符(file descriptor FD 整型), 可以用在如os模块的read方法等一些底层操作上。
4 file.isatty() 如果文件连接到一个终端设备返回 True,否则返回 False。
5 file.next() 返回文件下一行。
6 file.read([size]) 从文件读取指定的字节数,如果未给定或为负则读取所有。
7 file.readline([size]) 读取整行,包括 “\n” 字符。
8 file.readlines([sizeint]) 读取所有行并返回列表,若给定sizeint>0,返回总和大约为sizeint字节的行, 实际读取值可能比 sizeint 较大, 因为需要填充缓冲区。
9 file.seek(offset[, whence]) 设置文件当前位置
10 file.tell() 返回文件当前位置。
11 file.truncate([size]) 从文件的首行首字符开始截断,截断文件为 size 个字符,无 size 表示从当前位置截断;截断之后后面的所有字符被删除,其中 Widnows 系统下的换行代表2个字符大小。
12 file.write(str) 将字符串写入文件,返回的是写入的字符长度。
13 file.writelines(sequence) 向文件写入一个序列字符串列表,如果需要换行则要自己加入每行的换行符。
- Python读取流式数据示例代码:
while True:
# 查看当前文件位置
where = f.tell()
# 读一行,不为空就打印,为空就等待1秒后在读
line = f.readline()
if not line:
time.sleep(1)
# 设置当前位置
f.seek(where)
else:
print(line,)
代码的核心在于这个读取过程永远不会停止,除非 Ctrl + C 中断。本例可应用在很多解决方案上,例如读取远程服务器的日志文件,实时更新HTTP请求的数量。在一些更复杂的数据管道中,需要启用消息队列,到达的连续数据会被放在队列里一段时间,然后才能被收到。这样做的好处是作为数据的使用者,有能力在数据过载时暂停处理。而且,把数据放在通用的消息总线中,能够让我们项目中的客户去使用同样的数据,而又不会干涉到我们的软件。
参考资料:
- IgorMilovanovic, 米洛万诺维奇, 颛清山. Python数据可视化编程实战[M]. 人民邮电出版社, 2015: 16-17.
- Python 文件对象忘了 f.close() 会出什么问题? f = Image.open() 不用 close 方法吗?https://www.v2ex.com/t/420477
- python file对象常用函数(read(),readline(),next(),seek(),tell(),write(),writelines()等)https://blog.csdn.net/qq_42397914/article/details/81583830