Python文本读写及编码检测

龚建波发布时间：2019-07-28 21:40:08 ，浏览量：4

1.文本读写

Python的文件操作接口属于简单易用型的，利用open函数打开文件之后就可以进行操作了，也可以用print重定向输出到文件。

file_path=r'./测试文件.txt'
#1-写文件
#文本模式可以不加t，二进制读写需要加b
#with语句打开文件是能结束时自动关闭的，如果不用with记得手动关闭
with open(file_path,'w+',encoding='utf8') as f:
    f.write('这是一行中文\n')
    f.write('Test write text\n')
    #输出重定向到文件文件必须是以文本模式打开。 
    #如果文件是二进制模式的话，打印就会出错。
    print('Hello World!', file=f)
    


#2-读取文件
#读取时需要用与文本兼容的编码打开，否则会抛异常
with open(file_path,'r',encoding='utf8') as file:
    #read可以指定最大读取字符数，如file.read(10)
    data=file.read()
    print('file encoding:'+file.encoding)
    print('file text:'+data)

对于open函数，原型为open(name[, mode[, buffering]])，其中：

name为文件路径
mode为打开模式，如'rt'只读文本模式
buffering表示寄存设置，如果 buffering 的值被设为 0，就不会有寄存。如果 buffering 的值取 1，访问文件时会寄存行。如果将 buffering 的值设为大于 1 的整数，表明了这就是的寄存区的缓冲大小。如果取负值，寄存区的缓冲大小则为系统默认。

mode参数：

t文本模式 (默认)。x写模式，新建一个文件，如果该文件已存在则会报错。b二进制模式。+打开一个文件进行更新(可读可写)。U通用换行模式（不推荐）。r以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。rb以二进制格式打开一个文件用于只读。文件指针将会放在文件的开头。这是默认模式。一般用于非文本文件如图片等。r+打开一个文件用于读写。文件指针将会放在文件的开头。rb+以二进制格式打开一个文件用于读写。文件指针将会放在文件的开头。一般用于非文本文件如图片等。w打开一个文件只用于写入。如果该文件已存在则打开文件，并从开头开始编辑，即原有内容会被删除。如果该文件不存在，创建新文件。wb以二进制格式打开一个文件只用于写入。如果该文件已存在则打开文件，并从开头开始编辑，即原有内容会被删除。如果该文件不存在，创建新文件。一般用于非文本文件如图片等。w+打开一个文件用于读写。如果该文件已存在则打开文件，并从开头开始编辑，即原有内容会被删除。如果该文件不存在，创建新文件。wb+以二进制格式打开一个文件用于读写。如果该文件已存在则打开文件，并从开头开始编辑，即原有内容会被删除。如果该文件不存在，创建新文件。一般用于非文本文件如图片等。a打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。也就是说，新的内容将会被写入到已有内容之后。如果该文件不存在，创建新文件进行写入。ab以二进制格式打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。也就是说，新的内容将会被写入到已有内容之后。如果该文件不存在，创建新文件进行写入。a+打开一个文件用于读写。如果该文件已存在，文件指针将会放在文件的结尾。文件打开时会是追加模式。如果该文件不存在，创建新文件用于读写。ab+以二进制格式打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。如果该文件不存在，创建新文件用于读写。

open函数会创建一个file对象。

file对象常用方法：

close()关闭文件。关闭后文件不能再进行读写操作。flush()刷新文件内部缓冲，直接把内部缓冲区的数据立刻写入文件, 而不是被动的等待输出缓冲区写入。next()返回文件下一行。read([size])从文件读取指定的字符数，如果未给定或为负则读取所有。readline([size])读取整行，包括 "\n" 字符。readlines([sizeint])

读取所有行并返回列表，若给定sizeint>0，则是设置一次读多少字节，这是为了减轻读取压力。

for line in file: print line ：通过迭代器访问。

seek(offset[,whence])设置文件当前位置tell()返回文件当前位置。truncate([size])截取文件，截取的字节通过size指定，默认为当前文件位置。wirte(str)将字符串写入文件，返回的是写入的字符长度。writelines(sequence)

向文件写入一个序列字符串列表，如果需要换行则要自己加入每行的换行符。

2.路径及文件名操作

可以使用os.path模块进行路径及文件名操作

import os
path='./测试文件.txt'

#文件名
print(os.path.basename(path))
#绝对路径
print(os.path.abspath(path))
#是否为文件
print(os.path.isfile(path))
#是否存在
print(os.path.exists(path))

os.path常用方法：

abspath(path)返回绝对路径basename(path)返回文件名commonprefix(list)返回list(多个路径)中，所有path共有的最长的路径dirname(path)返回文件路径exists(path)如果路径 path 存在，返回 True；如果路径 path 不存在，返回 False。getatime(path)返回最近访问时间（浮点型秒数）getmtime(path)返回最近文件修改时间getctime(path)返回文件 path 创建时间getsize(path)返回文件大小，如果文件不存在就返回错误isabs(path)判断是否为绝对路径isfile(path)判断路径是否为文件isdir(path)判断路径是否为目录islink(path)判断路径是否为链接ismount(path)判断路径是否为挂载点join(path1[, path2[, ...]])把目录和文件名合成一个路径normcase(path)转换path的大小写和斜杠samefile(path1, path2)判断目录或文件是否相同sameopenfile(fp1, fp2)判断fp1和fp2是否指向同一文件samestat(stat1, stat2)判断stat tuple stat1和stat2是否指向同一个文件split(path)把路径分割成 dirname 和 basename，返回一个元组 3.编码判断

读取文本的时候如果编码不兼容会抛异常，可以借助chardet模块判断文本编码。

#import codecs 编码转换
import os
import chardet
 
#如果安装了Anaconda，chardet就已经可用了。
#否则，需要自己pip install chardet
def detectCode(path):
	with open(path, 'rb') as file:
		data = file.read(2000)  #最多2000个字符
		dicts = chardet.detect(data)
	return dicts

print(detectCode(file_path))
#输出格式如{'encoding': 'ascii', 'confidence': 1.0, 'language': ''}
#confidence字段为概率，最大为1.0

（主要参考Python文档及菜鸟教程，就不给链接了）

关注

打赏

1688896170

查看更多评论

Python文本读写及编码检测

[ 申请 ]友情链接：