python中数据处理是比较方便的,经常用的就是读写文件,提取数据等,本博客主要介绍其中的一些用法。Pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。
一、pandas读取csv文件
数据处理过程中csv文件用的比较多。
下面看一下pd.read_csv常用的参数:
pandas.read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, doublequote=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None)
常用参数解释:read_csv与read_table常用的参数(更多参数查看官方手册):
读取csv/txt/tsv文件,返回一个DataFrame类型的对象。
举例:
pandas用iloc,loc提取数据
提取行数据:
loc函数:通过行索引 “Index” 中的具体值来取行数据(如取"Index"为"A"的行)
iloc函数:通过行号来取行数据(如取第2行的数据)
loc提取'a'的行:
iloc提取第2行:
提取列数据:
提取指定行,指定列:
提取所有行所有列:
根据某个指定数据提取行:
二、pandas写入csv文件
pandas将多组列表写入csv
结果:
如果你想写入一行,就是你存储的一个列表是一行数据,你想把这一行数据写入csv文件。
这个时候可以使用csv方法,一行一行的写
可以看到,每次写一行,就自动空行,解决办法就是在打开文件的时候加上参数newline=''
写入txt文件类似
(1)创建txt数据文件,创建好文件记得要关闭文件,不然读取不了文件内容
(2)读取txt文件
三、pandas查看数据表信息
1)查看维度:data.shape
2)查看数据表基本信息:data.info
3)查看每一行的格式:data.dtype
4)查看前2行数据、后2行数据
四、数据清洗
1)NaN数值的处理:用数字0填充空值
注意:df.fillna不会立即生效,需要设置inplace=True
2)清除字符字段的字符空格
字符串(str)的头和尾的空格,以及位于头尾的\n \t之类给删掉
3)大小写转换
4)删除重复出现的值
5)数据替换
参考:
《Python之pandas简介》
《Pandas中loc和iloc函数用法详解(源码+实例) 》
到此这篇关于python读写数据读写csv文件(pandas用法)的文章就介绍到这了,更多相关python读写csv内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!