讲pandas的人好多啊。
所以我应该会强调重点,并且侧重实践。琐碎的细节交给其他的小伙伴吧
大家可以用jupter来实操。
本节阅读需10min,实践需10min。
- pandas Series
- 前言
- 一、pandas基础
- 安装
- 二、Series的声明
- 三、Series的常见操作
- 总结
pandas 是基于NumPy 的一种工具,该工具是为解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。
numpy,pandas是为了替换MATLAB的基础数据。
pandas侧重在二维数据的处理。也就是Excel数据或者数据库数据。
一、pandas基础pandas和numpy一样作为python数据分析以及高大上的人工智能的基础。 pandas是基于numpy的,但是又不止于numpy。添加了索引和更全面的统计工具库。 pandas主要处理二维数据,numpy主要处理一维数据,就正常使用而言。人工智能肯定都是高维运算。
安装pip install pandas
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
数据处理三剑客。
二、Series的声明pandas.Series( data, index, dtype, name, copy)
name:设置名称。意义不大。
Series也是用来存储一维数据的数据结构。和ndarray不同之处在于。 Series增加了一层关系,或者称为意义的东西。
import pandas as pd
s = pd.Series(data, index=index)
index一般而言是有意义的。比如如果data是成绩,那么index可以是学生的姓名。
Here, data can be many different things:
a Python dict
an ndarray
a scalar value (like 5)
也就是说可以这么初始化。
dict很容易理解,都是存储的关系嘛。
d = {"a": 0.0, "b": 1.0, "c": 2.0}
pd.Series(d)
Out[10]:
a 0.0
b 1.0
c 2.0
dtype: float64
最主要的方式还是ndarray, index一般是有意义的字符串。
s = pd.Series(np.random.randn(5), index=["a", "b", "c", "d", "e"])
直接存储常量列表,会自动安排index。自然数编码
pd.Series(np.random.randn(5))
#
0 -0.173215
1 0.119209
2 -1.044236
3 -0.861849
4 -2.104569
dtype: float64
三、Series的常见操作
Series的操作其实和ndarray高度相似。 重要程度反而不如ndarray。
s = pd.Series(np.random.randn(5), index=["a", "b", "c", "d", "e"])
s.index # 获得索引列表,index对象
s.dtype # 类型
s[0] # 索引
s[:3] # 切片
s[s > s.median()] # 筛选器
s[[4, 3, 1]] # 列表索引
np.exp(s) # 可以作为ndarray计算,四则运算自然也是可以的
s.to_numpy() # 返回ndarray
s["a"] # index索引
s.get("f", np.nan) # 如果没有填充缺省值
s[1:] + s[:-1] # 根据index对齐运算,取并集,并填充 np.nan
a NaN
b -0.565727
c -3.018117
d -2.271265
e NaN
dtype: float64
s.get(“f”, np.nan) # 相当于简单的异常处理
总结本节介绍了pandas的基础数据结构Series。 需要和numpy相互比较鉴别。
我们并不会单独的使用Series进行计算的。。。那些东西numpy足以胜任。 Series一般也不是信息的入口,现实中没多少数据是孤立的,只是作为中间的存储工具
Pandas和Excel、SQL的功能是类似的只是处理的层次不同。 Excel是在用户层,pandas是在后端,sql则是在数据层。
官网教程,但是很长
Series是DataFrame的基础。 下一章讲解DataFrame 一键三连。盆友们!!!