您当前的位置: 首页 >  pandas

快乐很重要的汪

暂无认证

  • 5浏览

    0关注

    36博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

pandas(1)Series

快乐很重要的汪 发布时间:2022-09-05 17:18:31 ,浏览量:5

pandas Series

讲pandas的人好多啊。

所以我应该会强调重点,并且侧重实践。琐碎的细节交给其他的小伙伴吧

大家可以用jupter来实操。

本节阅读需10min,实践需10min。

文章目录
  • pandas Series
  • 前言
  • 一、pandas基础
    • 安装
  • 二、Series的声明
  • 三、Series的常见操作
  • 总结

前言

pandas 是基于NumPy 的一种工具,该工具是为解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。

numpy,pandas是为了替换MATLAB的基础数据。

pandas侧重在二维数据的处理。也就是Excel数据或者数据库数据。

一、pandas基础

pandas和numpy一样作为python数据分析以及高大上的人工智能的基础。 pandas是基于numpy的,但是又不止于numpy。添加了索引和更全面的统计工具库。 pandas主要处理二维数据,numpy主要处理一维数据,就正常使用而言。人工智能肯定都是高维运算。

安装
pip install pandas
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

数据处理三剑客。

二、Series的声明
pandas.Series( data, index, dtype, name, copy)

name:设置名称。意义不大。

Series也是用来存储一维数据的数据结构。和ndarray不同之处在于。 Series增加了一层关系,或者称为意义的东西。

import pandas as pd
s = pd.Series(data, index=index)

index一般而言是有意义的。比如如果data是成绩,那么index可以是学生的姓名。

Here, data can be many different things:

a Python dict

an ndarray

a scalar value (like 5)

也就是说可以这么初始化。

dict很容易理解,都是存储的关系嘛。

d = {"a": 0.0, "b": 1.0, "c": 2.0}

pd.Series(d)
Out[10]: 
a    0.0
b    1.0
c    2.0
dtype: float64

最主要的方式还是ndarray, index一般是有意义的字符串。

s = pd.Series(np.random.randn(5), index=["a", "b", "c", "d", "e"])
直接存储常量列表,会自动安排index。自然数编码
pd.Series(np.random.randn(5))
# 
0   -0.173215
1    0.119209
2   -1.044236
3   -0.861849
4   -2.104569
dtype: float64
三、Series的常见操作

Series的操作其实和ndarray高度相似。 重要程度反而不如ndarray。

s = pd.Series(np.random.randn(5), index=["a", "b", "c", "d", "e"])
s.index # 获得索引列表,index对象
s.dtype # 类型
s[0] # 索引
s[:3] # 切片
s[s > s.median()] # 筛选器
s[[4, 3, 1]] # 列表索引
np.exp(s) # 可以作为ndarray计算,四则运算自然也是可以的

s.to_numpy() # 返回ndarray
s["a"] # index索引
s.get("f", np.nan) # 如果没有填充缺省值
s[1:] + s[:-1] # 根据index对齐运算,取并集,并填充 np.nan
a         NaN
b   -0.565727
c   -3.018117
d   -2.271265
e         NaN
dtype: float64

s.get(“f”, np.nan) # 相当于简单的异常处理

总结

本节介绍了pandas的基础数据结构Series。 需要和numpy相互比较鉴别。

我们并不会单独的使用Series进行计算的。。。那些东西numpy足以胜任。 Series一般也不是信息的入口,现实中没多少数据是孤立的,只是作为中间的存储工具

Pandas和Excel、SQL的功能是类似的只是处理的层次不同。 Excel是在用户层,pandas是在后端,sql则是在数据层。

官网教程,但是很长

Series是DataFrame的基础。 下一章讲解DataFrame 一键三连。盆友们!!!

关注
打赏
1663165558
查看更多评论
立即登录/注册

微信扫码登录

0.0348s