文章目录
一、panads读取数据
- 一、panads读取数据
- 1.读取纯文本文件
- 2.读取excel文件
- 3.读取MySQL数据库
- 二、基本属性
- 三、Panads的数据结构
- 1.Series类型
- 2. DataFrame类型
- 3. 从DataFrame中查询出Series
前提:读取的文件形式为我们的表格形式
1.1 读取CSV,使用默认的标题行、逗号分隔符
import panads as pd
# 1.使用pd.read_csv读取数据
ratings = pd.read_csv(fpath)
1.2 读取txt文件,自己指定分隔符、列名 原文件样子:
pvuv = pd.read_csv(
fpath, # 文件路径
sep="\t", #该文件内部的分隔符
header=None, #该文件没表头
names=['pdate', 'pv', 'uv'] #自定义表头
)
print(pvuv)
其他操作同上。
pvuv = pd.read_excel(fpath)
import pymysql
db = pymysql.connect(
host='127.0.0.1',
user='root',
password='12345678',
database='test',
charset='utf8'
)
mysql_page = pd.read_sql("select * from crazyant_pvuv", con=db)
print(mysql_page)
import panads as pd
# 1.使用pd.read_csv读取数据
ratings = pd.read_csv(fpath)
# 2.查看数据的形状,返回(行数、列数)
ratings.shape #(100836, 4)
# 3.查看列名列表
ratings.columns
# Index(['userId', 'movieId', 'rating', 'timestamp'], dtype='object')
# 4.查看索引列
ratings.index
# RangeIndex(start=0, stop=100836, step=1)
# 5.查看每列的数据类型
ratings.dtypes
'''
userId int64
movieId int64
rating float64
timestamp int64
dtype: object
'''
# 6.查看前几行数据
ratings.head()
定义:Series是一种类似于一维数组的对象,它由一组数据(不同数据类型)以及一组与之相关的数据标签(即索引)组成。
1.1 仅有数据列表即可产生最简单的Series 1.2 创建一个具有标签索引的Series
1.3 使用Python字典创建Series
1.4 根据标签索引查询数据
import pandas as pd
a = pd.Series(['a', 'b', 'c', 'd'])
print(a[2]) # 查询一个元素
print(a[0:3]) # 查询范围元素
print(a[[1, 3]]) # 查询指定索引两个元素
2. DataFrame类型
定义:DataFrame是一个表格型的数据结构
- 每列可以是不同的值类型(数值、字符串、布尔值等)
- 既有行索引index,也有列索引columns
- 可以被看做由Series组成的字典
2.1 根据多个字典序列创建dataframe
- 如果只查询一行、一列,返回的是pd.Series
- 如果查询多行、多列,返回的是pd.DataFrame
dz为该数据,接下来对该数据进行查询演示