2.2.1 数据导入
在Python数据分析中,Pandas程序包是最常用的数据分析工具。因此,这里的数据导入与导出,默认以Pandas为例。
导入CSV数据
import pandas as pd # 导入pandas程序包,命名为“pd”
df01 = pd.read_csv(r".\data\exp11.6.csv") # 使用pandas读取子目录下的csv文件(本地目录)
df02 = pd.read_csv(r"https://cdn.seit2019.xyz/data/econometrics/exp11.6.csv") # 使用pandas读取链接地址中的csv文件(在线地址)
说明:
- 功能:调用pandas程序包中的read_csv()函数,将数据导入,并命名为变量“df01”和“df02”
- 变量“df01”和“df02”中,数据以DataFrame格式存储数据。
- DataFrame是pandas支持的表格型数据格式,类似excel。
- 关于DataFrame,详情参考:Pandas 数据结构 – DataFrame
- “#”后的内容,表示代码的注释;程序运行时,注释不会被执行。
- 调用读取csv数据的函数:pd.read_csv()
- r表示保持双引号中文件路径的“\”保持原来的含义。1
- python编程中,“./”表示当前目录,即python程序存储的目录。
- “./data/exp11.6.csv”表示当前目录下的子目录“data”中名称为“exp11.6.csv”文件
导入Excel数据
import pandas as pd # 导入pandas程序包,命名为“pd”
df01 = pd.read_excel(r".\data\exp11.6.xlsx",sheet_name="sheet1",nrows=12,usecols=[1,2,3,4,5,6]) # 使用pandas读取子目录下的excel文件(本地目录)
df02 = pd.read_excel(r"https://cdn.seit2019.xyz/data/econometrics/exp11.6.xlsx") # 使用pandas读取链接地址中的excel文件(在线地址)
说明:
- 功能:调用pandas程序包中的read_excel()函数,将数据导入,并命名为变量“df01”和“df02”
- 变量“df01”和“df02”中,数据以DataFrame格式存储数据。
- DataFrame是pandas支持的表格型数据格式,类似excel。
- 关于DataFrame,详情参考:Pandas 数据结构 – DataFrame
- 调用读取excel数据的函数:pd.read_excel()
- 参数说明:“nrows=12”表示使用前12行,“usecols=[1,2,3,4,5,6]”表示使用第2-7列
- “./data/exp11.6.xlsx”表示当前目录下的子目录“data”中名称为“exp11.6.xlsx”文件
2.2.2 数据导出
导出为CSV数据
import pandas as pd # 导入pandas程序包,命名为“pd”
df.to_csv(r'D:/python/data/exp11.6.csv',sheet_name="Sheet1",index=False) # 导出df01数据到excel文件
说明:
- DataFrame数据导出函数:df.to_csv()
- 参数说明:“sheet_name="Sheet1" ”表示导出的excel页面,“index=False”表示不导出行索引
导出为Excel数据
DataFrame数据导出到excel文件,需要安装:openpyxl程序包。
import pandas as pd # 导入pandas程序包,命名为“pd”
df.to_excel(r'D:/python/data/exp11.6.xlsx',sheet_name="Sheet1",index=True) # 导出df01数据到excel文件
说明:
- DataFrame数据导出函数:df.to_excel()
- 参数说明:“sheet_name="Sheet1" ”表示导出的excel页面,“index=True”表示同时导出行索引
参考
-
“\”表示转义符,即在某些符号前面加入“\”表示特殊含义(例如:在Latex公式输入中,“\beta”表示为 $\beta$)。通常,在windows中,路径表示为“D:\python\data”,在linux中,路径表示为“/python/data”。在python编程中,为了避免window系统下文件路径中的“\”被错误识别为转义符,需要在文件路径的双引号前加入统一"r",避免识别错误。 ↩