Python数据处理怎么做_pandas核心用法讲解【教学】

日期：2025-12-23 00:00 / 作者：舞夢輝影

pandas是Python数据处理最常用高效的工具，核心对象为Series和DataFrame；支持多种格式读写、数据清洗、筛选聚合等全流程操作。

Python数据处理最常用、最高效的工具就是pandas，它专为结构化数据设计，能轻松完成读取、清洗、变换、分析和导出全流程。掌握几个核心对象和方法，就能应对绝大多数日常任务。

Series是一维带标签的数组，类似Excel里的一列；DataFrame是二维表格，相当于整张工作表。几乎所有操作都围绕这两个对象展开。

创建Series：用pd.Series([1, 2, 3], index=['a', 'b', 'c'])
创建DataFrame：传入字典pd.DataFrame({'name': ['Alice', 'Bob'], 'age': [25, 30]})，键自动变成列名
查看结构：用df.shape看行列数，df.info()看数据类型和缺失值，df.head()看前5行

不用手动解析文件，pandas内置了大量IO函数，支持CSV、Excel、JSON、SQL甚至网页表格。

真实数据常有缺失、重复、格式错乱等问题，pandas提供了简洁直接的解决方式。

删空行/空列：df.dropna()（默认删含空值的行），df.dropna(axis=1)删空列
填缺失值：df['age'].fillna(df['age'].mean())或用'ffill'前向填充
去重：df.drop_duplicates()，加subset=['email']可按指定列判断重复
改类型：df['date'] = pd.to_datetime(df['date'])，df['price'] = df['price'].astype(float)
字符串处理：df['name'].str.upper()、df['phone'].str.replace(r'\D', '')（去掉非数字字符）

用布尔索引和groupby，可以快速完成条件查询和分组统计，比写循环清晰得多。

不复杂但容易忽略：很多操作默认返回新对象，原DataFrame不变。需要修改原数据时，加上inplace=True，或者用赋值语句接收结果。写完记得用df.info()或df.sample(3)快速验证效果。