Python 数据处理 - 学习单元

NumPy - 数值计算库

NumPy（Numerical Python）是 Python 中用于科学计算的核心库。它提供了高性能的多维数组对象和用于处理这些数组的工具。

为什么使用 NumPy？ NumPy 数组比 Python 列表更高效，特别是对于大型数据集。它提供了大量的数学函数，可以直接应用于整个数组。

NumPy 数组

NumPy 的核心是 ndarray（n-dimensional array）对象：

Python 代码

数组操作

Python 代码

数组形状操作

Python 代码

提示： NumPy 提供了大量的数学函数，如 sin、cos、exp、log 等，这些函数可以直接应用于整个数组。

Pandas - 数据分析库

Pandas 是 Python 中用于数据分析的强大库。它提供了两种主要的数据结构：Series（一维）和 DataFrame（二维）。

为什么使用 Pandas？ Pandas 使数据清洗、转换、分析和可视化变得更加简单。它特别适合处理表格数据，如 CSV、Excel 文件等。

Series

Series 是一维标记数组，可以保存任何数据类型：

Python 代码

DataFrame

DataFrame 是二维标记数据结构，类似于电子表格或 SQL 表：

Python 代码

数据操作

Python 代码

提示： Pandas 支持读取多种文件格式，如 CSV、Excel、JSON、SQL 等，这使得数据导入和导出变得非常方便。

Matplotlib / Seaborn - 数据可视化

Matplotlib 是 Python 中最常用的数据可视化库，而 Seaborn 是基于 Matplotlib 的高级可视化库，提供了更美观的默认样式和更高级的图表类型。

为什么使用数据可视化？ 数据可视化可以帮助我们更直观地理解数据，发现数据中的模式和趋势，以及有效地传达分析结果。

Matplotlib 基础

Python 代码

# 导入 Matplotlib
import matplotlib.pyplot as plt
import numpy as np

# 简单的折线图
x = np.linspace(0, 10, 100)
y = np.sin(x)

plt.figure(figsize=(10, 6))  # 设置 figure 大小
plt.plot(x, y, label='sin(x)', color='blue', linewidth=2)
plt.title('Sin Function')
plt.xlabel('x')
plt.ylabel('sin(x)')
plt.grid(True)
plt.legend()
# plt.show()

# 散点图
x = np.random.randn(100)
y = np.random.randn(100)
colors = np.random.rand(100)
sizes = 1000 * np.random.rand(100)

plt.figure(figsize=(10, 6))
plt.scatter(x, y, c=colors, s=sizes, alpha=0.5)
plt.title('Scatter Plot')
plt.xlabel('X')
plt.ylabel('Y')
# plt.show()

# 柱状图
categories = ['A', 'B', 'C', 'D', 'E']
values = [23, 45, 12, 67, 34]

plt.figure(figsize=(10, 6))
plt.bar(categories, values, color='green')
plt.title('Bar Chart')
plt.xlabel('Category')
plt.ylabel('Value')
# plt.show()

# 直方图
data = np.random.randn(1000)

plt.figure(figsize=(10, 6))
plt.hist(data, bins=30, alpha=0.7, color='purple')
plt.title('Histogram')
plt.xlabel('Value')
plt.ylabel('Frequency')
# plt.show()

Seaborn 高级图表

Python 代码

提示： 在 Jupyter Notebook 中，使用 %matplotlib inline 可以直接在笔记本中显示图表。在脚本中，需要使用 plt.show() 来显示图表。

实践项目：数据分析案例

现在让我们通过一个实际的数据分析案例来综合运用所学的知识：

Python 代码

# 综合实践：分析学生成绩数据
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 设置样式
sns.set(style="whitegrid")

# 创建模拟数据
np.random.seed(42)
students = 100
subjects = ['Math', 'English', 'Science', 'History', 'Art']

# 生成数据
data = {
    'student_id': range(1, students + 1),
    'gender': np.random.choice(['Male', 'Female'], size=students),
    'age': np.random.randint(14, 18, size=students)
}

# 生成各科成绩
for subject in subjects:
    data[subject] = np.random.randint(60, 100, size=students)

# 创建 DataFrame
df = pd.DataFrame(data)

# 计算总分和平均分
df['total'] = df[subjects].sum(axis=1)
df['average'] = df[subjects].mean(axis=1)

print("数据前 5 行:")
print(df.head())

# 1. 统计描述
print("\n统计描述:")
print(df[subjects].describe())

# 2. 性别分析
print("\n性别平均分:")
print(df.groupby('gender')[subjects].mean())

# 3. 年龄分析
print("\n年龄平均分:")
print(df.groupby('age')[subjects].mean())

# 4. 可视化
# 各科成绩分布
plt.figure(figsize=(12, 8))
for i, subject in enumerate(subjects, 1):
    plt.subplot(2, 3, i)
    sns.histplot(df[subject], kde=True)
    plt.title(f'{subject} Score Distribution')
plt.tight_layout()
# plt.show()

# 性别对比
plt.figure(figsize=(12, 6))
sns.boxplot(x="variable", y="value", hue="gender", data=pd.melt(df, id_vars=["gender"], value_vars=subjects))
plt.title('Score Distribution by Gender')
plt.xlabel('Subject')
plt.ylabel('Score')
# plt.show()

# 相关性分析
corr = df[subjects].corr()
plt.figure(figsize=(10, 8))
sns.heatmap(corr, annot=True, cmap="coolwarm")
plt.title('Correlation Between Subjects')
# plt.show()

# 成绩与年龄关系
plt.figure(figsize=(12, 6))
for subject in subjects:
    sns.regplot(x="age", y=subject, data=df, scatter_kws={'alpha': 0.5})
plt.title('Score vs Age')
plt.legend(subjects)
# plt.show()

提示： 这个实践项目展示了如何使用 NumPy、Pandas 和 Matplotlib/Seaborn 来分析和可视化数据。你可以尝试使用真实数据集（如 Kaggle 上的数据集）来进行更复杂的分析。

完成本单元，返回课程首页