当前位置：首页 > news >正文

Spark 大数据入门——从零搭建分布式计算环境

news 2026/6/21 6:42:47

Spark 是当前最流行的大数据计算引擎，相比 Hadoop MapReduce 性能提升 10~100 倍。本文从零搭建 Spark 开发环境，用 Python 编写第一个 Spark 程序。

一、Spark 是什么

Spark 是一个分布式计算框架，可以在成百上千台服务器上并行处理数据。

对比	Hadoop MapReduce	Spark
计算速度	慢（磁盘读写）	快 10~100 倍（内存计算）
易用性	Java 编写，代码量大	Python/Java/Scala 均可
适用场景	离线批处理	批处理 + SQL + 流处理 + 机器学习

二、环境搭建

1. 安装 Spark（Windows/Linux）

# 1. 下载 Spark（需预装 Java 8+）wgethttps://dlcdn.apache.org/spark/spark-3.5.0/spark-3.5.0-bin-hadoop3.tgz# 2. 解压tar-xzfspark-3.5.0-bin-hadoop3.tgzmvspark-3.5.0-bin-hadoop3 /opt/spark# 3. 配置环境变量exportSPARK_HOME=/opt/sparkexportPATH=$PATH:$SPARK_HOME/bin

2. 安装 PySpark

pipinstallpyspark

3. 验证安装

# 进入 Spark Shell（交互式环境）pyspark# 看到这个界面说明安装成功# Welcome to Spark version 3.5.0

三、核心概念

概念	说明
RDD	弹性分布式数据集，Spark 的核心抽象
DataFrame	带列名的分布式数据集（类似 Pandas）
SparkSession	Spark 应用的入口
Task	任务，被发送到 executor 执行
Partition	数据分区，每个分区对应一个 task

四、第一个 Spark 程序

1. 读取数据

frompyspark.sqlimportSparkSession# 创建 SparkSessionspark=SparkSession.builder \.appName("FirstSparkApp")\.getOrCreate()# 读取 CSV 文件df=spark.read.csv("students.csv",header=True,inferSchema=True)# 查看数据df.show(5)df.printSchema()

2. 数据转换

frompyspark.sql.functionsimportcol,avg,count# 筛选成绩大于 60 分的学生df.filter(col("score")>60).show()# 按班级分组统计平均分df.groupBy("class_name")\.agg(avg("score").alias("avg_score"),count("*").alias("student_count"))\.orderBy("avg_score",ascending=False)\.show()

五、实战：学生成绩统计分析

frompyspark.sqlimportSparkSessionfrompyspark.sql.functionsimportcol,avg,max,min,count,when# 创建会话spark=SparkSession.builder.appName("ScoreAnalysis").getOrCreate()# 读取数据df=spark.read.csv("scores.csv",header=True,inferSchema=True)# 1. 数据概览print(f"总记录数:{df.count()}")df.describe().show()# 2. 各班级平均分df.groupBy("class")\.agg(avg("score").alias("平均分"),max("score").alias("最高分"),min("score").alias("最低分"))\.orderBy("平均分",ascending=False)\.show()# 3. 成绩分布df.withColumn("等级",when(col("score")>=90,"优秀").when(col("score")>=80,"良好").when(col("score")>=70,"中等").when(col("score")>=60,"及格").otherwise("不及格")).groupBy("等级").agg(count("*").alias("人数"))\.orderBy("等级").show()spark.stop()

六、Spark SQL

Spark 支持用 SQL 语句查询数据，适合熟悉 SQL 的开发者：

# 将 DataFrame 注册为临时表df.createOrReplaceTempView("students")# 用 SQL 查询result=spark.sql(""" SELECT class_name, ROUND(AVG(score), 2) as avg_score, COUNT(*) as count FROM students WHERE score >= 60 GROUP BY class_name ORDER BY avg_score DESC """)result.show()

七、性能优化建议

1. 合理设置分区数

# 默认分区数偏小，大数据量时调整spark.conf.set("spark.sql.shuffle.partitions","200")

2. 使用缓存

# 频繁使用的数据缓存到内存df.cache()# 或df.persist()

3. 避免使用 UDF

# ❌ 慢：使用 Python UDFfrompyspark.sql.functionsimportudf# ✅ 快：使用内置函数frompyspark.sql.functionsimportwhen,col

总结

Spark 是大数据领域的核心技术，掌握它之后处理海量数据不再是难题。记住三步：

创建 SparkSession—— 入口
读取数据——spark.read.csv/json/parquet
数据转换——filter、groupBy、agg等操作

💡 觉得有用的话，点赞 + 关注【张老师技术栈】吧！每周更新 Java/Python/爬虫大数据实战干货，不让你白来。

查看全文

http://www.gsyq.cn/news/1565128.html

5个可落地的AI变现用法：零代码、免费平台、7分钟见效

OpenClaw：轻量级AI工作流引擎，直连飞书微信实现私有化智能响应

2026西安元气玛特口碑推荐价格透明避坑攻略 - myqiye

如何让微信聊天记录不再消失？这个工具让你永久保存每一段珍贵对话

Navicat密码解密工具：专业数据库连接密码恢复解决方案终极指南

嵌入式GUI开发实战：emWin多层显示与输入系统配置详解

饰品AI生图企业客户口碑力荐，高认可度品牌盘点 - myqiye

RaTA-Tool：基于检索增强的多模态大模型工具选择框架解析

张量网络在机器学习中的应用：从高维数据压缩到模型可解释性

Steam成就管理器实战指南：高效管理游戏成就的技术解析

Qwen 3.6-27B本地部署实战：vLLM优化、长上下文对齐与PLC智能体落地

DSP5685x音频Codec低层API实战：阻塞/非阻塞模式与DMA驱动详解

2026婚宴酒店报价红黑榜五大机构深度解析不花冤枉钱 - myqiye

Selenium架构深度解析：从WebDriver协议到自动化测试框架设计

终极AMD处理器性能调优指南：掌握SMU调试工具的专业技巧

Java Playwright自动化测试：高级元素定位策略与实战技巧

嵌入式GUI开发利器：emWin仿真器从入门到实战应用

NXP Real-time Edge Yocto项目实战：构建确定性实时边缘计算系统

第5章：HTTP API入门——用curl调用本地模型

LangChain模型配置：温度、top_p与max_tokens的协同调优实战

Doc-V*：主动视觉推理如何革新多页文档问答

Layerdivider：智能图像分层工具，将单张图片转换为可编辑PSD图层

Rocky Linux 8 下 Nginx 安装与生产级配置全指南

Go init函数本质：编译期初始化钩子机制解析

大语言模型空间推理能力提升：TEXT2SPACE数据集与ASCII增强技术实践

2026年工艺品资讯平台排行榜新鲜出炉

鸿蒙UI自动化测试框架选型：UIAutomator与Espresso实战对比

2026年台州税务咨询怎么挑？3个关键点选对机构（第2版） - 本地品牌推荐

终极Office激活方案：Ohook开源项目深度解析与快速部署指南

大口径无粘结密封圈定制厂家靠谱排名，价格透明口碑推荐 - myqiye