当前位置: 首页 > news >正文

Spark 大数据入门——从零搭建分布式计算环境

Spark 是当前最流行的大数据计算引擎,相比 Hadoop MapReduce 性能提升 10~100 倍。本文从零搭建 Spark 开发环境,用 Python 编写第一个 Spark 程序。

一、Spark 是什么

Spark 是一个分布式计算框架,可以在成百上千台服务器上并行处理数据。

对比Hadoop MapReduceSpark
计算速度慢(磁盘读写)快 10~100 倍(内存计算)
易用性Java 编写,代码量大Python/Java/Scala 均可
适用场景离线批处理批处理 + SQL + 流处理 + 机器学习

二、环境搭建

1. 安装 Spark(Windows/Linux)

# 1. 下载 Spark(需预装 Java 8+)wgethttps://dlcdn.apache.org/spark/spark-3.5.0/spark-3.5.0-bin-hadoop3.tgz# 2. 解压tar-xzfspark-3.5.0-bin-hadoop3.tgzmvspark-3.5.0-bin-hadoop3 /opt/spark# 3. 配置环境变量exportSPARK_HOME=/opt/sparkexportPATH=$PATH:$SPARK_HOME/bin

2. 安装 PySpark

pipinstallpyspark

3. 验证安装

# 进入 Spark Shell(交互式环境)pyspark# 看到这个界面说明安装成功# Welcome to Spark version 3.5.0

三、核心概念

概念说明
RDD弹性分布式数据集,Spark 的核心抽象
DataFrame带列名的分布式数据集(类似 Pandas)
SparkSessionSpark 应用的入口
Task任务,被发送到 executor 执行
Partition数据分区,每个分区对应一个 task

四、第一个 Spark 程序

1. 读取数据

frompyspark.sqlimportSparkSession# 创建 SparkSessionspark=SparkSession.builder \.appName("FirstSparkApp")\.getOrCreate()# 读取 CSV 文件df=spark.read.csv("students.csv",header=True,inferSchema=True)# 查看数据df.show(5)df.printSchema()

2. 数据转换

frompyspark.sql.functionsimportcol,avg,count# 筛选成绩大于 60 分的学生df.filter(col("score")>60).show()# 按班级分组统计平均分df.groupBy("class_name")\.agg(avg("score").alias("avg_score"),count("*").alias("student_count"))\.orderBy("avg_score",ascending=False)\.show()

五、实战:学生成绩统计分析

frompyspark.sqlimportSparkSessionfrompyspark.sql.functionsimportcol,avg,max,min,count,when# 创建会话spark=SparkSession.builder.appName("ScoreAnalysis").getOrCreate()# 读取数据df=spark.read.csv("scores.csv",header=True,inferSchema=True)# 1. 数据概览print(f"总记录数:{df.count()}")df.describe().show()# 2. 各班级平均分df.groupBy("class")\.agg(avg("score").alias("平均分"),max("score").alias("最高分"),min("score").alias("最低分"))\.orderBy("平均分",ascending=False)\.show()# 3. 成绩分布df.withColumn("等级",when(col("score")>=90,"优秀").when(col("score")>=80,"良好").when(col("score")>=70,"中等").when(col("score")>=60,"及格").otherwise("不及格")).groupBy("等级").agg(count("*").alias("人数"))\.orderBy("等级").show()spark.stop()

六、Spark SQL

Spark 支持用 SQL 语句查询数据,适合熟悉 SQL 的开发者:

# 将 DataFrame 注册为临时表df.createOrReplaceTempView("students")# 用 SQL 查询result=spark.sql(""" SELECT class_name, ROUND(AVG(score), 2) as avg_score, COUNT(*) as count FROM students WHERE score >= 60 GROUP BY class_name ORDER BY avg_score DESC """)result.show()

七、性能优化建议

1. 合理设置分区数

# 默认分区数偏小,大数据量时调整spark.conf.set("spark.sql.shuffle.partitions","200")

2. 使用缓存

# 频繁使用的数据缓存到内存df.cache()# 或df.persist()

3. 避免使用 UDF

# ❌ 慢:使用 Python UDFfrompyspark.sql.functionsimportudf# ✅ 快:使用内置函数frompyspark.sql.functionsimportwhen,col

总结

Spark 是大数据领域的核心技术,掌握它之后处理海量数据不再是难题。记住三步:

  1. 创建 SparkSession—— 入口
  2. 读取数据——spark.read.csv/json/parquet
  3. 数据转换——filtergroupByagg等操作

💡 觉得有用的话,点赞 + 关注【张老师技术栈】吧!每周更新 Java/Python/爬虫 大数据 实战干货,不让你白来。

http://www.gsyq.cn/news/1565128.html

相关文章:

  • 5个可落地的AI变现用法:零代码、免费平台、7分钟见效
  • OpenClaw:轻量级AI工作流引擎,直连飞书微信实现私有化智能响应
  • 2026西安元气玛特口碑推荐 价格透明避坑攻略 - myqiye
  • 如何让微信聊天记录不再消失?这个工具让你永久保存每一段珍贵对话
  • Navicat密码解密工具:专业数据库连接密码恢复解决方案终极指南
  • 嵌入式GUI开发实战:emWin多层显示与输入系统配置详解
  • 饰品AI生图企业客户口碑力荐,高认可度品牌盘点 - myqiye
  • RaTA-Tool:基于检索增强的多模态大模型工具选择框架解析
  • 张量网络在机器学习中的应用:从高维数据压缩到模型可解释性
  • Steam成就管理器实战指南:高效管理游戏成就的技术解析
  • Qwen 3.6-27B本地部署实战:vLLM优化、长上下文对齐与PLC智能体落地
  • DSP5685x音频Codec低层API实战:阻塞/非阻塞模式与DMA驱动详解
  • 2026婚宴酒店报价红黑榜 五大机构深度解析不花冤枉钱 - myqiye
  • Selenium架构深度解析:从WebDriver协议到自动化测试框架设计
  • 终极AMD处理器性能调优指南:掌握SMU调试工具的专业技巧
  • Java Playwright自动化测试:高级元素定位策略与实战技巧
  • 嵌入式GUI开发利器:emWin仿真器从入门到实战应用
  • NXP Real-time Edge Yocto项目实战:构建确定性实时边缘计算系统
  • 第5章:HTTP API入门——用curl调用本地模型
  • LangChain模型配置:温度、top_p与max_tokens的协同调优实战
  • Doc-V*:主动视觉推理如何革新多页文档问答
  • Layerdivider:智能图像分层工具,将单张图片转换为可编辑PSD图层
  • Rocky Linux 8 下 Nginx 安装与生产级配置全指南
  • Go init函数本质:编译期初始化钩子机制解析
  • 大语言模型空间推理能力提升:TEXT2SPACE数据集与ASCII增强技术实践
  • 2026年工艺品资讯平台排行榜新鲜出炉
  • 鸿蒙UI自动化测试框架选型:UIAutomator与Espresso实战对比
  • 2026年台州税务咨询怎么挑?3个关键点选对机构(第2版) - 本地品牌推荐
  • 终极Office激活方案:Ohook开源项目深度解析与快速部署指南
  • 大口径无粘结密封圈定制厂家靠谱排名,价格透明口碑推荐 - myqiye