工业大数据处理领域的“网红”——Apache Spark
4. 可融合性
Spark可以运行在standalone、YARN、Mesos、Kubernetes及EC2多种调度平台上。其中Standalone模式不依赖第三方的资源管理器和调度器,这样降低了Spark的使用门槛,使得所有人可以非常容易地部署和使用Spark。
Spark可以处理所有Hadoop支持的数据,包括HDFS、Apach HBase、Apach Kudu、Apach Cassanda等。这对于已部署Hadoop集群的用户特别重要,因为不需要做任何数据迁移就可以使用Spark强大的处理能力。
三、 Spark 相比MapReduce优势
Spark与MapReduce 同为计算框架,但作为后起之秀,Spark借鉴了MapReduce,并在其基础上进行了改进,使得算法性能明显优于MapReduce,下面大致总结一下两者差异:
1) Spark把运算的中间数据存放在内存,迭代计算效率更高;MapReduce的中间结果需要落地到磁盘,磁盘io操作多,影响性能。
2) Spark容错性高,它通过Lineage机制实现RDD算子的高效容错,某一部分丢失或者出错,可以通过整个数据集的计算流程的血缘关系来实现重建;MapReduce的话容错可能只能重新计算了,成本较高。
3) Spark更加通用,Spark提供了transformation和action这两大类的多个功能算子,操作更为方便;MapReduce只提供了map和reduce两种操作。
4) Spark框架和生态更为复杂,首先有RDD、血缘lineage、执行时的有向无环图DAG、stage划分等等,很多时候spark作业都需要根据不同业务场景的需要进行调优已达到性能要求;MapReduce框架及其生态相对较为简单,对性能的要求也相对较弱,但是运行较为稳定,适合长期后台运行。
四、 Spark与工业互联网平台
工业互联网带来了工业数据的快速发展,对于日益增加的海量数据,传统单机因本身的软硬件限制无法应对海量数据的处理、分析以及深度挖掘,但作为分布式计算框架的Spark却能轻松应付这些场景。在工业互联网平台上,Spark 既能快速实现工业现场海量流数据的处理转换,又能轻松应对工业大数据平台中海量数据的快速批处理分析,自身集成的机器学习框架能够对海量工业数据进行深度挖掘分析,从而帮助管理者进行决策分析。
基于Spark框架自身的优良设计理念以及社区的蓬勃发展状态,相信未来Spark会在工业互联网平台扮演越来越重要的角色。
本文作者: 黄欢,格创东智大数据工程师 (转载请注明来源及作者)
图片新闻
最新活动更多
-
12月12日火热报名中>>> STM32全球线上峰会
-
1月8日火热报名中>> Allegro助力汽车电气化和底盘解决方案优化在线研讨会
-
即日-1.14火热报名中>> OFweek2025中国智造CIO在线峰会
-
即日-1.20限时下载>>> 爱德克(IDEC)设备及工业现场安全解决方案
-
限时免费下载立即下载 >>> 2024“机器人+”行业应用创新发展蓝皮书
-
即日-2025.8.1立即下载>> 《2024智能制造产业高端化、智能化、绿色化发展蓝皮书》
推荐专题
- 1 蓝卓工业操作系统supOS6.0重磅发布 四大特性深度解读!
- 2 上海国际嵌入式展暨大会(embedded world China )与多家国际知名项目达成合作
- 3 史上首次,大众终于熬不住开启40亿降本计划!关3个工厂,裁员万名...
- 4 守护绿色学习空间,EK超低温热泵服务对外经济贸易大学图书馆
- 5 颜值高 有“门”道|贝特威汽车门板内饰AI视觉检测解决方案
- 6 优傲正式建立中国生产能力,发布两款专为本土市场定制的全新协作机器人,强化在华布局
- 7 观众登记启动 优解制造未来,锁定2025 ITES深圳工业展
- 8 3大场景解读 | 红外热像仪赋能科研智造创新应用
- 9 赋能“芯”领域 | 高德智感热像仪助力IGBT热检测
- 10 揭秘:「全球知名跨境电商」构建核心竞争力的“独门绝技”是?
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论