发布网友 发布时间:2022-04-23 19:24
我来回答
共1个回答
热心网友 时间:2023-09-17 23:38
因为大多数Spark程序都具有“内存计算”的特性,所以集群中的任何资源都有可能成为Spark程序的瓶颈,比如,CPU、网络带宽或者内存。通常情况下, 如果数据完全加载到内存,那么,网络带宽就会成为瓶颈。但有时候,你还需要对程序进行优化,以便减少内存使用,例如以序列化的形式存储RDD数据(Resilient Distributed Datasets)。