发现市面上基本没有对 PySpark 进行配置的工具,同时 Spark 3.4.0 引入了 server-client 模式,也没有比较好的解决方案,我这里开源了一个简单的模块,支持以下功能:
- 通过环境变量配置 Spark ,参见 config spark
-
在 IPython/Jupyter 中执行 Spark SQL 的
%SQL和%%SQLmagic- SQL 语句可分多行编写,支持使用
;分隔语句 - 支持配置连接客户端
- TODO: 可视化 SQL 语句的结果( Spark 数据框架)
- SQL 语句可分多行编写,支持使用
sparglim-server用于 daemon Spark Connect Server ,并支持 on K8S 部署