通常情况下,我们需要在pyspark中导入一些额外的库,Database ricks为实践pyspark提供了一个很好的环境,但是,是否可以在那里安装所需的库?如果是,如何?
或者是否有任何解决方法来使用非内置库/包?
谢谢。
根据案例和包类型,有多种方法可以做到这一点。如果是PyPI包,那么最简单的方法是使用
dbutils
dbutils.library.installPyPI("pypipackage", version="version", repo="repo", extras="extras")
或者您可以将库附加到集群。更多信息可以在这里找到https://docs.databricks.com/libraries.html#install-workspace-libraries