请您指导我如何在基于Java/JVM的应用程序(生产中)中创建和执行机器学习模型/统计模型(回归、决策树、K均值聚类、朴素贝叶斯、记分卡/线性/逻辑回归等以及GBM、GLM)。
我们有一种基于Java的ETL产品,可以为机器学习执行大部分数据准备步骤,如从JDBC、文件、HDF、无SQL等接收数据,连接和聚合等(这是功能工程所必需的),现在我们希望使用机器学习/统计建模添加分析功能。
现在,我们正在使用JPMML-evaluator对使用R和python(以及Knime)以PMML格式创建的模型进行评分,但它需要三个独立且不相连的步骤:-1-在Java/JVM应用程序中准备数据的第一步,并将采样数据(培训和测试)数据保存在csv文件或DB中,-2-使用R和python(以及Knime)创建一个机器学习模型,并将其导出为PMML 4.2格式-3-在基于Java的应用程序中导入/部署PMML,并使用JPMML evaluator在生产中执行它。
我确信这是机器学习中的一个常见问题,因为在生产环境中,JAVA通常比Python或R更受欢迎。您能建议在基于JVM的应用程序中创建和执行基于Python/scikit的机器学习模型的更好方法吗。
您认为如何在基于JVM的应用程序中更无缝地实现步骤2和3,而不损害性能和可用性:-
1-调用一个java程序,该程序在内部调用python scikit脚本(在引擎盖下),以在PMML中创建一个模型,然后使用JPMML evaluator。它将向用户假装他在一个基于JVM的应用程序中(更好的可用性)。我不确定使用PMML的局限性和缺点是什么,因为jpmml sklearn并不支持所有功能。2-调用一个java程序,该程序在内部调用python脚本,并在外部python环境中创建和执行模型,并将模型和结果序列化为文件/csv或内存数据库(或缓存,如hazelcast),父java应用程序将从中获取结果等。。我研究过我不能使用Jython来执行Sci工具包模型。3-我可以使用Jep(Java中嵌入Python)在JVM中嵌入Cpython吗?有人试过sci套件模型吗?
或者,我应该探索在基于JVM的应用程序中使用Mahout或基于weka-java的机器学习库。(我需要同时支持windows和非windows平台)
我也在探索基于java的H2Oai。有人试过吗。
我在python插件中使用IntelliJ IDEA。这样,我就可以在同一个项目中同时使用java和python代码。数据在数据库中;连接总是可见和可访问的,与我是否有。java或a。当前在编辑器中的py文件。在配置列表中,您可以使用Python脚本、Java应用程序、maven目标等。因此,我认为您不必将Python和Java代码混合在一起(通过从Java中调用Python脚本)。这是完全没有必要的。
我的工作流程是(IntelliJ IDEA中的所有内容):1。准备数据(通常是SQL)2。运行python脚本,该脚本将转换器管道应用于由特定数据库表构造的pandas数据帧,并输出PMML。3.在java应用程序中使用scikit学习模型。
如果您有一个带有HDFS后端的ETL,我建议在集群上部署Spark,并使用Spark的MLib机器学习算法。它们支持您上面提到的方法。
您是否介意提供一些关于您计划使用的数据大小(行、列、类型)的上下文?Java不是我推荐的用于ML的goto语言,但Scala编译成JVM字节码,并且具有与Java类似的语法(除了有JavaAPI)。
如果您正在进行概念验证,那么Java就可以了,但是如果您正在计划使用大数据,它的扩展性就不太好。
我已经为我的问题找到了一个像样的解决办法。我用的是H2O。ai是用Java开发的,用于使用开放源代码进行可伸缩的机器学习。它提供了Java(RESTfulAPI)、Python、R和Scala的API。它拥有一流的分类、回归、聚类等算法,如果有人拥有Spark cluster,它还可以与Apache Hadoop和Spark(Sparking water)无缝集成。它还提供了一种基于多层前馈人工神经网络的深度学习算法。我正在使用Java绑定API/RESTAPI,有时使用低级H2OAPI(用于H2O3节点集群管理)。
我遇到了另一个基于java的替代方案,称为Smile-统计机器智能和学习引擎,它提供回归、分类、聚类、关联规则挖掘、特征选择等。有人对这些或类似的基于java的ML库有更多的反馈吗?