Hadoop的机器学习库

日期:2020-09-29 08:48:57   来源:互联网   编辑:小优   阅读人数:809

通过一些易于实现的多样化库和框架能够充分挖掘机器学习的预测能力。垃圾邮件过滤,面部识别,推荐引擎等等。当你要对大型数据集执行预测分析或模式识别时,机器学习都是必经之路。

自由开源软件的激增,让机器学习更容易在单机上大规模地通过大多数流行的编程语言实现。以下这些开源工具包括了适用于Python,R,C ++,Java,Scala,Clojure,JavaScript和Go之类的库。

Apache Mahout

Apache Mahout提供了一种构建用于托管机器学习应用程序环境的方法,该环境可以快速有效地扩展来满足需求。

Hadoop的机器学习库(图1)

Mahout主要与Apache Spark一起工作,最初是为了运行分布式应用程序而设计,可以与Hadoop一起使用,但现在已扩展为与Flink和H2O等其他分布式后端一起使用。

Mahout在Scala中使用了一种域特定语言。版本0.14是对该项目做了主要内部重构,默认基于Apache Spark 2.4.3。

Compose

Compose针对机器学习模型的一个常见问题,即标记原始数据,这可能是一个缓慢而乏味的过程,但没有它,机器学习模型就无法提供有用的结果。

通过Compose,用户可以使用Python为数据编写一组标记功能,因此可以通过编程方式进行标记。可以在数据上设置各种变换和阈值,以简化标记过程。

Core ML Tools

Apple的Core ML框架能够让用户将机器学习模型集成到应用程序中,但使用其自己独特的学习模型格式。但幸运的是,不必以Core ML格式预先训练模型就能使用它们;可以使用Core ML Tools将几乎所有常用的机器学习框架中的模型转换为Core ML。

Hadoop的机器学习库(图2)

Core ML Tools作为Python包运行,因此与大量的Python机器学习库和工具集成在一起。TensorFlow,PyTorch,Keras,Caffe,ONNX,Scikit-learn,LibSVM和XGBoost的模型都可以转换。神经网络模型还可以通过使用训练后量化来优化大小。

Cortex

Cortex提供了一种方便的方法来使用Python和TensorFlow,PyTorch,Scikit-learn和其他模型提供来自机器学习模型的预测服务。大多数Cortex软件包仅包含几个文件,即你的核心Python逻辑,描述要使用的模型,以及要分配的计算资源类型的cortex.yaml文件,以及用于安装任何所需Python要求的require.txt文件。

整个程序包作为Docker容器部署到AWS或另一个与Docker兼容的托管。计算资源的分配方式与在Kubernetes中使用的定义相呼应,因此你可以使用GPU或Amazon Inferentia ASIC加快服务速度。

Featuretools

特征工程或特征创建涉及获取用于训练机器学习模型的数据,并通常手动生成数据的经过转换和聚合的版本,这对于训练模型更为有用。

Hadoop的机器学习库(图3)

GoLearn

GoLearn是针对Google Go语言的机器学习库,其创建的目标是简化和可定制性。简单之处在于在库中加载和处理数据的方式,该方式在SciPy和R之后进行了模式化。可定制性在于如何在应用程序中轻松扩展某些数据结构。

Hadoop的机器学习库(图4)

Gradio

构建机器学习应用程序时的一个常见是为模型训练和预测服务机制构建可靠且易于定制的UI。Gradio提供了用于创建基于Web的UI的工具,这些工具让用户可以与模型进行实时交互。

其中包括几个示例项目,例如Inception V3图像分类器的输入接口或MNIST手写识别模型,让用户对如何在自己的项目中使用Gradio有所了解。

H2O

H2O目前正在进行第三次大修订,它为内存中的机器学习提供了一个完整的平台,从训练到服务预测。H2O的算法适合于业务处理—比如欺诈或趋势预测—而不是图像分析。H2O可以独立地与HDFS store交互,在YARN之上,在MapReduce中,或者直接在Amazon EC2实例中。

Hadoop的机器学习库(图5)

Hadoop专家可以使用Java与H2O进行交互,但是该框架还提供了针对Python,R和Scala的绑定,从而让用户也可以与这些平台上可用的所有库进行交互。还可以使用REST调用,将H2O集成到大多数管道中。

Oryx

由Cloudera Hadoop发行版的创建者提供的Oryx,使用Apache Spark和Apache Kafka在实时数据上运行机器学习模型。Oryx提供了一种构建项目的方式,这些项目需要立即做出决定,例如推荐引擎或实时异常检测,这些都可以通过新数据和历史数据获得。

版本2.0对该项目几乎进行了完全重新设计,其组件以lambda架构松散耦合。可以随时添加新算法和这些算法的新抽象(例如,用于超参数选择)

PyTorch Lightning

当功能强大的项目流行时,通常会辅以易于使用的第三方项目。PyTorch Lightning为PyTorch提供了组织包装,因此用户可以专注于重要的代码,而不必为每个项目编写样板。

Hadoop的机器学习库(图6)

PyTorch Lightning使用基于类的结构,因此PyTorch项目的每个常见步骤都封装在类方法中。训练和验证循环是半自动化的,因此你只需要为每个步骤提供逻辑即可。在多个GPU或不同的硬件组合中设置训练结果也更加容易,因为这样做的指令和对象引用是集中的。

Scikit-learn

由于Python易于采用且几乎适用于所有应用程序的库的广泛性,它已成为数学科学和统计学的首选编程语言。Scikit-learn通过在几个现有的Python软件包(NumPy,SciPy和Matplotlib)之上构建数学和科学工作来利用这一广度。

Hadoop的机器学习库(图7)

生成的库可用于交互式“工作台”应用程序或嵌入到其他软件中并重新使用。该套件可通过BSD许可获得,因此它是完全开放的,并且可重复使用。

Shogun

Shogun是这个工具中时间最长的项目之一。它创建于1999年,用C ++编写,但是可以与Java,Python,C#Ruby,R,Lua,Octave和Matlab一起使用。最新的主要版本6.0.0增加了对微软Windows和Scala语言的本机支持。

虽然广受欢迎,范围广泛,但Shogun也有竞争对手。另一个基于c++的机器学习库Mlpack是在2011年才出现的,但是它声称比其他库更快、更容易使用(通过一个更完整的API集)

Spark MLlib

MLlib是Apache Spark和Apache Hadoop的机器学习库,拥有许多常用算法和有用的数据类型,能够快速,大规模地运行。尽管Java是在MLlib中工作的主要语言,但是Python用户可以将MLlib与NumPy库连接,Scala用户可以针对MLlib编写代码,而R用户可以从1.5版开始插入Spark。

Hadoop的机器学习库(图8)

MLlib的版本3专注于使用Spark的DataFrame API(与较早的RDD API相对)并提供了许多新的分类和评估功能。

另一个项目,MLbase,建立在MLlib的顶部,以使其更容易得出结果。用户无需编写代码,而是使用SQL的声明性语言进行查询。

Weka

由Waikato大学的机器学习小组创建的Weka被称为“无需编程的机器学习”这是一个GUI工作台,数据科学家无需编写代码即可组装机器学习管道,训练模型和运行预测。

Weka直接与R,Apache Spark和Python合作,后者通过直接包装或通过通用数值库(如NumPy,Pandas,SciPy和Scikit-learn)的接口进行工作。Weka的一大优势在于,它为工作的各个方面提供了可浏览的友好界面,包括包装,预处理,分类和可视化。

本文相关词条概念解析:

机器

机器是由各种金属和非金属部件组装成的装置,消耗能源,可以运转、做功。它是用来代替人的劳动、进行能量变换、以及产生有用功。机器贯穿在人类历史的全过程中。但是近代真正意义上的“机器”,却是在西方工业革命后才逐步被发明出来。

网友评论
相关阅读
极度担忧,波兰将建多座方舱医院,酒吧和餐馆也将全部关闭,鉴于第二波疫情的严峻形势

极度担忧,波兰将建多座方舱医院,酒吧和餐馆也将全部关闭,鉴于第二波疫情的严峻形势

近期,欧洲第二波疫情来势汹汹,新增确诊病例数以惊人数字增长。

张家界志愿者绝壁捡垃圾这是真的吗?张家界志愿者绝壁捡垃圾令人震惊

张家界志愿者绝壁捡垃圾这是真的吗?张家界志愿者绝壁捡垃圾令人震惊

凌空绝壁,登天梯观奇景,并非只有张家界凌空绝壁,登天梯观奇景

电梯运行了,成功模式,您家小区能借鉴吗

电梯运行了,成功模式,您家小区能借鉴吗

10月21日上午,记者来到了新华大院小区消防宿舍,已经加装电

萧芷欣为了能当最美新娘还去做了抽脂手术,未婚夫在国外痛哭求视频看其遗容

萧芷欣为了能当最美新娘还去做了抽脂手术,未婚夫在国外痛哭求视频看其遗容

爱美之心人皆有之,特别是在结婚这件人生大事上,不少女孩子为了

美媒,因为她在新冠肺炎康复后身体仍感觉不适,晚上在宾夕法尼亚州举行的特朗普竞选集会

美媒,因为她在新冠肺炎康复后身体仍感觉不适,晚上在宾夕法尼亚州举行的特朗普竞选集会

参考快讯【美媒:美第一夫人身体仍不适 不出席特朗普竞选】据美

修身西装下搭黑色紧身裤完美展示大长腿,这种随便一搭就能形成叠穿效果,沉稳帅气

修身西装下搭黑色紧身裤完美展示大长腿,这种随便一搭就能形成叠穿效果,沉稳帅气

今天的主人翁是刘宇宁,作为一名从街头火起来的歌手他的知名度无

开心笑话,陪二货女友回老家,冻的我都在发抖,还没到火车站呢

开心笑话,陪二货女友回老家,冻的我都在发抖,还没到火车站呢

前年,我腿骨骨折,安了两块钢板。听说要把钢板取出来,小侄子问

重磅,一条高铁勘察设计总体总包中标,终点深汕合作区

重磅,一条高铁勘察设计总体总包中标,终点深汕合作区

2020年10月16日,深圳市规划和自然资源局公布:深圳四条

简称新国风音乐剧,带来了一个摇滚范儿的孙悟空

简称新国风音乐剧,带来了一个摇滚范儿的孙悟空

“很冒险,很刺激,很带劲,长这么大,这是我做得最开心的一个戏

一男子支付6万“解冻费”才知被骗

一男子支付6万“解冻费”才知被骗

10月20日至10月21日今日电诈警情通报今日,全市共接电信