• 首页 首页 icon
  • 工具库 工具库 icon
    • IP查询 IP查询 icon
  • 内容库 内容库 icon
    • 快讯库 快讯库 icon
    • 精品库 精品库 icon
    • 问答库 问答库 icon
  • 更多 更多 icon
    • 服务条款 服务条款 icon

数据挖掘软件

武飞扬头像
prince_zxill
帮助1

WEKA

WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),同时weka也是新西兰的一种鸟名,而WEKA的主要开发者来自新西兰。WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。

Weka 基于 Java 开发,是一款开源且免费的软件,有 Windows 版本,Linux 版本和 Mac OS 版本。在数据源上支持 ARFF(Attribute-Relation File Format)文件,这是一种 ASCII 文本文件,CSV 文件和 JDBC 数据库访问功能。
学新通

如果想自己实现数据挖掘算法的话,可以参考weka的接口文档。在weka中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。

Weka 轻巧便捷,安装简单,非常适合个人用户和中小企业使用。在操作上可以可视化操作无需编程,支持拖拉拽式工作流程使用起来非常方便,但是无论是数据预处理还是算法选择和调参都需要工程师手动完成,因此使用者需要具备一定统计学基础和数据挖掘经验。
学新通

2005年8月,在第11届ACM SIGKDD国际会议上,怀卡托大学的Weka小组荣获了数据挖掘和知识探索领域的最高服务奖,Weka系统得到了广泛的认可,被誉为数据挖掘和机器学习 历史上的里程碑,是现今最完备的数据挖掘工具之一(已有11年的发展历史)。Weka的每月下载次数已超过万次。

2014年3月起,新西兰怀卡托大学将推出Weka免费网课,课程分为初级和高级两个部分,每个部分时长5周。初级课程将于2014年3月3日开课,高级课程于2014年4月下旬开课。课程具体内容参见怀卡托大学网站Weka MOOC。课程在优酷网站也有专辑。

下载地址:

Weka下载

Orange

Orange 由斯洛文尼亚大学计算与信息学系的生物信息实验室 BioLab 进行开发,是一款免费开源的数据挖掘软件,可在官网下载,支持 Windows, Linux 和 MacOS。

Orange 由 C 和 Python 开发,包含了一系列的可视化组件可以进行数据预处理,建模和模型评估的功能,并且用户还可以在 Python 里调用 Orange。Orange 可以支持分类、回归和聚类算法,全流程采用图形化操作。

Orange 的优点就是开源免费,可视化操作,可以帮助有经验的工程师快速建模,适合高级用户。

学新通

下载地址:

orange下载

RapidMiner

RapidMiner 公司总部位于美国马萨诸塞州剑桥,是一款基于 Java 开发的数据挖掘软件。RapidMiner 功能强大,通过在图像化界面拖拽建模,可轻松实现数据准备、机器学习和预测模型部署,无需编程,运算速度快,并且 RapidMiner 还具备自动建模功能,使用非常方便。
学新通

RapidMiner 主要有以下系列产品:

RapidMiner studio: 可零代码操作的客户端软件,基于图形化的拖拉拽操作,可手动建模也可自动建模。能够实现完整的建模步骤,从数据加载、汇集、到转化和准备阶段(ETL),再到数据分析和产生预测阶段。Studio 安装包支持 Windows,Linux,MaxOS,有免费版和商业版,其中免费版对于数据量有限制,最多可运行 10000 行数据。Studio 安装包和授权可在官网申请下载。

RapidMiner Server: 可以在局域网服务器或外网连接的服务器上,与 RapidMiner Studio 无缝集成

RapidMiner Radoop: 一个与 Hadoop 集群相连接的扩展,可以通过拖拽自带的算子执行 Hadoop 技术特定的操作.

RapidMiner go 云平台服务,提供 5 天免费试用期。

总体来讲,RapidMiner 是一款非常不错的软件,界面操作非常友好,功能完善,既适合初学者也适合有经验的工程师,并且可在自动建模和手动建模之间切换。

下载地址:

RapidMiner下载

八爪鱼

八爪鱼网页数据采集器,是一款使用简单、功能强大的网络爬虫工具,完全可视化操作,无需编写代码,内置海量模板,支持任意网络数据抓取,连续五年大数据行业数据采集领域排名领先。
学新通

模板采集模式内置上百种主流网站数据源,如京东、天猫、大众点评等热门采集网站,只需参照模板简单设置参数,就可以快速获取网站公开数据。
学新通

八爪鱼采集可根据不同网站,提供多种网页采集策略与配套资源,可自定义配置,组合运用,自动化处理。从而帮助整个采集过程实现数据的完整性与稳定性。
学新通

通过八爪鱼API,可以轻松获取八爪鱼任务信息和采集到的数据,灵活调度任务,比如远程控制任务启动与停止,高效实现数据采集与归档。基于强大的API体系,还可以无缝对接公司内部各类管理平台,实现各类业务自动化。
学新通

针对不同用户的采集需求,八爪鱼可提供自动生成爬虫的自定义模式,可准确批量识别各种网页元素,还有翻页、下拉、ajax、页面滚动、条件判断等多种功能,支持不同网页结构的复杂网站采集,满足多种采集应用场景。

简单几步点击设置,即可实现采集任务的定时控制,不论是单次采集的定时设置,还是预设某一天或是每周每月的定时采集,都可以同时对多个任务自由进行设置,根据需要对选择时间进行多重组合,灵活调配自己的采集任务。
学新通

八爪鱼内置了强大的数据格式化引擎,支持字符串替换、正则表达式替换或匹配、去除空格、添加前缀或后缀、日期时间格式化、HTML转码等多项功能,采集过程中全自动处理,无需人工干预,即可得到所需格式数据。

很多主流新闻、电商类的网站,里面包含一级商品列表页,也包含二级商品详情页,还有三级评论详情页面;不论网站有多少层级,八爪鱼都可以不限制层级的采集数据,满足各类业务采集需求。
学新通

八爪鱼内置了采集登录模块,只需配置目标网站的账号密码,即可用该模块采集到登录后的数据;同时八爪鱼还具备采集Cookie自定义功能,首次登录以后,可以自动记住cookie,免去多次输入密码的繁琐,支持更多网站的采集。

下载地址:

八爪鱼数据采集工具下载

这篇好文章是转载于:学新通技术网

  • 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
  • 本站站名: 学新通技术网
  • 本文地址: /boutique/detail/tanhfjacjj
系列文章
更多 icon
同类精品
更多 icon
继续加载