Wishlist 0 ¥0.00

值得关注的12大开源数据分析应用软件

本文介绍的这些开源工具是大数据处理、商业智能、机器学习和预测分析等领域的佼佼者。

对于许多大企业来说,开源大数据分析已经成为日常业务中一个必不可少的组成部分。据New Vantage Partners公司对《财富》1000强公司的高层主管开展的调查显示,如今62.5%的企业在生产环境中至少运行一种大数据工具或应用软件。这比2013年给出同样回复的企业数量高出近一倍,只有5.4%的受访企业没有大数据计划。

说到大数据分析,开源软件是常态,而不是异数。许多企业使用的一些领先工具由Apache基金会管理,许多商业工具至少一部分基于这些开源解决方案。

我们在本文中介绍了市面上12款顶尖的开源数据分析解决方案,其中一些为大数据分析提供了全面的端到端平台,另一些要与其他技术结合起来。它们都适合大企业使用,都是市面上领先的数据分析工具。

1. Hadoop

谈到开源数据分析技术,就不可能不提到Hadoop。Apache基金会的这个项目已经几乎成为大数据的同义词,它让企业能够大规模分布式处理极其庞大的数据集。TDWI和SAS联合开展的一项调查发现,近60%的企业预计在2016年年底之前会在生产环境中拥有Hadoop集群。

然而值得一提的是,Hadoop本身无法实现数据分析。它通常是从大数据获取洞察力的整个更庞大解决方案的一部分。

2. Spark

Spark也是Apache旗下的一个项目,它承诺可以迅速处理大数据。实际上,它声称“在内存中运行程序的速度比Hadoop MapReduce快100倍,在磁盘上运行程度的速度快10倍。”由于这种出色性能,它常常用于分析流式数据或用于需要交互式分析功能的应用软件中。许多公司经常把它与Hadoop或Mesos一起使用,不过它也能独立运行。最近,它的人气得到了急剧提升,Syncsort在2016年开展的一项调查发现,受访的企业大数据工作人员中近70%对Spark有兴趣。

3. Talend

不像前面两个项目,Talend由一家营利公司管理,而不是由基金会管理。因而,提供收费支付服务。Talend既提供免费产品,又提供收费产品。它免费的开源解决方案名为Talend Open Studio,下载量已超过了200万人次。

市场研究公司Gartner最近将Talend评为数据集成领域的“领导者”。这家公司声称,相比与之竞争的解决方案,它帮助企业分析大数据的速度快五倍,而成本却只有五分之一。

4. Jaspersoft

与Talend一样,Jaspersoft也有多个版本,有的版本免费,有的版本收费。社区版是免费、开源的,而Reporting版、AWS版、专业版和企业版需要收费,不过随带支持服务。

Jaspersoft是一款开源商业智能工具,旨在让企业用户可以借助自助服务,满足自己的要求。该公司声称,它的技术支持130000多款应用软件,提供嵌入式商业智能功能。

5. Pentaho

Pentaho自诩为“全面的数据集成和商业智能平台。”该公司主要大力推销它的商业版软件,该软件基于开源社区版。许多公司将它与Hadoop和Spark之类的工具一起使用,以便能够报告和显示大数据。该软件声称拥有一大批的知名客户,包括英国电信(BT)、卡特皮勒、纳斯达克、美国国土安全部、美国国家海洋和大气局(NOAA)、《纽约时报》、EMC及其他许多企业组织。

6. RapidMiner

RapidMiner声称是“头号开源数据科学平台”,Gartner将它评为高级分析魔力象限报告中的领导者。它能够实现自助式预测分析,承诺有望提升速度飞快的性能。用户包括宝马、汉莎航空、达美乐比萨公司、索尼、福特、Salesforce、国际特赦组织和通用电气公司。整个RadiMiner平台包括三个独立的组件:RapidMiner Studio、RapidMiner Server和RapidMiner Radoop。这三个组件都采用开源许可证或商业许可证,商业版价格取决于用户数量。

7. Storm

Apache Storm被雅虎、推特、Spotify、Yelp、Flipboard和Groupon之类的公司所使用,它是一种实时大数据处理引擎。它的官方网站解释:“Storm让用户很容易可靠地处理无限制的数据流,它在实时处理方面的功能好比Hadoop在批处理方面的功能。”客户可以将它与任何数据库或任何编程语言一起使用。它具有可扩展、容错、易于部分使用的优点。然而用户要注意的是,Storm还没有进入到1.0版本这个阶段。

8. H2O

H2O被60000多个数据科学家和7000多家企业组织所使用,声称是“世界上领先的开源机器学习平台。”由于它的内存技术,它提供了极其出色的性能。它还与Hadoop和Spark之类的其他许多开源数据分析工具整合起来,支持所有主要的流行数据库,提供收费的支持服务。

除了标准版的H2O外,该公司还提供Sparkling Water,这个版本整合了Spark和Steam,后者是一种端到端人工智能应用引擎。

9. Lumify

Lumify由一家名为Altamira 科技的公司开发,自称是“开源大数据分析和可视化平台。”它让用户易于创建二维或三维图形,可显示实体之间的关系,或在地图上覆盖数据。对于有兴趣深入了解它的工作原理的那些人来说,官方网站提供了几个视频,显示了Lumify的实际运行,上面还有一个演示网站,让用户可以上传自己的数据,并试用软件。

10. Drill

Apache Drill让用户得以使用SQL查询用于非关系型数据存储系统。它支持一系列NoSQL和基于云的数据存储系统,包括HBase、MongoDB、MapR-DB、HDFS、MapR-FS、亚马逊S3、Azure Blob Storage、谷歌云存储和Swift。它还让用户可以使用单一查询,即可搜索用不同技术存储起来的多个数据集。此外,它支持许多流行的商业智能工具。

11. MongoDB

作为最知名的NoSQL数据库之一,MongoDB是一种开源非关系型数据存储解决方案。客户包括大都会人寿(MetLife)、芝加哥市、Expedia、谷歌、气象频道、BuzzFeed和Facebook。除了免费开源版外,该公司还提供一款收费的企业版和云托管的版本MongoDB Atlas。知名市场研究机构弗雷斯特研究公司将MongoDB评为大数据NoSQL领域的“领导者”。

12. SpagoBI

SpagoBI是一款开源商业智能和大数据分析平台。该软件完全免费,但还提供收费的用户支持、维护、咨询和培训等服务。它包括了用于报告、多维分析(OLAP)、图表、位置情报、数据挖掘、ETL(抽取转换和加载)及更多其他方面的工具。它还与流行的内存处理引擎整合起来,能够实现实时处理。

原文标题:12 Top Open Source Data Analytics Apps,作者:Cynthia Harvey

数据价值无上限!Windows如何保护重要文件

随着互联网的高速发展,我们通过PC、手机等互联网设备产生的数据的价值往往要高于电子设备的价值,因此不得不再次呼吁大家养成备份重量文件的良好习惯。最现实的例子就是,在U盘等移动存储盛行的时代,相信很多人的U盘都损坏过,U盘损坏是小事,但数据丢失就是大事了。虽然在10.1假期,但是笔者还是想趁现在来聊聊如何保护重要文件,本次我们就拿使用了最高的Windows电脑开始谈起。

保护电脑数据的最原始目的就是保护电脑硬盘,从广义上来讲,保护硬盘分为以下三个层级:

  1. 物理层面
  2. 网络层面
  3. 应用层面

其中,物理层面最容易理解,简单的将就是保护好电脑的硬盘,台式电脑还好,若使用的笔记本电脑内置的是机械硬盘则建议在使用中尽量不要产生晃动,而固态硬盘则并没有太大影星,而且现阶段硬盘的安全等级相对较高,日常使用过程中并不会造成硬盘损坏的情况。

但是对于使用时间较长的机械硬盘建议使用HD Tune检查硬盘坏道,如果一旦发现硬盘有去读速度异常的情况,则建议立即备份硬盘数据,彻底更换新硬盘使用。

同时,网络层面的安全主要这几种在防御病毒,对于大多数用户来讲笔者建议安装360免费杀毒或者Macfee等付费杀毒程序。

而应用层面,主要是针对不要从网络上未知来源的应用程序,不要点击邮件中、qq中的陌生链接,这一步不仅仅是靠杀毒软件或者卫士软件来实现,更重要的还是依靠自己的经验,养成良好的上网习惯。

Windows中文件历史记录功能

那么,有没有一种较佳的解决办法来解决文件的安全问题呢?虽然说事情没有绝对,但是养成定期备份的习惯还是个非常不错的方式,在这件事情上笔者建议大家绝对不要大意。下面,笔者就来为大家介绍一下Windows中备份文件的几个步骤。

实际上,在Windows 8推出当时就有这个小功能,一直以来都没有引起大家的关注,而现在的Windows 10中当然得以保留下来,下面笔者就通过Windows 10进行展开叙述。由于Windows 10的设置和控制面板目前仅是操作界面的区别,因此我们本次就采取设置界面来操作。


控制面板中的文件历史记录选项

在Windows 10中操作系统有一个叫做文件历史记录的功能,可能很多人并不知道,但是对于经常处理文档的朋友,例如:学生、老师、公职人员等群体来说绝对是个贴心的功能,开启后你可以随时找回设定时间内(N天或者N个月)之内的文档,甚至恢复不小心删除的文件,甚至是文件的历史版本,严重建议开启此功能。

首先,打开Windows 10设置--更新和安全--备份,就能看到如图界面,之后选择右侧的添加驱动器,选择好要备份文件的磁盘。注意:此驱动器不能与Windows系统所在磁盘为同一驱动器,例如:操作系统为C盘,就不能将备份磁盘位置选在C盘,只能选择D盘等其它驱动器。

选择好驱动器之后,我们就能看到一个自动本分我的文件的开关。同时,我们还可以选择下面的“更多选项”来管理其它选项。

之后,我们可以选择备份文件的频次:每10分钟--每天;保存备份的时间:一个月---两年,甚至永远保留或者知道空间已满时等等。

当然,更重要的就是我们要选择备份哪些文件夹,例如我们想要备份的文件夹为C:\办公文件 ,那么只需要选则好就可以。同时,我们还可以选择排除哪些文件夹,例如你想备份你的C盘桌面所有文件,但是有一个文件夹不想备份,只需要加入排除文件夹中即可,设置起来也非常轻松。

设置好之后,我们就能轻松的实现文件的备份工作了,之后系统会按照你的设置自动进行备份,完全不用再花时间手动备份它。如果之后一旦发现文档损坏、误删等,就能立刻在备份盘中找回,非常方便。

为什么不用网盘?

可能有些人会有疑问,为什么不适用网盘进行备份呢?网盘目前使用起来也非常轻松,而且有些网盘也有历史版本记录功能。

安全性:这是很多人不选择网盘的主要原因,如果你备份的是重要文档,网盘就相对没有本地硬盘安全了。

此外,网盘更适合针对私密性不高的文档以及网络存档较多的视频、音频等文件,如百度网盘会识别你要上传的视频、音频在百度的数据里是否拥有,如果已有则可以完成秒传,旧能在瞬间在你网盘里有一份存档。但是对于私密性较高的文档来说,本次备份就是首选了。

小结:

试想,在网络极为发达的现在,如果你的电脑硬盘数据丢失你是否还能顺利的展开工作、学习,然而对于大部分朋友来讲可能并会引起注意。因此,笔者再次建议大家养成备份重要文件的习惯,而本文介绍的Windows操作系统中文件历史记录就是一个非常简单的功能,大家都可以轻松上手。

当然,除了本文中介绍的功能外,还有很多方式可以实现数据的备份,例如现在比较火的小米路由器等具有操作系统的路由器,也可以实现类似功能,大家可以多多尝试。

不可错过的五款开源图形处理软件

开放源码社区一直因为缺少以用户为中心的应用软件而饱受诟病。从一个每天都使用开源桌面和服务环境的用户角度来看,我也支持很多开源应用不如商业解决方案华丽的抱怨,但讽刺的是,同时也存在一些优秀的开源图形应用软件。无论你需要创建一个简单的横幅广告还是像书本封面这样非常复杂的作品,一系列让人印象深刻的开源设计解决方案足以和昂贵的同类商业软件匹敌。

我们这里就将介绍五种开源的图形处理应用软件,它们能够满足一系列广泛的需求,并且可以在Linux、Windows或Mac的内核上应用。

开源图形处理软件一:GIMP

在这篇文章中讨论的五个应软件中,GIMP(GNU的图像处理程序)凭借其一系列耀眼的能和Photoshop 匹敌的功能成为迄今为止最有名的开源应用。自1995年以来经过不断地积极完善,GIMP几乎支持图像处理所需的所有功能,包括高级色彩调整、路径操作、管道和图层以及一系列的编辑工具。可扩展性一直是其主要卖点。GIMP有近700个插件可供下载,每一个插件都以独特的方式扩展了GIMP的功能。

 

 

 

GIMP

 

图1:GIMP支持图层、字体编辑、过滤器、插件等功能

GIMP另一个吸引人的特色是用户群活跃。市面上已经出版了十几种关于GIMP的图书,也出现了几个拥有数千用户量的社区网站(如Gimpology和Gimptalk论坛)。

但对许多用户来说,GIMP有一个很大的缺陷。它没有使用常见的多文档界面,而使用了很不方便的单文档界面,于是用户需要不断寻找隐藏的任务面板。在GIMP的UI设计师Peter Sikking的博客里详细介绍了支持“单窗口模式”的2.8版本即将发行。对于那些不愿意等待官方2.8版本的用户来说,有一个按照Photoshop的菜单结构和布局修改过的GIMP版本,使Photoshop的用户可以更容易转换过来。

开源图形处理软件二:Inkscape

当GIMP在图像处理领域表现优异时,Inkscape在矢量图形处理领域俨然已成为事实上的标准开源解决方案。Inkscape首次发布是在2003年,实际上其起源可以追溯到1999年作为Sodipodi项目的一个组件。该软件重点强调的特色是可缩放矢量图形(SVG)格式,并可以支持超过50种语言。如果你在寻找Adobe公司昂贵的Illustrator之外的选择,那么Inkscape值得你关注。

 

 

 

Inkscape提供了强大的路径控制功能

 

图2:Inkscape提供了强大的路径控制功能

 

开源图形处理软件三:用Dia绘制技术图表

无论你正在设计一个数据库、网络或者软件,有时一个恰当的参考图胜过千言万语。在这种情形下,在技术图表中准确地描述需求是后续执行成功的基础。尽管微软功能强大的绘图产品Visio一直是市场的领导者,但一个叫做Dia的开源软件完全能够替代它完成各种任务。

Dia绑定了40种图形包可以创建丰富的技术图表,包括网络图、流程图、电路图、水利图,也可以下载附加的图形库。Dia可以适用于所有的主流平台。

 

 

 

使用Dia创建一个数据库图表

 

图片3:使用Dia创建一个数据库图表

图表可以导出为多种格式,如PDG、PDF、PS和DXF格式。甚至可以用Dia创建自定义形状,以适应未来项目的具体需要。

开源图形处理软件四:使用Pencil创建wireframe

虽然直接用代码写一个新网站很有诱惑力,但大多数经验丰富的人都会建议创建wireframe,因为长期来看确实可以节约大量时间。虽然现有的几大图形应用程序使很多人都喜欢上用拖动的方式来创建wireframe,然而开源解决方案一直缺乏。直到2009年一个叫做Pencil的奇妙工具出现。最初它只是作为Firefox的一个插件,但现在Pencil已经是Linux和Windows下的独立应用程序。(OS X用户可以通过Firefox插件的方式使用Pencil)。

虽然Pencil出现的时间不长,但凭借它丰富的图形集(包括Web、form、GTK、Windows XP和整理的UI工具集),可以完成最成熟的wireframing解决方案。有大量的图形集可以从其下载页面获得,以及一系列的“手绘”工具集提供给那些喜欢追逐潮流的人。

 

 

 

使用Pencil进行Wireframing操作

 

图4:使用Pencil进行Wireframing操作

以不同的屏幕标准提供多种网页模板,包括800 ×600、1024× 768和1280× 800。此外为960网格系统的用户提供一个960像素的版本。可以支持以不同的格式输出Wireframe,包括PNG格式、PDF格式甚至HTML格式来方便在网上共享。

开源图形处理软件五:用Shutter来实现截屏

我的编程书籍包含数百张截图,每一张都经过精心编辑,以求达到最佳的效果。正因为如此,我已经成为一个截屏应用程序迷,并发现Shutter 是最好的解决方案。

Shutter可以从各种角度截图,包括全屏、当前活动窗口或用户定义的选择。也可用一个计时器来捕捉鼠标轨迹,比如打开一个菜单。如图5所示,它甚至可以捕捉一个应用程序菜单列表。

 

 

 

使用Shutter隔离一个菜单的截图

 

图5:使用Shutter隔离一个菜单的截图

在Shutter上有一个节省时间的功能,即能够指定一个默认的保存目录。Shutter会自动保存截图到指定的目录,并为图片按照其被截取的顺序分配一个名称(如figure_001.png,figure_002.png)。当你想连续迅速地截取多个图片时,这是非常有用的功能,省去了你摆弄存储位置和文件名的时间。

可惜的是,从Shutter 的常见问题网页上看不到其推出Windows或者OS X版本的计划,这主要是因为目前只有Linux/Unix平台才能提供Shutter需要的几个库。

iis错误404.13 请求筛选模块被配置为拒绝超过请求内容长度的请求。

 
其实,下面的方法才是解决标题中问题的正确方法:
 

在IIS7里选择对应的站点, 进入[请求筛选]功能, 选择[查询字符串]选项卡, 点击右侧[编辑功能设置]进行设置:

 

 

不同IIS版本的不同修改方法如下:

 

 

  1. 单击 开始 搜索,键入 Notepad. 右击 记事本 , 然后单击 作为管理员运行。
    注意 如果提示用于管理员密码或用于确认, 键入密码, 或单击 继续 。 
    2. 在 文件 菜单上, 单击 打开 。 在 文件名 框中, 键入 %windir%\system32\inetsrv\config\applicationhost.config然后单击 打开 。  
    3. 在 ApplicationHost.config 文件, 定位 < requestLimits > 节点。 
    4. 删除 maxAllowedContentLength 属性。 或者, 添加值相匹配的 Content-Length 报头, 客户端发送请求作为大小。 默认情况下, 的 maxAllowedContentLength 属性值是 30000000。 
    修改下列代码。
    <requestLimits maxAllowedContentLength ="<length>" /> 

    5. 保存 ApplicationHost.config 文件。 

  2. 运行cmd,输入iisreset(重启IIS服务)(此步很重要,但是百度上好多都没写)。然后就可以了。
        其实II7.0默认的出错,已经告诉我们如何做了,呵呵,这点要比IIS6.0人性化多了。
    修改后cmd命令行下打iisreset重起IIS(或是直接使用IIS管理器重起),重新上传文件依旧出错。
    不过这就是传统的错误了。
    修改MaxRequestEntityAllowed 即可,IIS6.0里,需要如下操作(详见:突破IIS6上传和下载文件尺寸限制)

    解决方法:
   首先停止 IIS 服务,之后打开 C:\Windows\System32\Inetsrv 中的 metabase.XML, 并修改 AspMaxRequestEntityAllowed 为你需要的值(例如 1073741824, 1GB)。 
启动IIS服务。


   IIS7.0里,内置的ASP模块已经带了这个属性,可以直接修改步骤如下:

 

 

 

 

About Us

Since 1996, our company has been focusing on domain name registration, web hosting, server hosting, website construction, e-commerce and other Internet services, and constantly practicing the concept of "providing enterprise-level solutions and providing personalized service support". As a Dell Authorized Solution Provider, we also provide hardware product solutions associated with the company's services.
 

Contact Us

Address: No. 2, Jingwu Road, Zhengzhou City, Henan Province

Phone: 0086-371-63520088 

QQ:76257322

Website: 800188.com

E-mail: This email address is being protected from spambots. You need JavaScript enabled to view it.