LOFTER for ipad —— 让兴趣,更有趣

点击下载 关闭

LOFTER-网易轻博

商业智能

1449浏览    197参与
德诺迈斯集团
ygt_one

BI分析报告未来发展前景

伴随着大家数据意识逐渐的提升,现在早就已经进入到了商业智能分析的一个领域,与此同时bI分析报告也进入到了快速发展的阶段,可是大家也非常的好奇他未来的发展前景到底会怎么样呢?

1.主要的预测

bi分析报告基本上就已经进入到了可操作的阶段,为大家呈现出丰富的功能,而且还具备平台的安全性,有着分享数据的一种能力,在这些功能模式上都有了快速的一种提升,所以说在经过了多年发展之后可能还会有更多的优势。

2.行业总体趋势较好

在当前经济的环境下,企业的盈利压力本身就出现了明显的增加,越来越多的企业都选择了精细化的运营,希望能够有效的降低运营的成本,提升市场的竞争能力,这些企业大部分在2008年到2015...

伴随着大家数据意识逐渐的提升,现在早就已经进入到了商业智能分析的一个领域,与此同时bI分析报告也进入到了快速发展的阶段,可是大家也非常的好奇他未来的发展前景到底会怎么样呢?

1.主要的预测

bi分析报告基本上就已经进入到了可操作的阶段,为大家呈现出丰富的功能,而且还具备平台的安全性,有着分享数据的一种能力,在这些功能模式上都有了快速的一种提升,所以说在经过了多年发展之后可能还会有更多的优势。

2.行业总体趋势较好

在当前经济的环境下,企业的盈利压力本身就出现了明显的增加,越来越多的企业都选择了精细化的运营,希望能够有效的降低运营的成本,提升市场的竞争能力,这些企业大部分在2008年到2015年之间就已经使用了bi分析报告,储存了很多的运营数据,而这些需求估计在2018年到2022年就会进入到全面爆发的一个阶段,所以说未来的市场容量肯定就会出现不断扩大的一种现象,也会呈现快速的暴富。

3.bi分析报告的显现

所谓马太效应,其实也就是强者更强,弱者更弱的一种情况,而目前国内的bi分析报告也呈现出这样的一种情况,根据目前的数据调研就可以看到处于第一梯队的很多知名品牌,和一些厂家都出现了明显的拉大现象,在2017年的时候,全年的营业收入已经达到了2.77个亿,这对于其他国内的厂商来说,即便全部加在一起,也都没有办法超过于他这一些,也就成为了大家最为关注的一个内容, 从这里我们也可以看到这一个数据平台还是很有好的发展,未来必定会越来越强。

4.BI分析报告平分秋色

BI分析报告之所以可以和传统型有着平分秋色的一种效果,主要就是因为自从2013年开始就已经进入到快速发展的一个阶段,2017年的时候才进入到平分秋色的一个阶段,售房企业中大概有52%的人群还在使用传统的bI数据分析,其中最为典型的也就是进行月报表的分析等等,整体的优势性还是比较不错的。

而当我们对于bi分析报告再进行全面了解之后,也知道这一个发展未来是很有趋势性的,而且目前已经进入到了可操作的一个阶段,为大家体现出平台的安全性,也呈现出丰富的功能,备受大家的关注。


ygt_one

在商业智能(BI)中成功融合大数据的10个步骤

企业每一天都在产生并获取大量的关于客户、供应商和运营方面的信息。再加上目前可以在多媒体、智能手机和社交网站获取的信息,我们正面临着比以往任何时候都更多的数据。

传统数据仓库的性能已无法应付庞大的信息,但是大数据(Big Data)技术使我们能够访问和使用这些宝贵的、大规模数据集以应对越来越复杂的数据分析和更好的商业决策制定。

大数据明确将被持续下去。Gartner公司的分析师声称信息量每年正以最少59%速度在递增。IDC最新的数字宇宙(Digital Universe)研究估计到2020年世界上的数据存储总额将达到35 ZB(zettabytes)(1zettabyte等于一万亿GB字节)...

企业每一天都在产生并获取大量的关于客户、供应商和运营方面的信息。再加上目前可以在多媒体、智能手机和社交网站获取的信息,我们正面临着比以往任何时候都更多的数据。

传统数据仓库的性能已无法应付庞大的信息,但是大数据(Big Data)技术使我们能够访问和使用这些宝贵的、大规模数据集以应对越来越复杂的数据分析和更好的商业决策制定。

大数据明确将被持续下去。Gartner公司的分析师声称信息量每年正以最少59%速度在递增。IDC最新的数字宇宙(Digital Universe)研究估计到2020年世界上的数据存储总额将达到35 ZB(zettabytes)(1zettabyte等于一万亿GB字节)。

大数据将改变商业智能(BI)的布局,并为企业提供一种有价值的数据源。首席信息官(CIO)应遵行以下的步骤才能成功地将大数据融合在他们的商业智能 (BI)程序中。

一、 找到合适的项目— 可以说最重要的一步是确定在合适的项目上测试大数据(Big Data)。需要解决的必需是一种商业问题,而不是一种技术问题。确保项目能提供直接利益或好处,而这些在现有的基础设施上是无法实现的。那样你就能赢得主管的支持。

二、获得主管的支持 — 大数据(Big Data)是对你在数据仓库技术中现有投资的补充。主管的支持将基于对以证据为基础的策略价值的接受(例如,他们可能广泛在企业内部已经使用着数据仓库和数据挖掘)。

三、找到合适的人— 你会需要有非常特殊技能的人;那些能处理大型、分布式数据集和与之相关的硬件的人。然后是一些让所有的数据有意义并能把它们放入商业内容的人;要把数据科学家想成是和现有的数据分析师和数据挖掘师不一样的人。

四、接受开源 — 大数据意味着对工具集不一样的思考并很快能适应开源。传统的供应商不一定能解决这方面的问题;大多数大数据工具都是开源的。在这个市场上的创新团体是由来自谷歌、雅虎、苹果和Facebook这样的公司中最聪明的人组成。

五、不要从零开始 — 最广为接受的大数据工具是Hadoop,它是一种可以从Cloudera 或EMC获得的开源技术。Hadoop旨在缓解在数据上执行规模化批处理的复杂性,并在Apache的项目框架内进行管理;它能提供你需要的基本工具。主要的商业智能 (BI)供应商都宣布对大数据技术的支持,或在解决方案中使用大数据技术。

六、对架构和硬件的改变作好准备 — 数据海洋中的大数据要做的事不仅要对大规模的信息运行分析而且也成为数据仓库的一种来源。你会更少需要对少数大型机器的依赖和更多依靠大量的通用硬件和云资源。

七、购买设备从少量标准部件起 — 设施即服务(IaaS)供应商们和云资源为所需的企业提供大量的最新,及时的基础设施。安全的忧患往往是个阻力,但是可以克服的。

八、找到一种未使用的数据源 — 比如说,看一看从你公司网站上收集的数据。它可以给你提供网页的受欢迎程度、一天中对网站访问的集中的时间和你的客户使用的是哪一个网络服务提供商(ISP)这样一些信息。挖掘用于市场和销售的这些信息的潜能。

九、考虑数据可视化 — 想一想呈现数据的新方式。由于数据容量的原因,表格或图形的使用对一些大数据分析根本没有意义。Edward Tufte 和 Stephen Few在这方面是卓越的作者。

十、管理期望值 — 大数据有益于大型分析以及长期的战略方向。确保你的用户知道它不会交付在结构化数据之上的月度管理报表或即时查询。

原文链接:http://www.chinabi.net/CIO/implement/201111/2060.html



ygt_one

什么是商业智能BI和实施BI的解决方案

商业智能定义和解决方案 

什么是商业智能? 

商业智能,或BI,是一种统称,泛指用于对一个企业的原始数据进行分析的各种各样的软件系统。商业智能(BI)是由若干相关的活动组成的领域,包括 数据挖掘,在线分析处理,查询和报表。 

企业用商业智能(BI)来提高决策制定,降低成本和识别新的商机。商业智能(BI)不仅仅只是公司的报表或从企业系统中引导出信息的一套工具。信息主管通过商业智能(BI)来发现企业内低效的,需要改进的商业流程。 

利用现在的商业智能(BI)工具,商业人士可以随时自己开始对数据进行分析,而不要等待IT来运行一个复杂的报表。这...

商业智能定义和解决方案 

什么是商业智能? 

商业智能,或BI,是一种统称,泛指用于对一个企业的原始数据进行分析的各种各样的软件系统。商业智能(BI)是由若干相关的活动组成的领域,包括 数据挖掘,在线分析处理,查询和报表。 

企业用商业智能(BI)来提高决策制定,降低成本和识别新的商机。商业智能(BI)不仅仅只是公司的报表或从企业系统中引导出信息的一套工具。信息主管通过商业智能(BI)来发现企业内低效的,需要改进的商业流程。 

利用现在的商业智能(BI)工具,商业人士可以随时自己开始对数据进行分析,而不要等待IT来运行一个复杂的报表。这样民主化的信息访问让用户在做商业决策时有了硬性数据的支持,否则就只能基于直觉来做出决策。 

虽然商业智能(BI)有光明的前景,但它的安装启用却受到技术和企业文化挑战的困扰。高管们必须确认在商业智能(BI)系统中所用的数据是干净与一致的,所以用户才会信任它。 

什么样的企业会使用BI系统? 

象HARDEE’S,WENDY’S,RUBY TUESDAY 和T.G.I. FRIDAY’S这样的连锁餐馆业大量地使用着商业智能(BI)软件。他们用商业智能(BI)做出战略决策,诸如在菜单上添加什么新品,哪一种菜式要被删除和哪一个业绩欠佳的店要被关闭。他们还用商业智能(BI)来决定战术的事项,象与食品供应商重新谈判合同和找到改进低效率流程的机会。因为连锁餐馆深受日常商务运作的驱动,而商业智能(BI)对他们经营上的帮助是如此的重要,所以他们成为所有行业中使用BI的中坚力量,而真正地从这些BI系统中得到实际价值。 

BI的关键组件之一 ― 业务分析 ― 是在各种行业中成为一个成功企业所必不可少的,在专业的体育团队像波士顿的 RED SOX,奥克兰的A’S和新英格兰的PATRIOTS中,业务分析就更加的必不可少。 

利用一种分析的方法,PATRIOTS在四年中赢得了三次美国橄榄球超级杯大赛。这个球队在很多方面都用到了数据和分析模型,无论是在场内还是场外。深入的分析帮助这个球队在全美橄榄球联盟(NFL)的薪资上限之下选择球员。PATRIOTS的教练与球员对比赛录相和统计资料的研究是出了名的,教练BILL BELICHICK阅读由经济学者写的关于足球赛结果的统计概率的学术文章。在场外,这只球队利用详细的分析评价和改进“全体球迷体验”。在每一场主场比赛,举例来说,会特别安排20至25人进行定量测定体育场的食物、停车、人员、浴室整洁和其他因素。 

在零售业,沃尔玛(WAL-MART)利用大量的数据和分类分析来帮助它占领市场。HARRAH’S在赌博业的竞争中改变了它的基调,从建立大型赌场转向分析周边客户的忠诚度和服务上。亚马逊(AMAZON)和雅虎(YAHOO)不仅仅是电子商务网站,他们忙于分析和遵循一种“测试和学习”的方法转变商业。CAPITAL ONE一年要做30,000多次的实验来鉴定理想的客户和为信用卡定价。

谁应该起到领导的作用? 

分享对一个成功的商业智能(www.guandata.com)项目来说,至关重要。因为在这个流程中的每一个人必须能全完访问能够改变他们工作方式的信息。商业智能(BI)项目应该始于最高行政官,但是接下来的用户应该是销售人员,因为他们的工作是增加销售,而且由于他们的收入与增加销售的能力有关,他们更愿意接受任何工具用来帮助他们 ― 当然前提条件是这些工具易于使用,而且信息是值得依赖的。 

在商业智能(BI)系统的帮助下,员工调整他们个人和团队的工作实践,从而使整个销售团队的业绩得到提高。当销售主管从一个团队到另一个团队身上看到业绩上有一个大的改变,他们会想办法使那些落后的团队赶上领先者。 

一旦你让销售人员使用了商业智能(BI)系统,你可以通过他们来帮助企业中其他的人员加入到商业智能(BI)的阵营中来。他们会象传教士一样,滔滔不绝地讲述工具的威力和商业智能(BI)如何改善了他们的生活。 

我应该怎么实施一个BI系统? 

当绘制一个商业智能(BI)的进程,企业首先应该分析他们做出决策的方式,还要考虑到高管们需要哪些信息增加他们的信心和更快速地做出决策,以及他们愿意这些信息如何地提交给他们(例如,作为报告,一个图表,在线,还是硬拷贝)。对制定决策的讨论将驱使公司选择什么样的信息他们的商业智能(BI)系统可以收集、分析、公布。 

一个好的商业智能(BI)系统需要给出来龙去脉,如果他们的销售报表上表示昨天是X,一年前的同一天是Y,这样是不够的。他们需要解释有什么因素影响了商业,导致销售为现在的X和去年同一天的Y。 

正如许多的技术项目,如果用户受到技术的威胁或对技术产生怀疑,导致拒绝使用它,那商业智能(BI)就不会产出回报。当谈到商业智能(BI),如果从战略上实施,应该从根本上改变企业如何运作和人们如何做出决策,首席信息官需要格外地留意用户的感觉。 

推广商业智能(BI)系统的七个步骤:

  1. 确认你的数据是干净的。

  2. 有效地培训用户。

  • 快速部署,边运行边调整。不要花大量的时间事先开发一个“完美”的报表,因为随着业务的进展会有新的需要产生。快速地提交一个能提供大部分价值的报表,然后调节他们。

  • 从一开始就用一种整合的方式建立你的 数据仓库。确认你不会在运行一段时间以后,被一个无法运转的数据策略困住你自己。

  • 在你开始之前就定义好投资回报率(ROI)。对你期望实现的具体利益做出概述,然后每季度或6个月进行一次现状核实。

  • 专注于商业经营目标。

  • 不要因为你认为你需要就购买商业智能软件。带着这样的理念去部署商业智能(BI):有一些数据你需要去发现,而且大致知道这些数据会在哪里。

有哪些潜在的问题?

用户的抵制对商业智能(BI)系统的成功来说是一个大的阻碍;另外还包括从海量的无关数据和品质低的数据中去伪存真。 从商业智能(BI)系统中获得准确洞察力的关键是标准数据。任何商业智能(BI)都力足于数据这一最基本的成份,它是洞察力的建筑基础。企业在他们可以开始提取洞察力并依此行动之前,必须让他们的数据存储和数据仓库处于良好的工作状态。如果不是这样,他们将会在有缺陷的信息基础上运营。 

另一个潜在的陷阱是商业智能(BI)工具本身。虽然这些工具较以往大多有可扩展性和用户友好界面,商业智能(BI)的核心仍然是报表而不是流程管理,尽管这一点慢慢开始有所改变。要小心别将商业智能与商业分析混为一谈。 

运用BI转换业务流程的第三个障碍是,大部份企业对他们业务流程的理解不足,以致于他们没法决定如何去改进它们。而且企业需要小心他们要选择的流程。如果流程对销售没有直接影响或业务客户不支持整个公司的标准化流程,整个BI的努力还是会徒劳无功。公司需要了解构成一个特定的业务流程的所有的活动,信息和数据怎样在不同的流程之间流过,数据在商业用户之间怎样交换,和人们如何使用它来执行流程中特定的那部分。如果他们希望能改进人们的工作,那他们在BI项目开始之前就需要了解这一切。 

商业智能的努力有哪些好处?

广泛应用的BI已经帮助企业获得了令人赞叹的投资回报率(ROI)。商业智能一直被用来鉴定削减成本的创意,揭示商业机会,把企业资源规划( ERP)数据转变成容易理解的报表,对零售需求的快速反应和优化价格。 

除了让数据变得容易获取,BI软件在企业与供应商和顾客之间的价值关系的量化上更容易,因此给了企业更多的的谈判筹码。 在企业内部,有大量的机会可以通过优化业务流程和集中决策来节省资金。在业务遭遇大挫折时,商业智能(BI)能带来一线曙光,产出显著的投资回报率(ROI)。例如,阿尔伯克基市的就业者使用商业智能(BI)软件来识别机会以减少使用手机通话,加班及其他营运开支,三年期间为这个城市节省了200万美元。同样地,在商业智能(BI)工具的帮助下,丰田汽车公司意识到对它的运货商双倍地付费,于2000年总数达812,000美元。利用商业智能(BI)来揭示业务流程中存在的缺陷的企业,与仅用商业智能(BI)来监控会发生什么事情的企业相比,在成功的竞争中处于更有利的地位。 

让BI正确运行的更多窍门:

  • 分析主管们如何做出决策

  • 考虑主管们需要什么样的信息来促进快速,准确的决策

  • 注意数据的质量

  • 设计与业务最相关的效率指标

  • 为影响效率指标的因素提供来龙去脉

记住,商业智能(BI)不仅仅是决策支持。由于不断改进的技术和首席信息官们(CIOS)实施它的方法,现在的商业智能(BI)有潜力去转换企业。成功使用商业智能(BI)的首席信息官们(CIOS)在帮助企业改进业务流程方面的贡献,要比通过实施基本报表工具的首席信息官们(CIOS)更深远。

原文链接:http://www.chinabi.net/CIO/knowledge/201106/1776.html


ygt_one

企业分析决策真的离不开数据仓库吗?

很长一段时间,BI数据仓库几乎都是如影随形、难舍难分。企业如果想要实行“数据驱动决策-决策推动业务发展”的机制,就必须先有数据仓库充当中央存储库,供BI查询和调取,然后再在BI上进行数据的分析与可视化。

数据分析和商业决策发展至今,企业想要实现数据驱动决策,是否还是无法绕过数据仓库?在现代商业环境中重新定义BI和数据仓库,我们又能不能找到合适的替代方案?

今天,我们就这个命题展开讨论,希望能给大家提供一些思路。

传统BI项目的构建路径决定了其必须依赖数据仓库才能进行数据分析。比如MicroStrategy,SAP BW,微软 Analysis Server, IBM的Cognos,Oracle...

很长一段时间,BI数据仓库几乎都是如影随形、难舍难分。企业如果想要实行“数据驱动决策-决策推动业务发展”的机制,就必须先有数据仓库充当中央存储库,供BI查询和调取,然后再在BI上进行数据的分析与可视化。

数据分析和商业决策发展至今,企业想要实现数据驱动决策,是否还是无法绕过数据仓库?在现代商业环境中重新定义BI和数据仓库,我们又能不能找到合适的替代方案?

今天,我们就这个命题展开讨论,希望能给大家提供一些思路。

传统BI项目的构建路径决定了其必须依赖数据仓库才能进行数据分析。比如MicroStrategy,SAP BW,微软 Analysis Server, IBM的Cognos,Oracle的OBIEE,这些传统BI工具不具备使数据集成标准化的能力,数据仓库的存在就是帮助他们建立数据治理结构,解决数据冗余、不一致、错误、无法轻松访问等问题。

另一方面,BI对数据仓库的这种依赖其实存在着极大的缺陷。一般来说,数据仓库通常需要花费高经济成本、时间成本从规划到落地,但创造的价值大多数情况比较有限,ROI较低。搭建成功后,数据仓库也仅支持极少数特定类型的分析,如果企业业务出现调整或者需要处理新类型的数据,届时又将重新面临重大的开发工作。

从现代商业决策视角,重新审视BI与数据仓库的关系

在如今转向服务导向架构(SOA)(*由Gartner提出,以“服务”为基本元素来组建企业IT架构的方式。SOA要解决的主要问题是:快速构建与应用集成,现已成为解决企业业务发展需求与企业IT支持能力之间矛盾的最佳方案。)的技术大背景中,耗费巨大心力进行大规模的数据整合和数据集成操作是否还有必要?构建数仓的收益是否能大于你将付出的成本?

再加上企业数据体量不断提升,业务发展越来越迅速,对快速印证分析决策也提出了更高要求,更多的企业希望能够降低技术设施成本,做到近乎实时地访问操作源数据,在极短的时间内响应用户请求。

于是我们看到了越来越多没有数仓的BI项目。一方面,敏捷BI的兴起,允许用户快速接入各类数据源,无需借助数仓即可实现数据导入-处理-分析的流程。而另一方面,以观远数据为代表的新一代AI+BI智能数据分析平台,则在快速接入、敏捷分析的基础上,实现了更进一步的应用:

观远数据智能分析平台:

1. 自带轻量的分布式数据存储与数据流处理模块,提供从数据抽取、数据建模、数据分析,到数据可视化、预警分发的一站式数据分析应用能力;

2. 即便不抽取数据,也可实现多数据源的联邦动态分析(联动、钻取、动态参数等交互分析功能)。

在这个角度上来看,一定程度上可以在没有数据仓库的前提下实现智能数据分析,但是,这仅限于数据量有限的中小型企业,不意味着我们推荐直接拿数据分析平台上的数据存储当做数据仓库来用。

因为随着企业用户数据量、分析复杂度的不断提升,数据分析平台上轻量式数据存储与数据流处理模块是难以承受巨大的计算压力的,从企业长远发展的角度上考量,还是需要有计划地建设数据仓库或数据平台。

更多细节请参看:https://www.guandata.com/product/20190521-5


ygt_one

秒懂!什么是BI商业智能!

这应该是很多刚刚接触BI读者最开始想了解的问题,经常会看到数据可视化、数据分析、数据仓库和大数据等词汇时会有的摸不着头脑,本次就以什么是BI商业智能中心,浅显易懂的让刚接触BI的读者能最快的了解什么是BI

Excel!这个办公软件我相信很多人都用过,基本上每个人的电脑中都会配备,用来做一下报表,生成具有统计作用的图像,大大的方便了日常的办公。我们假设,你在美国有一个小型的连锁食品企业。你用Excel来处理销售和经营的数据。用这种方法,结果就是,你会得到大量的数据,却只有一点点的市场洞察。突然有一天,你不再满足于只读一些利润和营收的数字,而希望更深入地了解你的企业。

那么,现在你要如何得到...

这应该是很多刚刚接触BI读者最开始想了解的问题,经常会看到数据可视化、数据分析、数据仓库和大数据等词汇时会有的摸不着头脑,本次就以什么是BI商业智能中心,浅显易懂的让刚接触BI的读者能最快的了解什么是BI

Excel!这个办公软件我相信很多人都用过,基本上每个人的电脑中都会配备,用来做一下报表,生成具有统计作用的图像,大大的方便了日常的办公。我们假设,你在美国有一个小型的连锁食品企业。你用Excel来处理销售和经营的数据。用这种方法,结果就是,你会得到大量的数据,却只有一点点的市场洞察。突然有一天,你不再满足于只读一些利润和营收的数字,而希望更深入地了解你的企业。

那么,现在你要如何得到这些信息呢?你需要把所有店铺里的销售和经营数据弄到一个地方来(当然,可能就是简单地在电脑上把多个excel文件复制粘贴到一块儿),然后做一些加减。比如要算一个折扣商场的总销售额,你可能就把所有产品品类(如肥皂、饼干等)的销售额加起来一下。

现在,你终于可以回答关于“什么东西”“在什么时候”“在什么地方”以及“多少钱”的问题了。之后,你还可以再画一个柱状图或者饼图来让数据更直观易懂。现在,如果你要做一个关于你的企业的考试的话,毫无疑问你可以拿最高分。所以,你是不是希望这些过程都可以不用你来手动操作,而是自动地自己完成,你是不是希望有人可以定期地给你发送这样的报告?那么,欢迎来到商业智能系统的世界!

将所有数据收集到一起,这个过程被称作“数据仓储”,这就是商业智能系统的核心。当你复制多个excel上的数据到一个专门文件上的时候,这个专门文件就变成了你的“数据仓库”。相同的概念也可以应用在各种数据库、平面文件和公开数据上。所有类型的常规和特定报告都来自于数据仓库,而ETL工具则是用来支持数据仓库的流程。

---------------------  

来源:CSDN 


ygt_one

智慧零售的数字化升级面临的挑战

零售企业需要跨越数字鸿沟

  对于零售企业来说,技术、战略和消费者的体验交织在一起,零售企业的核心任务已经成为如何迎合消费者的期望,即消费者对产品线上与线下,跨渠道和跨设备无缝零售的体验。

  年初,德勤全球最新发布的《2016年全球零售力量:跨越新数字化鸿沟》报告显示,数字化技术在零售方面呈现出三大主要趋势:

  第一,数字化普及路径各异。虽然所有市场正逐渐普及数字化,但发展路径却不尽相同。一些新兴市场完全跳过了成熟市场之前所经历的应用阶段。

  第二,一种数字化模式无法适合所有顾客。受年龄和收入等人口因素以及购买产品类型的影响,数字化行为呈现多样化。

  第三,消费者期待更好的数...

零售企业需要跨越数字鸿沟

  对于零售企业来说,技术、战略和消费者的体验交织在一起,零售企业的核心任务已经成为如何迎合消费者的期望,即消费者对产品线上与线下,跨渠道和跨设备无缝零售的体验。

  年初,德勤全球最新发布的《2016年全球零售力量:跨越新数字化鸿沟》报告显示,数字化技术在零售方面呈现出三大主要趋势:

  第一,数字化普及路径各异。虽然所有市场正逐渐普及数字化,但发展路径却不尽相同。一些新兴市场完全跳过了成熟市场之前所经历的应用阶段。

  第二,一种数字化模式无法适合所有顾客。受年龄和收入等人口因素以及购买产品类型的影响,数字化行为呈现多样化。

  第三,消费者期待更好的数字化工具。数字化工具和渠道可以帮助零售商扩展业务范围和增加收入,但零售商目前提供的数字化服务令顾客感到服务不周或不尽如人意。

CIO将经历更多考验

  对于企业内部而言,作为零售技术革新的领导者,CIO需要深入参与到业务流程中,了解业务,支持业务已经成为企业对CIO的要求。对行业的深刻了解、细致的战略规划、合理的投资结构、新技术的正确运用,CIO的角色、能力、和任务也将在未来经受更多的考验。因而,2016年CIO将会面临以下七大革命性挑战:

  1.企业多渠道销售的专家

  2.危机预防计划的制定

  3.减少违规安全的计划

  4.必须在业务环节和消费者中增加影响力

  5.必须打破技术发展的壁垒

  6.解决BOPIS实践的失败

  7.更加依赖大数据而不是直觉

  Ugam公司的副总裁Sudhir Holla指出,如今冲击零售企业的数据爆炸,不仅仅包括交易数据,还包括了不断升级的多渠道销售数据、社交和移动,以及新的数据种类例如用户的位置、喜好和互动等。他认为,CIO们可以应用大数据分析,在不触碰价格的前提下增长产品的利润。并通过产品的评论和谷歌等平台的搜索趋势,来分析消费者的喜好,而不像以前那样通过历史销售数据,或是仅凭直觉就去制定决策。

       而在大数据分析领域,特别是针对零售行业的智能数据分析,国内做的比较好的算是观远数据,最近这家企业接连拿下如NOME(诺米家居)、野兽派、小红书、冈本、Lily、奈雪的茶等新式品牌,逐渐构建起观远数据的潮流生活“朋友圈”。

大家可以了解了解这家公司:观远数据



ygt_one

商业智能(BI)界的PPT,这个“姿势”很创新

最近看到一家新兴的数据公司——观远数据——发布了一款新的“PPT”仪表板投屏效果功能,应该算是业界第一个吧。


背景

早在2018年初的时候,观远数据就已经提供了大屏投放的解决方案:用户可以通过“投屏设置”调出大屏分割线,设计好仪表板后可点击“投屏”将当前页面进行全屏展示。


备注:“大屏投放”:能提供一种沉浸式的浏览、探索数据体验,深受企业老板喜欢。有些企业在内部公共区域内架设了十几块大屏来实时监控各项营运数据,装点门面的同时也真正做到了数据透明化、数据驱动效率。也有的老板直接把大屏投放搬进了自己的办公室,那种一抬头就能看到企业实时运营数据的美妙的感觉,别提有多诱人了!


企业运营...

最近看到一家新兴的数据公司——观远数据——发布了一款新的“PPT”仪表板投屏效果功能,应该算是业界第一个吧。


背景

早在2018年初的时候,观远数据就已经提供了大屏投放的解决方案:用户可以通过“投屏设置”调出大屏分割线,设计好仪表板后可点击“投屏”将当前页面进行全屏展示。


备注:“大屏投放”:能提供一种沉浸式的浏览、探索数据体验,深受企业老板喜欢。有些企业在内部公共区域内架设了十几块大屏来实时监控各项营运数据,装点门面的同时也真正做到了数据透明化、数据驱动效率。也有的老板直接把大屏投放搬进了自己的办公室,那种一抬头就能看到企业实时运营数据的美妙的感觉,别提有多诱人了!


企业运营大屏demo

但随着使用的深入,客户的需求也在不断的深化:

 作为老板,光一个屏幕可能并不能显示较为全面的营运数据。能不能在有限的空间内获得更多的信息?能不能实现多个页面间的自动轮播切换?

 作为企业中层,既然我们已经有了这么高大上的仪表板,平时工作中关注的业务指标也都在上面,能不能开会的时候就直接像使用PPT一样来使用仪表板页面,上下左右自由切换想要汇报的内容?

那应该怎么在现有投屏的基础上丰富投放的效果,将客户真实的需求转化为落地的产品呢?

思路

我们先放眼BI圈,发现并没有水做过类似于PPT这个功能,与这个需求最为匹配的,其实是MicroStrategy在近年刚刚推出的达析报告(MicroStrategy Dossier)。该产品主张用章节和页面的方式来组织和管理仪表盘,方便用户浏览报告和数据可视化结果。更形象的说法是,看达析报告就像是看一本书,内容和目录结构是提前组织好的,终端用户使用时想看哪页就翻到哪一页。

而观远数据提供的“幻灯片”功能区别在于:

1. 需要像PPT一样来全屏展示内容,提供沉浸式的数据分析体验;

2. 观远数据的页面支持纵向无限延伸,需要支持上下翻页

3. 最好内容与目录结构是可灵活调整的,也就是说能随时添加和移除页面,同时一个页面也能归属多个幻灯片;

4. 需要支持大屏无人值守场景下的自动播放、循环播放

5. 需要支持“幻灯片”授权与分发,同时全面兼容观远原有的权限体系,确保数据安全

解决方案

于是乎,观远BI——“幻灯片”功能就应运而生了!

我们在九宫格内新增了幻灯片功能,用户可以根据自己的需求,把已有的仪表板组织在一起变成一组幻灯片,并可根据需求配置是否自动翻页及翻页间隔、是否循环播放、是否显示页面名称等功能。

同时你也可以添加一些描述信息来备注该幻灯片的使用场景。用户也可以将自己组织好的幻灯片分享给其他用户使用,如果涉及权限问题被分享用户没法访问部分页面的,在投屏展示时也会自动跳过,确保数据安全。

不说废话了,上视频连接(请点击查看):

BI幻灯片demo.MP4

应用场景

有了“幻灯片”这个神器,领导办公室的电视大屏内容就丰富起来了,关键指标、销售分析、日报月报、市场营销,一屏接着一屏,全方位掌控企业经营状况。

作为中层,向领导汇报工作,再也不用日复一日地制作PPT来汇报。只要在观远将日常关注的页面预先组织好结构,打开幻灯片,就能像讲故事一样从容地汇报工作了。而且在幻灯片模式下,页面同样支持联动、下钻、参数等功能!


不得不叹服,牛逼!


ygt_one

2019商业智能BI软件的发展趋势,共同学习

2019年,商业智能(BI)解决方案的核心竞争力,仍将取决于其是否具备使手动工作量降到最低的高级分析功能。《商业应用研究中心(BARC)2018商业智能调查》显示,全球BI服务市场预计将发生重大的技术变革。BI用户在2019年可以期待的主要技术举措是云BI部署,移动BI,机器学习和由深度学习支持的智能分析,以及严格的数据隐私和安全法规。

随着人工智能(AI)和机器学习(ML)技术不断地改变业务形态,企业将越来越依赖于BI系统强大的自动化数据分析功能。就业务分析和商业智能而言,人工智能的研究已经达到了某种程度的成熟,大规模的机器学习(ML)应用和小规模的深度学习(DL)应用已经开始进入市场。2019...

2019年,商业智能(BI)解决方案的核心竞争力,仍将取决于其是否具备使手动工作量降到最低的高级分析功能。《商业应用研究中心(BARC)2018商业智能调查》显示,全球BI服务市场预计将发生重大的技术变革。BI用户在2019年可以期待的主要技术举措是云BI部署,移动BI,机器学习和由深度学习支持的智能分析,以及严格的数据隐私和安全法规。

随着人工智能(AI)和机器学习(ML)技术不断地改变业务形态,企业将越来越依赖于BI系统强大的自动化数据分析功能。就业务分析和商业智能而言,人工智能的研究已经达到了某种程度的成熟,大规模的机器学习(ML)应用和小规模的深度学习(DL)应用已经开始进入市场。2019年,用户将首次切实感受到这种高级数据分析成为主流趋势。

《未来一年BI解决方案的可见性趋势列表》报告指出,或许所有企业使用者在他们偏爱的BI平台上渴求改进的全新功能,都可以在来年有如下预期:

  • 首席数据官:探究2018年及未来的6大商业智能发展趋势,我们将发现,到2019年底,90%的大企业都将拥有首席数据官,这个人将在推动企业的数据分析文化中发挥关键作用。

  • 自助服务: Gartner认为,到2019年,用户采用自助分析进行的数据科学活动,将比数据科学家产出更多的业务分析价值。

  • 新的数据治理举措: 2017年数据泄露事件频繁发生,使得更严格的DG政策和法规成为必要。缺乏数据保护将为企业带来巨大损害,因此,通过遵守通用数据保护法规(GDPR)等法规实现数据治理,将是BI解决方案供应商在2019年的首要任务。

  • 专注于主数据和数据质量:数据质量为BI的成功操作提供了重要基础,因此BI解决方案供应商专注于提供增强功能来管理其系统上的主数据和数据质量。2019年,客户将能够从包含主数据的单个统一数据库(而不是多个断开连接的数据库)监控和管理数据质量。

  • 迁移上云: Gartner预测,到2021年,大多数企业都会将其数据活动的重要部分(包括高级分析)迁移到云端,这种趋势正在逐步展开。观远数据目前支持云部署模式,为企业降低了内部基础设计拥有和维护成本。在2019年,用户当然可以期待更多的云应用。

  • 自助式BI:自助BI的目标是实现数据应用的大众化,并确保业务分析能真正实现为企业基层人员带来增益。在观远智能BI平台中,无论用户处于什么职位,他们都可以直接访问并借助这个工具创建所需报告,希望这一趋势也能够减轻内部IT人员的负担。

  • 增强型BI:自助式BI平台的普遍使用,让用户可以在2019年进一步使用增强性的分析工具。比如观远数据借助人工智能和机器学习带来更为先进的生产力,从而极大程度改善用户体验。得益于这些先进的BI工具,由于数据科学家数量短缺带来的影响也变得不那么明显了。

  • 高级数据发现工具:高管们时常发现,完全依赖富有经验的数据科学家来处理日常业务显然不太现实。幸运的是,具有高级数据可视化功能的新BI系统将消除在匆忙的决策会议期间需要数据科学家的窘迫状况。2019年,这个功能将会从在公司董事会内部迅速发展的趋势继续扩展到下属各个管理层。

正如专家指出的那样,商业智能的未来是光明的,这些不断发展的趋势都在帮助我们清晰预览未来的商业智能世界。根据《高级分析:探索一些变革性的未来趋势》,更多政府也将在其管理系统中采用大数据分析。

点击查看原文


澳璞

Terry Lin: 商业智能(BI)让会计与财务管理事半功倍

科技与经济从未脱离过,商业智能(BI)的手臂已渐渐伸向会计与商业分析领域。它与财务模型BI 商业智能、云技术一起,正使会计行业发生革命性的变化。

身为澳洲财务模型师协会(Australian Financial Modeller Association)创始人、锡德培训集团(Seed Training Group) CEO,Terry Lin还是业内公认的商业智能在澳洲会计实战应用第一人。

2016年4月,在悉尼和墨尔本举行的 “精英说Elite Talks”上,Terry Lin和现场500的多位观众分享了商业智能(BI)的理念,并预测商业智能技术将冲击现代会计与财务管理行业并...

科技与经济从未脱离过,商业智能(BI)的手臂已渐渐伸向会计与商业分析领域。它与财务模型BI 商业智能、云技术一起,正使会计行业发生革命性的变化。

身为澳洲财务模型师协会(Australian Financial Modeller Association)创始人、锡德培训集团(Seed Training Group) CEO,Terry Lin还是业内公认的商业智能在澳洲会计实战应用第一人。

2016年4月,在悉尼和墨尔本举行的 “精英说Elite Talks”上,Terry Lin和现场500的多位观众分享了商业智能(BI)的理念,并预测商业智能技术将冲击现代会计与财务管理行业并引发革命性的变革。

“精英说Elite Talks” 是澳大利亚最具影响力的青年精英论坛,论坛邀请各行业领军人物作为演讲人,分享各自的职业故事。

商业智能的英文全称是“Business Intelligence”,简称“BI”,这一概念最早在1996年由加特纳集团(Gartner Group)提出,指通过商业信息的搜集、管理和分析过程,使企业的各级决策者获得知识或洞察力,进而做出对企业更有利的决策。

商业分析领域的Power BI是由微软开发的系列应用组件和工具,它能够深入数据挖掘并实现多角度数据分析,提供高效、准确的数据报告。Power BI整合了包括Power Query、Power Pivot、Power View和Power Map等一系列组件,支持导入各种数据格式;生成的动态报表则可以通过互联网游览,让决策者无论何时、何地,都可以轻易地使用报表。

在Terry Lin看来,Power BI具有“高智商”、“高效率”、“高颜值”的特点。所谓“高智商”,是指通过Power BI实现人与应用软件之间的“问与答”功能,即报告会与人互动。“高效率”是指数据源可设置为自动更新,无需人工干预就可以达成实时更新。此外,Power BI所制作的财务模型具有可视化及可拓展的视图,即“高颜值”。

Terry Lin推崇将 BI 商业智能运用于日常工作中。“会计和商业分析从业人员日常工作涉及大量的数据清理和汇总。一旦掌握了的Power BI的核心逻辑,熟悉常规分析功能,使用者便能很快从众多文档中快速提取所需数据,整合不同文件类型的数据并实现数据结构的自动转换。” Terry Lin介绍道,“而且Power BI用户界面很友好,会计、分析人士和管理人员经过简单培训,就可以在工作中应用这项强大的数据分析工具了。

8月初,Terry Lin受邀于ABC澳洲国家广播电视台(Australian Broadcasting Corporation),举行了一场关于商业智能技术应用的培训,使学员体验到了BI技术带来的高效与便捷。9月上旬,他被澳洲CPA (Certified Practising Accountants) 邀请去主讲另一场Power BI应用的讲座。这几场培训见证了澳洲财务模型师协会(AFMA)在B2B业务上的提高,同时也体现了澳洲主流公司对于BI技术的高度正视和认可。

会计与商业分析领域, BI商业智能新时代已经开启,技术过时无疑会被后浪打在前滩上,只有抓住机遇才有机会成为这场技术革新中的弄潮儿。(《澳洲都市报》ID:AuCityDaily 编辑 孔博)

数控小J

5年内Hadoop大数据分析市场产值将超500亿美元

根据MarketsandMarkets最新发布的一份市场研究报告声称,Hadoop大数据市场产值预计会从2016年的67.1亿美元猛增至2021年的406.9亿美元,2016年至2021年的年复合增长率(CAGR)将高达43.4%。这份报告名为《2016年至2021年Hadoop大数据分析市场全球预测》,从以下这几方面解读这个市场:组成部分(解决方案和服务)、应用软件(风险及欺诈分析、物联网、商品销售及供应链管理、客户分析、卸载大型机和安全情报)、垂直领域和地区。

推动市场发展的主要因素是企业越来越需要部署Hadoop大数据分析解决方案,用来分析急剧增加的结构化数据和非结构化数据,从中获得可...

根据MarketsandMarkets最新发布的一份市场研究报告声称,Hadoop大数据市场产值预计会从2016年的67.1亿美元猛增至2021年的406.9亿美元,2016年至2021年的年复合增长率(CAGR)将高达43.4%。这份报告名为《2016年至2021年Hadoop大数据分析市场全球预测》,从以下这几方面解读这个市场:组成部分(解决方案和服务)、应用软件(风险及欺诈分析、物联网、商品销售及供应链管理、客户分析、卸载大型机和安全情报)、垂直领域和地区。

推动市场发展的主要因素是企业越来越需要部署Hadoop大数据分析解决方案,用来分析急剧增加的结构化数据和非结构化数据,从中获得可付诸行动的洞察力。此外,企业组织更加需要转换大数据和物联网收集的信息,用于决策机制,这刺激了对Hadoop大数据分析解决方案的需求,因而促使整个Hadoop大数据市场在这段预测期间迅猛发展。

在组成部分当中,解决方案这一部分预计会在预测期间引领Hadoop大数据分析市场。

从市场组成部分来看,Hadoop大数据分析市场被分为解决方案和服务这两大块。解决方案这部分预计会在2016年至2021年引领Hadoop大数据分析市场。企业组织更加需要Hadoop提供的具有成本效益、可高度扩展的解决方案,以便处理分布式计算环境下极其庞大的数据集,这促使Hadoop大数据分析市场的解决方案这部分迅猛发展。由于企业组织更加需要分布式计算平台上的数据管理,

Hadoop大数据分析市场中的性能监控软件解决方案这一小类预计在预测期间会以最高的CAGR增长。 

Hadoop大数据分析市场的安全情报应用软件这部分预计会在预测期间即2016年至2021年以最高的CAGR增长。 由于日益需要通过高级分析技术来加大数据的可见性和保护力度,Hadoop大数据分析市场的安全情报应用软件这部分预计在预测期间会以最高的CAGR增长。

从垂直领域来看,银行和金融服务业(BFSI)这部分预计在预测期间会引领Hadoop大数据分析市场。

从垂直领域来看,由于形形色色的企业组织早早采用Hadoop大数据分析解决方案和服务,以便深入了解其客户的需求,并相应更新服务和解决方案,以满足这些需求,银行和金融服务业(BFSI)这部分预计在预测期间会引领Hadoop大数据分析市场。

北美地区预计会在预测期间引领Hadoop大数据分析市场 

报告研究了北美、亚太、欧洲中东非洲以及拉美这四大地区的Hadoop大数据分析市场。北美地区预计在2016年至2021年会引领Hadoop大数据分析市场。在北美地区,各个企业组织生成的数据量每天在大幅增长。数据的这种增长势头导致北美地区BFSI、零售及消费品等垂直领域的企业加大采用Hadoop大数据分析解决方案的力度,因而促进Hadoop大数据分析市场在这个地区的增长。

微软、亚马逊网络服务、IBM、Teradata、Tableau Software、Cloudera、Pentaho、Marklogic、德国的SAP SE和Pivotal Software是角逐Hadoop大数据分析市场的主要玩家。

更多大数据与分析相关行业资讯、解决方案、案例、教程等请点击查看>>>

详情请咨询在线客服

客服热线:023-66090381

数控小J

拥抱开源 - 云上元数据管理

上期我们讲述的是实现数据工程师梦想的一个小目标《梦想成真,只差一步》,里面提到了要实现数据超市的管理,数据工程师需要使用合适的工具将数据进行整理、组合、分类后上架,然后业务分析师和数据科学家就可以使用了。


在整个数据工程师的工作流程中,需要自始至终的进行数据治理:我们需要将每种类型的数据进行清晰的标识以及分类,以利于其它角色的用户进行查找以及使用;我们需要将每种数据的使用范围进行管理以及监控,以使得数据被合理、合法的使用;我们还要管理数据的生存周期以及质量溯源,以利于数据质量可以被监管,无用数据被清除...... 因此本文中我们将着重介绍上图中标红框的部分,介绍实现我们梦想的工...

上期我们讲述的是实现数据工程师梦想的一个小目标《梦想成真,只差一步》,里面提到了要实现数据超市的管理,数据工程师需要使用合适的工具将数据进行整理、组合、分类后上架,然后业务分析师和数据科学家就可以使用了。

在整个数据工程师的工作流程中,需要自始至终的进行数据治理:我们需要将每种类型的数据进行清晰的标识以及分类,以利于其它角色的用户进行查找以及使用;我们需要将每种数据的使用范围进行管理以及监控,以使得数据被合理、合法的使用;我们还要管理数据的生存周期以及质量溯源,以利于数据质量可以被监管,无用数据被清除...... 因此本文中我们将着重介绍上图中标红框的部分,介绍实现我们梦想的工具Open Metadata Services - 开源组件Apache Atlas。

这个模块还在Apache的孵化中,最新的版本是8月16号发布的0.7版本。详细文档可以查看以下链接:http://atlas.incubator.apache.org/

Atlas 最早由HortonWorks实现,用来管理Hadoop项目里面的元数据,进而设计为数据治理的框架。后来开源出来给Apache社区进行孵化,目前得到Aetna,Merck,Target,SAS等公司的支持进行发展演进,IBM现在也积极贡献功能,拿来为我所用。(其在HortonWorks公司的介绍材料链接: https://zh.hortonworks.com/apache/atlas/#section_1 ) 从其诞生历史看,该框架天生就支持横向海量扩展,具备良好的集成能力,非常适合在云上使用。以下是其架构图:

Apache网站介绍它的主要功能有:

1、数据分类 ;

2、集中审计 ;

3、搜索及溯源 ;

4、安全及策略引擎 ;

它的最核心部分Core就是类型管理系统 Type System , 用户可以把数据资产进行类型定义,然后使用Ingest/Export 的模块进行元数据的导入、修改、删除等管理。和外界的接口可以通过Rest API或使用Kafaka进行消息交换。数据对象存放在按照图的模式进行管理的Titan图数据库中,具体Titan又把元数据存放在HBase中,索引存放在Solr中。这样用户可以非常便捷和直观的通过层次图进行浏览信息,可以按照文字进行精确的查找。

如上图,我们将数据资产分成了五类,分别是:Pipeline、Data Set、Report、Model、Notebook,具体存储的属性是红色框部分,描述了以上五种数据资产的详细信息:例如它是哪类型业务,数据质量如何,归在哪个项目里面,具体评级如何、用户访问权限如何等等......

有了这个Open Data Services服务后,我们是否觉得又离梦想近了一步?更详细的使用我们将在未来文章分享。

IBM对开源社区一直采取大力拥抱以及不遗余力地进行支持的态度:

IBM基于Cloud Foundry 打造了世界最大的PaaS平台BlueMix,在上面部署了大量开源的云数据服务业务 - 例如Cloudant源于CouchDB,DataWorks Forge构建在Spark平台之上。现在我们将Atlas开源元数据管理部署到我们的云数据治理中,通过实际使用来促进该项目的大力发展。我们有理由相信,未来IBM 将把开源的魔力继续发扬光大!

更多大数据与分析相关行业资讯、解决方案、案例、教程等请点击查看>>>

详情请咨询在线客服

客服热线:023-66090381

数控小J

非常实用的10款网站数据实时分析工具

网络分析工具可以帮助你收集、预估和分析网站的访问记录,对于网站优化、市场研究来说,是个非常实用的工具。每一个网站开发者和所有者,想知道他的网站的完整的状态和访问信息,目前互联网中有很多分析工具。

1. Google Analytics 这是一个使用最广泛的访问统计分析工具,几周前,Google Analytics推出了一项新功能,可以提供实时报告。你可以看到你的网站中目前在线的访客数量,了解他们观看了哪些网页、他们通过哪个网站链接到你的网站、来自哪个国家等等。   

2. Clicky 与Google Analytics这种庞大的分析系统相比,Clicky相对比较简易,它在控制面...

网络分析工具可以帮助你收集、预估和分析网站的访问记录,对于网站优化、市场研究来说,是个非常实用的工具。每一个网站开发者和所有者,想知道他的网站的完整的状态和访问信息,目前互联网中有很多分析工具。

1. Google Analytics 这是一个使用最广泛的访问统计分析工具,几周前,Google Analytics推出了一项新功能,可以提供实时报告。你可以看到你的网站中目前在线的访客数量,了解他们观看了哪些网页、他们通过哪个网站链接到你的网站、来自哪个国家等等。   

2. Clicky 与Google Analytics这种庞大的分析系统相比,Clicky相对比较简易,它在控制面板上描供了一系列统计数据,包括最近三天的访问量、最高的20个链接来源及最高20个关键字,虽说数据种类不多,但可直观的反映出当前站点的访问情况,而且UI也比较简洁清新。   

3. Woopra Woopra将实时统计带到了另一个层次,它能实时直播网站的访问数据,你甚至可以使用Woopra Chat部件与用户聊天。它还拥有先进的通知功能,可让你建立各类通知,如电子邮件、声音、弹出框等。   

4. Chartbeat 这是针对新闻出版和其他类型网站的实时分析工具。针对电子商务网站的专业分析功能即将推出。它可以让你查看访问者如何与你的网站进行互动,这可以帮助你改善你的网站。   

5. GoSquared 它提供了所有常用的分析功能,并且还可以让你查看特定访客的数据。它集成了olark,可以让你与访客进行聊天。   

6. Mixpanel 该工具可以让你查看访客数据,并分析趋势,以及比较几天内的变化情况。   

7. Reinvigorate 它提供了所有常用的实时分析功能,可以让你直观地了解访客点击了哪些地方。你甚至可以查看注册用户的名称标签,这样你就可以跟踪他们对网站的使用情况了。   

8. Piwik 这是一个开源的实时分析工具,你可以轻松下载并安装在自己的服务器上。   

9. ShinyStat 该网站提供了四种产品,其中包括一个有限制的免费分析产品,可用于个人和非营利网站。企业版拥有搜索引擎排名检测,可以帮助你跟踪和改善网站的排名。   

10. FoxMetrics 该工具提供了实时分析功能,基于事件和特征的概念,你还可以设置自定义事件。它可以收集与事件和特征匹配的数据,然后为你提供报告,这将有助于改善你的网站。

更多大数据与分析相关行业资讯、解决方案、案例、教程等请点击查看>>>

详情请咨询在线客服

客服热线:023-66090381

数控小J

收藏 | 全球大数据7大阵营,你都知道吗?

近几年,大数据行业已经逐渐成熟,在也不是大家谈之缥缈的行业,目前国内外从事这一行业的企业多入牛毛,但能称的上权威和代表,也都数的过来,下面我们就目前全球关于大数据行业所涉猎的范围作了一个分类,称其为7大阵营,以下是7大阵营的企业LOGO图。

近几年,大数据行业已经逐渐成熟,在也不是大家谈之缥缈的行业,目前国内外从事这一行业的企业多入牛毛,但能称的上权威和代表,也都数的过来,下面我们就目前全球关于大数据行业所涉猎的范围作了一个分类,称其为7大阵营,以下是7大阵营的企业LOGO图。

数据基础架构阵营


大数据分析阵营


大...

近几年,大数据行业已经逐渐成熟,在也不是大家谈之缥缈的行业,目前国内外从事这一行业的企业多入牛毛,但能称的上权威和代表,也都数的过来,下面我们就目前全球关于大数据行业所涉猎的范围作了一个分类,称其为7大阵营,以下是7大阵营的企业LOGO图。

近几年,大数据行业已经逐渐成熟,在也不是大家谈之缥缈的行业,目前国内外从事这一行业的企业多入牛毛,但能称的上权威和代表,也都数的过来,下面我们就目前全球关于大数据行业所涉猎的范围作了一个分类,称其为7大阵营,以下是7大阵营的企业LOGO图。

数据基础架构阵营

 

 

大数据分析阵营

 

 

大数据应用阵营

 

 

架构与分析跨界阵营

 

 

大数据开源阵营

 

 

数据源与API阵营

 

 

孵化器与培训阵营

 

更多大数据与分析相关行业资讯、解决方案、案例、教程等请点击查看>>>

详情请咨询在线客服

客服热线:023-66090381

数控小J

Hadoop 信息集成平台,让大数据分析更简单!

就本身而言,Hadoop 不是很有用的东西,原因是它需要编写大量复杂和定制的程序代码,难以治理,也没有数据质量概念和数据治理可谈了。企业用户都忙于去研究如何解决使用 Hadoop 所碰到的问题,主要是涉及到项目实施时间、成本和风险等,而 Hadoop 自身的客户化编程就增加了项目实施时间、成本和风险。

大数据项目实施仅靠 Hadoop 是不会成功的,除非你能有效地做好大数据集成这部分的工作,所以,大数据集成对 Hadoop 系统的初期建设来说就变得非常重要。 大部分 Hadoop 系统初期建设仅是侧重于“无价值的数据折腾进来,无价值的数据折腾出去”,考虑着在 Hadoop...

就本身而言,Hadoop 不是很有用的东西,原因是它需要编写大量复杂和定制的程序代码,难以治理,也没有数据质量概念和数据治理可谈了。企业用户都忙于去研究如何解决使用 Hadoop 所碰到的问题,主要是涉及到项目实施时间、成本和风险等,而 Hadoop 自身的客户化编程就增加了项目实施时间、成本和风险。

大数据项目实施仅靠 Hadoop 是不会成功的,除非你能有效地做好大数据集成这部分的工作,所以,大数据集成对 Hadoop 系统的初期建设来说就变得非常重要。 大部分 Hadoop 系统初期建设仅是侧重于“无价值的数据折腾进来,无价值的数据折腾出去”,考虑着在 Hadoop 系统在处理大数据量情况下,是否能够可以更快些、成本更低些?IBM 研究发现,只有在大数据集成这部分任务实施成功,才能解决 Hadoop 系统有效性问题,是值得大家去重点地关注。

目前,仅有 IBM 能在帮助全球的客户通过大数据集成和治理,把 Hadoop Swamp(沼泽)转变成 Hadoop Lake (湖)这部分工作做得最优秀。

IBM解决方案说明

IBM 为 IBM BigInsights 在内的 Apache Hadoop 系统提供了数据集成(InfoSphere Data Integration)和数据质量治理(InfoSphere Data Quality)解决方案,以帮助客户建设一个真正有用和高效的 Hadoop 平台系统。

1. InfoSphere Data Integration

  • 按照各种需求在不同的源和目标之间整合与转换数据,强大运行扩展性满足很复杂的转换需求;

  • 转换和汇聚任何的数据量,数百种内置转换控件和函数,基于元数据驱动的技术和产品,大大地提升团队协作能力;

  • 通过基于Web浏览器仪表盘来快速地监控管理运行环境,管理好你的数据转换以满足业务要求;

  • 任性地运行在任何地方,无论是传统的 Unix、Linux、Windows操作系统,还是新兴的 Apache Hadoop系统。这些活儿,都是不容易做到呀!

2. InfoSphere Data Quality

  • 分析:利用源数据分析了解您的问题,自动发现关键数据和隐藏的数据关系。

  • 清洗:分析、标准化、匹配、存留数据,最大范围地定制出适合你的解决方案。

  • 监控数据质量:在任意位置和跨系统的访问,都能监控到你的数据质量(数据库或数据流),通过独一无二的功能去优化数据质量指标,从而满足业务与治理目标。

IBM解决方案重点

  • 针对 Hadoop 平台而发布的 Data Integration 和 Data Quality 解决方案,还有 BigMatch for Hadoop、BigSQL、BigSheet 这几个“铁哥们”一起去打天下。

  • 迎合科技潮流 DataLake 发展方向,能全面地解决把任何 Hadoop 数据进行分发和推送所遇到的问题,是一个能提供管理和人见人爱的软件解决方案。

IBM解决方案价值

  • IBM 独有价值:拥有先进技术,并成为市场领导者。

  • 自然运行在 Hadoop 平台上,提供强大的数据转换处理和数据质量提升的可扩展的引擎处理能力,还无需要编写那怕是一行的程序代码,让技术人员爽歪歪。

  • 基于 Hadoop 平台上的整体解决方案级别,让你能更了解每条数据记录,洞察埋藏在信息中的奥秘。

  • 是 IBM BigInsight Hadoop 平台加速器,还能在其他 ODP(Open Data Platform)平台系统上分发数据,并提供 Big SQL、Big Sheets、BigMatch 等武器装备。

  • 目前在技术水平上,IBM 数据处理速度和扩展能力还没有对手能够超越,真正是一个面向企业级用户的大数据信息集成与治理解决方案。

  • 为大数据生态环境提供了最佳的配套软件工具,并遵循 ODP 规范,四海之内皆兄弟,无论是多大数据量、多复杂、多变化的数据,都能全面和高效地集成。

哇!当你把在 Hadoop 平台上搞信息集成的重点内容都搞清楚后,就可马上进入高效的大数据世界,叹世界啦!

更多大数据与分析相关行业资讯、解决方案、案例、教程等请点击查看>>>

详情请咨询在线客服

客服热线:023-66090381

数控小J

在Jupyter Notebooks里进行大数据分析,So easy!

想体验数据分析却没有环境怎么办?数据科学家集成工作台(Data Scientist Workbench)无疑是您最便利的,而且是免费的平台。

数据科学家集成工作台是一个基于开源的云端“一站式”数据科学分析工作平台,囊括了所有主要的开源工具,例如iPython/Jupyter、RStudio、Apache Zeppelin、OpenRefine等。它提供非常友好的即时交互式学习体验,无需任何本地安装,配置等。关于这个平台的更多介绍,请阅读《数据科学家的实验箱-IBMData Scientist Workbench》或访问官网https://datascientistworkbench.cn/。...

想体验数据分析却没有环境怎么办?数据科学家集成工作台(Data Scientist Workbench)无疑是您最便利的,而且是免费的平台。

数据科学家集成工作台是一个基于开源的云端“一站式”数据科学分析工作平台,囊括了所有主要的开源工具,例如iPython/Jupyter、RStudio、Apache Zeppelin、OpenRefine等。它提供非常友好的即时交互式学习体验,无需任何本地安装,配置等。关于这个平台的更多介绍,请阅读《数据科学家的实验箱-IBMData Scientist Workbench》或访问官网https://datascientistworkbench.cn/。

Jupyter notebooks 为数据科学家提供了一个基于浏览器的交互式分析环境,数据科学家可以使用Python、Scala或者R进行交互式的开发,来设计分析模型,可视化展现分析结果。Notebooks也使得分析过程可以被保存、导入、导出和共享。

接下我们一起看看如何在数据科学家集成工作台的Jupyter Notebooks进行数据分析

1. 访问https://datascientistworkbench.cn/网站,免费注册一个账号。

2. 第一次登录,后台将自动创建服务实例。创建完成后请打开Jupyter Notebook,即可开始使用交互式的学习环境进行数据分析:

3. Jupyter Notebook提供了练习教程,引导您快速了解Jupyter Notebook的功能和使用方法。如下面两张图所示,Jupyter Notebook里包含了热门的Spark、SQL、dashDB、DB2、MySQL和PostgreSQL等等。

4. 选中某个Notebook,点击打开。

5. 打开后您即可看到这个Notebook 教程的描述,以及预先准备好的代码。现在,您只需要按顺序选择代码所在的单元格,键入Ctrl+C(运行当前单元格的代码)或Shift+C(运行当前单元格的代码并跳到下个单元格)即可。

您也可以在现有代码基础上进行修改,或插入新的单元格。

6. 除了已有的Notebook 教程,您也可以在Web界面右上角下拉图标选择某种语言新建一个空的Notebook。这个新Notebook可以看成一个新的命令行交互终端。

7. 在哪获取更多的Notebook教程?请参加bigdatauniversity.com.cn的课程,部分课程的实验环境就是数据科学家集成工作台。

不说了,我要去https://datascientistworkbench.cn体验在Jupyter分析数据了!

更多大数据与分析相关行业资讯、解决方案、案例、教程等请点击查看>>>

详情请咨询在线客服

客服热线:023-66090381

数控小J

干货分享:CDC实时数据复制,大神教你调性能

数据实时复制任务的成与败,取决于多方面的因素,例如:被复制数据本身情况,源系统和目标系统的自身运行状况,网络通讯方面,系统架构设计和实施人员专业技术水平等等。面对复杂而艰巨的任务,IBM 公司专业化实施团队积累了丰富的经验,以下是我们这次分享的 IBM InfoSphere CDC性能调优的重点内容。

1. 明白数据复制的需求和使用场景

改善并提升数据复制作业性能是双向互动的操作,以满足业务需求和目标为根本出发点,其原因是:

  • 当对某个运行进程作了调优,并解决了该方面的性能瓶颈后,可能在该进程的上游或下游地方,又产生了新的性能瓶颈,让你很难能做到调整某一部分,就能...

数据实时复制任务的成与败,取决于多方面的因素,例如:被复制数据本身情况,源系统和目标系统的自身运行状况,网络通讯方面,系统架构设计和实施人员专业技术水平等等。面对复杂而艰巨的任务,IBM 公司专业化实施团队积累了丰富的经验,以下是我们这次分享的 IBM InfoSphere CDC性能调优的重点内容。

1. 明白数据复制的需求和使用场景

改善并提升数据复制作业性能是双向互动的操作,以满足业务需求和目标为根本出发点,其原因是:

  • 当对某个运行进程作了调优,并解决了该方面的性能瓶颈后,可能在该进程的上游或下游地方,又产生了新的性能瓶颈,让你很难能做到调整某一部分,就能解决性能上存在的全部问题。

  • 数据复制过程中,业务运作在不同时间段内会有不同的要求,并不是一成不变的。例如:在业务交易时间段,数据实时变更频繁,对 CDC 时延(Data Latency)要求较高,才能达致业务目标;但是,在业务日终结算处理时间段,则更多地聚焦于海量数据的后期加工和批量处理,反而对 CDC 时延(Data Latency)要求较低。

因此,我们在优化数据复制的作业运行性能时,一切以业务需求为目标,采取合适手段来解决问题。否则,难以两全其美,还影响业务运作。

2. 监控总体性能情况

在确定调优方案前,需要监察 CDC 数据复制作业的总体性能状况,其中包括:

CDC DataStore 健康状况。

CDC进程运行时内存的使用情况,占用率最高达 70%左右为最佳

利用 CDC Management Console探测潜在的性能瓶颈

以下例子,其监控信息结果说明了目标端系统是性能瓶颈,数据从源系统复制传送速度快于目标系统的处理速度。

3. 收集作业运行统计信息以进行分析

IBM CDC 提供了全面收集作业运行过程中性能明细信息的有效手段,以下是以复制 Oracle 数据库数据的作业为例子,所收集的信息种类和手段。

4. 完成性能调优任务

根据上述的复制Oracle 数据库数据的作业为例子,确定调优的方法如下。

该策略为:

  • 在源系统保持捕获合理的数据增量和传送数据量 batch size;

  • 在目标系统调整合理的更新数据量 batch size,并仅对变化的字段进行更新(缺省是全部字段更新),以发挥最大处理性能;

  • 需要有丰富数据库性能调优经验和 IBM CDC 工具熟练使用技巧。

5. 评估性能优化结果

IBM CDC 作业调优前,其运行结果:

从上图信息可发现:数据从源系统不断地快速复制传送到目标系统,但是目标系统性能存在瓶颈,时延不断地增大到最高峰值而没回落,直到数据复制快结束时才开始回落。

IBM CDC 作业调优后,其运行结果:

从上图信息可发现:目标系统 CPU资源使用率明显地比源系统高得多,数据库性能得以充分发挥。数据复制的时延不算高,平均值和峰值差距不大。因此,CDC 作业调优工作是富有成效的。 相对比其他友商的测试结果, IBM CDC 综合能力和主要功能都稍胜一筹。如果有兴趣想了解更多的 IBM CDC数据复制技术及经验,请参阅:http://bigdata.evget.com/

更多大数据与分析相关行业资讯、解决方案、案例、教程等请点击查看>>>

详情请咨询在线客服

客服热线:023-66090381

数控小J

大数据时代:看大数据如何帮助你预测消费者的购买意图

如今,大多数营销人员都说,他们的挑战不是缺少数据,而是数据太多,无法有效地加以利用或者辨别哪些是真正重要的数据。

营销人员非常希望知道消费者何时想要购物。要是能准确地知道每位消费者在任何指定时间处于购买历程的哪个阶段,那就更好了。


那么,大数据真的能帮助你预测消费者的购买意图吗?是的,它能。但如果你不知道哪些数据最为重要,以及如何利用数据改善业务,试图弄清楚如何利用数据预测购买意图,从一开始就是事倍功半。

数据如何提供帮助?

你肯定可以通过数据确定消费者处于购买历程的哪个阶段,前提是你知道如何获得正确的数据。事实上,如今有很多公司都在用自己的数据解答这个问题。

例如,有些公司会在...

如今,大多数营销人员都说,他们的挑战不是缺少数据,而是数据太多,无法有效地加以利用或者辨别哪些是真正重要的数据。

营销人员非常希望知道消费者何时想要购物。要是能准确地知道每位消费者在任何指定时间处于购买历程的哪个阶段,那就更好了。

那么,大数据真的能帮助你预测消费者的购买意图吗?是的,它能。但如果你不知道哪些数据最为重要,以及如何利用数据改善业务,试图弄清楚如何利用数据预测购买意图,从一开始就是事倍功半。

数据如何提供帮助?

你肯定可以通过数据确定消费者处于购买历程的哪个阶段,前提是你知道如何获得正确的数据。事实上,如今有很多公司都在用自己的数据解答这个问题。

例如,有些公司会在自己的(第一方)网站上追踪访客,如果发现访客在公司网站上浏览了某些特定的页面,或者查找了某些特定信息,尤其是那些重复访客,公司就会对这种购物活动作出适当的反应。他们也能利用电话交谈期间收集的数据点来改善消费者的购物体验。

只要善用软件解决方案,就可以很轻松地部署这些战术。问题在于,跳出你所拥有的网络资源和品牌直接互动范畴后,对于外界所发生的所有动向,你毫无了解。现在,大家一定都从各方信源(包括经常被引用的Sirius Decisions)听说了一个惊人的数字:消费者的购买决策过程有67%都是在网上进行的。实际上,消费者在作出购买决定之前,不仅会搜索你的品牌官网,还会搜索竞争对手的网站和第三方的资源,以便多方了解信息。

例如,销售数据分析公司Jornaya的研究显示,在抵押贷款行业,平均而言,最后转化为贷款客户的消费者在提交申请之前有四个行业接触点,其中三个是访问不同的网站,这说明抵押贷款客户在填写申请表之前查看了多家网站。

另外,我们的研究显示,只看抵押贷款相关的第三方网站,在最后转化为客户的消费者中,超过半数(60%)的人在填写申请表之前,至少访问第三方网站两次,30%的人访问四次以上。

获取更广泛的数据来了解整个购买历程

很多营销人员没有想到这一点的一个原因,就是他们根本不知道自己对购买历程的视野是可以扩大的。他们从未获取过品牌自身视角之外的数据。而现在,依靠新的技术,越来越多的公司开始深入了解整个购买历程。第三方的购买意图数据将一个全新的世界呈现在营销人员眼前。如果不利用这些可获得的数据,企业可能会面临业务损失。

让我们来看一个真实的例子。最近我想买一辆汽车,在作出购买决定之前,总共花了大概四个月时间选车。我先是仔细查看了Kelly Blue Book和Cars.com等几家不同的网站,最后决定买一辆讴歌。直到我的网上调查阶段快要结束时,我才访问了本地讴歌经销商的网站,看看我想买的车型 有哪些颜色和座椅面料可选。此时我提交了一份网络表格,向本地讴歌经销商询问有关信息。经销商给我发了一封邮件,告诉我这款车型有哪些颜色。第二天,我在 二手车交易网站Carsense上购买了一辆别人用过的讴歌。

从本地讴歌经销商的视角来看,我只是问了一下,没有表现出强烈的购买意图。也许他们本可以猜到,我之所以想知道可选颜色,是因为我处于购买历程的决定阶段,但仅仅根据来自于他们第一方网站的有限信息来判断,这一点并不那么明显。

如果经销商获取了所有的可用数据,了解了我的整个购买历程,他们就会知道,我是经过几个月的挑选后,才在他们的网站上查看可选颜色的。如果讴歌经销商知道我在提交网络表格当时的前一周,每天都泡在第三方网站上选车,结局说不定就大不一样了。

如果他们对我的购买历程有更多了解,看到了购买意图的所有确切信号,就能够以大为不同的方式对待我的询问。他们本可以给我打电话,通过可观的折扣、很低的车贷利率或者其他方法来赢得我这位客户。

另外,从讴歌有限的第一方视角来看,他们只知道我对讴歌感兴趣。但实际上,在购买历程的头几个月,我只是想买“一辆车”,并不是专门奔着讴歌而去。 我花了几个月时间,才把选择范围缩小到讴歌。如果一个品牌只通过第一方视角去了解消费者,就称不上是真正地专注于满足消费者的需求(即挑选合适的车型), 而是专注于满足与自家公司有关的消费者需求(即挑选合适的讴歌车型)。

从上图可以看出,讴歌经销商只看到了我购买历程中的第八步。如果讴歌经销商能够看到我的整个购买历程,他们就能更早地接触我,帮助我更快地锁定讴歌,并在此过程中培养与我的关系,这样一来,当我到了最后的决定时刻时,我更可能到他们那里去购买二手的讴歌。

另外,由于我是从Carsense网站购买,因此讴歌经销商误以为我最后没有买(因为他们无从知道我在Carsense网站上的购买)。这会导致心怀好意但耳目闭塞的营销人员对我作出错误结论。

想要了解购买意图,哪些数据至关重要?

了解消费者购买历程的三个最重要的参数是:

时效性:消费者是否在近期表现出购买兴趣?

频率:消费者多久表现一次购买兴趣?

参与度:消费者自己做的调查有多深入?

只要掌握了这三个参数,就能基本定位每位消费者当前所处的购买历程阶段——是处于注意(大体知道)、兴趣(调查众多选项)、决定(缩小选择范围)还是行动(做出购买行为)阶段。

如何利用购买意图?

确定了消费者处于哪个阶段后,便可以决定采取何种策略和技巧,比如向处于决定阶段的消费者提供诱人的特别优惠。

消费者购买意图的理念在于,如何在与消费者进行互动或者有机会与他们互动时加以判断。如果你能确定他们在购买历程中的位置,那么你可以开展更加合理的对话,以便得到你想要的结果。

例如,如果是你抵押贷款机构,正在跟一位处于购买历程早期阶段的潜在客户互动,数据可能揭示这位消费者处于买房过程的初期,他正在关注贷款利率,但 还没有看过任何房源。如果你有了这些数据,你就可以对这位消费者采取非常具有针对性和说服力的营销方法,比如向他提供相关知识的下载链接和对刚刚启动购买 历程的人来说有帮助的其他内容,以此培养与他的关系。你知道不能经常给他打电话强行推销,因为信号明确显示他只是在寻找初步信息。

另一方面,如果你有一位潜在客户已经签订了购房合同,那么你可能需要全力以赴地进行强行推销,让他相信你比竞争对手更好,甚至可能给他提供特别优惠。

把购买意图数据应用与你的现有客户群

任何向消费者提供产品的公司都知道,就像购买历程会分为几个阶段一样,消费者转化为客户的过程也会分为几个阶段,通常为:

首先,消费者完全不知道某个品牌

其次,他知道了这个品牌,但还没有进行过互动

然后,他进行了互动并成为了客户

最后,该公司要努力维系他这位客户

与维系阶段同时存在的,是该公司试图进行追加销售和交叉销售,向他推销其他的产品或服务

想要做一名成功的营销人员,你必须明白失去客户的代价,所以你才要不断地优化和充分利用客户数据,使他们成为你的忠实客户。

对于识别成熟的交叉销售机会来说,购买意图数据是非常宝贵的资源。比如你是保险公司,有一群房屋保险客户。购买意图数据能够让你知道,其中有些客户 想买一辆新车。如果你知道这些客户想买新车,你就会知道这是向他们销售汽车保险、提供复合保险折扣等等的良机。这不仅是一个交叉销售的机会,也是一种维系 客户的策略,因为与其他保险公司合作的汽车经销商可能试图把你的竞争对手推荐给他们,为竞争对手挖走你的现有客户打开方便之门。

说到客户维系,让我们来看看另一个例子:如果你是电信公司,有一群客户将在明年搬家,你怎么保证到时候他们会继续考虑使用你的服务?如果购买意图数据显示这些客户打算搬家,那么你可以向他们提供一些特别优惠,好让他们在搬家后继续使用你的服务。

总结

当你了解了消费者的整个购物历程并充分利用了你获得的数据时,你就对消费者有了最深刻的认识。但想要对消费者有最深刻的认识,唯一方法是不再局限于狭隘的第一方视角。一旦加深了对消费者的认识,你就能作出更加明智的决定,采取更加恰当的措施,从而得到更好的结果。

更多大数据与分析相关行业资讯、解决方案、案例、教程等请点击查看>>>

详情请咨询在线客服

客服热线:023-66090381

数控小J

文本数据分析神器—— IBM BigInsights Text Analytics

文本数据分析的价值

文本数据在我们的生活中无处不在:在微信朋友圈、微博中发表的感想;在论坛上发表的评价商品的帖子;由应用后台自动生成的机器日志等。这类数据本身包含了大量有用的信息,但由于文本表达方式可以很灵活,在不需要严格遵循语法的情况下也能准确表达信息。比如下图中表达人物年龄就有三种不同的说法。

例子中,关于年龄最重要的信息是姓名和岁数,图中右侧的的结构化数据才是表达这些核心信息、应用可以处理的主要形式。怎样把非结构化文本数据转换成可以准确表达信息的结构化数据是文本数据分析的一大难题。 

文本数据分析的办法

通常实现文本数据分析主要有两种模式:基于语法分析的模式,和基于语义...

文本数据分析的价值

文本数据在我们的生活中无处不在:在微信朋友圈、微博中发表的感想;在论坛上发表的评价商品的帖子;由应用后台自动生成的机器日志等。这类数据本身包含了大量有用的信息,但由于文本表达方式可以很灵活,在不需要严格遵循语法的情况下也能准确表达信息。比如下图中表达人物年龄就有三种不同的说法。

例子中,关于年龄最重要的信息是姓名和岁数,图中右侧的的结构化数据才是表达这些核心信息、应用可以处理的主要形式。怎样把非结构化文本数据转换成可以准确表达信息的结构化数据是文本数据分析的一大难题。 

文本数据分析的办法

通常实现文本数据分析主要有两种模式:基于语法分析的模式,和基于语义关联的模式(完全抛开语法,通过文字的上下文关联进行分析)。 

基于语法的分析需要根据语言语法,将文本数据拆分成语法要素,如主谓宾等,再根据语法和语义规则生成目标信息,这种方式适用与文字内容比较规范的场景。

基于语义关联的模式,则是大量采用分词、字典等综合技术对文本数据进行标记(打标签),再根据特定规则或组合生成最终信息,其实现方式大致包括如下步骤:

常用的文本分析工具:

目前有很多工具可用于文本数据分析,常见的几种及其特点如下:

Pig: 包含高层语法的数据处理工具,便于编程和扩展,底层利用MapReduce进行数据并行处理。

JAQL:针对JOSN数据的数据处理工具,非常适合于处理JOSN数据。

AQL:一种标记性的文本数据处理工具,语法类似于SQL,容易上手,内置多种数据抽取器。

Python Natural Language Toolkit:Python提供的文本分析工具,可进行词性标注,句法分析,关键词提取,文本分类,情感分析等。

BigInsights中的文本数据分析工具: IBM企业级大数据产品BigInsights中集成了AQL进行文本分析,在此之上开发了图形化文本分析工具Text Analytics,为使用者提供了极大的便利。

AQL介绍:

AQL框架中对文本数据进行处理要经过三个主要步骤:

1. 数据打标签:使用字典、正则表达式等技术,把要分析的文本数据进行标签处理,这一步是通过定义各种数据抽取器来实现的。

2. 按规则生成数据:将打好标签后的数据进行分片、分组、定义关联规则等,并根据这些规则生成候选的数据列表。

3. 数据合并和过滤:将候选数据进行最终的处理,如将重复数据合并、筛选和过滤等,形成最终的结果。

AQL数据处理过程如下图所示:

使用AQL处理数据,需要学习AQL语法、熟悉新的环境,最重要的是还需要通过写代码来完成各种文本分析任务,因此使用AQL处理数据其实并不简单。下图展示了要从文本中提取数字,需要编写的一段AQL代码:

Text Analytics工具介绍:

IBM基于AQL开发了全图形化界面的文本分析工具Text Analytics,让分析人员不需要编写底层代码,而是使用图形化界面工具方便快捷地完成文本数据分析任务,极大的拔高了平台的文本数据分析能力。

Text Analytics工具界面与Eclipse类似,整个工具分为如下几个区域:

1. 项目管理区:可以通过不同项目实现对不同文本分析任务的划分。

2. 文档浏览区:显示正在处理的文本数据文档,处理的结果通过不同背景颜色标记出不同标签的内容。

3. 画布区域:在该区域中通过拖拽、鼠标操作完成文本数据处理规则的创建和修改。

4. 属性区域:显示当前选中对象的属性,可以设置不同的属性值。

5. 结果区域:显示根据当前文本处理规则处理之后的结果。

通过Text Analytics进行文本数据分析,所有的工作都是在该界面完成,用户不需要关心具体的AQL细节和代码,也不用关心后台的处理作业,Text Analytics自动将文本处理规则生成AQL并提交作业到Hadoop集群中完成数据处理。

下面的简单示例,演示了如何从纯文本的财报数据中提取出盈利数字。

三步轻松搞定文本分析

步骤1:导入数据

新建项目后,单击项目区域中的加号按钮,可添加文本数据源。工具支持从本地文件系统或HDFS中添加文件,支持.zip, .tar, .tgz, .gz等多种格式的数据。

步骤2:编辑文本数据规则

根据数据处理的需要,从“Extractor”菜单中拖拉出需要的抽取器至画布区中,并定义属性和抽取器中的规则。

本例中我们仅仅抽取简单的财务数据,因此只需要将字符"$",数字抽取器Number和货币单位Currency三个抽取器拼接即可,如下图所示:

若要抽取包含部门名称的盈利数据,需要定义如下规则:

步骤3:运行和结果导出

点击画布区中的运行按钮,文本分析结果会直接显示在结果列表中,可以将结果导出处理和使用。

另外运行之后,在文档区域还根据不同规则命中的结果,显示为不同背景色的文字,方便检查。

总结:

BigInsights中的Text Analytics工具通过全图形化界面实现零编程的文本分析,并通过与Hadoop的集成扩展了文本处理的应用范围,可以帮助企业客户快速实现多种文本数据分析应用,例如对互联网文本数据分析,机器日志分析等。

Text Analytics的文本分析结果,可以进行深入加工和分析,例如可以在Cognos中通过图表展现,也可以做为SPSS的分析数据源使用。更多细节请参考慧都大数据。

更多大数据与分析相关行业资讯、解决方案、案例、教程等请点击查看>>>

详情请咨询在线客服

客服热线:023-66090381

LOFTER

让兴趣,更有趣

简单随性的记录
丰富多彩的内容
让生活更加充实

下载移动端
关注最新消息