当前位置 > CPDA数据分析师 > 数据分析行业资讯 > 非结构化数据,被忽视的富矿

非结构化数据,被忽视的富矿

来源:数据分析师 CPDA | 时间:2016-03-01 | 作者:admin

Storm、Spark、MapReduce 比较

在美的华人创业团队有一个天然的优势——庞大的中国市场。一边讲着流利的中文,一边运转着美式思维,这些创业者正在绞尽脑汁如何把手头的技术推送到母国市场。

汪晓宇刚刚结束中国的行程回到美国北卡罗来纳州。2013年,他创立大数据分析公司Taste Analytics,在此之前,他是北卡大学夏洛特分校的助理教授,并在美国五大视觉中心之一的夏洛特视觉中心任职。

简单来说,Taste Analytics的工作就是让“非结构化数据”最终以图像的形式输出,让有一定文化基础的人都能看懂这些数据在说什么。

Taste Analytics创始人兼CEO汪晓宇博士

非结构化数据对应的是结构化数据。在数据分析行业,大致的统计是,世界上约80%的数据都是非结构化数据。此前,数据分析绝大部分是针对结构化数据,比如姓名、性别、年龄这些信息,可以以word、excel等形式呈现的数据。而非结构化数据是更加“莫可名状”的:它们通常藏在你的聊天记录、邮件、发布的图片、语音以及视频中,数据分析师相信,对它们的研究可以让你深度了解自己。

在中美两国科技界对未来技术的甄选中,大数据分析通常位列其中,而非结构化数据又被认为是大数据产业的一个核心。

雅虎是这方面的先行者,包括后来的谷歌。中国企业在这个方面也做了很多努力,2012年官方也成立了非结构化数据管理标准工作组。

“国内现在在这一块的数据积淀相对较少,现有的数据绝大部分都是结构化的,而美国已经到三七分的比例。”汪晓宇对记者说道。他认为国内对于非结构化数据的分析处在“有概念、无工具”的状态。

不过,中关村大数据产业联盟副秘书长陈新河认为,非结构化数据分析在国内已经发展了多年,工具并不缺失,比如,舆情分析、广告上的应用以及语音识别上的应用,这些细分领域发展得都不错。

记者也从业内了解到,除了百度、阿里这些数据大户,一些创业公司及上市公司在这方面都有发力。

2014年,百度大数据部一位从业者曾表示,中国网民每年都会产生很多数据,移动端所带来的爆发式增长给大数据从业者带来非常大的挑战,这些数据有很多是非结构化数据,怎样把它们的价值分析和挖掘出来,是百度大数据面临的严峻问题。

事实上,在美国市场上,这也不是一项成熟技术。2005年左右,美国开始了对结构化数据的分析,2010年左右才开始重点关注非结构化数据领域。

“2013年时,我们曾经对60多家美国企业的高层进行访问,发现当时这方面的技术很落后,这就证明了,在非结构化数据分析领域存在非常大的蓝海。”汪晓宇说。

他开始朝着这个方向努力。此前,他曾在微软和富士通的研究院里接触到了大量文本分析的技术,包括自然语言的处理和机器学习。

两年之后,Taste Analytics拥有了一批美国金融机构以及世界500强公司的用户,并且在澳洲、荷兰开拓了市场。公司提供的业绩数据显示,2015年同比2014年收入增长了6倍,并且季度营收增长速度保持在300%左右。

Taste Analytics回国的第一步是给自己找到了来自于中国的投资者和合作伙伴。

近期,公司获得来自真格基金和聚合数据领投的pre-A轮投资,融资金额340万美金,前两者共投出了220万美金。

聚合数据是一家在线数据交易平台,为用户提供在线数据调用API服务。去年年底时,聚合数据曾经拿到中国文化产业投资基金、京东等合投的2.18亿元人民币的B轮融资,并且宣布启动国内上市计划。

“我们的本事是数据源,在数据分析的处理上还有不足,此次投资Taste也是希望补足短板。”聚合数据创始人左磊对《第一财经日报》记者说。公司此前提到将在数据分析、行业解决方案方面加强投入,此番向Taste Analytics投出了100万美金,并且会为Taste提供国内用户资源——目前聚合约有35万注册用户。

提高决策效率是每一个企业决策者渴求的事情,但他们绝对不会想每天面对数千条枯燥的数据,即便是这些数据里隐藏了巨大的商业机密。

在大数据的创业中,这就是一个机会,“特别是在垂直领域的数据应用分析,创业公司的机会主要在此,数据源和大数据基建上基本没有什么机会了。”左磊认为。

汪晓宇正在试图抓住这个机会。Taste Analytics对于非结构化数据分析的过程分为三步:第一步是由其开发的Signals平台通过数据接口帮助企业收集数据(这些接口包括亚马逊、天猫、Twitter、Facebook、Apple Store等),或是由用户将数据导入系统中,通过对细小到每一个字的数据进行深度学习,系统快速分析出各种结果信息,并形成预测性的分析结果;第二步,输出一个简洁明了的图像化分析结果;第三步,用户建立自己的分析模型。

第一步的预测性分析和第二步的可视化结果是Signals平台的核心。在日理万机的企业决策者看来,图像可能要比看word的白纸黑字和excel硬邦邦的表格有趣很多。

客服管理和电商数据处理是Signals平台的两个主要应用场景。对于很多公司来说,现在客户服务的周期越来越长,需要耗费很高的人力成本来处理大量的数据,跟踪各种奇葩的诉求。汪晓宇希望通过平台实现对这些客服数据的快速浏览和标准化分析,达到预判的目的。

对电商的数据分析是Signals的另一个应用方向。比如,一家深圳做音响的厂商想了解国外竞品的市场状态,将这个竞品在亚马逊上的网址粘贴到Signals平台上,Signals可以自动分析这款竞品的评价、走势。汪晓宇表示,Signals有自己的爬虫和数据采集器,覆盖了美国几乎所有的电商,目前正在渗透国内的电商平台。

现在,经常往返于中美两国的汪晓宇正在和京东接触,对于非结构化数据分析工具来说,电商平台海量的商家数据、客户评论是一个富矿,这也将是他们拓展中国市场的切口。不过,他还会面临诸多的难题,比如市场对于非结构化数据的整体认知,人们在多大程度上可以信赖这些“莫可名状”的数据;电商和社交平台是否愿意开放数据给“外来者”。况且,在中国市场上,百度和阿里这些数据大户所设立的竞争门槛也并不容易跨越。