Shared posts

15 May 10:53

大数据之伪

by boxi.yang@163.com (boxiyang)

编者注:此文是Christopher Mims的文章。

大数据可谓最近最火的东西之一了,所以,你最好要有点大数据,否则会在竞争对手面前丢面子—哪怕有数据但是不够大也不行。

由希望兜售下一个大事物的咨询顾问、IT公司描述的这些“大数据”故事,其背后的假设存在很多问题。幸运的是,诚实的大数据实践者,那些天生就具有高度质疑精神的数据科学家,连篇累牍地向我们讲述了对该领域的许多炒作感到厌倦的原因。以下就是部分理由:

哪怕是像Facebook和Yahoo这样的巨头通常也不和大数据打交道,Google风格工具的应用是不合时宜的。

Facebook和Yahoo用自己庞大的内部“集群”(一组计算能力很强的服务器)来处理数据。这些集群的必要性是大数据的标记之一。毕竟嘛,如果用你家里的PC就能处理的数据当然不能算“大”。将问题打破成许多小部分,然后对一个部分用一大组计算机进行处理,这种分而治之的必要性,描绘了像Google需要对全球的每一个网页进行排名这类典型的大数据问题的特征。

但是事实上,哪怕是Faceboo和Yahoo,那些集群对于它们手上的许多任务来说也是没有必要的。以Facebook为例,他们的工程师交给集群处理的大多数任务也只是MB—GB级的,这意味着用一台计算机—甚至是笔记本就能处理了。

Yahoo的故事类似,交给Yahoo的集群处理的任务规模平均是12.5GB。这个规模要大于普通桌面PC的处理能力,但是对于一台强大的服务器来说没有问题。

所有这一切都可用微软研究院的一篇论文概括,这篇论文的题目叫做《买集群不会有错》。论文指出,哪怕是在对数据最为饥渴的公司,许多工程师解决的问题都不需要在集群上跑。为什么这是个问题呢?因为存在着非常多类型的问题用集群处理起来时相对低效的,甚至完全就是不合时宜的。

大数据已变成“数据分析”的同义词,令人困惑,还会产生反效果

数据分析是个老古董了,可是现在谈起数据,你不在它前面加个“大”字都觉得不好意思—非常有必要的数据分析实践已经被一股更猛烈但没那么有用的炒作之风一扫而光。比方说,这里就有一篇文章循循诱导自己的读者要将大数据吸收进自己的小企业当中,但是里面讨论的那些东西还不如在笔记本上的EXCEL好用。

也就是说,实际上大多数企业要处理的是Open Knowledge Foundation的Rufus Pollock所谓的小数据。根据Pollock的定义,所谓的小数据是指可以方便地在一台机器(高端笔记本或服务器)上存储和处理的数据。Pollock认为小数据才是真正的革命,但是小数据和大数据没有太多的联系。

超量化你的数据往往会让你事倍功半

数据是不是越多越好?答案几乎是否定的。实际上,如果你要想寻找相关性—想知道X与Y是否有联系好让你可以基于此采取行动的话,收集到的数据越多反而会伤害你。

社交网络分析公司的数据分析首席科学家Michael Wu说:“随着数据规模的不断增加,你能够从大数据析取出来的信息反而会逐渐减少。”也就是说,数据量一旦超过了某个点,增加数据所获得的回报就会减少,因此,收集更多数据纯属浪费时间。

一个原因:你的数据“越大”,在相关性方面有可能出现的误报就会越多。数据科学家Vincent Granville在大数据之咒中说,哪怕是只有1000条记录的数据集,要想陷入到“处理好几百万的关联关系”的情况也并不难。这句话的意思是说,“在那么多的相关性当中,只有少数几个会因为偶然的原因而相关性极强:如果你用这样的相关性进行预测建模的话,必输无疑。”

这个问题一直困扰着大数据应用的鼻祖之一—基因学。科学家满足于对整个基因序列进行排序,然后深入剖析其中的相关性,这种没有尽头的“盘前审问”会导致种种无用的结果发生

在某些情况下,大数据带给人的困惑跟启发一样多。

对数据采集方式的偏见,缺乏背景信息,收集资料的缺口,数据处理的手段、整体的认知偏差等等,这些都会导致算法幻象的产生。换句话说,哪怕你有大数据在手,但是大数据的处理却仍然需要非常高超的技巧和娴熟的经验(除非大数据好用了)。而且即便他们最后分析出了答案,也许那个答案是你根本就不需要“大数据”。

数据究竟是以大为美还是以小为美?

你的企业需不需要数据。当然需要。但是处理规模却不是购买数据产品的关键。同样的问题自其出现以来也困扰着科学—数据质量、整体目标,上下文的重要性,以及直觉,这些都是企业用数据进行决策所固有的东西。记住:格里格•孟德尔仅靠一本笔记本的数据就发现了基因遗传的秘密。重要的是收集合适的数据,而不是随便收集。

除非注明,本站文章均为原创或编译,转载请注明: 文章来自 36氪

36氪官方iOS应用正式上线,支持『一键下载36氪报道的移动App』和『离线阅读』 立即下载!

14 May 13:58

Amazing Career Advice For College Grads From LinkedIn's Billionaire Founder

by Nicholas Carlson

Reid HoffmanReid Hoffman says it took him 15 years after graduating from Stanford in 1990 to figure out what he was really doing with his life.

Figure it out, he did!

Hoffman is now the billionaire co-founder of LinkedIn, a $19 billion public company.

During those 15 years, Hoffman first thought he wanted to become an academic. Then he abandoned that idea to start some companies. Mostly, they flopped.

How'd he figure his path out? What lessons can today's graduates learn from Hoffman's journey?

To answer those questions Hoffman and Ben Casnocha first co-authored a book called "The Start-up of You."

Then, expanding on ideas from that book, they created a slideshow presentation for college grads called "The 3 Secrets Of Highly Successful Graduates" and allowed us to republish it here.







See the rest of the story at Business Insider

Please follow SAI on Twitter and Facebook.

    
12 May 09:59

运用自然语义分析,“出门问问”回答你“附近有什么好吃的?”等各类衣食住行问题

by liao717921@gmail.com (yuanlingliao)
Lucius

这3条原因确实还不错

“附近哪里有好吃的川菜?”,“从北京到杭州最晚的高铁是几点?”,这种问题在过去,恐怕只有吃货和列车售票员可以回答你。放到搜索引擎里,得到的答案也是风牛马不相及。

但现在微信公众账号“出门问问”就想帮你回答这些问题——你需要做的就是按住微信的“按住说话”按钮,把这些问题直接告诉“出门问问”,然后它就会把你的问题转化成机器可以理解的文字,搜索之后返回给你附近的川菜馆、末班高铁的班次和票价。

当然,上述的问题只是举个泛例,目前出门问问的服务范围囊括了火车(动车和高铁)飞机餐馆酒店周边设施(银行、电影院等)的查询。到节假日的时候,它还会推送一些有趣的查询,比如查“附近的羽毛球馆”,或者是应景今天的母亲节,查“我想买花”。

我自己也尝试了一下,除了极偶尔同音字的偏差以外,“出门问问”基本上可以听懂我说的话,也把搜索结果直观的返回过来,交互步骤上算是比较简洁。但由于微信接口的限制,如果要搜“附近”有什么,必须把你的地址发送给微信,而每次查询都要重复发送地址,比较让人困扰。为了避免发送地址的麻烦,我只好在查询的时候把地址也加进去,比如问“北京知春路附近的川菜馆”,而不是“附近的川菜馆”。

那“出门问问”背后的工作原理是什么?依步骤来看,是语音识别——自然语义分析——搜索和搜索结果的呈现。而其最核心的技术门槛则在于用自然语义分析来理解人们像日常说话一样的提问。就像它可以用后台分析把“从上海到北京的机票最晚几点”这种表述,理解成“上海”是“出发地”,“北京”是“到达地”,“最晚几点”是指今天最后的一个航班,然后在接入的去哪儿等数据中进行关键词搜索。

目前市场上做语义分析的产品有不少,比如苹果出名的Siri娘,时不时调侃一下Siri已经是众人之乐了,但娱乐色彩颇重的Siri,关注的点并不是借由语义分析和语音搜索,把线上数据(online)和线下的生活场景(offline)联系起来。而在搜索的演进之路上,Google在对话式搜索上的尝试也还未到普遍适用的阶段。

换言之,由于人类表意的多样性和词库数据覆盖量之间的矛盾,AI-complete难题还远无法解决,所以目前很多自然语义分析的成果会集中在相对垂直的领域,这也是“出门问问”以本地生活服务作为切入点的可行原因。(*关于语义搜索的探讨可见知乎相关问题*)

至于为何选择微信平台,“出门问问”创始人李志飞跟我分享了他的想法:

一是微信的用户已经培养起了语音使用习惯,而“出门问问”最有价值的时候就是用户习惯用自然语言去问问题的时候,如果是独立的应用,用户可能反而不太习惯对着应用说话;

二是出门问问团队是技术人员占到90%的团队,前端的交互设计相对技术来说是他们的弱项,而微信恰好是前台交互特别简单的产品,不需要花太多精力去设计UI;

三是对于用户来说,前端太复杂,还需要选择表单(比如出发城市、达到城市、出发日期等),是不符合移动端使用场景和特点的。

四是关注一个微信账号比下载一个应用所需流量和心理成本低很多。

可以点此关注微信公众账号“出门问问”

除非注明,本站文章均为原创或编译,转载请注明: 文章来自 36氪

36氪官方iOS应用正式上线,支持『一键下载36氪报道的移动App』和『离线阅读』 立即下载!

12 May 04:58

是时候整合线上线下书店了

by truant+kryptoners@36kr.com (Kryptoners)
Lucius

其他线上线下有竞争的业务可能可以参考

本文编译自美国客户需求分析师Peter Bihr在Medium上发的一篇文章。

我非常喜欢书店,着迷那种置身书海的感觉,尤其喜欢那些有特色的小书店。但是我有个并不光彩的小秘密,我基本上只会在旅行的时候逛书店,而我又是那种不喜欢带太多行李的人,所以,我很少在书店买书。取而代之的是,我会把那些觉得不错的书记下来,然后回来之后在网上买电子版的看——这让我觉得有些对不起书店老板,好像欺骗了他一样。

要如何解决这个问题呢?如何让一个精心设计的、特色的书店正常的运营下去,同时我们这些懒人还不用每次背着一大堆书到处跑?解决方法就是让每一个实体书店在帮助卖出一本书时,获得分成。

其实这个实行起来也很简单,书店老板注册一个网上卖书的平台账号,比如Amazon吧,当我在这个实体书店里看上了一本书,我就扫描它的条形码然后去Kindle app上把这个电子版买下来,这个app会检测到我的所在地,确认我所在的书店然后记录该书店帮助卖出此书,实体书店因此得到分成。这样我还能继续轻装旅行,Amazon和书店也都有收益,皆大欢喜。

当然这个平台不一定非得是Amazon的,很多创业者也可以一起和书店合作,共同构建这个线下体验、线上消费的阅读平台。让实体书店能够因为那种特有的看书环境而赚到一定的收益才是最重要的。毕竟,如果让我们只靠Amazon图书推荐就买一本书不是我想要的未来。

注:文中的思想是一种线下到线上的启发,按照36氪以前介绍的O2O闭环的思想,线上到线下的运营也需要平台和商户的深度合作与跟进。但是现在国内的电子书付费意识还不如美国,这种O2O平台的运营模式还需要中国特色的探索,不过抓住特色小书店,旅游购书的思维,也许是不错的细分出发点,期待大家的思考。

除非注明,本站文章均为原创或编译,转载请注明: 文章来自 36氪

36氪官方iOS应用正式上线,支持『一键下载36氪报道的移动App』和『离线阅读』 立即下载!

11 May 13:32

5 Tips on How to Prioritize

by rosemary

By John Murphy

Do you know how to prioritize? I mean really “know” – not just intellectually, but in reality!

My belief is that most of us rank somewhere between alright and pretty poor when it comes down to prioritizing.

It falls somewhere between crisis management and those “things I like to do”!! Not the most scientific criteria!

I have had the pleasure of working with some top CEOs and they are really good at prioritizing. This is how they do it

They challenge themselves with these 5 questions:

1. Is this on my dashboard of 5/6 key drivers of the business?

2. Will I add value to this task?

3. Am I the one who should be dealing with it?

4. Should I be dealing with this right now?

5. Do I have all the information I need to deal with it?

If they get a “No” to any of those questions it does not get to their priority list.

Allow me to delve a bit deeper:

Dashboard of 5/6 key drivers. I first heard this from Warren Buffet who maintains that there are ever only 5/6 key items that must be monitored at all times. These are the 5/6 items that matter most. Great CEOs focus on what matters most – they are really good at this. They cannot focus on everything – they just focus on what matters and what delivers results.

Will I add value? If it is not clear where they, and only they, can add value, they will not get involved.

Am I the one to deal with it? Top CEOs are really good at identifying whether they are the right person to deal with an issue, or is it somebody else’s job? The old saying of “don’t buy a dog and bark yourself” comes to mind!

Is this the right time to do it? In other words, am I doing this to fulfill my own agenda or someone else’s? Is it the most important thing for me to do in this minute? Is there anything more important I should be doing right now? Top performers are really good at answering that question

Have I got all the information I need? There is nothing more frustrating than starting something and then realizing that you don’t have all the information you need to complete. Make sure that you have the right amount of information or input to complete what you start – it’s a good example to your people, if nothing else.

Top CEOs are really good at this process. They know how to prioritize their work and, by definition, the work of their team tends to be well prioritized also. It is no coincidence!

One of the main challenges I have found when working with clients is to get them to identify the 5 or 6 key drivers. When you first go through this process you will always end up with a much longer list. But there are not 10 or 15 key drivers!

I will not argue with Warren Buffet – his track record is unquestionable! So, be tough with yourself and get to 5 or 6 – it will be worth it to you, and your business.

Author’s Bio: John Murphy a business coach who writes about what makes executives and business owners more productive at www.johnmurphyinternational.com. You can find him on Twitter as @jmicoaching.