估值175亿的“假数据”独角兽

近日,马蜂窝被指数据造假,曝光此事的微信公众号“小声比比”和乎睿数据团队声称,马蜂窝作为核心资产的2100万“真实点评”中有1800万条是通过机器人从大众点评和携程网等竞争对手那里抄袭的。

估值175亿的“假数据”独角兽

仅餐饮、酒店版块就有7454个抄袭账号,平均每个账号从携程、艺龙、美团、Agoda、Yelp等平台抄袭搬运了数千条点评,合计抄袭572万条餐饮点评,1221万条酒店点评,占马蜂窝官网声称总数的85%。更令人震惊的是,许多马蜂窝官方认证的账号竟然也是抄袭账号,其中更是出现了某账号在同一天忽男忽女、同时出现在不同城市的现象。

不仅如此,将马蜂窝与大众点评进行比较,会发现二者的数据趋势截然相反,与其它平台评论事件多集中在节假日和饭店不同,马蜂窝评论多集中在工作日、工作时间,且后者的点评数量还会在特定时间节点指数级增长,随后出现断崖式回落,这也侧面反映着马蜂窝数据的可疑。

估值175亿的“假数据”独角兽

目前估值175亿、在世界杯期间砸下2亿广告费的马蜂窝今年以来受到了大众的普遍关注。八月份因定错酒店,建议客户从俄罗斯打车去希腊,最终赔偿8万打车费一事刚刚落下帷幕,“假数据”一事又引发了大量争论,据悉,曝光此事的文章目前阅读量已超过300万。

事件发酵两天后,马蜂窝官方发布回应,称对全站数据进行核查后,“点评内容在马蜂窝整体数据中仅占2.91%,虚假点评号在总体中的占比更是微乎其微”,其用户分享的主要载体是游记、攻略和问答,并称“这才是马蜂窝的真实价值所在”并向法院提起诉讼,起诉乎睿数据团队和“小声比比”微信公众号负责人丁子荃名誉侵权,随后法院立案。

面对质疑,微信公众号“小声比比”和乎睿数据团队再次发声,称马蜂窝在事件曝光后删除大量点评数据,平均每个抄袭账号清空了2662条点评。并在该文章下的评论中回答网友说,已下载好了全部原始数据,无惧出庭应诉。

估值175亿的“假数据”独角兽

事件一波三折引人热议,先不讨论名誉侵权一案的诉讼结果会怎样,我们先从法律角度谈谈利用爬虫抓取其它公司用户发布的内容,发布在自己的平台构成侵权吗?

首先,根据我国大陆对商业信息保护的法律条款,只有经过严格定义的知识产权信息才受到财产性信息的保护。

其次,网络平台上用户发布的公开信息是一种财产性信息和公共信息。但并不是经过严格定义的知识产权信息。因此,仅仅是复制其它平台的点评到自己的平台上似乎不构成侵权。

估值175亿的“假数据”独角兽

但是,《反不正当竞争法》规定:“经营者不得对其商品的性能、功能、质量、销售状况、用户评价、曾获荣誉等作虚假或引人误解的商业宣传、欺骗、误导消费者。”而对于点评类数据的大量采集,明显造成不正当竞争,存在违法可能。

大众点评和百度地图之间就发生过类似的纷争。2016年,大众点评因百度地图大量引用大众点评的评论未署名来源,起诉百度索赔9000万,最终大众点评胜诉,尽管赔偿金额仅有300万元,但现在百度地图的评论里已经都标明了来源属于大众点评,为大众点评带来了不少流量。

估值175亿的“假数据”独角兽

由此可见,像马蜂窝这类利用爬虫手段获取其它网站点评等内容的行为并不少见。除了爬虫这种“僵尸水军”外,还有许多真水军的假评论。

买东西时需要在电商购物平台的假好评中筛选出真实评论、看电影时需要在假影评中提取有用的信息、微博评论中大量的雷同内容、视频网站上令人震惊的点击量、微信公众号虚假的阅读量,这一切的背后甚至形成了一条“假数据”产业链。消费者想要做出合理的消费决策,需要在“假数据”的汪洋大海里练就海底捞针的本领。而在这种环境下购物或者选择内容,需要付出的精力与时间已经达到了令人不舒服的状态。

估值175亿的“假数据”独角兽

如果继续放任造假、抄袭发展必将会导致劣币驱逐良币的现象发生,好的产品默默无闻、不见天日,后来者为了追赶前人,也只能选择用“假数据”吸引关注。

但值得庆幸的是,在技术的发展之下,我们将有可能在未来应用自然语音识别、人工智能、复杂网络等理论与技术手段,让信息变得越来越透明,让产品回归它本身的价值。这是最好的时代,也是最坏的时代,庆幸的是,我们还能看见希望。