中国社会化数据分析的难处

业界 2018-11-02 12:08:23 阅读209

当下,多平台产生的对话量数以百万计,社媒网络已然成为市场研究部和产品经理不可或缺的信息来源。身为专注中国市场的社交媒体分析公司Soshio首席市场官兼联合创办人,Michael Smith解读了分析中国社交媒体数据(有时网民的行为数据并不可靠)所面临的种种挑战。

在社交媒体上发布品牌/产品相关评论的网民可能被认为比其他信息来源更真实、更可信,但散播谣言也是中国社交网站面临的一大问题。您如何把握这一不确定性呢?

通过结合人为的过滤和从头开始构建的分析引擎。目前,涉足社会化数据分析领域的国际公司不在少数,许多都声称对中国社会化内容的分析不在话下。然而,我要问的是:“你可以肯定你的数据引擎能够分析中国的社会化媒体语言么?”

特别是在美国,一家公司可能会说他们能分析48种语言,包括汉语。他们的做法是:构建一个适用于英语的分析引擎,将所有其他语言机器翻译为英语,然后再对之做分析。结果是:准确度低,俚语释义荡然无存(因为机器无法处理俚语翻译)。更何况,单个汉字的意思需视语境而定,要想正确解读,就要考虑其所搭配的词组,这可不像英语中的关键词。

2013年10月,肯德基推出“桶桶半价”促销活动,然而不少消费者大呼上当受骗——分量仅是全家桶的一半。肯德基此举在社媒圈招致如潮恶评。由此来看,社媒聆听十分有必要。

您专注于社会化数据的分析,能否列举一些相关数字和数据?

就垂直社会化网站的数据分析来看,发行商新浪网和人人网处于行业领先地位,它们提供的数据有两个来源——开放API(应用程序界面)、合约数据提供商。这些数据提供商,如GNIP、Datasift和Socialgist,对数据进行整理、去噪后,提供给我们、Salesforce、Social Touch等以更丰富数据与品牌客户打交道的公司。

中国有6.18亿网民,其中约85%活跃于社交媒体。简而言之,中国网民形成的数据足迹几乎无处不在:71%覆盖都市区域,29%覆盖农村区域。总体来看,随着互联网的进一步渗透,社会化媒体的数据接触点将会与日俱增。

在中国的6.18亿网民中,有一半人(3亿)在进行网络购物。根据中国互联网络信息中心2014年1月份的数据,增长最快的在线活动集中于团购(+69%)和差旅预订(+62%)。2013年中国网购市场规模约为2960亿美元,预计到2015年(有人说2017年)其规模将超过美国市场。

依据每月活跃用户数量,中国领先的社交网络为:QQ空间(6.25亿)、微信(3.55亿)、新浪微博(1.43亿)、人人网(4500万)以及陌陌(4000万)。就数据分析来看,微信在我们眼中有些不合群,因为它是一个封闭的私人平台。我们正试图解决如何与腾讯合作的问题,看看如何能够获得一些外围数据。

微信的用户基数为全球WhatsApp的79%。这一数据仅是来自中国这一单个市场。对于新浪微博,中国互联网络信息中心资料显示65%的用户在发帖。然而,香港一所大学近期进行的一项调查发现,在新浪微博的所有帖子中,仅有约10%为真正的原创内容,其余为被动用户的被动阅读或共享。

在中国挖掘社交媒体数据有哪些挑战?

面临的挑战不难归纳:文化和语言障碍、社交媒体格局的复杂性。过去,人们获取数据的方式通常是使用一大堆自动爬虫程序,进入社交平台,获取社交摘要进行分析。毫不夸张地说,中国有成千上万的此类产品,如果你还在谈论数百万的帖子,你就落伍了。新浪和腾讯被迫寻找新的收益增长点,其中之一就是通过提供其部分数据,但这并非“免费的午餐”。

这推高了数据成本。中国的数据来源比西方更加昂贵——Twitter和Facebook的做法是“来拿我的原始数据吧,随便用”,因为被使用的数据越多,来自广告商的投资就越多。在中国,情况并非如此,更像是“来使用我的数据吧,但每个数据点都需要付费”。那些数据发掘公司也将利润放在首位,所以数据成本飙升的幅度可想而知。

但我认为这种情况会发生改变,因为我们看到新浪和腾讯经常会模仿西方同行,现在它们仅仅是在测试场地。我们可以设想成本将会下降。

西方公司的另一个挑战是数据存储。我们经常面临的一个犹豫是:如果将数据存储在中国,政府可能会拒绝你的访问或关掉数据源。