文章字数多有优势?Google新闻算法又变动

业界 2018-11-02 12:08:23 阅读373

 

       据国外媒体报道,谷歌去年提交的一项新闻排序系统专利申请泄露了谷歌在新闻排序上的一些算法规则。

      这项专利提交的时间为2012年2月,批准时间为去年12月,名称叫“提高新闻文章排序的系统和方法”。

      哥伦比亚大学新闻学院的教授SreeSreenivasan称,技术世界有很多不透明的地方。此项专利申请可以让人了解像Google这样的公司是如何选择在线内容并对其排名的。他指出,Google用来判断新闻来源质量的某些指标,跟编辑用来确定某出版物是否值得信任是一样的。

      根据此项专利资料,谷歌在对“GoogleNews”页面上所展示新闻进行排序时使用了十多种独立算法规则。

      以下是部分算法规则

      1、用原创文章数或原创句子数来衡量新闻来源的质量;

      2、用“故事规模得分”确定某组织一周、一个月或更长时间撰写的原创文章的重要性。比方说,如果D是关于哥伦比亚航天飞机失事的文章,而相关主题的其他不同文章还有500篇,那么这个故事的规模就是500;

      3、突发新闻得分的计算是通过衡量新闻来源发布重大事件的速度来确定的;

      4、而新闻机构(尤其是未受广泛引用的那些)制作高品质、原创内容的能力,则可以通过故事提及人物的数量等来衡量;

      这些算法具体包括:在一定时间内一家新闻机构创作的文章数量,新闻文章篇幅,新闻的报道的影响力,突发性新闻报道数量,新闻展现形式,作者观点,转发发行量、以及与新闻运营员工规模、新闻员工规模、新闻来源的报导宽度、来自国外的流量,以及写作方式等。

      当使用者输入搜索字符时,谷歌会分析具有该关键字的新闻列表,确定每个链接的新闻来源,然后基于新闻来源品质的各种指标进行排序。

      不过根据专利信息,谷歌通过搜索引擎监测发现,知名新闻网站(如CNN)所提供的新闻普遍比较受读者欢迎,而其它不知名网站(如TownNews)报道,用户可能不去看。

      自去年谷歌提出新闻排序新算法规则后,就引来了媒体公司的一片争论。许多媒体公司抱怨谷歌很容易操作新闻排序。谷歌的这种行为会直接影响到了读者所看到的新闻内容。