投了Airbnb、Reddit、Quora等明星企业的美国顶尖投资人如何评价今日头条的
下图是由小明机器人撰写的文章截图,报道了 2016 年奥运会期间安迪·穆雷(Andy Murray)与胡安·马丁·德尔波特罗(Juan Martin Del Potro)之间的网球男单决赛结果。 为了实现这一功能,今日头条必须克服两大重大技术挑战: 首先,撰写奥运会赛事结果的故事需要数据,今日头条从三个来源中抽取:1)奥委会组织的实时赛事比分更新;2)从最近收购的一家图片收集公司获得的图片中获得相关视觉介质;3)监控有关赛事的实时文本评论。公司对四项运动赛事进行了机器人报道——乒乓球、网球、羽毛球和女子足球——从技术角度而言,这些比赛更容易发布赛况报道(乒乓球、网球和羽毛球是“回合制”的比赛,规则较其他运动更为简单,此外,对于女子足球拥有高质量的独家数据来源使其成为第四项报道赛事。) 第二,今日头条必须确定这三个来源的数据如何组合,以确保内部的一致性和故事的相关性。这比第一步访问和诠释数据的挑战更大。任何选定的图像需要与赛事的结果相关,并且还要适合于从评论中提取信息。这反过来要求今日头条的AI团队将自然语言处理能力与上下文图像识别相结合。他们最终将基于语法表达生成的报道模板——从实时文本评论中选择相关句子的排序算法,与图像文本匹配算法整合在一起。该系统还通过卷积神经网络来分析候选图像中的内容。通过使用历史数据进行训练,该模型能够为报道挑选出最相关和最具视觉吸引力的图片。他们还使用序列到序列深度学习算法将现有报道总结成每日新闻精要,并为文章提供更好的标题建议。系统采用递归神经网络来计算句子的向量表示,并将这些句子向量进一步反馈到一个排序模型中,从而为每篇文章提取简明摘要。 通过这些努力,今日头条在里约热内卢奥运会期间发布了 450 条500-1, 000 字的机器人报道,这些内容取得了巨大的成功。这些文章的阅率(阅读数量除以用户印象数)与速度更慢、成本更高的人工撰写文章相当。今日头条将这一内容制作能力拓展至体育赛事报道之外,迄今为止,已累计发布了8, 000 多条报道,并且还在积极投入研究,解决剩下的技术问题,让其作品与人类写手相媲美。 内容审核: 在其早期,“软新闻”是今日头条主要的交互驱动力之一——如名人八卦、流行文化和生活方式等领域的文章。这并非偶然。与通过知名的政府控制的新闻机构发布的官方新闻所不同,软性内容在互联网上通过数量众多的网站发布。总之,没有一个集中的地方可以获得这些内容:搜寻这些消息的用户需要投入大量时间访问不同的站点,并且也不能保证就可以获得他们最感兴趣的信息。今日头条改变了这一局面。通过获取、集中和优化信息发布渠道,它将用户在内容查找上所需要投入的时间降到几乎为零,并且提升了用户发现他们最关心的内容的信心。这一点为用户带来了真正的价值。 内容管理核心需要解决双重问题:除了为用户提供内容外,内容管理人必须找到内容。内容管理人首先需要访问网站,找到信息,并收集相关元数据。其次需要不断更新中央信息库,并创建尽可能多的个性化版本。两者都是过程密集型任务,此时算法比人类拥有明显的优势。在其刚刚诞生的时候,今日头条在这一领域面临的唯一重大竞争来自于由人工编辑处理此项工作的门户网站,而今日头条利用算法,令其在与人类编辑的竞争中取得了重大优势。 该系统以更快的速度处理了人类编辑的工作,这一速度直接转化为今日头条用户的价值。今日头条能够更快,成本更低的收集更多的内容,在一个客户价值与内容质量、相关性和刷新率直接相关的行业中,形成一项巨大的优势。 算法的使用也意味着每个用户都可以基于持续更新的个人信息拥有个性化的兴趣——这是任何人类编辑都没有功夫去完成的事情。 今日头条还使用算法来识别和过滤低质量的内容。一个内容分发平台所分发的内容质量决定了该平台的质量。大规模分发基于cookie偏好裁断的内容(cookie-cutter content)(例如报纸和杂志)时代已成为过去时。在今日头条的世界里,该平台只向用户推送他们感兴趣的内容。虚假报道和垃圾信息是媒体行业的主要问题。今日头条d的底层算法使用文本分类算法来确定一篇文章是否为虚假消息,是否是标题党,或不符合今日头条的质量标准。在这方面,今日头条还通过用户版主来标记虚假文章,并聘请人工版主对有争议的报道进行仲裁。 推荐: 内容推荐是今日头条最为人称道的功能,这也是成就今日头条的成功与声誉的大功臣。在内容生命周期这一阶段,今日头条所使用的机器和深度学习算法拉开了其与同行之间的距离,是推动其用户持续增长和留存的关键。 (编辑:PHP编程网 - 黄冈站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |