加入收藏 | 设为首页 | 会员中心 | 我要投稿 PHP编程网 - 黄冈站长网 (http://www.0713zz.com/)- 数据应用、建站、人体识别、智能机器人、语音技术!
当前位置: 首页 > 站长资讯 > 评论 > 正文

通过数据研究完成信息的传播趋势预测

发布时间:2021-11-24 23:41:40 所属栏目:评论 来源:互联网
导读:黄萱菁认为,对社会媒体发布的信息进行处理,首先需要理解媒体发布的文字内容,并在其中发现各种各样有价值的信息,即价值发现,随后在进行传播趋势预测。 她提到,价值发现和传播趋势预测实际上需要有很多基础支撑。比如通过自然语言处理技术让语言可计算,对社会
黄萱菁认为,对社会媒体发布的信息进行处理,首先需要理解媒体发布的文字内容,并在其中发现各种各样有价值的信息,即价值发现,随后在进行传播趋势预测。
 
  她提到,价值发现和传播趋势预测实际上需要有很多基础支撑。比如通过自然语言处理技术让语言可计算,对社会媒体上非规范的语言结构进行分析,对不同语言的文字信息进行处理,以及利用技术手段对文字信息进行情感处理。
 
  以下为黄萱菁演讲实录,内容经编辑略有删减:
 
  各位嘉宾下午好,很高兴和大家分享我们在智能社会媒体挖掘上的一些工作和看法。
 
  我们知道,今天中国有十亿多的互联网用户,用户、媒体从起床到睡觉,长时间沉浸在各种内容中间,进行各种内容消费。贯穿全天最重要的内容消费方式就是我们的社会媒体,统计表明过去几年间,人们消磨在社会媒体的时间越来越多,按照2019年的数据,人们每天有两个半小时在玩各种各样的社会媒体。
 
通过数据研究完成信息的传播趋势预测

  那我们要消费什么内容呢?首先,我们要和自己的亲人、朋友聊天,这是一类。然后我们要娱乐,我们要获取各种各样的信息,包括新闻信息、社交信息。我们分享自己发生的事情,跟大家分享自己的观点。
 
  在社会媒体上面存在各种各样有价值的信息。首先是商业信息。有统计结果表明,在社交媒体上进行销售,它的转化率很高,大概有55%能最终转换为销售的行为。
 
  除了商业价值,我们看一下社会媒体的社会价值,通过社会媒体可以向总理说话,可以建言献策。通过关注学术媒体我们可以知道会议的信息,比如投稿延期了,还可以宣传自己的工作,获取各种各样的信息。
 
  过去几年,我们在社会媒体信息处理开展了一些研究,主要分成下面几块,第一块是理解社会媒体的内容,我是搞自然语言处理的,所以我们说的主要是文字内容。我们从社会媒体上发现有价值的信息,预测社会媒体未来的趋势。
 
  主要工作分为两类,一类是价值发现,一类是传播预测。价值发现是在社会媒体发现各种各样有价值的信息,以日本地震这个话题为例,我们可以识别时间、地点、对象、范围等实体,能够判别实体的关系,还能够判断情感倾向,比如是谴责发生核泄漏的行为,对受害者表示同情,称之为价值发现。
 
  在价值发现之后我们进行传播趋势预测,我们利用社会媒体构造一个异构网络,由信息空间和社交空间组成,在信息空间之上我们可以得到社会媒体的各种内容信息,通过社交空间,我们可以分析普通用户,网红、机构等用户,通过他们之间的互动形式,跟信息空间的交互,可以得到很多有价值的信息,从而进行各种各样的预测,比如可以预测谣言等各种各样的行为。
 
  为了做价值发现和传播预测,我们需要有很多基础支撑,需要让字词句子篇章的语义可计算。语义的计算需要自然语言处理,作为社会媒体的语言信息处理还要考虑社会媒体的特殊性,比如字词不同的表现形式。另外中文也有中文的特殊性。
 
  我们的研究主要是以自然语言处理作为基础支撑研究社会媒体的新闻发现,预测它的传播趋势。
 
  首先是语义表示。所谓的向量,或者叫嵌入,指的是在统一语义空间用统一的方式去表示知识、文档、句子、词汇,便于进行语义分析、句法分析、词法分析等下游业务,其目的是为了解决大数据自然语言处理带来的数据稀疏问题,实现跨领域的迁移。
 
  过去几年随着深度神经网络的发展,在词嵌入方面我们取得了很多的进展,大致上可以分成两个阶段,比如早期的,我们称之为上下文无关的词向量,它对每一个词产生可计算的、分布式的向量表示。但是它有一个缺点,不能处理一词多义的情况,比如说苹果,可以说我在苹果公司工作,也可以说我吃了苹果,这是两种“苹果”。用一个向量表示一个词是不够的,所以近年来更时髦,比如说基于BERT和ETMO的一些方法,能够生成上下文相关的词向量,根据一个词所在的句子判断整个句子的语义。
 
  对我们来说,在社会媒体之上进行语言处理还面临更多挑战,比如首先社会媒体上例如“OMG”这样非规范的形式让语言结构难以分析,难以拟合;各种各样的网络用语,比如“C位出道”等,基本上每天都有新的词语出现,给语义分析带来了难度。
 
  还有我们现在统计方法、神经网络的方法需要大量数据,尤其是人工标注的数据,但是社会媒体上标注数据的规模和我们常见的新闻领域相比可能只是1%的规模,可用的数据少了,必然带来社会媒体应用性能的下降,面对这样的挑战我们需要开展很多的改进措施。

(编辑:PHP编程网 - 黄冈站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读