百度大脑5.0跃升软硬一体AI大生产平台

发布时间：2019-07-04 04:31:38 所属栏目：数码来源：张金梁

导读：副标题#e# 7月3日下午，“Baidu Create 2019”百度 AI开发者大会百度大脑论坛如期举行。在上午主论坛中，百度首席技术官王海峰正式发布百度大脑5.0，实现了历史上最具跨越性升级，在算法突破、计算架构升级的基础上，实现AI算法、计算架构和应用场景的融合

副标题[/!--empirenews.page--]

7月3日下午，“Baidu Create 2019”百度 AI开发者大会百度大脑论坛如期举行。在上午主论坛中，百度首席技术官王海峰正式发布百度大脑5.0，实现了历史上最具跨越性升级，在算法突破、计算架构升级的基础上，实现AI算法、计算架构和应用场景的融合创新，成为软硬一体AI大生产平台。

百度大脑5.0跃升软硬一体AI大生产平台
百度首席技术官王海峰

夺人眼球的“机械臂倒盖碗茶”、任性的“中英自由说”、智能语音芯片“百度鸿鹄”…都给观众留下深刻印象，一下拉近了AI科技和人之间的距离。这背后又隐藏着哪些顶尖技术？百度大脑5.0何以称之为软硬一体的AI大生产平台？下午场满满“技术范儿”的百度大脑论坛一一揭晓。

语音、视觉、语言与知识 AI算法创新并驾齐驱

重磅升级后的百度大脑5.0打通了从基础层的深度学习技术到通用AI能力、应用技术方案，再到定制化模型，以及最终的部署和集成，整个人工智能产业化应用落地的全部流程，实现了AI技术的标准化、自动化和模块化。

一直引领行业创新的百度大脑语音技术此次亮出在语音识别、语音合成、远场语音交互芯片方面的成绩单。百度语音技术部高级总监高亮介绍，识别方面，百度提出流式多级的截断注意力模型SMLTA，这是国际上首次实现局部注意力建模超越整句的注意力模型，也是国际上首次实现在线语音大规模使用注意力模型。SMLTA在大幅提升识别速度的同时，也提高了识别准确率。在输入法有效产品相对准确率提升15%，音箱有效产品相对准确率提升20%。合成方面，针对现阶段面临风格迁移、音色模拟和情感拟人的三大挑战，百度推出语音合成技术Meitron，可以将语音中的音色、风格、情感等要素映射到不同的子空间，在使用时，不同要素可以任意组合，灵活的控制合成语音的风格。同时降低语言合成门槛，仅需20句话就可以制作一个人的专属声音。

百度大脑5.0跃升软硬一体AI大生产平台
百度语音技术部高级总监高亮

对于落地应用正在端侧呈现出巨大需求，百度大脑语音团队研发出一款针对远场语音交互打造的芯片——百度鸿鹄芯片。鸿鹄芯片的设计，变革传统芯片设计方法，遵循“软件定义芯片”的全新设计思路。该芯片采用双核HiFi4架构，2.8M大内存，台积电40nm工艺，在此硬件规格上，100mw左右平均工作功耗，即可支持远场语音交互核心的阵列信号处理和语音唤醒能力。同时，按照车规级标准打造使鸿鹄芯片可满足极严格的需求，将为车载语音交互，以及智能家居等场景带来更大想象力。鸿鹄芯片流片的同时，即实现了量产。

百度视觉技术在2019年各大国际赛事中开启“开挂”模式，在前不久结束的CVPR上分别在视频理解、人脸活体、车辆REID等领域获得第一，上半年在NTRIE2019、ICME2019、ICDAR2019、DWAN2019等比赛中也屡屡夺冠。百度视觉技术部、增强现实技术部总监吴中勤介绍，5G时代，越来越多物理设备将连接到高可靠、低延时的网络空间，这将彻底改变人们与环境及设备的交互方式。本次全新发布视觉语义化平台2.0，正在推进视觉技术由“看清看懂”向“交互”进行升级。视觉语义化平台2.0在交互升级和软硬件结合两大方面实现突破。

百度大脑5.0跃升软硬一体AI大生产平台
百度视觉技术部、增强现实技术部总监吴中勤

交互升级包含一体化人机交互系统和大场景物理世界交互系统。简单而言，一体化人机交互系统是人与机器、虚拟环境的自然交互与融合，该系统适用于实现AR特效的直播、小视频、特效小程序等场景，已应用于百度多款视频App。大场景物理世界交互系统是将视觉定位与AR技术突破性结合，实现大范围的虚拟信息与物理世界的精准叠加，从而建立起AI时代全新的交互系统。目前，软硬件结合可以满足应用场景更高效的视觉计算，以及更低延时的体验，同时能保护数据隐私。百度视觉方面的软硬件结合主要聚焦于模型压缩平台PaddleSlim、多模态FaceID开发组件以及软硬件一体解决方案AI相机三部分。FaceID覆盖设备量已超1200万台。

视觉语义化平台2.0更新了许多先进的感知技术，也让机器人技术实现新突破。百度三维视觉首席科学家杨睿刚介绍，机器人就是一个智能体，除了感知技术，智能体需要决策和动作相关的技术，实现从环境感知到主动感知。目前，百度研究的智能体技术主要集中在自动驾驶Apollo、工程机械和服务机器人三大方面。上午主论坛中引人关注的机械臂“茶博士”不仅能说会道，还完成了传统的长嘴壶倒茶工作，其背后依靠的正是服务机器人方案。基于百度3D视觉，机器人可以对茶杯的位置进行检测和追踪。通过机器人运动规划和控制，机械臂可以对工作空间进行碰撞检测，避开障碍物；实时规划运动后，可自动生成倒茶轨迹；随后，感知水流变化，实时调整倒茶位置。语音语义联动技术解析，更是让机器人像“人”一般，听得懂，说得好，做得准。

百度大脑5.0跃升软硬一体AI大生产平台
百度三维视觉首席科学家杨睿刚

在语言和知识技术方面，百度大脑也公布了一系列创新和突破。百度AI技术平台体系执行总监吴甜向介绍，百度设计并实现了知识增强的语义理解框架——ERNIE，具备可持续学习能力，核心模型能力不断提升。目前，ERNIE累计学习了超10亿知识，全面刷新中文NLP任务的指标，在百度众多产品应用中提升效果。机器同传方面也有最新进展，在翻译过程中对语音识别结果进行纠错的联合词向量编码技术，可解决多轮翻译一致性和连贯性问题的语篇翻译模型等，结合先进的语音技术，百度大脑实现了高准确、低时延的机器同传技术。

百度大脑5.0跃升软硬一体AI大生产平台
百度AI技术平台体系执行总监吴甜

（编辑：PHP编程网 - 黄冈站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

荣耀将在海外上线X6 入	256GB的iPhone 14够不
时隔五年半，我们复测	iPhone 14 Pro感叹号屏