# 产品白皮书

# 产品定义

AIUI 是科大讯飞提供的一套人机智能交互解决方案, 旨在实现人机交互无障碍,使人与机器之间可以通过语音、图像、手势等自然交互方式,进行持续,双向,自然地沟通。

现阶段 AIUI 提供以语音交互为核心的交互解决方案,全链路聚合了语音唤醒、语音识别、语义理解、内容(信源)平台、语音合成等模块。可以应用于智能手机(终端)、机器人、音箱、车载、智能家居、智能客服等多种领域,让产品不仅能听会说,而且能理解会思考。

AIUI 开放平台 (opens new window)主要包含了语义技能(Skill)、问答库(Q&A)编辑以及AIUI 应用(硬件)云端配置的能力,并为不同形态产品提供了不同的接入方式。目前有如下接入方式有,Android、iOS、Windows、Linux SDK,基于 HTTP 协议的 WebAPI,以及软硬一体的AIUI 评估板(量产板)、讯飞魔飞智能麦克风。

科大讯飞在语音领域深耕多年,拥有声学处理、语音识别、语音合成、语音评测等核心技术。AIUI 从 2015 年发布至今,基于核心技术不断打磨效果,逐步成熟,是一套功能完善、易于接入的人机交互解决方案。

# 应用领域

AIUI 解决方案可以应用于多种领域与产品。包括但不限于智能手机(终端)、服务型机器人、玩具机器人,音箱、玩具、手办、车载、智能家居、智能客服、医疗导诊。

在智能手机、手表或 PC 等终端中,AIUI 可以与手机深度结合为全局的智能语音控制系统。在单个应用(APP)中,可以帮助用户用语音完成复杂的交互,例如导航,买票,订餐等。

在机器人、音箱、玩具、车载等产品中,AIUI 可以化身个人智能助理或虚拟人物,执行用户的指令,例如控制设备移动,多媒体的播放,天气、股票信息查询等能力。

当任意智能家居搭载了 AIUI 后,开发者通过将 AIUI 的语义结果解析成对应的控制指令,不仅可以完成设备自身的状态控制,甚至可以化身为整个家庭的中控设备。

在智能客服领域,开发者可以利用 AIUI 的自定义问答和自定义技能能力,完成对用户表述的语义理解。极大的降低企业人工成本。

AIUI 的能力不限于以上领域与举例,开发者可以在产品开发中释放 AIUI 的无限潜能。

# 产品框架

# 产品特性

AIUI,将讯飞强大的单点交互能力(前端声学处理,语义理解,语音合成,丰富的内容信源)整合为全链路的交互方案提供给广大开发者,开发者可以根据实际的业务需求,利用热词、静态实体、动态实体、所见即可说等特性,进行个性化的优化和改进,提升交互准确率,让人机交互更加流畅,真正的满足和解决用户实际使用中所遇到的问题。

# 语音唤醒

语音唤醒是指通过4-6个音节的唤醒词,将设备从不对外部声音进行识别的休眠状态唤醒为接受并识别外部声音的交互状态。讯飞的语音唤醒具有小尺寸,低功耗,高唤醒的特点。并且用户可自定义唤醒词,单个设备最高支持8个唤醒词同时使用。

# 语音识别

语音识别(ASR)是一种将人的语音转换为文本的技术。科大讯飞同时拥有中文、粤语、英语等21种语言/方言的识别引擎。

# 远场精准识别

TIP

远场精准识别依赖于讯飞麦克风阵列降噪技术以及云端远场识别引擎。

讯飞麦克风阵列降噪技术具有以下技术特点:

  1. 波束成形技术,有效去除各类噪声。

  2. 回声消除技术,消除自身播放的各类声音。

  3. 声源定位技术,准确定位声源角度,形成有效波束。

  4. 去除混响技术,有效去除混响,去除干扰。

  5. 适应多种构型,可以根据产品需求自由选择。包括:2麦 DSP、4麦线性、5麦(4+1)环形、8麦(7+1)环形构型。

远场识别引擎通过专门的深度学习训练,适配远场声波特征,可让远场识别更准确。

TIP

近场识别指手持设备录音时的状态。

远场识别发言人距离拾音设备指1~5m 的识别距离时,远场识别需要配合讯飞多麦克风阵列实现。

# 方言识别引擎

在普通话引擎下,对于非标准的,有一定方言特点的普通话,可以实现方言口音自适配,且保证优秀的识别效果。 同时 AIUI 拥有 21 种方言引擎,开发者可以根据实际业务需求,动态切换方言引擎。

TIP

当使用方言引擎时,开发者需要根据方言表述特色编写对应的语料,以完成语义理解的能力。

# 语音降噪、回声消除、全双工交互

TIP

语音降噪、回声消除、全双工交互为 AIUI 评估板(量产版)、讯飞魔飞智能麦克风、讯飞多麦克风阵列中特有的功能。

移动设备和其它普通开发板,受限于硬件能力,暂时无法实现语音降噪和全双工交互能力。

讯飞多麦克风阵列只是单纯的拾音设备,可以输出唤醒信号和降噪后的单路音频给开发者的上位机。

语音降噪指降低环境噪音,提高人声辨识度,基于讯飞多麦克风阵列,AIUI 在实现降噪的同时可以确定唤醒的方向,并抑制其它方向的人声。

回声消除指产品扬声器发声(TTS 或播放音频)时,可以不关闭产品麦克风的拾音功能,扬声器的回声可以通过讯飞的降噪算法消除,不送入语音识别引擎。

全双工交互指在设备扬声器发声时,且不关闭麦克风的情况下,用户可以打断设备的播放,进行语音识别和语义理解。

全双工示例:

在半双工时,用户与音响的沟通可能如下:

用户:叮咚叮咚,今天的天气怎么样

音响:今天合肥市晴,20~26摄氏度,紫外线……

用户:(打断音响说法)*叮咚叮咚*,明天呢

音响:明天合肥多云,22~27摄氏度,紫外线指数强,较适宜运动。

~~~~~~
在全双工时,用户与音响的沟通如下:

用户:叮咚叮咚,今天的天气怎么样

音响:今天合肥市晴,20~26摄氏度,紫外线……

用户:(打断音响说法)明天呢

音响:明天合肥多云,22~27摄氏度,紫外线指数强,较适宜运动。

~~~~~~
区别在于第二次对话时,用户无需再说唤醒词,可以自然的进行对话。

# 持续录音,连续识别

AIUI 支持两种识别模式:单轮交互模式(Oneshot)和 全双工模式(Continue)

  1. 基于 VAD 的自动断句或按下说的单轮交互模式。如手机 APP 或者语音电视遥控器等单麦克风设备,一般使用按下说的单轮交互,此时需要用户或程序主动触发录音,交互特点是一次触发一次响应。
  2. 持续开启语音监听和识别的全双工模式。在此模式下需要设备具有较好的回声消除效果。如使用麦克风阵列的硬件,智能音箱,智能耳机等产品。交互特点是一次触发后,可以根据业务需求保持交互状态10秒~120秒,实现一次触发多次响应。

两种识别模式各有优劣,产品应当根据具体的产品形态和使用场景进行设计。

TIP

语音活动检测(Voice Activity Detection,VAD)又称语音端点检测,语音边界检测。目的是从声音信号流里识别和消除长时间的静音期,以判断一句话的开始与结束。

# 拒识,过滤无效语音

在全双工的模式下,系统通过智能检测及语义拒识等模块,对上传的语音进行有效判断,可以将与业务场景无关的语音和无效的噪音进行过滤,例如嗯、啊、哦等语气词。

TIP

全双工模式下,仍然会有小概率的误触发问题存在。

# 语义理解

语义理解(NLP)指将一句自然语言转化为计算机可读的结构化数据。语义理解也是 AIUI 的核心功能。

例如“明天合肥天气怎么样”这句自然语言中,经过 AIUI 语义理解引擎,会将这句话解析成如下的 Json 数据:

{
  "semantic": [
    {
      "intent": "QUERY",
      "slots": [
        {
          "name": "datetime",
          "normValue": "2018-01-19"
        },
        {
          "name": "city",
          "normValue": "合肥"
        }
      ]
    }
  ],
  "service": "weather"
}

# 自定义技能、自定义问答

当 AIUI 商店技能仍不能满足您的个性化需求,或者您作为企业和个人想扩大您的产品的用户流量时 ,可以通过技能工作室,编写定制化的技能或者问答库。

# 语音合成

语音合成(TTS)是指将文字信息转化为声音信息,给产品配上“嘴巴”。讯飞提供了众多极具特色的发音人(音库)供您选择。其合成音在音色、自然度等方面的表现均接近甚至超过了人声。拥有中英粤多语种、川豫多方言、男女声多风格的选择,音量、语速、音高等参数也支持动态调整,同时提供定制专属发言人。

# 内容(信源)

内容(信源)指语义理解后对客户真实有用的数据,例如天气具体状态,音乐的播放链接。AIUI 技能商店中多数技能具有相对应的信源,在最终的结构化数据 Json 中表现为 data 字段。我们诚邀各类内容提供商与我们合作,包括但不限于音视频资源、流媒体、新闻、自媒体、儿童故事与游戏、股票违章查询等功能类资源,讯飞提供了多种合作方案,和内容提供商共享 AI 时代的流量红利。

# 支持平台

AIUI 目前支持提供多种集成模式,包含 SDK,硬件接入,HTTP 协议以及微信公众号接入的方式。

# SDK

SDK 目前提供 Android,iOS,Linux,Windows 平台。可以运行在手机或者搭载了相关系统的开发板上。

TIP

AIUI SDK 提供的语音接口只接收单路音频,不具备降噪能力。

# 硬件

AIUI 评估板(量产版)是 AIUI 软硬一体解决方案,讯飞魔飞智能麦克风是成品级解决方案。相比 AIUI SDK 具有远场拾音、回声消除,全双工交互的特点。

# HTTP

AIUI WebAPI 使用 HTTP 协议,包含语音识别,语音语义,文本语义接口,接收音频文件上传,并返回解析结果。适用于各种编程语言,以及各种系统,甚至单片机,支持多路并发。

# 微信公众号

微信公众号通过扫码绑定 AIUI 开放平台,托管智能回复功能。AIUI 可以接收公众号用户的语音和文本请求,公众号运营人员不仅可以为公众号配置简单的问答以实现客服功能,也可以通过编写自定义技能,实现诸如订票,查询快递等复杂业务逻辑。

# 联系方式

AIUI 开发者交流一群: 431255925(已满)

AIUI 开发者交流二群: 673450581

AIUI 评估板交流群: 207343022

技术支持: aiui_support@iflytek.com

商务合作: aiui_support@iflytek.com