# 选择合适的平台
开发者可以根据自己的需求选择合适的集成方式,如果开发者需要远场拾音,当开发者的产品已经有硬件核心,可以通过搭载讯飞多麦克风阵列,多麦克风阵列可以输出单路音频至上位机,上位机可以集成 AIUI 的 SDK。
也可以选择 AIUI 评估板(量产版)或者讯飞魔飞麦克风,通过串口或者局域网通信的方式,将最终的结构化语义信息返回至开发者的上位机中。
AIUI 存在全双工交互(continue)和 单次交互(oneshot)两种模式,在普通智能音箱中,交互方式如下:
- 叮咚叮咚 查询一下北京的天气
- 叮咚叮咚 合肥的呢
- 叮咚叮咚 后天的呢
在开启 AIUI 持续交互(continue)模式下,可以实现如下特性:
- 叮咚叮咚 查询一下北京的天气
- 合肥的呢
- 后天的呢
持续交互(continue)即全双工交互,在一次唤醒后,可以保持一段时间的唤醒(一般小于60秒),在这段时间内,可以直接与机器交互,免去唤醒词以后,会使得人机交互更加自然。
continue 模式下必须使用 AIUI 麦克风阵列、AIUI 评估板(量产版)或者讯飞魔飞智能麦克风。因为硬件本身会发出声音,该模式下会保持麦克风的拾音功能开启,硬件必须具有自降噪的能力。
开发者也可以根据产品自身的需求选择 oneshot 模式,即一次唤醒,一次响应。例如手机 App,按下说话的电视机遥控器等等。
如果开发者不想集成 SDK,或者硬件性能较低,但支持 HTTP 协议时,可以选择 WebAPI 方案,WebAPI 上传音频文件,返回识别和语义理解结果。WebAPI 的缺点是开发者需要自己实现音频流文件的前后端点判断和切割,然后再上传到 AIUI 服务器。
# 选择识别引擎,语义,后处理
# 引擎
AIUI 开放平台提供普通话,英语,方言,车载,医疗,音箱等识别引擎的选择。远场引擎暂只提供普通话。英语、方言只具备近场识别能力。车载,医疗,音箱等识别引擎可以提升特定场景的识别效果,如需开通,请联系商务。
# 语义
开发者可以根据自身业务添加需要的技能,问答。
# 情景模式
一个产品可能拥有多个使用情景模式,例如面对粤语用户和普通话用户,或者一台便携式音箱,在汽车和在家中需要不同的技能,此时开发者可以创建多个情景模式,通过代码动态切换,满足业务需求。
AIUI 应用默认配置了一个语义情景模式
main
。目前 AIUI 一个应用支持配置最多10个情景模式。情景模式分为语义情景模式和翻译情景模式。您可以为每个语义情景模式配置不同的识别、语义、后处理,也可以选择新建翻译专用的情景模式
# 创建应用
您可以在 AIUI 控制台中创建Windows、Linux、Android、iOS以及 WebAPI 的应用,AIUI 评估板(量产版)或 讯飞魔飞智能麦克风会在您下单购买的同时创建应用。
如果AIUI 评估板(量产版)和 讯飞魔飞智能麦克风您通过线下购买,请联系与您对接的商务经理。
# 识别
AIUI 目前默认为 Windows、Linux、Android、iOS、WebAPI 应用配置了近场识别引擎,AIUI 评估板(量产版)和 讯飞魔飞智能麦克风配置了远场识别引擎。同时支持配置方言。
# 热词上传
针对您的应用(产品)中出现的专有词汇,在通用场景下识别率比较低的情况下,可以通过上传热词的方式来提高识别率。例如“燕京啤酒”在通用领域可能会被识别成“眼睛啤酒”,但是当您上传了热词后,识别成功率会大概率提升。
# progressive 流式识别
progressive 流式识别简称 pgs,在关闭该选项时,云端 VAD 会在用户说完一句话时返回一次识别结果。 打开该选项时,云端会在识别一句话的过程中,返回多次识别结果,并不断自动修正,开发者如果希望在界面上实时展示修正结果以提高用户体验,可以打开该选项。
# 语义
您可以为您的应用添加“商店技能”、“自定义技能”、“自定义问答”,您的应用仅会理解这些技能中的语料。当这些技能中的语料冲突时,AIUI 引擎的优先返回顺序是:自定义技能>自定义问答>商店技能。
# 兜底
AIUI 语义在某些语境下不能覆盖用户的所有问答,因此推出了兜底业务,AIUI 目前的兜底业务包括讯飞闲聊、图灵机器人、视频搜索、无回复兜底。
# 讯飞闲聊
讯飞闲聊包含「讯飞知识图谱」和「精选问答」。
# 讯飞知识图谱
讯飞知识图谱主要用于回答用户知识类的问答,这类问题没有固定的句式,例如:“中国在位时间最短的皇帝是谁","中国目前有多少人口","邓超的毕业院校"等问题。
# 精选问答
精选问答包含简单的闲聊,可以提问的内容包括:“你叫什么名字”、“你今年多大了”,“不想上学”、“不想上学”,“不想理你了”,“官宣是什么意思”等问题。
# 讯飞闲聊
讯飞闲聊包含「讯飞知识图谱」和「精选问答」。
# 图灵机器人
图灵机器人分为儿童版和通用版,儿童版的闲聊风格会以和小朋友对话的口吻进行,建议儿童类产品使用,一般类产品使用通用版。其中包含的问答库包括:维基百科、十万个为什么、闲聊。
# 视频搜索
视频搜索主要用于电视、机顶盒、投影仪等产品,在这些产品的使用场景中,用户的表述可能存在“周星驰”、“喜剧片”等表达,这些表达不适合放在普通的技能中实现,因此 AIUI 提出视频搜索的概念,当所有的业务均无响应时,会进入视频搜索兜底,并给出相关的语义结果。
# 无回复兜底
当以上任意技能或兜底业务均无法响应用户的请求时,开发者可以在平台配置兜底回复,例如:“我现在还小,听不懂你在说什么,等我长大了再来告诉你”。
# 后处理
当您希望客户端的业务逻辑尽可能少,将大部分逻辑代码写在云端时,可以打开后处理开关。后处理的详细文档请参阅后处理章节。
# 合成
平台提供了普通话、方言在内的多种发音人,同时可以调节发音人的语速和音量以满足您的应用需求。
# 翻译情景模式
目前 AIUI 平台提供普通话近场-英语、普通话远场-英语、四川话-英语、粤语-英语、英语到汉语五种语音翻译引擎,开发者可以根据自身的业务需求进行选择。