选择合适的平台 | iFLYOS文档中心

# 选择合适的平台

开发者可以根据自己的需求选择合适的集成方式，如果开发者需要远场拾音，当开发者的产品已经有硬件核心，可以通过搭载讯飞多麦克风阵列，多麦克风阵列可以输出单路音频至上位机，上位机可以集成 AIUI 的 SDK。

也可以选择 AIUI 评估板（量产版）或者讯飞魔飞麦克风，通过串口或者局域网通信的方式，将最终的结构化语义信息返回至开发者的上位机中。

AIUI 存在全双工交互（continue）和单次交互（oneshot）两种模式，在普通智能音箱中，交互方式如下：

叮咚叮咚查询一下北京的天气
叮咚叮咚合肥的呢
叮咚叮咚后天的呢

在开启 AIUI 持续交互（continue）模式下，可以实现如下特性：

叮咚叮咚查询一下北京的天气
合肥的呢
后天的呢

持续交互（continue）即全双工交互，在一次唤醒后，可以保持一段时间的唤醒（一般小于60秒），在这段时间内，可以直接与机器交互，免去唤醒词以后，会使得人机交互更加自然。

continue 模式下必须使用 AIUI 麦克风阵列、AIUI 评估板（量产版）或者讯飞魔飞智能麦克风。因为硬件本身会发出声音，该模式下会保持麦克风的拾音功能开启，硬件必须具有自降噪的能力。

开发者也可以根据产品自身的需求选择 oneshot 模式，即一次唤醒，一次响应。例如手机 App，按下说话的电视机遥控器等等。

如果开发者不想集成 SDK，或者硬件性能较低，但支持 HTTP 协议时，可以选择 WebAPI 方案，WebAPI 上传音频文件，返回识别和语义理解结果。WebAPI 的缺点是开发者需要自己实现音频流文件的前后端点判断和切割，然后再上传到 AIUI 服务器。

# 选择识别引擎，语义，后处理

# 引擎

AIUI 开放平台提供普通话，英语，方言，车载，医疗，音箱等识别引擎的选择。远场引擎暂只提供普通话。英语、方言只具备近场识别能力。车载，医疗，音箱等识别引擎可以提升特定场景的识别效果，如需开通，请联系商务。

# 语义

开发者可以根据自身业务添加需要的技能，问答。

# 情景模式

一个产品可能拥有多个使用情景模式，例如面对粤语用户和普通话用户，或者一台便携式音箱，在汽车和在家中需要不同的技能，此时开发者可以创建多个情景模式，通过代码动态切换，满足业务需求。

AIUI 应用默认配置了一个语义情景模式main。目前 AIUI 一个应用支持配置最多10个情景模式。情景模式分为语义情景模式和翻译情景模式。您可以为每个语义情景模式配置不同的识别、语义、后处理，也可以选择新建翻译专用的情景模式

# 创建应用

您可以在 AIUI 控制台中创建Windows、Linux、Android、iOS以及 WebAPI 的应用，AIUI 评估板（量产版）或讯飞魔飞智能麦克风会在您下单购买的同时创建应用。

如果AIUI 评估板（量产版）和讯飞魔飞智能麦克风您通过线下购买，请联系与您对接的商务经理。

# 识别

AIUI 目前默认为 Windows、Linux、Android、iOS、WebAPI 应用配置了近场识别引擎，AIUI 评估板（量产版）和讯飞魔飞智能麦克风配置了远场识别引擎。同时支持配置方言。

# 热词上传

针对您的应用（产品）中出现的专有词汇，在通用场景下识别率比较低的情况下，可以通过上传热词的方式来提高识别率。例如“燕京啤酒”在通用领域可能会被识别成“眼睛啤酒”，但是当您上传了热词后，识别成功率会大概率提升。

# progressive 流式识别

progressive 流式识别简称 pgs，在关闭该选项时，云端 VAD 会在用户说完一句话时返回一次识别结果。打开该选项时，云端会在识别一句话的过程中，返回多次识别结果，并不断自动修正，开发者如果希望在界面上实时展示修正结果以提高用户体验，可以打开该选项。

# 语义

您可以为您的应用添加“商店技能”、“自定义技能”、“自定义问答”，您的应用仅会理解这些技能中的语料。当这些技能中的语料冲突时，AIUI 引擎的优先返回顺序是：自定义技能>自定义问答>商店技能。

# 兜底

AIUI 语义在某些语境下不能覆盖用户的所有问答，因此推出了兜底业务，AIUI 目前的兜底业务包括讯飞闲聊、图灵机器人、视频搜索、无回复兜底。

# 讯飞闲聊

讯飞闲聊包含「讯飞知识图谱」和「精选问答」。

# 讯飞知识图谱

讯飞知识图谱主要用于回答用户知识类的问答，这类问题没有固定的句式，例如：“中国在位时间最短的皇帝是谁"，"中国目前有多少人口"，"邓超的毕业院校"等问题。

# 精选问答

精选问答包含简单的闲聊，可以提问的内容包括：“你叫什么名字”、“你今年多大了”，“不想上学”、“不想上学”，“不想理你了”，“官宣是什么意思”等问题。

# 讯飞闲聊

讯飞闲聊包含「讯飞知识图谱」和「精选问答」。

# 图灵机器人

图灵机器人分为儿童版和通用版，儿童版的闲聊风格会以和小朋友对话的口吻进行，建议儿童类产品使用，一般类产品使用通用版。其中包含的问答库包括：维基百科、十万个为什么、闲聊。

# 视频搜索

视频搜索主要用于电视、机顶盒、投影仪等产品，在这些产品的使用场景中，用户的表述可能存在“周星驰”、“喜剧片”等表达，这些表达不适合放在普通的技能中实现，因此 AIUI 提出视频搜索的概念，当所有的业务均无响应时，会进入视频搜索兜底，并给出相关的语义结果。

# 无回复兜底

当以上任意技能或兜底业务均无法响应用户的请求时，开发者可以在平台配置兜底回复，例如：“我现在还小，听不懂你在说什么，等我长大了再来告诉你”。

# 后处理

当您希望客户端的业务逻辑尽可能少，将大部分逻辑代码写在云端时，可以打开后处理开关。后处理的详细文档请参阅后处理章节。

# 合成

平台提供了普通话、方言在内的多种发音人，同时可以调节发音人的语速和音量以满足您的应用需求。

# 翻译情景模式

目前 AIUI 平台提供普通话近场-英语、普通话远场-英语、四川话-英语、粤语-英语、英语到汉语五种语音翻译引擎，开发者可以根据自身的业务需求进行选择。

← AIUI介绍快速入门 →