播放声音、录音、语音识别、语音提问

一、播放声音

播放声音用的是launcher内置的中文播放模块。要使用它，首要在launcher桌面，下载一个语音包，显示版本号像V0.0.1-20250630，表示这个包的生成时间是2025年6月30日。当然，设备出厂时，会先下载它了。后面可以“升级”它。

质量上，这个包也就是让人能听懂内容是什么，至于像多音字、混读英文单词，就没有。用它好处是免费，没有版权问题，以及不必联网。

市面有不少高质量声音播放SDK，要选择哪个，首个要求是希望可以离线。但这样语音包，价格似乎都不便宜。

二、录音

录音窗口，这篇文章有专门说录音。

launcher apk一启动，就会开始录音，至于怎么处理录下的声音，取决于语音驱动。

处理录下声音，一般分两个，一是进行语音识别，二是作为问题发向某个NLP大模型。

录音设备是放在外壳内的咪头。一些USB相机带麦克风，考虑到这些麦克风复杂多样，目前不会使用这些麦克风进行录音。

三、语音识别

是语音驱动实现语音识别。

对小程序Basic实现的驱动驱动，用的是科大讯飞在线语音听写SDK。使用时，需要向科大讯飞注册个账号，得到APPID。这样就有每天500次免费语音识别。

不要把设备放在嘈杂环境中。语音识别中有个概念中“人声阈值”，如果嘈杂环境音量还较高，经常超过“人声阈值”，那会导致语音驱动会经常从声音流中提取片断，送去语音识别。结果可能是，一天500次识别很快就用完了。

一些台灯，是按着一个面板按钮，按下这段时间才会语音识别。个人不倾向用这方法，因为这要求说话者一手按着按钮，一些场景，是方便做这动作的。将来会通过一些逻辑，判断出当前正处于嘈杂环境时，叫用户暂时关掉语音识别。

四、语音提问

是语音驱动在实现语音提问。

对小程序Basic实现的驱动驱动，语音提问用的是星火大模型SDK。但用的SDK是老版本，讯飞官方已不支持，一提问问便会报错。免得播放错误提示，打勾“关闭语音提问”。

语音提问不能用已一段时间了，一直没去改，原因是不想用星火，但又不知选哪家模型。在kHome小程序，有提供一个叫‘deepseek”的任务。内中连向百度智能云，在模型配置中，规划模型用Qianfan-Agent-Lit-8K，问答模型用deepseek-R1。

进入“任务”窗口，确保“测试单任务”的“启动状态”选了“(khome)deepseek”。进入“中心”窗口，“只任务”——“测试单任务”，等一段时间，会在日志区显示一对联向百度智能云的问答，问题是“用一首七言绝句总结李白一生”。

耗时差不多20秒，在我认为，这个时间过长了。而且，还会出现到1分钟了，出不来答案。

没过多在语音提问花时间，除没选定用哪家模型外，还有原因是认为就这样一问一答，应付玩具还行，真要解决用户问题缺少必要性。