播放声音、录音、语音识别、语音提问

一、播放声音

播放声音用的是launcher内置的中文播放模块。要使用它,首要在launcher桌面,下载一个语音包,显示版本号像V0.0.1-20250630,表示这个包的生成时间是2025年6月30日。当然,设备出厂时,会先下载它了。后面可以“升级”它。

质量上,这个包也就是让人能听懂内容是什么,至于像多音字、混读英文单词,就没有。用它好处是免费,没有版权问题,以及不必联网。

市面有不少高质量声音播放SDK,要选择哪个,首个要求是希望可以离线。但这样语音包,价格似乎都不便宜。

 

二、录音

录音窗口,这篇文章有专门说录音。

launcher apk一启动,就会开始录音,至于怎么处理录下的声音,取决于语音驱动。

处理录下声音,一般分两个,一是进行语音识别,二是作为问题发向某个NLP大模型。

录音设备是放在外壳内的咪头。一些USB相机带麦克风,考虑到这些麦克风复杂多样,目前不会使用这些麦克风进行录音。

 

三、语音识别

是语音驱动实现语音识别。

Baisc小程序语音驱动设置

对小程序Basic实现的驱动驱动,用的是科大讯飞在线语音听写SDK。使用时,需要向科大讯飞注册个账号,得到APPID。这样就有每天500次免费语音识别。

不要把设备放在嘈杂环境中。语音识别中有个概念中“人声阈值”,如果嘈杂环境音量还较高,经常超过“人声阈值”,那会导致语音驱动会经常从声音流中提取片断,送去语音识别。结果可能是,一天500次识别很快就用完了。

一些台灯,是按着一个面板按钮,按下这段时间才会语音识别。个人不倾向用这方法,因为这要求说话者一手按着按钮,一些场景,是方便做这动作的。将来会通过一些逻辑,判断出当前正处于嘈杂环境时,叫用户暂时关掉语音识别。

 

四、语音提问

是语音驱动在实现语音提问。

对小程序Basic实现的驱动驱动,语音提问用的是星火大模型SDK。但用的SDK是老版本,讯飞官方已不支持,一提问问便会报错。免得播放错误提示,打勾“关闭语音提问”。

语音提问不能用已一段时间了,一直没去改,原因是不想用星火,但又不知选哪家模型。在kHome小程序,有提供一个叫‘deepseek”的任务。内中连向百度智能云,在模型配置中,规划模型用Qianfan-Agent-Lit-8K,问答模型用deepseek-R1。

进入“任务”窗口,确保“测试单任务”的“启动状态”选了“(khome)deepseek”。进入“中心”窗口,“只任务”——“测试单任务”,等一段时间,会在日志区显示一对联向百度智能云的问答,问题是“用一首七言绝句总结李白一生”。

耗时差不多20秒,在我认为,这个时间过长了。而且,还会出现到1分钟了,出不来答案。

没过多在语音提问花时间,除没选定用哪家模型外,还有原因是认为就这样一问一答,应付玩具还行,真要解决用户问题缺少必要性。

全部评论: 0

    写评论: