目标说话人识别大模型,让车外语音“聚精会神”听懂你
你有没有遇到过这样的尴尬? 在停车场场景下,当你对车辆说出 “小爱同学,锁车” 时,若旁边路人随口发出类似 “关闭”“停” 的语音,传统车外语音方案可能出现误触发;而当你手持物品走向车尾,说出 “小爱同学,打开后备箱” 时,受移动状态与环境噪声影响,指令也可能出现识别不完整、响应不及时的情况。 这些问题表面看是“车外太吵”,本质上其实是一个更难的技术挑战——“鸡尾酒会”**场景下的目标说话人语音识
关于「思维链(CoT)」的技术文章、设计资料与工程师讨论,持续更新。
你有没有遇到过这样的尴尬? 在停车场场景下,当你对车辆说出 “小爱同学,锁车” 时,若旁边路人随口发出类似 “关闭”“停” 的语音,传统车外语音方案可能出现误触发;而当你手持物品走向车尾,说出 “小爱同学,打开后备箱” 时,受移动状态与环境噪声影响,指令也可能出现识别不完整、响应不及时的情况。 这些问题表面看是“车外太吵”,本质上其实是一个更难的技术挑战——“鸡尾酒会”**场景下的目标说话人语音识