开芯课堂|机器人挥出那一拳之后:智能机器人的安全,到底该怎么做?
机器人要走进真实世界,只有聪明还不够,它还必须可靠、可控、可验证、可托付。聪明,是机器人的上限;安全,是机器人的底线。 一、那一拳的警示:从隐忧到现实 2025年GeekCon安全极客大赛上,两名白帽黑客远程劫持人形机器人,仅用不到3分钟就让两台机器人“沦陷”。随后,被劫持的机器人径直走向舞台中央的假人,抬起机械臂,狠狠挥了一拳,将假人击倒在地。那看似普通的一拳,却击碎了整个行业对安全的幻想。当机
纳米网人工智能频道 — 提供人工智能领域最新资讯、技术文章和行业动态。
机器人要走进真实世界,只有聪明还不够,它还必须可靠、可控、可验证、可托付。聪明,是机器人的上限;安全,是机器人的底线。 一、那一拳的警示:从隐忧到现实 2025年GeekCon安全极客大赛上,两名白帽黑客远程劫持人形机器人,仅用不到3分钟就让两台机器人“沦陷”。随后,被劫持的机器人径直走向舞台中央的假人,抬起机械臂,狠狠挥了一拳,将假人击倒在地。那看似普通的一拳,却击碎了整个行业对安全的幻想。当机
「人人都能做 App」时代真来了? 继蚂蚁灵光推出“闪应用”后,腾讯 Vibe Coding 产品「吐司」在自家应用宝商城上线,定位「应用生成及灵感共创平台」,简单来说,就是用户说需求,AI 拆解功能需求,最终输出成品应用。 (图源:应用宝) 在腾讯之前,蚂蚁灵光、百度秒哒这类 Vibe Coding 应用早已经在市场上流行。不过,它们生成的应用通常仅支持在内部平台分享,或者以在线的方式分享给其
地平线正式发布并开源HoloMotion-1,这是地平线机器人实验室面向人形机器人全身控制打造的4亿参数级机器人小脑大模型。相比以往常见的百万级、千万级机器人控制模型,HoloMotion-1将机器人“小脑”的模型规模提升到新的量级,并在端侧实现约300FPS实时推理,让大模型能力真正进入机器人运动控制闭环。通过本次开源,地平线希望降低人形机器人全身控制的研发门槛,帮助开发者更高效地构建、复现和部
近日,小米在 CVPR 2026 NTIRE 赛事中荣获三项奖项。其中,小米玄戒多媒体算法团队斩获高效超分辨率赛道冠军,小米大模型应用团队夺得人像修复赛道冠军与反光消除赛道亚军。 NTIRE(New Trends in Image Restoration and Enhancement)由 CVPR 组委会承办,是全球规模最大、水平最高的图像恢复与增强领域学术研讨会。小米在本次赛事中展现了从硬件优
大脑天生擅长多任务并行,启发出类脑计算这一颠覆性方向。从“天机”芯片到生物计算机CL1,类脑技术正从科幻走向现实。想成为类脑智能科学家,需打好数学与生物学基础,培养跨学科思维与动手能力。 人人都惊叹大脑有多神奇! 你骑车赶路时,大脑同时调控身体平衡、识别路况,还能和同伴闲聊。人脑为何擅长多任务并行?想要成为类脑人工智能科学家,又该做好哪些准备? 人脑VS传统计算机 从图中可以看出,我们的大脑和传
AI产品越受欢迎,公司越焦虑——推理成本像屋顶漏水,持续消耗算力。vLLM、TensorRT-LLM、llama.cpp三个开源项目分别从云端调度、硬件优化和本地部署入手,试图把“每token成本”降下来,让AI从烧钱走向赚钱。 你有没有发现一个很奇怪的现象。 AI产品越受欢迎,公司反而越焦虑。 传统软件公司最喜欢的一种模式叫规模效应。 一个SaaS产品开发出来之后,新增用户的边际成本很低。用户越
• 项目主页: https://zx-yin.github.io/3dfixer • 文章链接: https://arxiv.org/pdf/2604.04406 • GitHub代码**:** https://github.com/HorizonRobotics/3D-Fixer 现有挑战 基于单张图像生成3D场景,是构建物理世界数字孪生环境的关键技术问题。现有方法在泛化能力与生成效率之间存在显
从5亿条互联网视频中炼出全球最大的开源 GUI 操作数据集,让7B 模型在 ScreenSpot-Pro 上准确率提升38%;3B 参数的小模型做时序推理,干掉专用大模型还省了71%的 Token。这不是 PPT 愿景,而是小米 AI 团队研究成果的真实体现。 近日,ICML 2026(International Conference on Machine Learning)公布了论文录用结果。
基础模型与系统架构 精心设计 85%的受访企业指出,架构和部署是影响性能和成本的主要因素。 当今的AI体验离不开经过精心设计的平台,这些平台将大语言模型 (LLM) 与直观的用户界面相结合,帮助增强人类的能力。在考虑成本、硬件资源、延迟、安全性和可信度等限制因素的同时,工程师们正在塑造这些系统在现实环境中的运行方式和扩展能力。 ChatGPT(OpenAI)、Gemini(谷歌)、Copilot
本文主要讲述物理AI为什么离不开边缘计算。 过去两年,AI 给人的印象基本是一回事——一个对话框,一个输入框。你打字它打字,你上传它分析,AI 安静地待在屏幕里,处理着一切关于文字、图像、代码的事情。 行业的注意力也都跟着堆在那一头。云厂商抢算力,芯片厂卷训练卡,应用层抢入口,关于 AI 的大新闻几乎都和云端有关:模型又大了多少倍,集群又烧了多少钱,推理价格又降了几个点。但风向其实在悄悄变。 AI
• 项目主页: https://horizonrobotics.github.io/robot\_lab/uni3R • 文章链接: https://arxiv.org/pdf/2508.03643 • GitHub代码**:** https://github.com/HorizonRobotics/Uni3R 概述 在现实场景中,通常只能获取来自多个视角的RGB图像,而缺乏相机位姿、深度或点云等
最近几天,一个叫 DeepSeek-TUI 的开源项目突然在 GitHub 彻底火了,仅仅在过去一天,Star 数量直接从 8.7k 又涨到了 16.3k。 DeepSeek-TUI 不是 DeepSeek 官方产品,而是个人开发者基于 DeepSeek V4 开发的终端原生编程智能体。但它涨星的速度很快,吸引了国内外很多 AI 开发者的关注,短短几天时间就冲上了 GitHub Trending
数秒克隆语音早已不是新鲜事,但能覆盖600+语种的语音克隆 TTS 模型,你见过吗!主流音色克隆 TTS 模型的多语言支持最多停留在几十种,大量低资源小语种始终难以覆盖,成为行业痛点。小米AI实验室新一代Kaldi团队全新推出 OmniVoice,以创新的极简架构打破这一局限,不仅在中英文场景达到顶尖性能,更在多语言任务中展现出超越商用系统的实力,是业内首个覆盖数百语种的语音克隆 TTS 模型,在
近日,摩尔线程依托旗舰级AI训推一体智算卡MTT S5000与自研MUSA软件栈,基于SGLang 开源推理框架,成功完成DeepSeek-V4的完整运行验证。该成果表明,面向新一代MoE大模型,摩尔线程已构建起从硬件架构核心计算引擎承接、热点算子支持**,**再到端到端部署验证的系统化适配链路,验证了国产GPU平台对前沿大模型“框架级兼容、开箱即落地”的承载实力及工程化落地能力。 随着大模型架构
本文介绍了从GPU,TPU到LPU的技术演进全景。 为什么AI需要专门的硬件加速? 聊AI芯片之前,先想明白一个问题:为什么CPU跑AI这么慢? 本质上,神经网络计算就是海量的矩阵乘法和卷积运算。这些运算的特点是计算密度高、并行性强,但控制逻辑简单。 CPU设计目标是通用计算,强大的控制单元和缓存层次用来处理复杂的分支和随机内存访问,但拿来跑矩阵乘法就像用跑车拉货,不是不能干,就是效率太低。 硬
本文介绍了边缘AI。 过去两年,AI 行业的热闹几乎都集中在云端。大家都在比模型参数、训练数据、算力规模和推理能力,好像只要把数据中心堆得够大,AI 的未来就会水到渠成。但一个时代真正的转折点,往往不出现在最喧嚣的地方。 高通 CEO 克里斯蒂亚诺·阿蒙在2026年网络峰会和达沃斯论坛上反复强调的一个观点,值得整个行业停下来认真想一想: AI 最终的胜负手,未必在云端,而在边缘。 这话从一家芯片
你有没有遇到过这样的尴尬? 在停车场场景下,当你对车辆说出 “小爱同学,锁车” 时,若旁边路人随口发出类似 “关闭”“停” 的语音,传统车外语音方案可能出现误触发;而当你手持物品走向车尾,说出 “小爱同学,打开后备箱” 时,受移动状态与环境噪声影响,指令也可能出现识别不完整、响应不及时的情况。 这些问题表面看是“车外太吵”,本质上其实是一个更难的技术挑战——“鸡尾酒会”**场景下的目标说话人语音识
两个月前,我们发布了 Xiaomi-Robotics-0 模型,并深度分享了其在复杂工业场景中的实战经验。模型发布首月就在 HuggingFace 全球 VLA 模型下载榜斩获第六名。 看到 Xiaomi-Robotics-0 在全球开发者手中释放潜力,我们深受鼓舞。为了让其真正成为“开箱即用”的生产力利器,今天我们给大家带来新的能力演示并正式发布 Xiaomi-Robotics-0 真机后训练(
今日,DeepSeek-V4正式开源发布,将模型上下文窗口提升至1M,使模型在长序列推理与复杂任务链处理中的表现更加高效与稳定。华为AI数据平台深度适配DeepSeek-V4,将进一步推动大模型从实验阶段走向生产级应用。 DeepSeek-V4发布 带来KV Cache存储的全新挑战 DeepSeek-V4新版本支持100万Tokens的上下文能力。为提升上下文理解能力同时控制显存占用,DeepS
视频目标消除是一个非常实用的技术:当你在美丽的风景里拍了一段视频或 livephoto,而回看的时候发现画面中有不希望出现的内容(比如路人),这时景色已经变换无法再次拍摄,甚至已经离开了拍摄地点,视频消除技术可以挽救你的不完美视频。 在实际研发视频消除任务的过程中,我们发现了一个普遍存在的问题:现有的方法大多在理想条件下设计和验证,而真实世界的视频远比论文里的测试场景复杂——模型识别的掩码边缘不够