- AI早报 法国对马斯克旗下聊天机器人涉嫌生成色情内容启动调查;OpenAI加码音频人工智能研发备战首款硬件设备
- 速递|为硬件铺路:OpenAI攻坚下一代音频AI模型打造“主动式”系列设备
- 星空体育:光大汇晨北七家老年公寓26年家有老人必读!电话价格地址一键掌握
- 星空体育平台:一条牛仔裤里的“二次创业” ——广州新塘“牛仔之都”焕新记
- 青春辉映帕米尔的晨光(追梦人)
- 住进考公基地的90天
邮箱:522100236@qq.com
手机:13699652033
电话:0752-6817996
地址:博罗县石湾镇中岗叶屋工业区
速递|为硬件铺路:OpenAI攻坚下一代音频AI模型打造“主动式”系列设备
对话时,聊天机器人能够进行语音回应,但其音频版本所依赖的大型语言模型与生成文本回复的模型并非同一套系统。据一名前员工与一名现职员工透露,公司内部研究人员认为,当前音频模型在回答准确度和响应速度方面均落后于文本模型。
据知情人士透露,过去两个月间,OpenAI已整合多个工程、产品与研究团队,共同致力于为未来设备优化音频模型。
提升音频模型的准确度对OpenAI实现语音交互设备目标至关重要。据The Information此前报道,首款此类设备预计还需约一年时间才会问世。
OpenAI改善其音频模型的努力开始见效。知情人士表示,新的音频模型架构生成的回应听起来更加自然且富有情感,并能提供更准确、更具深度的答案。该人士称,新音频模型还能够与人类用户同时讲话——这是现有模型无法实现的功能,并将更好地处理对话中断。
知情人士透露,公司目标是在2026年第一季度发布这款新型音频模型。OpenAI发言人对此不予置评。
与谷歌、亚马逊、Meta Platforms和苹果一样,OpenAI正致力于开发包括可穿戴设备在内的新型个人人工智能设备。部分公司认为,当前最受欢迎的iPhone等设备并未针对未来人工智能技术进行优化。
参与该项目研发的OpenAI研究人员希望用户通过语音而非屏幕与设备交互。包括由OpenAI前首席技术官米拉·穆拉蒂联合创立的人工智能初创公司Thinking Machines Lab在内,许多人工智能研究者认为,大声说话是与人工智能交互更自然的方式,因为人类主要通过语音进行交流。
部分研究者还相信,无屏幕设计能降低人们对设备上瘾的可能性。正在与OpenAI合作开发硬件的苹果前设计总监乔尼·艾夫曾表示,这对他而言是优先考虑的事项,因为他将潜在的新设备视为纠正以往消费电子产品缺陷的契机。
艾夫在五月份接受Stripe首席执行官帕特里克·科里森采访时表示:即使你的初衷是好的,但如果你参与的事情产生了不良后果,你就必须承担责任。这种责任感,就我个人而言,推动了我正在进行的许多工作。
不过,据这位前员工表示,OpenAI目前面临的一个障碍是,许多ChatGPT用户并不会通过大声说话的方式与聊天机器人互动,这要么是因为其音频模型质量较低,要么是因为他们不知道这个功能。他们说,为了打造一款以音频为先的人工智能设备,OpenAI必须首先让消费者习惯与ChatGPT这样的人工智能产品大声对话。
知情人士透露,OpenAI音频人工智能推动背后的关键人物是Kundan Kumar,他是该公司今年夏天从Character.AI聘请来的语音人工智能研究员,负责领导这项工作。该人士称,其他领导者包括产品研究负责人Ben Newhouse,他帮助重写了OpenAI的基础设施(这些设施主要为以文本为中心的人工智能而建)以适应音频人工智能,以及多模态ChatGPT的产品经理Jackie Shannon。
据多位知情人士透露,OpenAI正在开发一个计划逐步放行的设备系列,而不是单一设备。他们表示,公司讨论过的想法包括眼镜和无显示屏的智能音箱。
据知情人士透露,参与该设备研发的研究人员今年夏天在面向OpenAI员工的展示会上表示,这款设备将扮演陪伴者的角色,主动为用户提供建议以助其达成目标,而非仅仅作为连接应用程序与其他软件的简单通道。该人士称,在获得用户允许后,设备将通过音频和视频感知周围环境及用户信息。
OpenAI内部多个团队的员工参与了设备相关研发工作,涵盖供应链、工业设计及模型研究等领域。2025年初,OpenAI以近65亿美元收购了由艾维联合创立的公司io,以主导硬件设备的设计工作。