新框架d1引领扩散模型推理进步,掀起强化学习应用新风潮

在人工智能的不断发展中,扩散模型在推理能力上逐渐崭露头角,现如今,它们不再是自回归模型的 “跟随者”。近日,来自加州大学洛杉矶分校(UCLA)和 Meta 的研究者们联合推出了一种名为 d1的新框架,该框架结合了监督微调(SFT)和强化学习(RL),使扩散模型具备更强的推理能力,包括数学理解、逻辑推理等。这一创新的 d1框架通过两阶段的后训练策略来提升掩码大语言模型(dLLM)的性能。在第一阶段,

​谷歌计划将 Gemini 与 Veo AI 模型结合,推动智能助手发展

在近日的一档播客节目中,谷歌 DeepMind 的首席执行官米斯・哈萨比斯(Demis Hassabis)表示,谷歌计划最终将其 Gemini 人工智能模型与视频生成模型 Veo 结合,以提升 Gemini 对物理世界的理解。他指出,Gemini 从一开始就是为了多模态设计的,目的是实现一个 “通用数字助手”,这种助手能够在现实世界中真正帮助用户。哈萨比斯提到,AI 行业正逐渐朝着 “全能” 模型

​加州团体联名请愿,抗议 OpenAI 营利转型违背初衷

近日,包括拉丁裔繁荣组织和加州卡车司机工会在内的多个团体,向加州总检察长罗布・邦塔提交了一份请愿书,要求阻止 OpenAI 转型为盈利公司。OpenAI 最初成立时是一个非营利性人工智能研究机构,但在2019年选择了转型为由非营利性组织管理的盈利公司。根据 OpenAI 的计划,从2024年开始,该公司将转型为公共利益公司,并有两年的时间来实现这一目标,否则将面临大部分资金变为债务的风险。图源备注

​谷歌推全新AI安全模型Sec-Gemini v1,秒级洞悉网络攻击根源

谷歌在其官方安全博客上宣布推出一项令人瞩目的创新——Sec-Gemini v1,这是一款全新的实验性人工智能模型,专注于推动网络安全AI领域的发展。此举标志着谷歌在利用AI技术应对日益严峻的网络威胁方面迈出了重要一步。应对攻防不对称:AI助力防御者扭转局面谷歌指出,当前网络安全领域面临着一个根本性的挑战,即攻防之间的不对称。防御者需要应对所有潜在的网络威胁,而攻击者只需成功找到并利用一个漏洞即可。

黄仁勋:中国AI市场将达500亿美元 错过将造成巨大损失

站长之家(ChinaZ.com)5月7日 消息:英伟达CEO黄仁勋指出,中国人工智能(AI)市场预计在未来两到三年内规模将突破500亿美元,若因出口管制无法参与这一市场,对英伟达而言将是重大损失。黄仁勋强调,英伟达始终尊重并遵守各国政府政策,但同时呼吁企业在政策框架内保持灵活性,以应对快速变化的市场需求。在采访中,黄仁勋还表达了对全球AI产业发展的期待。他表示,当前全球对AI技术的需求迫切,呼

清华与上海 AI Lab 联合打造新型过程奖励模型GenPRM,让小模型超越 GPT-4o

在人工智能领域,随着 OpenAI 的 o1和 DeepSeek 的 R1模型受到广泛关注,大语言模型(LLM)的推理能力和测试时扩展(TTS)技术引发了众多研究者的兴趣。然而,在处理复杂推理问题时,如何准确评估模型每一步的回答质量,依然是一个亟待解决的难题。为此,清华大学与上海 AI Lab 共同提出了生成式过程奖励模型(GenPRM),为过程监督推理提供了创新解决方案。传统的过程奖励模型(PR

支付宝被AI调用,一句话运营小红书!国内最大MCP社区来了,开发者狂欢

声明:本文来自于微信公众号 新智元,作者:新智元,授权站长之家转载发布。【新智元导读】国内最大MCP中文社区上线了,支付宝、MiniMax明星服务在魔搭MCP广场独家首发,还有近1500款MCP服务全领域覆盖,再次降低AI开发门槛。MCP玩家,又新增一员!这次还是全开源开放的!今天,中国第一开源社区魔搭ModelScope重磅上线「MCP广场」,国内最大MCP中文社区真的来了。近1500多款热

首届具身智能机器人运动会启动,宇树机器人携舞蹈与竞速项目参赛

首届具身智能机器人运动会将在无锡市盛大举行。作为重要参赛队伍之一,宇树科技将与来自全国各地的机器人企业同台竞技,参与激烈的竞速跑比赛以及精彩的舞蹈表演环节。截至目前,已有100多家相关企业报名参赛,来自北京、上海、深圳、西安、重庆等地的顶尖机器人公司将参与竞速跑项目,宇树机器人将在这一项目中与国家地方共建具身智能机器人创新中心(北京)、人形机器人创新中心(上海)等知名机构展开激烈竞争。除了竞速跑,

五菱发布 “灵语座舱”:让沟通不再有障碍的智能驾驶舱

五菱汽车正式推出了全新的 “灵语座舱”,该产品融合了先进的灵语 AI 中枢大模型,旨在突破语言沟通的障碍。这一座舱系统的核心优势在于其强大的方言识别能力,承诺能够让不同地方的用户无障碍地交流。灵语 AI 中枢大模型的设计理念是通过感知、理解、表达和交互的全面升级,为用户提供更加智能和便捷的驾驶体验。该系统不仅支持智能调度,还内置了多项技术,比如语义拼接技术、知识蒸馏技术以及多音区对话分离技术,使得

人工智能助力医疗行业新发展:Hellocare.ai、SignalFire 等公司获重大融资

近期,健康科技行业迎来了多笔重要融资,显示出人工智能在医疗领域的快速崛起和广泛应用。其中,早期风险投资公司 SignalFire 成功筹集了10亿美元资金,旨在支持以人工智能为核心的初创企业。这笔资金的募集使得 SignalFire 的管理资产总额达到了30亿美元,突显了其在行业中的重要地位。SignalFire 的投资组合包括多家医疗初创公司,如 Grow Therapy 和 Health Go

还在为处理多图发愁?腾讯元宝更新,多图上传+智能处理一键搞定

腾讯元宝迎来重大升级,此次更新后,其识图功能进一步拓展,最大的亮点在于支持一次性上传10张图片,无论是混元还是DeepSeek模型,都能连贯识图、串连理解并集中回答问题。这一功能结合了混元的多模态理解能力,是元宝双模型能力的有力体现。在实际应用场景中,该功能实用性极高。比如在处理电子书截图时,用户可让元宝提炼金句并撰写感想;面对朋友圈九图,能快速生成自然的文案;对于板书或讲义照片,能迅速整理出结构

AI日报:昆仑万维开源Skywork-OR1系列模型;讯飞星辰Agent开发平台全面支持MCP;字节跳动布局AI智能眼镜

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、Kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking,多项基准超越 GPT-4oMoonshot AI 最近开源了 Kimi-VL 和 Kimi-VL-

前谷歌 CEO 向国会警告:超级智能AI将消耗 99% 的电力资源

近日,前谷歌首席执行官埃里克・施密特在国会能源与商业委员会的听证发表了引人关注的言论。他指出,未来人工智能(AI)将消耗全球99% 的电力,这一说法引发了与会者的广泛关注和讨论。施密特表示,当前技术行业对电力的需求正在快速增长,预计将从目前的3% 飙升至99%。他补充称,未来几年内还需要增加29吉瓦的电力供应,到2030年这一数字将增加到67吉瓦。他强调,为了推动人工智能的快速发展,必须尽快保障各

全球首个十亿参数 AI 模型微调任务在中国量子计算机 “本源悟空” 上成功运行

在量子计算领域,中国再次取得了显著进展。据《科创板日报》报道,来自安徽省量子计算工程研究中心与合肥综合性国家科学中心人工智能研究院等机构联合研发的量子计算机 “本源悟空”,近日成功地运行了全球首个十亿参数的人工智能(AI)模型微调任务。这一里程碑式的成就,标志着量子计算首次在实际应用中实现大规模的 AI 模型处理。本源悟空是中国自主研发的第三代超导量子计算机,配备有72位自制超导量子芯片 “悟空芯

AI 时代软件供应链面临重大安全危机:机密泄露激增64%

近日,JFrog 公司发布了《2025年软件供应链现状报告》,揭示了在人工智能(AI)迅速发展的背景下,软件供应链所面临的严峻安全挑战。根据该报告,研究团队通过对1400多名专业人士的调研,以及来自7000多家客户的数据分析,勾勒出了一幅令人为之担忧的安全图景。报告指出,过去一年中,软件供应链的安全漏洞急剧增加,其中 “秘密” 或机密信息的曝光案例同比增长了64%,总计达到了惊人的25,229例。

华为智慧屏 S6 Pro 开售:搭载灵犀指向遥控、鸿蒙 AI,到手价 6499 元起

感谢IT之家网友 Autumn_Dream、風見暉一 的线索投递!IT之家 4 月 3 日消息,华为智慧屏 S6 Pro 今日 10:08 正式开售,全新升级鸿蒙 AI,至高优惠 2400 元,折后仍享 20% 国补,到手价 6499 元起。据IT之家了解,这款新品搭载超薄器件与卓越光学模组,机身厚度减少 36%。标配超薄壁挂架,智慧屏与墙面近乎无缝贴合,后壳隐藏式走线设计,99% 超高屏占比

NBC 将利用 Jim Fagan 的 AI 生成声音为 NBA 赛事增色

NBC 近日宣布,将在即将到来的 NBA 赛事中使用已故体育解说员 Jim Fagan 的 AI 生成声音。Fagan 于2017年去世,他的声音曾在1990至2002年期间为 NBC 的 NBA 报道增添了不少风采。NBC 计划在10月份重新播出 NBA 比赛时,将 Fagan 的 AI 声音运用于选定的片头序列、节目开场及宣传片中。图源备注:图片由AI生成,图片授权服务商MidjourneyF

亚马逊推出Nova Act:进军AI代理市场的新举措

亚马逊周一发布了Nova Act,这是一款能够控制网络浏览器并独立执行简单操作的通用AI代理。同时推出的还有Nova Act SDK,允许开发人员使用Nova Act构建代理原型。Nova Act由亚马逊在旧金山新设立的AGI实验室开发,这也将为该公司即将推出的Alexa+(亚马逊语音助手的生成式AI增强版)提供关键功能。不过目前发布的Nova Act版本被定位为"研究预览版",开发人员可通过no

Speech-02正式上线:与Hedra携手打造高质量语音驱动内容

 来自Hailuo_AI旗下的Speech-02的新工具正式上线,为内容创作者带来了全新的可能性。据悉,这款工具能够以自然的语气和富有表现力的表达方式,生成超过30种语言的画外音,为用户提供多样化且高质量的音频创作体验。更令人兴奋的是,Speech-02与Hedra平台的无缝结合,让用户能够将音频转化为包含角色、场景和故事的丰富视觉内容,进一步提升创作的深度与广度。Speech-02的推出标志着语

过于追求人性化:奥尔特曼称 GPT-4o 出现“谄媚烦人”倾向,OpenAI 计划在一周内修复

感谢IT之家网友 GreatMOLA 的线索投递!IT之家 4 月 28 日消息,OpenAI 首席执行官萨姆奥尔特曼(Sam Altman)今日发文,回应了有关用户近期反馈关于 GPT-4o 情感的问题。他表示,最新版 GPT-4o 在最近几次更新后出现了“过度谄媚”的交互倾向,并承诺将在一周内推出修复方案。这一表态揭示了大语言模型(LLM)在追求人性化交互过程中面临的伦理与技术双重挑战。O