北京大学推出新基准评测PHYBench,挑战AI物理推理能力!

最近,北京大学物理学院联合多个院系,推出了一项名为 “PHYBench” 的全新评测基准,旨在检验大模型在物理推理上的真实能力。该项目由朱华星老师和曹庆宏副院长主导,汇聚了来自物理学院和其他学科的200多名学生,其中不少人曾在全国中学生物理竞赛中获金牌。PHYBench 设计了500道精心制作的高质量物理题,这些题目涵盖高中物理、大学物理及物理奥林匹克竞赛的各个层面。与传统评测基准不同,PHYBe

联合包裹与 Figure AI洽谈合作加速部署人形机器人

全球知名物流公司联合包裹(UPS)正在与初创企业 Figure AI 进行深入谈判,计划在其物流网络中引入人形机器人,以完成部分作业任务。根据知情人士的透露,双方的合作讨论始于去年,并在最近几个月持续进行。尽管合作细节尚未明确,但这一合作显示出物流行业对自动化技术的强烈兴趣。图源备注:图片由AI生成,图片授权服务商MidjourneyFigure AI 是一家致力于开发人形机器人的初创公司,曾于今

FASHN v1.5发布:AI虚拟试穿技术大幅提升,速效精准引领购物潮流

FASHN AI正式发布了其最新虚拟试穿模型FASHN v1.5,标志着虚拟试穿技术在速度、精准度和用户体验上的重大进步。技术革新:无分割处理与速度提升FASHN v1.5引入了革命性的无分割(Segmentation-Free)技术,通过先进的AI算法,能够在单一步骤中智能地处理模特图像和服装图像。这一创新不仅简化了传统虚拟试穿流程,还提升了试穿的精准度和自然感,使得虚拟试穿效果更加真实流畅。与

多邻国将用人工智能取代合同工,迈向 “AI 优先” 模式

多邻国(Duolingo)近日宣布,将逐步停止使用能够被人工智能(AI)处理的合同工。这一决定是在公司联合创始人兼首席执行官Luis von Ahn向全体员工发出的电子邮件中公布的,标志着该公司将转向 “AI 优先” 的战略。Luis von Ahn 在邮件中提到,成为 “AI 优先” 的公司意味着需要重新思考工作方式,而简单地对现有系统进行微调是无法实现这一目标的。作为这一战略转变的一部分,多邻

大幅提升 AI 推理速度:UCLA 与 Meta AI 联合推出 d1 框架

在人工智能领域,UCLA 和 Meta AI 的研究人员联合推出了一种名为 d1的新框架,该框架通过强化学习技术显著提升了扩散式大语言模型(dLLMs)的推理能力。虽然传统的自回归模型如 GPT 受到了广泛关注,但 dLLMs 凭借其独特的优势,若能加强推理能力,将为企业带来新的效率和应用前景。扩散式语言模型与自回归模型的生成方式截然不同。自回归模型如 GPT-4o 是通过逐个预测后续词元生成文本

​OpenAI 修复漏洞:未成年人竟可生成色情内容

近期,OpenAI 的聊天机器人 ChatGPT 被发现存在一个严重漏洞,使得注册为未成年用户的账户能够生成图形化的色情内容。有媒体进行了测试并证实了这一问题,OpenAI 也对此表示认可。图源备注:图片由AI生成,图片授权服务商Midjourney在一些情况下,ChatGPT 甚至会鼓励这些未成年人请求更为露骨、明确的内容。OpenAI 在给 TechCrunch 的邮件中表示,他们的政策禁止未

Hugging Face 推出全新 SO-101机械臂:低价高效、可编程 AI 助手

人工智能初创公司 Hugging Face 再次引领科技创新,推出其全新可编程机械臂——SO-101。该产品是去年发布的 SO-100机械臂的继任者,旨在为消费者和开发者提供更强大、灵活的机器人操作体验。SO-101在 SO-100的基础上进行了多项升级,特别是在机械性能和操作速度上有了显著提升。与 SO-100相比,SO-101配备了改进的电机,减少了摩擦,使机械臂能够支撑自身重量,且组装速度更

Simular 震撼发布:本地运行、人机协作的 Mac AI 助手来袭!

近日,一款名为 Simular 的创新 AI 智能助手正式登陆 macOS 平台。这款由前 DeepMind 研究员创立的本地化 AI 浏览器智能体,以其独特的人机协作模式和对用户隐私的高度重视,迅速引发了科技界的广泛关注。本地运行,隐私至上与传统的云端 AI 助手不同,Simular 的核心特色在于其完全本地化的运行模式。所有数据处理均在用户的 Mac 设备上完成,无需将敏感信息上传至云端服务器

Qwen3正式发布,优化编码与代理能力,强化MCP支持引领AI新潮流

阿里云Qwen团队宣布Qwen3系列模型正式发布,以卓越的编码能力、增强的代理功能和对Model Context Protocol(MCP)的深度支持,掀起AI社区热潮。据AIbase了解,Qwen3涵盖从0.6B到235B-A22B的多种模型规模,优化了数学推理、代码生成和多模态任务,性能直追GPT-4o与Gemini-2.5-Pro。社交平台上的讨论显示,Qwen3的MCP集成与开源策略备受期

Simular AI登陆macOS,本地智能助手革新人机协作体验

Simular AI正式亮相macOS,成为首个运行于用户本地设备的AI浏览器智能体,强调人机协作与本地化处理。据AIbase了解,Simular通过理解屏幕内容、自动化网页操作与无缝协同功能,支持用户高效完成购物、研究与行政任务。社交平台上的热烈讨论凸显其创新性,相关细节已通过Simular官网(simular.ai)与Hugging Face公开。核心功能:本地化AI与协作式操作Simular

ChatGPT 搜索新增网购功能,对话获得个性化商品推荐

近日,人工智能公司 OpenAI 宣布对其 ChatGPT Search 进行了一次重大的功能升级,新增了网购功能,,为用户提供了更为便捷的购物体验,首批上线的商品类别涵盖时尚、美妆、家居用品和电子产品等日常消费领域。用户在使用这一新功能时,可以通过自然的对话与 ChatGPT 互动,获取个性化的商品推荐。当用户输入商品相关的搜索词时,ChatGPT 会智能地展示相关商品的图片、用户评价及购买链接

超越A2A和MCP?新协议LOKA将重塑AI智能体的身份与道德标准

近日,卡内基梅隆大学的研究人员提出了一项名为 “层次化知识智能体架构(Layered Orchestration for Knowledgeful Agents)”(LOKA)的新协议,可以加入其他拟议的标准,例如 Google 的 Agent2Agent (A2A) 和 Anthropic 的模型上下文协议 (MCP),旨在为自主 AI 智能体的身份、责任和伦理提供规范。随着 AI 智能体的普及

Qwen3正式确认本周发布,阿里云AI新篇章即将开启

阿里云Qwen团队通过社交平台正式确认,Qwen3系列模型将于本周内发布,标志着其旗舰大语言模型(LLM)与多模态能力的又一次重大升级。据AIbase了解,Qwen3将推出包括0.6B、4B、8B、30B-A3B在内的多种模型规模,支持高达256K的上下文长度,涵盖推理与非推理任务。社交平台上的热烈讨论凸显了其全球影响力,相关细节已通过Hugging Face与Qwen官网逐步公开。核心功能:多规

阿里发布开源Qwen3,成本大幅降低仅需DeepSeek-R1的三分之一

阿里巴巴正式推出新一代通义千问模型 Qwen3(千问3),并宣布其开源。阿里云表示,千问3是国内首个 “混合推理模型”,同时集成了 “快思考” 与 “慢思考” 的能力。相比于 DeepSeek-R1,千问3的参数量仅为其三分之一,而部署成本大幅降低,使用仅需四张 H20显卡即可实现满血版的部署。根据官方技术博客,千问3采用了混合专家(MoE)架构,拥有2350亿个参数,实际激活时仅需220亿参数。

CrowdStrike 推出 Charlotte AI,开启安全运营新纪元

在近期的 RSA2025大会上,网络安全领导者 CrowdStrike(NASDAQ: CRWD)正式发布了其全新的 AI 平台 Charlotte AI,旨在彻底改革安全运营中心(SOC)的运作模式。Charlotte AI 不仅将智能自动化与人类网络安全专家的经验相结合,还通过其独特的 “自主推理和响应” 能力,提升了对网络威胁的检测、调查和响应效率。Charlotte AI 平台包括几个核心

马蜂窝自主研发的 AI 旅行助手 “AI 小蚂” 上线

近日,马蜂窝正式宣布其自主研发的 AI 旅行助手 “AI 小蚂” 上线。这款全新的旅行助手经过全面的技术升级,现已接入 DeepSeek 大模型,并结合马蜂窝多年来积累的旅行数据,旨在为用户提供更加精准和可靠的旅行推荐。“AI 小蚂” 具备多项实用功能,包括实时问答、行程线路规划、在线旅行向导和个性化推荐等,用户可以在马蜂窝 APP 的首页搜索栏及目的地 POI 页面轻松使用这些功能。通过集成前沿

DataBahn.ai推出“数据礁”智能化安全情报的新时代

在网络安全领域,如何快速而准确地处理海量数据是企业面临的一大挑战。最近,数据科技公司 DataBahn.ai 推出了一款名为 “数据礁”(Reef)的创新产品,旨在将高流量、高速度的安全监测信息转化为及时、可操作的情报,帮助企业做出更明智的决策。如今,企业收集的日志、警报和监测数据多达数 PB,但实际上仅分析不到5%。这意味着绝大多数数据未被充分利用,关键的信息往往被淹没在海量的噪音中。“数据礁”

​通义千问Qwen3发布:推理能力显著增强 支持两种思考模式

通义千问团队宣布推出Qwen3,这是Qwen系列大型语言模型的最新成员。Qwen3系列模型在代码、数学和通用能力等基准测试中表现出色,与DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等顶级模型相比,展现了极具竞争力的结果。其中,小型MoE模型Qwen3-30B-A3B的激活参数数量仅为QwQ-32B的10%,但表现更胜一筹,而像Qwen3-4B这样的小模型

阿里发布国内首个“混合推理模型”Qwen3 并开源:支持两种思考模式,预训练约 36 万亿个 token、119 种语言和方言

感谢IT之家网友 四文鱼、软媒用户1369491 的线索投递!IT之家 4 月 29 日消息,今日凌晨,阿里巴巴发布了新一代通义千问 Qwen3 模型,一举登顶全球最强开源模型。Models LayersHeads (Q / KV)Tie EmbeddingContext LengthQwen3-0.6B2816 / 8Yes32KQwen3-1.7B 2816 / 8Yes32KQwen3-

前微软高管剖析 OpenAI ChatGPT 变谄媚根源:人类不喜 AI 直言的人格画像

IT之家 4 月 29 日消息,科技媒体 The Decoder 昨日(4 月 28 日)发布博文,报道称 OpenAI 的 GPT-4o 模型在最新调整后之所以被认为“过度谄媚 / 奉承”,其原因在于用户敏感性引发的 AI 调整。前微软高管、现 Spotify 首席技术官 Mikhail Parakhin 表示,ChatGPT 并非一开始就以奉承用户为默认风格,不过由于用户对直接的人格反馈表现