字节跳动发布高效预训练长度缩放技术,突破长序列训练瓶颈

字节跳动宣布推出高效预训练长度缩放技术(Efficient Pretraining Length Scaling),通过创新的Parallel Hidden Decoding Transformer(PHD-Transformer)框架,显著提升大语言模型(LLM)在长序列预训练中的效率与性能。据AIbase了解,该技术在保持推理效率的同时,支持高达2048K(2M)的上下文长度训练,解决了传统框

生成很强,推理很弱:GPT-4o的视觉短板

声明:本文来自微信公众号“大数据文摘”(ID:BigDataDigest),作者:文摘菌,授权站长之家转载发布。如果让AI画一只狗站在“左边”,但事先告诉它“左就是右”,你觉得它能反应过来吗?最近,UCLA的一项新研究用一系列精心设计的实验,揭开了GPT-4o在图像理解和推理上的短板——它画得漂亮,却未必真懂你的意思。论文主线很直接,GPT-4o的画图能力确实惊艳,但真正涉及理解图像、语境推理

斥资36亿!OpenAI考虑收购前苹果设计师AI初创公司

快科技4月8日消息,据报道,OpenAI近期正就收购AI硬件初创公司io Products展开深入谈判,这笔潜在交易或将重塑人工智能硬件市场格局。据知情人士透露,OpenAI高层曾考虑以至少5亿美元(约合人民币36.41亿元)的价格收购这家由OpenAI CEO萨姆阿尔特曼与前苹果传奇设计师乔纳森艾维联合创立的公司。乔纳森艾维作为苹果前首席设计官,曾主导iPhone、MacBook等划时代产品

国产AI崛起!17亿参数开源图像模型HiDream-I1横空出世

当代码的力量遇上艺术的灵感,新一代人工智能正在悄然改变创意世界的边界。近日,国产开源图像生成模型HiDream-I1震撼发布,凭借17亿参数的技术底蕴,这款由HiDream-ai团队倾力打造的AI"画匠"正迅速成为科技圈新宠。这款基于扩散模型技术的开源图像生成工具,能够将文本描述转化为高质量图像,在细节渲染和图像一致性方面展现出令人瞩目的实力。初步测试显示,HiDream-I1在色彩还原、边缘处理

Perplexity 竞技场夺冠,Sonar挑战谷歌Gemini的搜索霸主地位

在最新的 LM Arena Search Arena 评估中,Perplexity 公司的 Sonar-Reasoning-Pro-High 模型表现优异,与谷歌的 Gem-2.5-Pro-Grounding 模型并列第一,直接对决的胜率达到53%。这一消息无疑给搜索引擎领域带来了新的震动,显示了 Perplexity 在 AI 搜索技术上的强大实力。Sonar 系列模型在此次评估中包揽了前四名,

ChatGPT 低调上线“记忆搜索”功能:个性化搜索结果更精准

IT之家 4 月 19 日消息,据外媒 TechCrunch 今日报道,OpenAI 正在再次强化 ChatGPT 的“记忆”功能。根据 OpenAI 官网更新的日志和支持页面,OpenAI 低调上线了一项名为“Memory with Search”的新功能。ChatGPT 在进行网页搜索时,将能够结合记忆中存储的个人信息(IT之家注:例如用户过去提到的饮食偏好)来优化搜索结果。OpenAI 在

宝马中国宣布新车型接入DeepSeek 含5系、全新X3

宝马中国宣布旗下的新车型将在第三季度接入先进的 DeepSeek 技术。这一技术将应用于搭载第九代操作系统的多款新车,标志着宝马在智能车载系统方面迈出了重要一步。根据规划,首批适配车型包括 BMW5系长轴距版、纯电动 i5以及全新 X3长轴距版等,届时,现有车主也将能够体验到这一全新功能。DeepSeek 技术的引入,将极大增强车主与车辆之间的互动体验。用户通过 BMW 智能个人助理,可以使用自然

新框架d1引领扩散模型推理进步,掀起强化学习应用新风潮

在人工智能的不断发展中,扩散模型在推理能力上逐渐崭露头角,现如今,它们不再是自回归模型的 “跟随者”。近日,来自加州大学洛杉矶分校(UCLA)和 Meta 的研究者们联合推出了一种名为 d1的新框架,该框架结合了监督微调(SFT)和强化学习(RL),使扩散模型具备更强的推理能力,包括数学理解、逻辑推理等。这一创新的 d1框架通过两阶段的后训练策略来提升掩码大语言模型(dLLM)的性能。在第一阶段,

华为诺亚方舟实验室携手港大发布最强开源扩散语言模型 Dream 7B,打破文本生成格局

人工智能领域再添一颗耀眼新星!近日,华为诺亚方舟实验室与香港大学自然语言处理组(HKU NLP Group) 联合发布了名为 Dream7B 的全新语言模型。这款模型被誉为“迄今为止最强大的开源扩散大型语言模型”。Dream7B 的问世,不仅在性能上超越了现有的扩散语言模型,更在通用能力、数学、代码以及规划能力上,比肩甚至超越了同等规模的顶尖自回归(AR)语言模型。这一突破性的进展,预示着文本生成

开源新模型 DeepCoder:超高效编程,超越OpenAI o1模型

在科技发展的浪潮中,人工智能(AI)技术日新月异。最近,由著名大模型训练平台 Together AI 和智能体平台 Agentica 联合开源的新模型 DeepCoder-14B-Preview,吸引了广泛关注。该模型以仅有的140亿参数,在代码测试平台 LiveCodeBench 上的得分为60.6%,超过了 OpenAI 的 o1模型(59.5%),仅略低于 o3-mini(60.9%)。这一