EasyControl:让DiT模型拥有ControlNet般强大操控,支持吉卜力画风转换

在人工智能绘画领域,扩散模型(Diffusion Model)正经历从基于Unet架构向基于Transformer架构(DiT)的转变。然而,DiT生态系统在插件支持、效率以及多条件控制等方面仍面临挑战。近日,由Xiaojiu-z领衔的团队推出了名为EasyControl的创新框架,旨在为DiT模型提供高效且灵活的条件控制能力,犹如为DiT模型装上了强大的“ControlNet”。EasyCont

全球首个十亿参数 AI 模型微调任务在中国量子计算机 “本源悟空” 上成功运行

在量子计算领域,中国再次取得了显著进展。据《科创板日报》报道,来自安徽省量子计算工程研究中心与合肥综合性国家科学中心人工智能研究院等机构联合研发的量子计算机 “本源悟空”,近日成功地运行了全球首个十亿参数的人工智能(AI)模型微调任务。这一里程碑式的成就,标志着量子计算首次在实际应用中实现大规模的 AI 模型处理。本源悟空是中国自主研发的第三代超导量子计算机,配备有72位自制超导量子芯片 “悟空芯

Luma推出Ray2相机运动概念功能:AI视频迈向电影级镜头控制新境界

近日,人工智能视频生成领域的先锋企业Luma宣布,其旗舰模型Ray2迎来了一项重大功能更新——“相机运动概念”(Camera Motion Concepts)。这一功能通过引入20多种经过精确调校的摄像机运动模式,为AI生成的视频赋予了专业电影级的镜头表现力。这一创新不仅提升了视频创作的艺术性与精确性,也为广告制作、影视预览等领域带来了全新的可能性,标志着AI视频技术向更高层次迈进。据介绍,Ray

Quasar Alpha神秘亮相:首款“隐秘”长上下文模型开启免费体验

近日,一款名为“Quasar Alpha”的全新AI模型悄然上线,引发了科技界和开发者的广泛关注。据悉,这款模型由一家未具名的模型实验室推出,被称为其首款“隐秘”(stealth)模型,是即将发布的一款长上下文基础模型的预发布版本。Quasar Alpha以其惊人的100万token上下文长度、优化的编码能力以及免费开放的特点,迅速成为业界热议的焦点,为AI技术的未来发展增添了更多期待。Quasa

新应用程序力图为艺术家对抗AI

在2008年,编剧埃德・贝内特 - 科尔斯(Ed Bennett-Coles)经历了一个职业生涯的 “死亡时刻”,当他看到一篇文章称 AI 成功编写了第一部剧本时,他感到不安。时光飞逝,近二十年后,他和朋友杰米・哈特曼(Jamie Hartman),一位词曲作者,共同开发了一款名为 ARK 的区块链应用程序,旨在帮助艺术家们拥有和保护自己的作品。“人工智能正在涌入,夺走许多人的工作,” 哈特曼表示

OpenAI 考虑收购 Jony Ive 设计的 AI 设备初创公司io Products

最近,有消息称 OpenAI 正在讨论收购一家名为 io Products 的初创公司,该公司由前苹果设计师 Jony Ive 的工作室与 OpenAI 首席执行官 Sam Altman 合作开发。io Products 专注于研发一款基于人工智能的个人设备,这款设备将可能改变用户与技术的互动方式。据《theinformation》报道,这项收购讨论是在 OpenAI 内部高层之间进行的,如果交易

​三星预计第一季度利润下降21%,AI芯片销售疲软成主要原因

韩国科技巨头三星电子(Samsung Electronics)预计将于本周二发布第一季度财报,利润可能会同比下降21%,降至5.2万亿韩元(约合36.2亿美元)。这一利润下滑主要受到人工智能(AI)芯片销售不佳和合同芯片制造业务持续亏损的影响。三星电子是全球最大的内存芯片制造商,但自去年以来,其芯片利润一直处于下滑趋势。三星在高性能内存芯片的供应上落后于主要竞争对手 SK 海力士(SK Hynix

OpenAI 为 GPT-4o 图像生成添水印,Plus 会员享特权

OpenAI 正在积极测试一项为旗下 GPT-4o 图像生成模型添加水印的新功能。近期,ChatGPT 因其强大的图像生成能力而备受瞩目,该模型不仅能准确生成带文字的图片,还能创作出高度逼真的视觉作品,甚至能模仿如吉卜力工作室等著名动画公司的艺术风格。图源备注:图片由AI生成,图片授权服务商Midjourney据悉,最初仅面向 ChatGPT Plus 用户开放的 ImageGen 模型,现已全面

Meta 发布 Llama 4 大模型:混合专家架构引领 AI 新时代

Meta 公司推出了其最新的开源人工智能模型 Llama4,标志着其在人工智能领域的又一重大进展。Llama4分为两个版本,分别命名为 Scout 和 Maverick,旨在提升 AI 模型的功能与表现。Meta 表示,Llama4是一个多模态大模型,能够处理文本、图像、视频和音频等多种数据类型,并能在这些格式之间自由转换。值得一提的是,Llama4系列首次采用了 “混合专家”(MoE)架构,这一

谷歌研究揭示:合成数据提升大模型逻辑推理能力八倍

在最新的研究中,谷歌与卡内基梅隆大学及 MultiOn 团队联手,探讨了合成数据对大型模型的训练效果。他们发现,合成数据能够显著提升大模型在逻辑推理方面的表现,尤其是在数学问题的解决能力上,提升幅度达到了惊人的八倍。这一发现对于当前训练数据日益匮乏的现状具有重要的意义。目前,全球可用的高质量文本训练数据约为300万亿条,但随着像 ChatGPT 这样的模型日益普及,对训练数据的需求急剧增加,预计到