上海人工智能实验室开源多模态大模型“书生・万象 3.0”:能同时处理文本和多模态输入

IT之家 4 月 17 日消息,据上海人工智能实验室官方公众号,4 月 16 日,上海人工智能实验室(上海 AI 实验室)升级并开源了通用多模态大模型书生・万象 3.0(InternVL3)。官方介绍,通过采用创新的多模态预训练和后训练方法,InternVL3 多模态基础能力全面提升,在专家级基准测试、多模态性能全面测试中,10 亿~780 亿参数的全量级版本在开源模型中性能均位列第一,同时大幅

字节跳动发布豆包 1.5 深度思考模型,具备“看图思考”能力

IT之家 4 月 17 日消息,在今日火山引擎 AI 创新巡展杭州站现场,字节跳动旗下火山引擎总裁谭待发布了最新的豆包 1.5・深度思考模型。据介绍,该模型在数学、编程、科学推理等专业领域及创意写作等通用任务中表现突出。数学推理 AIME 2024 测试得分追平 OpenAI o3-mini-high,编程竞赛和科学推理测试成绩也接近 o1。在创意写作、人文知识问答等通用任务上,模型也展示出优秀

微软 Edge 浏览器免费上线 Copilot Vision 功能,AI 助手可实时解读屏幕内容

IT之家 4 月 17 日消息,微软人工智能首席执行官穆斯塔法・苏莱曼今天在 Bluesky 上宣布,微软的人工智能助手功能“Copilot Vision”现在可以在 Edge 浏览器中免费使用,该功能可以解读屏幕上的内容并帮助用户使用应用程序。据IT之家了解,“Copilot Vision”是一种“基于语音的体验”,用户可以通过语音指令与之交互。苏莱曼表示,当用户启用该功能时,“Copilot

5000 亿美元大项目版图扩张,消息称 OpenAI、软银考虑在英投资“星际之门”

IT之家 4 月 17 日消息,据英国《金融时报》今日报道,OpenAI 与软银主导的 5000 亿美元(IT之家注:现汇率约合 3.65 万亿元人民币)美国数据中心项目“星际之门”正在考虑未来在英国的投资,旨在全球范围内建立支撑 AI 强大模型所需的基础设施。根据三位接近该项目的知情人士透露,英国已成为其优先选择之一,与英国政府近期通过加大对 AI 行业投资的力度有关,尤其是为开发者提供更便捷

AI“立功”:谷歌去年封停了 3920 万个广告账号,超 2023 年三倍

IT之家 4 月 17 日消息,据外媒 TechCrunch 报道,当地时间周三,谷歌宣布去年封停了 3920 万个广告主的账号,数量超过了 2023 年的三倍。谷歌表示,借助大语言模型和通过识别诸如商业冒充、非法支付信息等信号,目前公司能够在广告投放前就暂停“大多数”广告账户。谷歌广告安全总经理亚历克斯・罗德里格兹在一次虚拟媒体圆桌会议上表示:“这些 AI 模型对我们至关重要,已经带来了不少显

微软最新报告教你“防诈”:如何避开 AI 生成的虚假招聘与诈骗网站

IT之家 4 月 17 日消息,据外媒 Neowin 报道,微软 16 日发布了最新一期《网络安全信号报告》,详细说明了如何应对当今网络安全领域中的新型威胁、诈骗及欺诈行为,并阐述了 AI 如何使开发恶意软件变得“比以往任何时候都更加容易”。微软指出,威胁行为者通过深度伪造、声音克隆、伪造员工档案以及假冒电商网站和产品图片等手段,正不断加大对潜在受害者的欺骗力度,IT之家附此内容大意如下:AI

“最佳 AI 拍档”合作裂痕初现:OpenAI 谋求独立、微软转向自研

IT之家 4 月 17 日消息,微软与 OpenAI 的合作,曾被誉为科技界最佳“兄弟情”。微软斥资数十亿美元,将 OpenAI 的 ChatGPT 技术深度融入其产品生态,然而近期迹象显示双方关系趋于紧张。合作裂痕初现,OpenAI 谋求独立OpenAI 在今年 2 月公布了价值 5000 亿美元的 Stargate 项目,计划在美国建设多个数据中心,以支持其 AI 研发,意味着 OpenAI

OpenAI 部署新监控系统,防范 o3 和 o4 - mini 提供生物和化学威胁建议

IT之家 4 月 17 日消息,人工智能公司 OpenAI 宣布部署了一套新的监控系统,专门用于监测其最新的人工智能推理模型 o3 和 o4-mini,防止这些模型提供可能引发生物和化学威胁的有害建议。根据 OpenAI 的安全报告,该系统旨在确保模型不会为潜在的有害攻击提供指导。据 OpenAI 表示,o3 和 o4-mini 相比之前的模型在能力上有显著提升,但同时也带来了新的风险。根据 O

可实时识别屏幕内容,谷歌 Gemini Live 功能向所有安卓用户免费开放

IT之家 4 月 17 日消息,谷歌今日宣布,其 Gemini 应用中的 Gemini Live 功能将免费向所有安卓用户开放。该功能能够实时识别并回应关于用户手机摄像头和屏幕上的内容,本月早些时候为所有 Pixel 9 和三星 Galaxy S25 用户推出,并且需要通过 Gemini Advanced 订阅才能使用。然而,谷歌在收到用户对 Gemini Live 功能的积极反馈后,决定改变策

在终端就能跑的轻量级推理智能体,OpenAI 发布完全开源 Codex CLI 工具

IT之家 4 月 17 日消息,OpenAI 今日发布了一款轻量级终端运行编码智能体 —— Codex CLI,该工具现已在 GitHub 完全开源。Codex CLI 可以直接在用户的计算机上工作,旨在最大化 o3 和 o4-mini 等模型的推理能力,并即将支持 GPT-4.1 等额外的 API 模型。用户可以通过命令行获得多模态推理的能力,比如通过传递截图或低保真草图给模型,并结合对本地代