Grok大更新!视觉能力、多语言音频处理与实时搜索功能震撼上线

由xAI打造的生成式人工智能聊天机器人Grok迎来了一次里程碑式的更新,其功能全面升级,不仅新增了视觉处理能力,还实现了多语言音频处理以及语音模式下的实时搜索功能。这一更新标志着Grok在多模态AI领域的重大突破,为用户提供了更智能、更便捷的交互体验。以下,AIbase将为您详细解析此次更新的亮点与意义。视觉能力突破Grok的视觉处理能力是此次更新的核心亮点之一。尽管早在2024年4月,xAI曾宣

AI生物大模型ProGen3:重新定义蛋白质设计的未来

在生命科学的前沿,AI 技术正在引发一场革命。最近,生物计算公司 ProFluent 推出了 ProGen3,一款强大的生成式蛋白质语言模型(PLM),它有望在抗体、工业酶及基因编辑领域带来重大突破。研究显示,ProGen3的规模和设计优化能够生成功能强大的新型蛋白质,甚至重塑我们对生物学的理解。蛋白质是生命体内的关键分子,负责多种生理功能。从催化反应到识别病原体,它们的作用不可小觑。然而,设计新

Gartner报告:2027年,任务特定AI使用频率将是通用AI的三倍

根据最新发布的 Gartner 报告,到2027年,企业将使用任务特定的人工智能模型的频率将是通用大语言模型的三倍。报告指出,尽管通用大语言模型在语言处理方面具备强大的能力,但在需要深入理解特定业务领域的任务时,它们的响应准确性会下降。因此,越来越多的企业开始关注能够满足特定需求的定制化模型。图源备注:图片由AI生成,图片授权服务商MidjourneyGartner 副总裁兼分析师 Sumit A

Nvidia 将首次在美国制造 AI 超级计算机,打造自主供应链

Nvidia 近期宣布,将在美国本土首次制造其 AI 超级计算机。这一举措标志着该公司与一系列制造合作伙伴共同合作,旨在在美国工厂内建造、包装、测试和组装下一代 Blackwell 系统。目前,Blackwell 芯片的生产已经在位于亚利桑那州的 TSMC 半导体制造厂展开,而超级计算机的组装则将在德克萨斯州进行,由富士康在休斯顿和纬创在达拉斯进行扩展。此外,负责包装和测试的安靠和矽品,也在亚利桑

告别 AI 数据盲区!Relyance AI 新平台实现端到端流向可视化

数据治理平台提供商 Relyance AI 在去年10月获得3210万美元 B 轮融资后,推出了全新的 Data Journeys 平台,旨在解决企业采用 AI 时面临的关键挑战:准确了解数据在复杂系统中的流转。该平台能够追踪数据在应用程序、云服务和第三方系统中的使用方式和原因,填补了传统数据沿袭方法的空白。Relyance AI 首席执行官兼联合创始人 Abhi Sharma 强调,Data J

ChatTS-14B – 字节开源的时间序列理解和推理大模型

ChatTS-14B是什么ChatTS-14B 是字节跳动研究团队开源的专注于时间序列理解和推理的大型语言模型,参数量达 140 亿。基于 Qwen2.5-14B-Instruct 微调而成,通过合成数据对齐技术显著提升了在时间序列任务中的表现。模型支持自然语言交互,用户可以通过简单的指令完成对时间序列数据的分析、预测和推理,例如金融市场趋势分析、天气预测或工业流程优化等任务。ChatTS-1

Infinite Mobility – 上海 AI Lab 推出的可交互物体生成模型

Infinite Mobility是什么Infinite Mobility 是上海AI Lab推出的可交互物体生成模型,基于程序化生成技术,高效生成高质量的可交互物体数据资产。Infinite Mobility支持22类常见可交互物体的生成,单个物体生成仅需约1秒,生成数量无上限。相比传统数据集(如PartNet-Mobility),Infinite Mobility生成的物体结构复杂度更高、

SimpleAR – 复旦大学联合字节 Seed 团队推出的图像生成模型

SimpleAR是什么SimpleAR 是复旦大学视觉与学习实验室和字节 Seed 团队联合推出的纯自回归图像生成模型。采用简洁的自回归架构,通过优化训练和推理过程,实现了高质量的图像生成。SimpleAR 仅用 5 亿参数即可生成 1024×1024 分辨率的图像,在 GenEval 等基准测试中取得了优异成绩。训练采用“预训练 – 有监督微调 – 强化学习”的三阶段方法,显著提升了文本跟随

Aether – 上海 AI Lab 开源的生成式世界模型

Aether是什么Aether 是上海AI Lab开源的生成式世界模型,完全基于合成数据训练。Aether 首次将三维时空建模与生成式建模深度融合,具备 4D 动态重建、动作条件视频预测和目标导向视觉规划三大核心能力。Aether 能感知环境、理解物体位置和运动关系,做出智能决策。Aether 在真实世界中展现出强大的零样本泛化能力,使用虚拟数据训练完成高效完成复杂任务,为具身智能系统提供强大

MAGI-1 – Sand AI 开源的首个自回归视频生成模型

MAGI-1是什么MAGI-1 是 Sand AI 开源的全球首个自回归视频生成大模型,采用自回归架构,通过逐块预测视频序列生成流畅自然的视频,支持无限扩展和一镜到底的长视频生成。模型原生分辨率可达 1440×2568,生成的视频动作流畅且细节逼真,具备可控生成能力,可通过分块提示实现平滑场景转换和细粒度控制。MAGI-1的主要功能高效视频生成:MAGI-1 能在短时间内生成高质量视频

WriteHERE – 开源的AI长文写作框架,单次生成超长文本

WriteHERE是什么WriteHERE是Jürgen Schmidhuber领衔的团队开源的AI长文写作框架。WriteHERE基于异质递归规划(Heterogeneous Recursive Planning)技术,动态分解写作任务为检索、推理和写作三种异构任务,基于有向无环图(DAG)管理任务依赖关系,实现自适应执行。WriteHERE能单次生成超过4万字、100页的专业报告,适用于小

Yuxi-Know – 基于大模型 RAG 知识库的 AI 知识图谱问答平台

Yuxi-Know是什么Yuxi-Know(语析)是基于大模型RAG知识库与知识图谱技术构建的智能问答平台。Yuxi-Know支持多种知识库文件格式(如PDF、TXT、MD、Docx),支持将文件内容转换为向量存储,便于快速检索。Yuxi-Know集成基于Neo4j的知识图谱问答能力,能处理复杂的知识关系查询。平台支持多模型适配,包括OpenAI、国内主流大模型及本地部署的vllm、ollam

Suna – 全球首款开源的通用 AI Agent

Suna是什么Suna 是全球首款开源的通用 AI Agent,支持高效解决现实场景中的各类任务。基于自然流畅的对话交互,Suna 支持智能辅助研究分析、数据处理及日常事务,化身专属数字伙伴。Suna 具备强大的功能,包括浏览器自动化、文件管理、网络爬虫、命令行执行、网站部署及与多种API的集成。Suna 结合直观的界面和强大的工具集,解决复杂问题并自动化工作流程。支持用户自托管Suna,用简

真正懂你的移动智慧屏 酷开AI闺蜜机C20系列发布:3999元起

快科技4月23日消息,酷开在以大爱AI”为主题的2025春季发布会上发布超级智能体以及智能体硬件酷开学习机Y41 Air、酷开闺蜜机C20系列等产品,在这次活动上,深耕AI领域多年的酷开宣布:正式以AI原生企业的定位面向未来发展。本次发布会的重点产品之一是酷开AI闺蜜机C20系列,其中32英寸Pro版8GB 128GB售价3999元,32英寸Ultra版升级为4K分辨率,8GB 256GB售价

Ray-Ban Meta 智能眼镜正式推出实时翻译功能,支持四种语言和离线使用

IT之家 4 月 24 日消息,Meta 公司今日宣布,将向所有 Ray-Ban Meta 智能眼镜用户推出一项全新的实时翻译功能。此前该功能仅以测试版的形式向部分早期体验用户开放,如今正式面向广大用户推出。据IT之家了解,该实时翻译功能支持英语、法语、意大利语和西班牙语四种语言,用户可以在对话中实时将这些语言相互翻译。只要提前下载了相应的语言包,即使没有 Wi-Fi 或移动网络连接,用户也能够

Anthropic 示警:Claude 等 AI 被滥用,引导舆论威胁公众认知

IT之家 4 月 24 日消息,Anthropic 昨日(4 月 23 日)发布博文,报告称 Claude 等前沿 AI 模型正被恶意行为者滥用,涉及“舆论引导服务”(influence-as-a-service)操作、凭证填充、招聘诈骗及恶意软件开发等活动。Anthropic 开发团队为 Claude 采取了多项安全措施,成功阻止了许多有害输出,但威胁行为者仍在尝试绕过这些保护。IT之家援引博

谷歌Gemini用户暴涨至3.5亿!但仍被ChatGPT碾压

最新数据显示,谷歌AI聊天机器人Gemini全球月活跃用户已达3.5亿,展现出惊人的增长势头。这一数据来自谷歌反垄断诉讼中披露的内部文件,揭示了AI助手市场的激烈竞争格局。 爆发式增长轨迹-2024年10月:日活仅900万-2025年3月:日活飙升至3500万- 短短5个月:用户规模增长近4倍市场格局对比尽管增长迅猛,Gemini与行业领头羊仍存在明显差距:- ChatGPT:月活约6亿- Met

Ostris发布Flex.2-preview,8B参数扩散模型革新ComfyUI工作流

Ostris团队发布Flex.2-preview,一款基于8亿参数的文本到图像扩散模型,专为集成到ComfyUI工作流设计。据AIbase了解,该模型在基于线条、姿态和深度的控制生成能力上表现出色,支持通用控制与图像修补功能,延续了从Flux.1Schnell到OpenFlux.1、Flex.1-alpha的微调进化路径。Flex.2-preview已在Hugging Face开源,凭借Apach

香港与英国研究团队提出创新图像标记化方法 分层结构提升重建质量

一组来自香港和英国的研究人员近日提出了一种新型图像标记化方法,旨在以更紧凑、更精确的方式将图像转换为数字表示(即令牌)。与传统方法将信息均匀分布于所有标记中不同,该方法采用分层结构,逐层捕捉视觉信息,从而提升了图像重建的质量和效率。传统的图像标记化技术通常会将图像的每个部分均等地划分为多个标记,而新方法则采取了分层结构。最初的标记会编码大致的形状和结构元素,而后续的标记则逐渐添加更精细的细节,直到

mcp-server-weread工具实现Claude与微信读书笔记无缝交互,助力阅读与AI深度融合

近日,一款名为mcp-server-weread的实用工具在Twitter上引发热议。这款工具能够让用户在Anthropic的Claude AI中无缝访问微信读书的笔记和阅读数据,实现阅读笔记与AI的深度交互,为知识工作者和阅读爱好者提供了高效的解决方案。mcp-server-weread:微信读书与Claude的桥梁mcp-server-weread是一款开源工具,旨在打破微信读书数据与AI工具