NoteLLM – 小红书推出的笔记推荐多模态大模型框架

NoteLLM是什么NoteLLM 是小红书推出的针对笔记推荐的多模态大型语言模型框架。NoteLLM 基于生成笔记的压缩嵌入和自动生成标签类别,用大型语言模型(LLM)的强大语义理解能力,结合对比学习和指令微调技术,提升笔记推荐的准确性和相关性。NoteLLM-2 在NoteLLM基础上引入多模态输入,基于端到端微调策略,结合视觉编码器和 LLM,解决视觉信息被忽视的问题。NoteLLM-2

D-DiT – 耶鲁大学联合字节Seed等机构推出的多模态扩散模型

D-DiT是什么D-DiT(Dual Diffusion Transformer)是卡内基梅隆大学、耶鲁大学和字节跳动Seed实验室推出的多模态扩散模型,能统一图像生成和理解任务。模型结合连续图像扩散(流匹配)和离散文本扩散(掩码扩散),基于双向注意力机制同时训练图像和文本模态。D-DiT能实现文本到图像生成和图像到文本生成的双向任务,支持视觉问答、图像描述生成等多种应用。模型基于多模态扩散T

字节跳动携手港大与华中科技大学推出UniTok,革新视觉分词技术

近日,字节跳动联合香港大学和华中科技大学共同推出了全新的视觉分词器 UniTok。这款工具不仅能在视觉生成和理解任务中发挥作用,还在技术上进行了重要创新,解决了传统分词器在细节捕捉与语义理解之间的矛盾。UniTok 采用了多码本量化技术,能够将图像特征分割成多个小块,并用独立的子码本进行量化。这种方法极大地提升了视觉 token 的表示能力,使得处理图像时能够更加精细。比如,UniTok 在 Im

腾讯元宝文生图功能升级 支持混元和DeepSeek两大模型生成

腾讯元宝宣布其文生图功能全面升级,支持混元和DeepSeek两大模型生成图片。这一升级使得用户只需通过简单的一句话描述,即可生成高质量、复杂且富有想象力的图像。腾讯元宝的这一功能升级结合了腾讯混元最新的文生图模型,已在元宝全端上线。用户在给出一句话指令后,元宝会自动扩展和细化提示词,生成与描述高度一致的图像。无论是童年漫画风格的少年望向天空的画面,还是莫奈风格的粉紫色睡莲与半透明荷叶相映成趣的场景

Parloa融资1.2亿美元,市值突破10亿美元,欲扩展企业AI客服平台

近日,客户体验领域的创新公司 Parloa GmbH 宣布成功融资1.2亿美元,使其估值达到10亿美元。这笔新资金将用于加速公司在北美和欧洲的扩张,增强其人工智能代理管理平台,并招聘国际人才。自2018年成立以来,Parloa 专注于为企业提供 AI 驱动的客户服务解决方案。Parloa 的 AI 代理管理平台允许企业通过一个低代码的界面设计、部署和管理各种沟通渠道上的 AI 客服代理,包括语音、

Asembia AXS25:人工智能将如何重塑处方药配送

在近期举办的 Asembia AXS25峰会上,行业专家们探讨了人工智能(AI)在药房运营中的潜力,尤其是在处方药履行的各个环节。Harry Travis,The Travis Group 的总裁,在接受《药房时报》采访时,分享了他关于 “AI 对医疗和药房的影响” 的演讲。他强调,要充分发挥 AI 的优势,药房行业必须解决监管和医保支付方面的挑战。Travis 指出,AI 可以在处方履行的每个步

联想发布“天禧超级智能体”:开启混合式AI新纪元

在今日举行的2025联想创新科技大会(Tech World)上,联想集团董事长兼CEO杨元庆携手“联想AI挚友”大张伟,共同探讨AI时代的发展。他表示,AI正变得越来越强大,但不会取代人类,未来人类拼的是创造力,“要让AI负重前行,人类天马行空”。大会上,联想正式发布面向个人和企业的“超级智能体”——天禧个人超级智能体。这一创新产品被定位为个性化AI的超级入口,具备感知与交互、认知与决策、自主与演

Klavis AI 推出开源 MCP 集成,支持大规模用户和自定义工具

Klavis AI(YC X25)正式推出其全新的开源 MCP 集成解决方案,旨在为开发者提供一个高效、稳定的环境,以便于他们在 AI 应用中进行快速集成和部署。该项目已经在 GitHub 上发布,吸引了大量开发者的关注,迄今为止获得了973颗星和140个叉子。Klavis AI 的 MCP集成提供了一套全面的工具和资源,使得开发者能够在极短的时间内将自己的 AI 应用与生产就绪的 MCP 服务器

智能家居 Matter 协议更新 1.4.1:简化设备配置、支持 NFC 标签

IT之家 5 月 8 日消息,科技媒体 AppleInsider 昨日(5 月 7 日)发布博文,报道称 Connectivity Standards Alliance(CSA)更新智能家居协议 Matter,最新推出 1.4.1 版本更新,重点优化智能家居设备设置流程。CSA 表示相对于 2024 年秋季发布的 Matter 1.4 大版本,本次 1.4.1 更新幅度不大,其核心目标是优化智能

百度公布动物语言转换方法及装置专利:人类可与动物深度交流

IT之家 5 月 7 日消息,IT之家从中国专利公布公告网获悉,北京百度网讯科技有限公司申请的“动物语言转换方法、装置、电子设备及存储介质”专利于 5 月 6 日正式公布。专利摘要显示,该专利提供了一种动物语言转换方法、装置、电子设备及存储介质,涉及人工智能技术领域,具体涉及机器学习、深度学习以及自然语言处理等技术领域。据介绍,这一专利能够准确识别动物的情感状态,并将其转换为人类能够理解的语言,