Voila – 开源端到端语音大模型,实现低延迟语音对话

Voila是什么Voila 是开源的端到端语音大模型,专为语音交互而设计。具备高保真、低延迟的实时流式音频处理能力,能直接处理语音输入并生成语音输出,为用户提供流畅且自然的交互体验。Voila 集成了语音和语言建模能力,支持数百万种预构建和自定义声音,用户可以通过文本指令或音频样本轻松定制说话者的特征和声音。 包含两个主要模型:Voila-e2e 用于端到端语音对话,Voila-autonom

谷歌:员工若使用 AI 处理行政任务,每年可节省 122 小时工作时间

IT之家 4 月 25 日消息,据路透社报道,谷歌表示,如果能对劳动力进行有效培训,英国借由 AI 带动的经济增长有望增加多达 4000 亿英镑(IT之家注:现汇率约合 3.88 万亿元人民币)。此前一项试点项目显示,员工若在日常行政事务中使用 AI,每年可节省超过 120 小时的工作时间。谷歌今日发布的试点报告指出,若员工可以使用 AI,且企业能提供数小时的基础培训,不仅能迅速提升技术普及率,

业界唯一!百度网盘上线多模态AI笔记 效率提升10倍

快科技5月2日消息,过往,用户在通过视频学习并记录笔记时,总免不了要不停切换平台软件,暂停、截屏、记录、插图、批注、切换返回视频过程繁琐而低效。为了应对这种情况,百度网盘和百度文库联合研发上线了AI笔记”,支持全自动学习、半自动学习、辅助学习三种模式。如今只要在网盘里面任意打开一个学习视频,在右侧就能看到AI笔记”功能,用户可以自主输入内容,也可以让其直接生成图文并茂、结构清晰的笔记。而且每个

阿里发布国内首个“混合推理模型”Qwen3 并开源:支持两种思考模式,预训练约 36 万亿个 token、119 种语言和方言

感谢IT之家网友 四文鱼、软媒用户1369491 的线索投递!IT之家 4 月 29 日消息,今日凌晨,阿里巴巴发布了新一代通义千问 Qwen3 模型,一举登顶全球最强开源模型。Models LayersHeads (Q / KV)Tie EmbeddingContext LengthQwen3-0.6B2816 / 8Yes32KQwen3-1.7B 2816 / 8Yes32KQwen3-

微软 AI 负责人预测:未来“智能”成为新货币,知识和能力比钱更重要

IT之家 4 月 18 日消息,在接受 Jules Terpak 频道采访时,微软人工智能业务首席执行官穆斯塔法・苏莱曼(Mustafa Suleyman)表示,未来“智能”将成为新的货币,将重新定义财富与生活的本质。生成式 AI 技术正以惊人速度改变我们的生活方式,从工作到娱乐,几乎无处不在。尽管有人对其安全性与隐私问题表示担忧,但这并未阻挡技术普及的浪潮。IT之家翻译苏莱曼采访内容如下:我们

智平方发布智能机器人 AlphaBot 2(爱宝 2):DeepSeek 加持,全球首款全域全身 VLA

IT之家 4 月 18 日消息,具身智能机器人企业智平方昨日在深圳发布了旗下新一代通用智能机器人 AlphaBot 2(爱宝 2),并宣布全面升级“AGI 终端”战略。此次战略升级涵盖核心具身大模型技术升级、产品迭代、自有产线建设及商业化目标。本次发布会,智平方宣布原有具身大模型品牌 AI2R Brain 正式升级为 Alpha Brain。据官方绍,Alpha Brain 最关键的是智平方全栈

银行科技转型加速,大模型应用深入核心业务

随着银行业在数字化型中面临的挑战与压力日益加大,越来越多的银行开始将大模型技术融入到核心业务中,而不仅仅停留在简单的聊天机器人应用上。最新的财报数据显示,国内一些主要银行在科技投入和大模型应用方面取得了显著进展,但同时也显露出投入的分化趋势。根据钛媒体 App 对十家主要银行的分析,包括六大国有银行及几家股份制银行,发现其中六家银行的科技投入出现了缩减。例如,建设银行的科技投入为244.33亿元,

从游戏少女到AI女神,她用物理驯服AI,让飓风预测快1000倍

声明:本文来自于微信公众号新智元,授权站长之家转载发布。10岁那年,Rose Yu收到一份改变命运的生日礼物——一台电脑。在25年前,电脑在中国可是稀罕物。这份来自叔叔的礼物,从此开启了她开挂般的人生!Rose Yu在加州大学圣地亚哥分校,俯瞰着拉霍亚海岸,她致力于构建能用物理学原理解决实际问题的神经网络最开始,Yu用它玩电脑游戏,到了中学时期,她获得了网页设计奖。大学时期,她在浙江大学主修计

​清华大学成立人工智能医院 迈向智慧医疗新篇章

清华大学正式成立人工智能医院,标志着该校在 “AI + 医疗” 领域迈出了重要一步。4月26日,清华大学举行了人工智能医院的揭牌仪式,并在医学院全体教职工大会上进行了相关介绍。校长李路明、副校长王宏伟等多位领导出席了此次仪式,共同见证了这一历史性时刻。清华大学人工智能医院(Tsinghua AI Agent Hospital)将分阶段建设,初期将依托北京清华长庚医院及其互联网医院进行试点。这一新医

小身材,大智慧!微软Phi-4系列推理模型发布,性能直逼GPT-4o

微软正积极扩展其Phi系列紧凑型语言模型,最新发布了三款专为高级推理任务设计的新变体:Phi-4-reasoning、Phi-4-reasoning-plus 和 Phi-4-mini-reasoning。这些模型旨在通过结构化推理和内部反思处理复杂的问答,同时保持轻量级特性,使其能够在包括移动设备在内的低端硬件上高效运行,延续了微软Phi系列在资源受限设备上实现强大AI功能的愿景。Phi-4-r

mcp-agent发布:轻量级框架助力智能体应用高效构建

mcp-agent正式发布,作为一款基于模型上下文协议(MCP)的轻量级框架,旨在为开发者提供一个简化的智能体应用构建解决方案。该框架不仅能够与其他MCP服务无缝集成,还具备高度的可组合性和可定制性,使得开发者能够更专注于核心业务逻辑的实现,而无需过多关注复杂的系统架构。mcp-agent的设计理念是简洁而高效,它去除了传统框架中多余的模块,提供了一个轻量级的代理模式库。开发者可以在此基础上快速构

工信部:加强通用大模型和行业大模型研发布局,加快建设工业领域高质量数据集

IT之家 5 月 4 日消息,据新华社报道,记者近日从工业和信息化部获悉,下一步将加强通用大模型和行业大模型研发布局,加快建设工业领域高质量数据集。IT之家从报道获悉,工业和信息化部总工程师谢少锋说,我国已形成了覆盖基础层、框架层、模型层、应用层的完整的人工智能产业体系,人工智能大模型在电子、原材料、消费品等行业加快落地,在研发设计、中试验证、生产制造、运营管理等环节得到应用。他说,制造业是人工

努比亚平板Pro官宣4月28日发布 强芯真AI

站长之家(ChinaZ.com) 4月22日 消息:近日,努比亚科技正式对外公布旗下首款平板产品——努比亚平板Pro的外观设计细节,并宣布该新品将于 4 月 28 日下午 14 点举办发布会,同期发布的还有Z70S Ultra摄影师版手机。此次官宣标志着努比亚在智能终端领域进一步拓展产品矩阵,引发市场广泛关注。从官方公布的渲染图来看,努比亚平板Pro采用窄边框圆角全面屏设计,屏幕屏占比表现突出

微软全新开源模型 MAI-DS-R1:敏感话题响应提升,安全风险降低

微软在其官网上正式开源了 DeepSeek-R1的魔改版 ——MAI-DS-R1。这一新模型在保留原有推理性能的基础上,进行了显著的增强,尤其在对敏感话题的响应能力上取得了巨大的突破。MAI-DS-R1的响应能力达到了99.3%,是原版 R1的两倍多。这一进步将对政治学、社会问题以及伦理道德的研究提供极大的支持。尽管其响应了更多的敏感话题,但在安全风险方面,MAI-DS-R1的有害内容降低了50%

Atypica.AI:全新高效用户洞察代理工具

在快速发展的科技世界中,用户研究的方式也在不断演变。近期,Atypica.AI 崭露头角,成为一个全新且高效的用户洞察代理工具。其主要功能是通过智能化的方法生成详细的研究报告,帮助企业更好地理解用户需求和市场动态。使用 Atypica.AI 非常简单。用户只需在首页输入想要了解的问题,系统便会自动询问几个相关问题以厘清研究意图。例如,如果你对 “用户研究岗位的未来发展” 感兴趣,系统会引导你选择一

调查:超半数用 AI 替代员工的英国企业后悔了

IT之家 4 月 30 日消息,据组织规划平台 Orgvue 最新发布的报告,英国企业在引入人工智能技术的过程中出现了诸多问题。数据显示,约 39% 的英国企业曾因对人工智能的期望过高而进行裁员,然而,其中 55% 的企业如今承认这些裁员决策是错误的。这些因人工智能引发的裁员行为带来了诸多负面后果。企业内部出现了混乱,导致员工离职率上升,生产力也出现了下滑,这与企业最初希望通过引入人工智能提升效

Gemini-2.5-pro在MathArena评测中展现卓越数学能力 远超其他模型

2025年4月3日消息:根据MathArena最新发布的大语言模型数学能力评测结果显示,Google的Gemini-2.5-pro以绝对优势领跑,在未污染的高难度数学竞赛中展现出令人瞩目的表现。突破性成绩Gemini-2.5-pro在MathArena平台的严格评测中取得了24.40%的准确率,这一成绩不仅位居榜首,更是与第二名DeepSeek-R1 的4.76%形成鲜明对比,领先优势达到惊人的五

英伟达推 DAM-3B 模型:突破局部描述难题,让 AI 看懂图像 / 视频每一个角落

IT之家 4 月 24 日消息,科技媒体 marktechpost 昨日(4 月 23 日)发布博文,报道称英伟达为应对图像和视频中特定区域的详细描述难题,最新推出了 Describe Anything 3B(DAM-3B)AI 模型。视觉-语言模型(VLMs)在生成整体图像描述时表现出色,但对特定区域的细致描述往往力不从心,尤其在视频中需考虑时间动态,挑战更大。英伟达推出的 Describe

特朗普准备撤回“AI芯片出口管制”……各国单独谈判

站长之家(ChinaZ.com) 5月8日 消息:路透社、CNBC等外电当地时间 7 日报道,美国商务部发言人在一份声明中表示,“我们将使人工智能法规变得简单,以促进美国创新、并确保人工智能优势”。该发言人主张,拜登政府时期推行的人工智能出口管制政策“过于复杂和官僚主义”,将阻碍美国的创新。路透社援引多位匿名消息人士的话报道称,特朗普政府不会实施这项定于本月 15 日生效的措施。AI 半导

谷歌 AI 编程助手 Gemini Code Assist 新增“代理”功能,可多步骤完成复杂任务

IT之家 4 月 10 日消息,在本周三的谷歌 Cloud Next 大会上,谷歌宣布其 AI 编程助手 Gemini Code Assist 新增“代理”功能。谷歌表示,Code Assist 如今能够部署新的 AI“代理”,这些代理能够通过多步骤完成复杂的编程任务。例如,它们可以根据 Google Docs 中的产品规格创建应用程序,或者将代码从一种语言转换为另一种语言。此外,Code As