hackernews · 2026-04-02 16:10
谷歌正式发布了 Gemma 4 系列开放权重模型,包含四种参数规模:E2B、E4B、31B 以及稀疏的 26B A4B 变体。这些新模型在推理能力、原生多模态处理和工具调用(tool calling)方面进行了重大升级,其技术源自 Gemini 3 的研究成果。该系列为开发者提供了从边缘模型的 128K 到大型模型的 256K 不等的上下文窗口,使其能够处理长篇文档和代码仓库。 此次发布通过提供在复杂推理和代理工作流方面可与专有系统相媲美的模型,显著推动了开源人工智能的发展。通过集成原生工具调用和多模态理解能力,Gemma 4 使开发者能够在不依赖封闭 API 的情况下构建更自主的应用程序。26B A4B 变体在苹果 M1 Max 等消费级硬件上的出色表现,使得高端人工智能能力的本地部署更加普及。此外,早期基准测试表明 Gemma 4 与阿里巴巴通义千问(Qwen)系列等其他领先的开放模型相比具有竞争力,从而促进了生态系统中的更大竞争与创新。 该模型家族包括稠密模型(E2B、E4B、31B)和混合专家模型(26B A4B),提供 16 位精度或量化格式以实现高效推理。建议用户使用特定的采样参数以获得最佳性能,例如温度设为 1.0,top_p 设为 0.95,top_k 设为 64,并使用如 "<turn|>" 等特殊令牌进行序列结束检测。虽然 26B A4B 模型在本地机器上表现出卓越的速度和质量,但部分用户报告称 31B 版本在 LM Studio 等某些本地推理环境中存在不稳定性。
googlegemmaopen-sourcellmmachine-learning
背景知识
Gemma 是谷歌面向开发者和研究人员推出的轻量级最先进开放模型家族,其技术源自 Gemini 模型。工具调用(Tool calling)是一种关键机制,允许大型语言模型(LLM)与外部系统、API 或函数进行交互,有效地弥合了文本生成与现实世界行动之间的差距。多模态能力使这些模型能够同时处理和推理不同类型的数据,例如文本和图像。从之前的 Gemma 版本演进到 Gemma 4,标志着人工智能向更具代理性(agentic)的方向转变,使其能够利用外部工具进行规划、推理和执行任务。
社区讨论
社区反馈强调了 26B A4B 变体在本地硬件上的令人印象深刻的表现,用户报告其在代码代理任务中的令牌生成速度优于通义千问(Qwen)等竞争对手。爱好者们已经通过 Hugging Face 发布了量化版本,并提供了针对最佳推理设置的具体配置指南。然而,关于 31B 模型的报告褒贬不一,一些用户在本地设置中遇到输出失败的问题,但同时指出通过托管 API 能获得更好的结果。
rss · Hugging Face Blog · 2026-04-02 00:00
Google DeepMind 与 Hugging Face 正式发布了 Gemma 4,这是一系列专为端侧推理优化的开源权重多模态模型。该模型家族在 Apache 2.0 许可下发布,使得高级推理和代理工作流能够直接在智能手机、服务器和 Raspberry Pi 等硬件上运行,无需云端连接。此次发布标志着从依赖云的大型语言模型向可在本地运行的前沿智能的重大转变。 此次发布意义重大,因为它通过允许前沿水平的多模态能力完全离线运行,实现了技术普及,确保了数据隐私并降低了终端用户的延迟。通过在边缘设备上实现复杂的代理任务,Gemma 4 使开发者能够构建即使在无互联网接入情况下也能可靠运行的自主应用程序,从而扩大了 AI 在工业和消费场景中的部署范围。与以前需要庞大服务器集群的前代产品相比,Gemma 4 将最先进的性能带入了资源受限的环境,可能会加速各行业对本地 AI 的采用。 Gemma 4 在 Apache 2.0 许可下完全开源,赋予开发者对边缘和本地硬件部署的完全控制权。该模型家族专为多步推理和代理工作流而构建,超越了简单的聊天机器人交互,支持直接在设备上进行自主决策过程。它支持多模态输入,允许 AI 在本地处理和理解文本、图像以及其他潜在感官数据的组合。
gemmamultimodalon-device-aillmhugging-face
背景知识
多模态 AI 指的是能够处理和关联不同类型数据(如文本、图像和音频)的人工智能系统,类似于人类使用多种感官的方式。传统上,运行此类复杂模型需要将数据发送到强大的云端服务器进行推理,这引发了关于延迟、带宽成本和数据隐私的担忧。端侧 AI 推理通过在用户硬件上直接执行计算来解决这些问题,但直到最近,只有较小、功能较弱的模型才能适配这些设备。模型效率的演进如今已达到一个临界点,即前沿级别的能力可以被充分压缩,从而在本地运行而不牺牲显著性能。
rss · r/LocalLLaMA · 2026-04-02 16:01
Google 正式发布了 Gemma 4 开源模型家族,包含四种尺寸(E2B、E4B、26B A4B 和 31B),并采用了稠密(Dense)和混合专家(MoE)两种架构。这些多模态模型支持文本、图像、视频和音频输入,拥有高达 256K 的上下文窗口及原生系统提示符功能。与此同时,Unsloth 已在 Hugging Face 上提供了 GGUF 量化版本,使得从手机到服务器的各类本地设备能够立即部署这些模型。 此次发布通过在大模型推出之初即提供优化的量化版本,显著降低了在本地运行最先进 AI 的门槛,使强大的推理和编码工具更加普及。混合专家(MoE)架构的引入使得模型在保持高性能的同时降低了推理成本,而扩展的上下文窗口则让用户能够在消费级硬件上进行复杂的文档分析和长内容生成。凭借对 140 多种语言和多模态数据的支持,Gemma 4 成为全球开发者构建智能体工作流和多模态应用的通用基础,无需依赖云端 API。 该模型家族采用混合注意力机制,结合了局部滑动窗口注意力与全局注意力,以优化长上下文的内存使用。较小尺寸的模型(E2B、E4B)具备 128K 上下文窗口和原生音频支持,而中等尺寸模型则支持高达 256K 的令牌。所有变体均包含可配置的思维模式以增强推理能力,并提供原生函数调用支持以驱动自主智能体。
gemmallmgoogleopen-weightslocal-llm
背景知识
GGUF 是一种统一的文件格式,旨在高效存储 AI 模型权重和元数据,常被用于通过 llama.cpp 等工具在本地硬件上运行大型语言模型。该格式中的量化技术通过降低模型精度(例如从 16 位降至 4 位)来减少内存需求并提高推理速度,同时不会显著牺牲性能。混合专家(MoE)是一种架构,它通过门控机制动态激活多个专用子模型,从而在与稠密模型相当的计算成本下实现更大的有效模型规模。Unsloth 是一个广受欢迎的优化库,以加速大语言模型的微调和推理而闻名,经常为社区提供开箱即用的量化模型。
rss · 量子位 · 2026-04-02 07:08
阿里巴巴正式发布了全新大语言模型 Qwen3.6-Plus,该模型在 SWE-bench Verified 基准测试中获得 78.8% 的分数,在 Terminal-Bench 2.0 中获得 61.6% 的分数。这一成绩使其编程和智能体能力与 Anthropic 的 Claude Opus 4.5 相当,标志着国产 AI 模型的重要突破。该模型采用了结合线性注意力机制与稀疏混合专家(MoE)路由的混合架构,以提升可扩展性和推理速度。 此次发布标志着国产大模型已进入全球 AI 性能第一梯队,直接在复杂软件工程任务中挑战 Claude 等西方模型的主导地位。通过媲美最先进的基准测试成绩,Qwen3.6-Plus 为开发者提供了一个强大的本土替代方案,用于自动化编码和长周期智能体任务。这一进步有望加速中国科技生态系统中 AI 驱动开发工作流的采用,并减少对外部 API 服务的依赖。此外,它也证明了混合架构在扩展模型性能方面的有效性,而无需付出过高的计算成本。 Qwen3.6-Plus 现已通过阿里云 Model Studio API 全面开放,并支持集成 OpenClaw、Claude Code 和 Cline 等流行编程助手。其架构专门结合了高效的线性注意力机制与稀疏混合专家路由,以有效处理现实世界的智能体场景。该模型的性能指标表明它超越了之前的版本,并在基于终端的基准测试中直接与 Anthropic 的最新产品竞争。
large language modelscode generationalibabaqwenai benchmarks
背景知识
像 Qwen 系列这样的大语言模型(LLM)正越来越多地通过 SWE-bench(测试解决真实 GitHub 问题的能力)和 Terminal-Bench(评估命令行交互技能)等专业基准进行评估。由阿里云开发的 Qwen 家族发展迅速,从早期版本演进至具备全球竞争力,常利用混合专家(MoE)设计来平衡参数量与推理效率。当前 AI 研究的趋势集中在“智能体”能力上,即模型能够自主规划和执行多步任务,而不仅仅是生成代码片段。达到与 Claude Opus 等模型相当的水平被视为一个主要障碍,因为这些系统代表了当前推理和编码可靠性的上限。
rss · r/LocalLLaMA · 2026-04-02 04:41
阿里巴巴 Qwen 团队宣布推出 Qwen3.6-Plus,这是一款仅通过托管 API 服务提供的大型语言模型,而非开源权重下载版本。官方博客和社交媒体公告强调了其先进能力,将其定位为与 Claude Opus 4.5 和 Gemini Pro 3.0 等顶级模型直接竞争的产物。与 Qwen 家族之前的版本不同,该特定版本未公开参数量,也不提供本地部署选项。 此次发布标志着 Qwen 团队的战略转变,从通过开源发布建立声誉转向在商业托管模型市场直接与 Anthropic 和 Google 等巨头竞争。将 Qwen3.6-Plus 保持闭源的决定在 AI 社区引发了重大争论,挑战了 Qwen 作为纯开源权重提供商的形象。如果该模型真如宣称那样具有卓越性能,这可能验证一种混合商业模式,即较小的开源模型作为强大专有服务的营销工具。相反,此举可能会疏远推动该品牌最初流行的本地 LLM 爱好者群体。 一个关键的技术细节是,Qwen3.6-Plus 是仅限托管的解决方案,意味着用户必须通过阿里云 Model Studio 或 OpenRouter 等 API 访问,而无法下载权重进行本地推理。该模型的基准测试声称优于 Claude Opus 4.5 和 Gemini Pro 3.0,尽管一些批评者指出这些比较忽略了像 Opus 4.6 这样的最新版本。目前访问需要在云平台上注册账户并设置计费,尽管像 OpenRouter 这样的第三方聚合器暂时提供免费层级供测试使用。
llmqwenmodel-releaseai-researchgenerative-ai
背景知识
由阿里云开发的 Qwen 系列此前因发布高性能开源权重模型而广受赞誉,使研究人员和开发者能够在本地运行强大的 AI。在更广泛的 AI 领域,公司通常采用“免费增值”策略,发布较小或较旧的模型作为开源以建立社区信任,同时将其最强大的技术保留给付费的托管 API。“开源权重”指的是神经网络参数公开可用的模型,而“仅限托管”的模型则保持专有,只能通过提供商的服务器访问。
社区讨论
社区情绪复杂,许多用户对新的旗舰模型不是开源权重表示愤怒和失望,觉得被团队之前的开放性所误导。然而,一些辩护者认为,将新模型与稍旧的版本(如 Opus 4.5)进行比较对于熟悉这些基准的用户来说是合理的,并且关于业务转型的批评有些夸大。尽管存在访问障碍,技术用户已经开始通过可用 API 测试该模型,并分享对其推理能力的早期印象。
telegram · zaihuapd · 2026-04-02 01:48
智谱 AI 正式发布了其首款专为编程 Agent 设计的多模态基础模型 GLM-5V-Turbo,该模型具备原生视觉编码能力。新模型支持图像、视频和文本等多模态输入,能够完成“理解环境—规划动作—执行任务”的完整 Agent 闭环。它针对 Claude Code 和 OpenClaw 等 Agent 框架进行了深度优化,可处理 GUI 自主探索和代码调试等复杂工作流。 此次发布标志着 AI Agent 向原生感知和交互图形用户界面(GUI)的重大转变,超越了单纯的文本代码生成。通过让模型能够直接看见并解释屏幕元素,它在网页复现和自动调试等依赖视觉上下文的任务中显著提高了可靠性。这一进展通过提供面向下一代自主开发工作流的专用工具,使智谱 AI 在全球竞争中处于有利地位。最终,它降低了构建具有类人视觉推理能力、能操作软件应用的复杂 Agent 的门槛。 该模型扩展了多模态工具链,包含了画框、截图以及带图像识别功能的网页读取等具体能力。除了 GLM-5V-Turbo,智谱 AI 还同期升级了 GLM-4-Air/Flash 基座模型和 GLM-Z1 系列推理模型。该系统在设计上支持在其 AI 搜索工具中无缝切换多个搜索引擎,以提升信息检索的准确性。
large language modelsmultimodal aiai agentscode generationcomputer vision
背景知识
传统的多模态 AI 模型在处理高分辨率图像时往往面临挑战,因为它们常将视觉内容压缩为低分辨率令牌,导致丢失编程任务所需的细微细节。原生视觉编码是一种新兴的架构方法,允许模型以原始分辨率处理图像,从而保留小文本或界面图标等关键细节。通用语言模型(GLM)是由智谱 AI 与清华大学联合开发的一系列预训练对话模型,已从早期的聊天机器人演变为复杂的推理引擎。这些技术的整合旨在解决“分辨率困境”,即标准视觉语言模型无法准确解释复杂软件界面的问题。
telegram · zaihuapd · 2026-04-02 05:02
阿里巴巴正式发布了新一代大语言模型 Qwen3.6-Plus,该模型拥有原生的多模态理解与推理能力。在 SWE-bench 和 Claw-Eval 等权威评测中,其智能体编程表现大幅增强,已接近全球最强的 Claude 系列模型。该模型能够在前端开发和仓库级复杂任务中自主拆解目标、规划路径并反复测试修改,直至完成任务。 此次发布标志着“氛围编程”(vibe coding)向实用化迈出了关键一步,使开发者仅凭自然语言提示即可驱动复杂的软件开发。Qwen3.6-Plus 在自主智能体任务上媲美领先的西方模型,不仅增强了全球 AI 竞争格局,也为企业自动化提供了强有力的替代方案。其无需大量人工干预即可处理端到端真实世界任务的能力,有望大幅缩短开发周期并降低软件创作门槛。此外,它在多文件和仓库级编辑中的成功表现,预示着 AI 系统正从生成代码片段转向管理整个项目生命周期。 该模型在 SWE-bench(测试在隔离 Docker 容器中解决真实 GitHub 问题的能力)和 Claw-Eval(经人工验证的端到端真实世界智能体评测)等特定基准测试中表现卓越。Qwen3.6-Plus 专门针对前端网页开发和仓库级复杂任务进行了优化,展示了反复迭代代码直至任务完成的能力。这些特性使其成为“氛围编程”的理想工具,将开发重点从语法实现转移到意图描述上。
llmqwenai-agentscode-generationmultimodal
背景知识
SWE-bench 是一个严格的基准测试,包含数百个源自真实 GitHub 问题的任务,要求模型生成补丁以修复代码库中跨多个文件的错误。Claw-Eval 是由北京大学和香港大学研究人员开发的新型评估框架,旨在测试 AI 智能体在真实场景中执行多样化、经人工验证角色的能力,而不仅仅是回答知识性问题。“氛围编程”(或称 vibe coding)的概念由 Andrej Karpathy 等人推广,描述了一种新范式:开发者完全依赖大语言模型,通过高层自然语言描述生成可运行代码,无需手动审查或详细规格说明。
telegram · zaihuapd · 2026-04-02 11:31
4 月 2 日,微软发布了三款全新的自研基础模型:用于语音转文本的 MAI-Transcribe-1、用于文本转语音的 MAI-Voice-1 以及用于图像生成的 MAI-Image-2。这些模型现已通过 Microsoft Foundry 和新的 MAI Playground 上线,旨在服务于具有高商业价值的企业级应用。微软声称 MAI-Transcribe-1 在 FLEURS 基准测试覆盖的 25 种语言中平均词错误率仅为 3.8%,表现优于 OpenAI 的 Whisper-large-v3 模型。 此举标志着微软战略重心的转变,即从单纯依赖 OpenAI 等合作伙伴转向开发自主的核心 AI 基础设施,从而在生成式 AI 领域直接挑战竞争对手。通过宣称其性能优于 Whisper 等行业标准,微软旨在吸引那些对转录和语音服务有高准确率及定制化需求的企业客户。将这些模型集成到 Bing 和 PowerPoint 等现有产品中,表明微软正采取快速部署策略以立即提升用户生产力。此外,仅需数秒音频即可定制声音的功能,可能会彻底改变企业生态系统中的内容创作和无障碍工具。 据报道,MAI-Transcribe-1 覆盖 25 种主要语言,词错误率为 3.8%,而 MAI-Voice-1 能在 1 秒内生成 60 秒语音,并支持利用简短样本进行声音克隆。MAI-Image-2 的生成速度较前代提升至少两倍,且已开始向 Bing 和 PowerPoint 推送。这些模型可通过 Microsoft Foundry 平台访问,该平台为构建 AI 代理的组织提供了安全性和治理功能。
microsoftai-modelsgenerative-aispeech-to-texttech-industry
背景知识
用于评估转录模型的 FLEURS 基准是一个涵盖 102 种语言的少样本学习评估数据集,源自 FLoRes 机器翻译基准。Microsoft Foundry(前身为 Azure AI Studio)是一个可互操作的 AI 平台,旨在帮助开发者在统一的安全和治理框架下构建及部署 AI 代理。历史上,微软的高级 AI 能力高度依赖 OpenAI,因此此次发布完全自研的
telegram · zaihuapd · 2026-04-02 16:12
Google 正式发布了 Gemma 4 开放权重模型家族,包含 E2B、E4B、26B MoE 和 31B Dense 四种不同规格。这些模型旨在覆盖从 Android 手机、笔记本电脑到高端工作站的各类设备,并均采用宽松的 Apache 2.0 许可证。新系列为较小的端侧模型引入了原生音频支持,具备高级推理能力,且较大版本的上下文窗口最高可达 256K token。 此次发布显著降低了在消费级硬件上直接部署复杂 AI 代理和多模态应用的门槛,减少了对云端 API 的依赖。通过切换至 Apache 2.0 许可证,Google 消除了此前的法律模糊性,促进了更广泛的商业应用及其在专有软件栈中的集成。中端模型采用的混合专家(MoE)架构提供了更优的速度与精度权衡,使开发者能够以可控的计算成本获得接近最先进水平的性能。此外,端侧设备的原生音频支持为离线语音助手和实时转录工具开辟了新的可能性,同时更好地保护了用户隐私。 E2B 和 E4B 模型专为离线端侧运行优化,拥有 128K 上下文窗口及独特的原生音频输入能力,而较大模型则支持高达 256K 的上下文。在性能方面,31B Dense 模型目前在 Arena AI 文本榜单的开放模型中排名第 3,26B MoE 模型排名第 6。该系列支持包括函数调用、结构化 JSON 输出和代码生成在内的复杂 Agent 工作流,并具备图像和视频处理能力。
gemmaopen-source-llmgoogleedge-aimultimodal
背景知识
混合专家(MoE)是一种架构,其中对于任何给定的 token,只有模型参数的一小部分被激活,这使得模型在保持巨大总参数量的同时,相比稠密(Dense)模型具有更低的推理成本。此前,Google 的 Gemma 模型所使用的许可证曾引起开发者对其商业用途和衍生作品的担忧,但转向 Apache 2.0 使其与 Llama 等行业标准保持一致,提供了更清晰的法律保障。Arena AI 排行榜是一个广受认可的基准测试平台,模型根据在各种任务中的盲测配对比较中的人类偏好进行排名。这一演变反映了行业整体趋势,即在平衡性能和资源效率的同时,让强大的 AI 模型能够在本地运行。