Skip to content

AI 热点

每周 AI 领域核心事件 + 今日 Builder 动态,聚合自公开源,每天更新。

本周 AI 核心事件

来源: Horizon · AI 标签过滤 · 评分 ≥ 7

4月18日

查看当日全部 →
  • 8.0
    Anthropic 发布 Claude Design,一款通过提示词生成 UI 设计的 AI 工具

    Anthropic 发布了 Claude Design,这是一款 AI 驱动的工具,可将文本提示词转换为交互式 UI 原型,与其 Claude Opus 4.7 模型一同推出。该工具被定位为对现有设计平台(如 Canva)的补充,而非直接替代品。 这标志着 Anthropic 从 AI 研究实验室向全栈提供商的重要扩展,直接挑战了 Figma 等成熟设计工具

  • 8.0
    360 漏洞挖掘智能体发现两项全球高危漏洞,影响逾 10 亿用户

    360 集团自主研发的漏洞挖掘智能体近日发现两项潜伏多年的重大安全漏洞,分别为 Windows 内核提权漏洞和 Office 远程代码执行漏洞,目前已上报国家漏洞库并完成修复。这是我国首次公开披露智能体规模化发现基础软件核心漏洞的能力成果。 这一突破展示了 AI 在网络安全中日益重要的作用,推动行业从人工防御转向自动化机器对抗,有望提升全球软件漏洞的威胁检测

  • 7.0
    分析显示 Claude 4.7 分词器导致成本增加 20-45%

    对 Claude Opus 4.7 更新版分词器的技术分析显示,与 4.6 版本相比,其分词数量增加了 1.0-1.45 倍,导致某些工作负载的成本增加 20-45%。分词器的变更还会使之前版本的提示缓存失效,增加了冷启动成本。 这很重要,因为分词成本直接影响 AI 应用的经济性,20-45%的增长可能显著影响规模化使用大语言模型的企业。该分析揭示了在竞争激

  • 7.0
    Perplexity 发布 Personal Computer 软件,将 Mac 转化为 AI 助手

    Perplexity 发布了 Personal Computer 软件,面向 Perplexity Max 订阅者和候补名单用户开放,该软件将 Mac 转化为 AI 助手,能够自主管理 Gmail、Slack 和 Salesforce 等应用中的任务。该系统以目标为导向,将复杂目标分解为子任务,并协调 AI 工具完成工作。 这一发布代表了 AI 生产力工具的

  • 7.0
    DeepSeek 拟以 100 亿美元估值融资至少 3 亿美元

    中国人工智能初创公司 DeepSeek 计划以 100 亿美元估值开展新一轮融资,目标筹集至少 3 亿美元资金。该公司此前曾多次拒绝中国顶级风投及科技巨头的入股邀约,此次融资将支持其开发先进推理模型,应对日益增长的算力与研发资本需求。 此次融资表明投资者对 DeepSeek 在全球 AI 竞争中保持竞争力的信心,尽管面临美国芯片出口管制。100 亿美元的估值

4月17日

查看当日全部 →
  • 9.0
    DeepSeek 发布 DeepGEMM 重大更新:推出 Mega MoE 融合算子并支持 FP4 精度

    2026 年 4 月 16 日,DeepSeek 的 DeepGEMM 算子库推出了 Mega MoE 融合算子,该算子通过将 dispatch、SwiGLU 等多个计算步骤与 NVLink 通信重叠实现高效融合,同时还新增了 FP8xFP4 GEMM 算子、FP4 Indexer 以及程序化依赖启动支持,并显著提升了 JIT 编译速度。 此次更新通过优化计

  • 8.0
    Anthropic 发布 Claude Opus 4.7,具备自适应思考能力、分词器更新和网络安全防护。

    Anthropic 发布了 Claude Opus 4.7,这是一个重要的 AI 模型更新,引入了自适应思考能力以动态调整推理努力,更新了分词器以改进文本处理但使 token 数量增加 1.0–1.35 倍,并增强了网络安全防护,能自动检测和阻止高风险请求。 此次发布很重要,因为自适应思考能力可以通过减少简单任务的不必要计算来提高 AI 效率,而分词器更新可

  • 8.0
    OpenAI 发布 Codex 重大更新,支持自动操作电脑与长期任务自动化。

    OpenAI 宣布为其开发者工具 Codex 推出重大更新,使其能够通过视觉、点击和输入来操作电脑应用程序,并新增后台运行、长期记忆功能,以及集成 90 多个新插件以实现任务自动化。目前,这些功能已面向登录 ChatGPT 的桌面端用户开放,其中电脑操作功能首发支持 macOS 平台。 此次更新将 Codex 的能力从代码生成扩展到完整的计算机自动化,可能彻

  • 8.0
    Qwen3.6-35B-A3B:面向代理式编程的开源权重 AI 模型现已公开

    Qwen 团队开源了 Qwen3.6-35B-A3B,这是一款拥有 350 亿总参数、仅 30 亿激活参数的稀疏混合专家模型,专门针对代理式编程任务设计。该模型在 SWE-bench、Terminal-Bench 等编码基准测试中超越了前代版本,同时保留了多模态理解能力。 此次发布让需要为银行、医疗等受限行业构建定制 AI 代理的开发者能够获得先进的代理式编

  • 8.0
    谷歌发布采用 Swift 原生开发的 macOS 版 Gemini 应用并宣布与苹果达成多年合作

    谷歌于 2026 年 4 月 15 日正式推出 macOS 版 Gemini 应用,该应用采用 Swift 语言原生开发,支持通过 Option+Space 快捷键快速呼出。同时,谷歌与苹果宣布达成多年期合作,Gemini 将为今年晚些时候推出的 iOS 27 和 macOS 27 提供 AI 动力,更多合作细节将在 2026 年 6 月 8 日的 WWDC

4月16日

查看当日全部 →
  • 8.0
    OpenAI 推出 GPT-5.4-Cyber 网络安全专版,向认证防御者分级开放。

    OpenAI 扩展了其网络安全可信访问计划,推出了基于 GPT-5.4 微调的 GPT-5.4-Cyber 专版模型,并增设了多层级权限体系,目前仅向符合条件的最高层级认证防御者开放申请。 这一进展意义重大,因为它为网络安全工作流程提供了专门定制的先进 AI 工具,可能加速防御者的威胁检测和响应,并反映了 AI 融入安全实践以增强数字基础设施保护的更广泛趋势

  • 8.0
    金融监管机构与银行 CEO 紧急开会讨论 Anthropic 的 Mythos AI 模型网络安全风险。

    金融监管机构与花旗、高盛、美国银行等系统重要性银行的 CEO 召开紧急会议,讨论 Anthropic 最新 AI 模型 Mythos 的网络安全威胁,该模型据称能利用主流操作系统和浏览器的漏洞。Anthropic 表示,由于该模型能力过于强大,暂无向公众开放的计划,目前仅向亚马逊、苹果、摩根大通等少数机构开放。 此次会议突显了人们对高级 AI 模型(如 My

  • 8.0
    百度开源 8B 文生图模型 ERNIE-Image:文字渲染达 SOTA,支持消费级显卡运行

    百度开源了文生图模型 ERNIE-Image,该模型基于单流 Diffusion Transformer (DiT) 架构,参数规模为 80 亿,在 GenEval 和 LongText-Bench 等基准测试中实现了指令遵循与文字渲染能力的开源模型领先水平(SOTA),并支持仅需 24 GB 显存的消费级显卡运行。 这一开源发布通过在高性能消费级硬件上实现

  • 7.0
    谷歌发布 Gemini 3.1 Flash TTS,一款通过 API 提示控制的文本转语音模型。

    谷歌于 2026 年 4 月 15 日发布了 Gemini 3.1 Flash TTS,这是一款新的文本转语音模型,可通过 Gemini API 使用模型 ID ‘gemini-3.1-flash-tts-preview’ 访问,允许用户通过详细提示指定音频配置文件、口音和风格来指导语音生成。 此次发布具有重要意义,因为它将基于提示的控制引入文本转语音领域,

  • 7.0
    1-bit Bonsai 1.7B 模型通过 WebGPU 在浏览器本地运行

    一个演示展示了经过 1-bit 量化压缩至 290MB 的 1.7B 参数 Bonsai 模型,通过 WebGPU 技术在网页浏览器中本地运行。该演示托管在 Hugging Face Spaces 上,在保持浏览器端执行的同时实现了模型体积的大幅缩减。 这一成果展示了极端量化技术如何让大型语言模型能够在无需云端基础设施的情况下,在本地浏览器 AI 应用中运行

4月15日

查看当日全部 →
  • 8.0
    OpenAI 发布 GPT-5.4-Cyber 并扩展网络安全可信访问计划

    OpenAI 推出了 GPT-5.4-Cyber,这是其 GPT-5.4 模型的微调版本,专门针对防御性网络安全用例设计,同时正在扩展其网络安全可信访问计划,允许经过验证的用户以更少限制的方式访问这些模型。 这代表了 OpenAI 对网络安全专用 AI 领域日益激烈竞争的战略回应,特别是在 Anthropic 最近发布 Claude Mythos 之后,此举

  • 8.0
    HALO-Loss 让神经网络能够通过数学定义的“我不知道”类别来拒绝预测。

    研究人员开源了 HALO-Loss,这是一种新颖的损失函数,可替代交叉熵,通过在潜在空间中创建一个数学定义的“我不知道”类别,使神经网络能够拒绝预测。这种即插即用的替代方案使用欧几里得距离而非无约束的点积,将最大置信度限制在距离学习原型的有限范围内。 这解决了神经网络中的一个基本安全问题,即模型在面对垃圾数据或分布外数据时会自信地产生幻觉,有望提升医疗和自动

  • 8.0
    将超过 1000 亿参数的大模型蒸馏至 40 亿参数以下的技术

    近期进展使得能够将超过 1000 亿参数的大型语言模型蒸馏至 40 亿参数以下的小型模型,重点关注效率和可访问性。例如,TRL 现在支持使用 1000 亿以上参数的教师模型进行策略蒸馏,训练速度提升高达 40 倍。 这很重要,因为它通过降低计算和内存需求,使先进 AI 能力更易于获取,能够在消费级硬件和资源受限的环境中部署。这符合 AI 效率和民主化的增长趋

  • 7.0
    Anthropic 推出 Claude Code Routines,实现 LLM 工作流自动化

    Anthropic 推出了 Claude Code Routines 功能,目前处于研究预览阶段,允许开发者使用大语言模型创建可重复的自动化工作流。这些例程可以按计划触发、通过 API 调用触发,或响应 GitHub 活动等事件触发。 这标志着大语言模型向生产工作流实用化迈出了重要一步,从一次性交互转向计划性和事件驱动的自动化。通过减少重复编码任务中的人工干

  • 7.0
    基于 KL 散度的 Qwen3.5-9B 量化方法更新对比

    一篇 Reddit 帖子发布了针对 Qwen3.5-9B 模型的社区 GGUF 量化方法的定量对比,使用 KL 散度(KLD)来评估量化版本相对于原始 BF16 基准的忠实度。该分析根据 KLD 分数对量化方法(如 eaddario/Qwen3.5-9B-Q8_0 和 unsloth/Qwen3.5-9B-UD-Q8_K_XL)进行排名,分数越低表示保真度越

4月14日

查看当日全部 →
  • 8.0
    Servo 0.1.0 网页引擎现已在 crates.io 上发布

    Servo 0.1.0 已发布到 crates.io,使得这款基于 Rust 的网页引擎可以嵌入到 Rust 应用程序中,并允许独立使用其组件如 Stylo 和 WebRender。此次发布紧随最近的候选版本,并包含文档和示例。 这一里程碑显著扩展了 Rust 生态系统,提供了一个现代化的、可嵌入的网页引擎,可以集成到 GUI 框架和工具中,可能催生新型应用

  • 8.0
    Apple Silicon 上的开源 DFlash 推测解码在 Qwen3.5-9B 上实现 4.1 倍加速

    一个开源的 DFlash 推测解码 MLX 实现已发布,在配备 64GB 内存的 Apple M5 Max 芯片上运行 Qwen3.5-9B 模型时实现了 4.1 倍的加速。该实现包括磁带回放回滚 Metal 内核和 JIT 两遍 SDPA 内核等优化,将接受率提高到约 89%。 这很重要,因为它显著提升了 Apple Silicon 上大型语言模型的推理速

  • 8.0
    欧盟拟将 ChatGPT 列为超大型在线搜索引擎,将面临最严数字监管。

    欧盟委员会预计在未来几天内正式宣布将 ChatGPT 归类为“超大型在线搜索引擎”(VLOSE),依据是数据显示其在欧洲的月活跃用户已超过 1.2 亿,远超该类别监管所需的 4500 万用户门槛。此举意味着 OpenAI 必须遵守欧盟《数字服务法》(DSA)中最严格的合规要求,包括提高推荐算法与广告系统的透明度,并采取有效措施防范非法内容及保护用户身心健康。

  • 7.0
    Cloudflare 推出统一 CLI 工具,采用 CLI 优先设计原则

    Cloudflare 宣布推出一款新的统一命令行界面工具,旨在跨其所有服务运行,强调 CLI 优先设计原则和显著的开发者体验改进。该工具旨在为从命令行管理各种 Cloudflare 产品提供一致的界面。 这款统一 CLI 代表了向 CLI 优先设计的战略转变,随着 AI 代理日益依赖命令行界面进行自动化和集成,这一点尤为重要。此举可能通过减少不同工具之间的上

  • 7.0
    用户利用 Gemma 4 的 256k 上下文窗口进行私人日记分析

    一位用户成功使用 Gemma 4 26B A4B 模型及其 256k 上下文窗口,分析了包含超过 10 万个 token 的个人日记,通过引导式提示提取了关于重复主题和个人成长的有意义见解。这展示了本地大语言模型在私人内省分析方面的实际应用,而这种应用在基于云的服务中难以实现。 这个案例突显了具有扩展上下文窗口的本地 LLM 如何在保持完全隐私的同时实现深度

4月13日

查看当日全部 →
  • 7.0
    对现代深度学习研究过于经验主义和追逐潮流的批评

    社交媒体上出现了一篇批评文章,认为新一代深度学习研究者过于关注经验方法和热门话题,随波逐流而非追求理论理解。这引发了社区关于该领域理论与实践平衡的讨论。 这很重要,因为它突显了研究文化中的潜在问题,如引用驱动的激励机制和理论基础的缺乏,这可能抑制创新并导致人工智能领域的表面进步。它反映了机器学习在产业和社会中影响力日益增强时,关于其方向的更广泛辩论。 该批评

  • 7.0
    llama-server 集成 Gemma-4 模型,新增音频处理功能

    llama.cpp 项目的 llama-server 组件现已支持使用 Gemma-4 E2A 和 E4A 模型进行语音转文本处理,实现了无需依赖 Whisper 等外部管道的原生音频转录功能。 这一集成简化了本地 AI 工作流,无需单独的语音转文本系统,使得构建端到端的音频应用更加便捷,同时保持了隐私性并降低了基础设施的复杂性。 当前实现对于较长音频文件(

  • 7.0
    推测解码为 Gemma 4 31B 带来 29%平均加速,代码任务提升 50%

    一位 Reddit 用户使用 Gemma 4 31B 作为主模型、Gemma 4 E2B(4.65B)作为草稿模型进行了推测解码基准测试,在 token 生成方面实现了平均 29%的加速,其中代码生成任务最高提升 50%。该实验在 RTX 5090 GPU 上使用集成了 TurboQuant KV 缓存的 llama.cpp 分支完成。 这表明推测解码能够在

  • 7.0
    GLM 5.1 在社交推理基准测试中与前沿模型竞争,成本更低且工具错误率为零

    GLM 5.1 在基于社交推理游戏《血染钟楼》的新基准测试中表现出色,与 Claude Opus 4.6 等前沿模型竞争,每局游戏成本仅为 0.92 美元,而 Claude Opus 为 3.69 美元,且工具错误率为 0%。 这突显了 GLM 5.1 以显著降低的成本提供高质量社交推理能力的潜力,可能使高级 AI 在游戏、模拟和人机交互应用中更易获取,挑战

  • 7.0
    Minimax M2.7 发布,采用非商业许可证

    Minimax M2.7 于 2026 年 3 月 18 日发布,这是一个拥有 2300 亿参数的文本到文本 AI 模型,采用非商业许可证,限制了商业用途。该模型专为编码、推理和办公任务设计,利用智能体团队和动态工具搜索来处理复杂的生产力应用。 此次发布具有重要意义,因为它向开源社区引入了一个高性能的大语言模型(LLM),但非商业许可证引发了关于其真正开放性

4月12日

查看当日全部 →
  • 8.0
    DFlash 推测解码的 MLX 原生实现在 Apple Silicon 上实现 3.3 倍加速

    一位开发者创建了首个针对 Apple Silicon 的 DFlash 推测解码 MLX 原生实现,在 Qwen3.5-9B 模型上实现了高达 3.3 倍的加速,同时保持比特级精度。该实现在 M5 Max 芯片上达到了 85 个令牌/秒的速度,而基线仅为 26 个令牌/秒。 这一突破显著提升了 Apple Silicon 设备上的大语言模型推理性能,使高质量

  • 7.0
    Cirrus Labs 将加入 OpenAI,Cirrus CI 将于 2026 年关闭

    Cirrus Labs 将通过一次以人才为重点的收购加入 OpenAI,导致其 Cirrus CI 服务于 2026 年 6 月 1 日关闭。根据公告,此举旨在为人类工程师和 AI 工程师推进工程工具的发展。 这次收购凸显了 OpenAI 通过获取人才而非产品来增强其工程能力的策略,可能加速以 AI 为重点的工具开发。它引发了关于行业整合以及对依赖 Cirr

今日 Builder 动态

来源: follow-builders · 每日策展
2026年4月18日 · 18 位 builder · 45 条推文

Opus 4.7 和 Codex 同日开火,agent harness 与 eval 正在成为新战场。

类别

Opus 4.7 登场:模型发布第一天的真实反应

Anthropic 把 xhigh 效力档、/ultrareview 和 auto mode 一起推出,开发者当天就开始重排自己的模型分工。

Anthropic 把「思考深度」做成了一个可调旋钮

Opus 4.7 带来新的 xhigh effort 档和 /ultrareview 命令,Claude Code 默认直接拉满——这不是一次常规升级,是在把 reasoning 的粒度交给开发者。

阅读 →

Anthropic 今天把 Opus 4.7 推上所有主要云平台,伴随三件事一起落地:API 新增介于 high 与 max 之间的 xhigh effort 档、Claude Code 里的 /ultrareview 会跑一次专门的代码评审会话、Max 用户还拿到 auto mode 来减少长任务打断。团队成员 Cat Wu 直接把 Claude Code 的默认 effort 设成 xhigh,并提醒用户把验证流程写进 claude.md 或做成 /verify-app skill,因为 4.7「更擅长自己验证结果」。研究员 Alex Albert 则点名自己最喜欢的几点:异步任务和 instruction following 明显更稳、高分辨率图片不再被降采样、UI 和 slide 的「taste」肉眼可见。对 AI PM 来说,可调 effort 意味着价格/延迟/质量这三角终于多了一个明确的拨杆。

开发者已经开始给每个模型派活了

Cursor 设计师 Ryo Lu 把 Opus 4.7 放在「规划」位、Composer 2 负责实装、Codex/GPT-5.4 处理硬 bug;Aditya Agarwal 则半开玩笑地问:是不是又要把代码全部重写一遍。

阅读 →

模型发布当天最有意思的不是 benchmark,而是资深开发者怎么分工。Cursor 设计师 Ryo Lu 公开了自己的模型分配表:Opus 4.7 做 planning、Composer 2 做 building 和 iteration、Codex 或 GPT-5.4 专攻硬 bug,全部在 Cursor 里跑。这是一个多模型混用已经成为默认姿态的信号——不再有单一「最好的模型」,只有最适合某一环节的模型。另一边,South Park Commons 的 Aditya Agarwal 发出许多工程师心照不宣的哀嚎:「Oh god, am I going to have to rewrite all my code with 4.7 now????」每次 frontier model 更新,旧 prompt、旧 harness 都会被重新评估一遍,这正是 Notion 团队在播客里说过的「每六个月就推倒重来」的真实体感。

类别

Codex 的反击:从写代码跨进「用电脑」

OpenAI 同日推出 Codex computer use、in-app browser 和一堆插件,Kevin Weil 直接把科研场景塞进来,Aaron Levie 则押注企业内容自动化。

Codex 现在会自己打开你 Mac 上的应用

Sam Altman 说 computer use「比我预期的还有用」,可以并行操作桌面应用,不打扰你手头的工作——这是 Codex 从「代码助手」向「桌面 agent」的转身。

阅读 →

Sam Altman 把今天的 Codex 更新称作一次「重大改进」:新的 computer use 能调用 Mac 上的任意应用并行执行任务,不会干扰你当前正在做的事;in-app browser、大量新 plugins、以及「能从经验中学习并主动建议」的能力一起上线。OpenAI VP Science Kevin Weil 引用一条演示说 codex computer use「shockingly good」。这个方向值得注意的是产品边界的外扩:Codex 不再只生成代码,而是开始在一台真实电脑上连续执行、跨应用协作。对 AI PM 来说,问题从「我的产品要不要接 Codex API」变成「我的产品在 agent 打开浏览器、操作 SaaS 的世界里,还能被访问到吗」。

OpenAI 的新前沿模型,这次是给生物学家的

Kevin Weil 发布 GPT-Rosalind:第一个面向生物、药物发现和转化医学的前沿模型,只开放给合规客户;同时上线面向所有 Codex 用户的 Life Sciences plugin。Box CEO Aaron Levie 则把 Codex 视为知识工作者的新 agent 基座。

阅读 →

OpenAI 科学 VP Kevin Weil 宣布推出 GPT-Rosalind——一个针对化学、蛋白质工程、基因组学训练的前沿模型,内置常用研究数据库和工具的知识。为了防止生物滥用,它走的是「可信访问」部署模式,只面向合规客户;但与之配套的 Codex Life Sciences plugin 今天对所有用户开放,可以配合主线模型使用。Box CEO Aaron Levie 则把这次 Codex 更新定位成「知识工作者的 agent 跳变」:结合 Box plugin,新 Codex 可以跨应用起草报告、搭建并购 data room、审合同、生成营销素材、处理发票。两个方向合在一起看,Codex 的野心不只是写代码,而是把 agent 装进严肃行业的日常流程里。

类别

Agent Harness 与 Eval:工程化正在成为主战场

当模型能力抬升变成日常,差异化往下沉到 harness、eval 和 durability——今天多位 builder 都在同一个方向上推。

「让 agent 当 agent 的判官」正在成为标准姿势

Peter Yang 现在构建 skill 时默认加一个独立的 eval agent 做 yes/no 打分,Swyx 则把 AI Engineer 大会按「slop cannons」对「harness engineering」分两天排——这是同一件事的不同侧面。

阅读 →

产品经理 Peter Yang 描述了他现在做 skill 的默认做法:让另一个 eval agent 对第一个 agent 的输出逐项做 yes/no 检查,只要不是全部通过就回头继续改。他正在给 YouTube 封面和标题做这样一套。Latent Space 的 Swyx 则给出了更宏观的一幅图景:AI Engineer 大会按「slop cannons」放第一天、「grown ups(harness engineering)」放第二天,他把这种分裂评价为「忠实呈现了当下 AI engineering 最重要的分野」。一边是快速量产、一边是认真做外层系统,两者不再互相鄙视,而是并列成为生态。Notion 团队在播客里讲的「把 eval 系统当作 agent harness」和这条趋势完全咬合。

Vercel 把「agent 不宕机」当成新 Next.js 来做

Guillermo Rauch 说 Workflow SDK 解决的是他找了十年的问题:既要 SQS/Kafka 级别的可靠性,又不想要那套东西的复杂度——这是对 agent 基础设施的一次正面回应。

阅读 →

Vercel CEO Guillermo Rauch 今天为自家 Workflow SDK 背书,直言「agents 和 backends 最难的是 durability」:你调的那个 LLM 一定会挂、外部服务一定会限流、数据库一定会突然变慢,oncall 一定会被叫起来。他说自己找这种「既有 SQS/Kafka 级可靠性、又不带那套复杂度」的独角兽找了十年,而 Workflow SDK 提供了本地开发、测试、模拟、部署全链路的解法,从 day 0 就支持自托管和多云。他把它对标成「Next.js 为前端做的事,Workflow SDK 为新一代后端做的事」。结合 Replit CEO Amjad Masad 今天强调的并行 agent、以及 Garry Tan 在 GBrain 上连发 ship 与安全修复,今天可以清楚看到 agent 工具链的底座战争已经正式开打。