00:00 / 5:02
返回首页
2026年4月10日 星期五 AI Tech 简报
开场介绍
⋮⋮
00:00
你好,这里是隅音社每日技术简报。
⋮⋮
00:03
今天是2026年4月10日。
⋮⋮
00:05
今天AI 领域迎来了一波重磅动态。
⋮⋮
00:08
我们先从最引人注目的说起。
Meta Muse Spark
⋮⋮
00:10
Meta 超级智能实验室首个大模型:Muse Spark】
⋮⋮
00:14
Meta 刚刚交出了一份重磅答卷。
⋮⋮
00:16
由年仅29 岁的华人CEO Alexandr Wang 领导的超级智能实验室,发布了他们的第一个模型——Muse Spark。
⋮⋮
00:24
这个模型的背景值得关注。
⋮⋮
00:26
去年Llama 4 发布后评价褒贬不一,甚至被曝刷榜,促使扎克伯格对AI 业务进行了彻底重组。
⋮⋮
00:33
Alexandr Wang 在社交媒体上表示,过去九个月,团队从零重构了整套AI 技术栈,包括全新的基础设施、模型架构和数据管线。
⋮⋮
00:44
Muse Spark 具备三大核心能力:工具调用、视觉思维链和多智能体协同。
⋮⋮
00:50
在性能上,它的预训练效率比Llama 4 Maverick 提升了超过一个数量级。
⋮⋮
00:55
Meta 还推出了Contemplating 深度思考模式,可以调度多个Agent 并行推理。
⋮⋮
01:00
在Humanity's Last Exam 测试中达到58%,在FrontierScience Research 测试中达到38%。
⋮⋮
01:07
值得注意的是,Muse Spark 的定位不是通用聊天机器人,而是个人超级智能的基础。
⋮⋮
01:14
它能够看见并理解用户周围的世界,成为个体能力的数字延伸。
⋮⋮
01:19
健康领域是重点应用方向,Meta 已与超过1000 名医生合作构建训练数据。
TDM-R1 图像生成
⋮⋮
01:24
TDM-R1:4 步生图超越GPT-4o】
⋮⋮
01:28
香港科技大学团队联合小红书提出了TDM-R1 框架,这是少步扩散模型领域的重大突破。
⋮⋮
01:35
传统少步扩散模型面临一个核心痛点:推理速度够快,但“不听话”。
⋮⋮
01:40
复杂指令遵循能力弱、文字渲染不稳定、组合式生成拉胯,这些问题长期困扰业界。
⋮⋮
01:47
根本原因在于,人类的真实反馈大多是不可微的,无法直接用于模型优化。
⋮⋮
01:54
TDM-R1 的创新在于将学习过程拆分为两步:首先训练一个“代理奖励模型”,把不可量化的反馈转化为可学习的信号;然后在4 步采样的约束下,训练少步生成器最大化这些信号。
⋮⋮
02:08
结果相当惊艳:GenEval 评分从61% 飙升至92%,不仅碾压80 步基础模型的63%,更超越了GPT-4o 的84%。
⋮⋮
02:19
文字渲染准确率也从55% 提升到95%。
⋮⋮
02:24
更关键的是,图像质量不仅没下降,反而整体提升。
⋮⋮
02:29
这意味着少步扩散模型终于能像语言模型一样进行强化学习后训练,开启了超快速AI 生图的新方向。
CREAO Agent 平台
⋮⋮
02:37
普通人的Agent 时代:CREAO 冲上全球热搜】
⋮⋮
02:40
硅谷初创公司Creao AI 的产品CREAO 最近冲上了X 全球热搜,原因很有意思——它让普通人也能驾驭AI Agent。
⋮⋮
02:48
当前AI 工具的困境是:OpenClaw、Claude Code 很强大,但需要编程能力;ChatGPT 易用,但对话结束任务就终止;Zapier 够稳定,但配置复杂。
⋮⋮
02:59
没有一个产品能同时做到“理解你”和“持续帮你做事”。
⋮⋮
03:03
CREAO 的做法是:用自然语言描述一次需求后,AI 现场编写代码并固化为可持续运行的系统。
⋮⋮
03:10
对话结束了,但你构建的一切仍在运行。
⋮⋮
03:14
比如你说
⋮⋮
03:15
“每周一早上9 点扫描竞品价格变动,记录到Google Sheets,波动超10% 就Slack 通知我。”
⋮⋮
03:22
系统会自动完成代码编写、工具连接、任务执行,并保存为可复用的Agent。
⋮⋮
03:28
这背后是Agent Harness 理念的消费级实现——把AI Agent 从“不守规矩的马”驯化为稳定可控的生产工具,而且不需要用户懂技术。
Gen-Searcher
⋮⋮
03:38
Gen-Searcher:文生图进入Agent 时代】
⋮⋮
03:40
香港中文大学联合伯克利开源了Gen-Searcher,首个为图像生成训练的深度搜索智能体。
⋮⋮
03:47
传统文生图模型的问题是只会“直接出图”,缺乏搜索、验证和整合外部信息的能力。
⋮⋮
03:54
一旦涉及真实世界知识或最新信息,很容易
⋮⋮
03:58
“画得像,却画不对。”
⋮⋮
04:00
Gen-Searcher 配备了文本搜索、图像搜索和网页浏览三类工具,训练上先通过监督学习学会工具使用,再通过强化学习优化搜索策略。
快讯
⋮⋮
04:10
在KnowGen 基准上,原始模型得分14.98,接入Gen-Searcher 后提升到31.52。
⋮⋮
04:17
数据、模型和代码均已开源。
⋮⋮
04:20
快讯】
⋮⋮
04:20
Sam Altman 宣布,由于Codex 太受欢迎,OpenAI 将推出100 美元的ChatGPT Pro 订阅层级。
⋮⋮
04:27
Karpathy 深度分析了AI 能力认知差距:免费版用户和Codex、Claude Code 专业用户之间存在巨大鸿沟,后者见证了agentic models 惊人的进步。
⋮⋮
04:37
他认为OpenClaw 现象之所以引发关注,是因为这是第一次让大量非技术人群体验到最新的agentic models。
⋮⋮
04:45
Claude Code 推出了Monitor Tool 功能,可以让Claude 创建后台脚本监控开发服务器错误日志,是很强大的token 节省和自动化工具。
⋮⋮
04:54
Gemini App 现可生成交互式模拟和3D 模型,功能已面向全球用户推出。
结尾
⋮⋮
04:59
以上是今日的技术简报,感谢收听。