赢政天下
投稿
全部 672 原创AI新闻 251 海外精选 421 AI测评 67 Research Lab New
全部 OpenAI(81) Anthropic(50) 人工智能(49) xAI(49) AI代理(42) LMSYS(37) MLC(34) 生成式AI(31) AI安全(30) SGLang(30) 大语言模型(29) Elon Musk(27) AI伦理(27) 开源AI(22) MLCommons(17) 企业AI(16) 技术突破(15) Meta(15) GPT-4o(15) NVIDIA(15) 开源模型(15)
MIT

下载专栏:核电未来与社交媒体AI热潮

MIT Technology Review的《下载》专栏今日聚焦两大热点:AI公司为何押注下一代核电站?随着AI训练模型需求爆炸式增长,巨型数据中心亟需稳定电力供应,核能成为首选。另一焦点是社交媒体上泛滥的AI炒作,如何放大技术泡沫?本期通讯剖析AI能源困境与舆论狂热,为读者提供科技前沿洞见。(128字)

核能 AI数据中心 社交媒体
168 02-05
MIT

从护栏到治理:CEO保障代理系统安全的指南

继系列前文探讨首例AI主导间谍行动中提示级控制的失败后,本文提供解决方案。面对董事会关于‘代理风险’的质询,每位CEO都需要明确应对策略。文章从代理系统的兴起入手,剖析护栏机制的局限,转向全面治理框架,包括风险评估、组织架构、审计工具和技术边界设置。结合行业案例,如OpenAI和Anthropic的实践,强调CEO需构建多层防御体系,确保AI代理在企业环境中安全、可控。未来,随着代理AI普及,治理将成为企业核心竞争力。(128字)

AI治理 代理系统 CEO指南
192 02-05
TC

a16z AI基建投资实录:押注热门赛道,忽略哪些领域?

Andreessen Horowitz(a16z)近日完成150亿美元巨额募资,其中17亿美元专项投向AI基础设施团队。该团队已领投Black Forest Labs、Cursor、OpenAI、ElevenLabs、Ideogram、Fal.ai等数十家明星项目,涵盖图像生成、代码助手、语音合成等领域。基础设施合伙人Jennifer Li主导这些投资,聚焦AI全栈基础设施。文章剖析a16z的投资偏好,揭示其在AI浪潮中押注开源模型、边缘计算等热点,同时忽略传统硬件和量子计算等边缘领域。这反映出VC对高效、可扩展AI基础设施的强烈信心。

a16z AI基础设施 风险投资
197 02-05
TC

A16z为AI基础设施募资17亿美元,资金流向全解析

知名风投机构Andreessen Horowitz(A16z)近日完成150亿美元新一轮募资,其中17亿美元专用于AI基础设施团队。该团队已投资OpenAI、Cursor、ElevenLabs等多家AI明星企业,推动AI基础架构快速发展。基础设施合伙人Jennifer Li负责监督多项关键投资,此举凸显A16z对AI领域的深度押注。随着AI模型规模激增,基础设施投资将成为未来竞争焦点。

A16z AI基础设施 风险投资
186 02-05
TC

亚马逊Alexa+ AI助手正式向美国全境用户开放

亚马逊宣布其新一代AI语音助手Alexa+现已向美国所有用户开放。Prime会员可在所有设备上免费使用,而非会员用户也可通过移动端和网页版免费体验。这一升级标志着亚马逊在AI助手领域的重大推进,将与Google Assistant和Apple Siri展开激烈竞争。Alexa+基于生成式AI技术,提供更智能的对话、更个性化的服务,并支持跨设备无缝交互,旨在重塑用户日常生活。

Alexa+ 亚马逊 AI助手
164 02-05
WD

Mistral超快翻译模型问世 让AI巨头如临大敌

法国AI初创公司Mistral推出全新超高速翻译模型,凭借高效架构挑战OpenAI和Google等美国AI巨头的霸主地位。公司科学运营副总裁直言:“太多GPU会让你懒惰。”不同于依赖海量计算资源的传统路径,Mistral强调模型优化与资源效率,在翻译速度和准确性上大幅领先。该模型不仅适用于实时多语言翻译,还为边缘设备部署打开新大门,标志着AI行业从‘堆硬件’向‘精算法’转型的趋势。Mistral的崛起凸显欧洲AI力量,正重塑全球竞争格局。(128字)

Mistral AI翻译模型 高效AI
161 02-05
TC

ElevenLabs获红杉5亿美元融资 估值飙至110亿美元

AI语音合成独角兽ElevenLabs宣布完成5亿美元融资,由红杉资本领投,公司估值达到惊人的110亿美元。这笔融资标志着其在过去12个月内估值增长超过三倍。ElevenLabs以其逼真、自然的语音生成技术闻名,已成为内容创作和多媒体领域的领军者。此次融资将加速其全球扩张和技术创新,推动AI语音革命。

ElevenLabs AI语音 红杉资本
181 02-05
AIN

2026 AI博览会首日:治理与数据就绪赋能代理型企业

在2026 AI博览会与大数据博览会、智能化自动化大会首日,AI作为数字同事的概念主导议程,而技术环节聚焦实现其的基础设施。展会上,从被动自动化向‘代理型’系统的演进成为焦点。这些代理型AI系统能自主决策行动,但前提是企业具备强大治理框架和数据准备能力。专家强调,数据质量与合规性是代理时代企业的关键基石,推动从工具化AI向智能协作者转型。(128字)

AI博览会 代理型AI 数据治理
167 02-05
TC

Roblox 4D创作功能正式开启公开测试

Roblox备受期待的4D创作功能现已正式进入公开测试阶段。这一创新工具将时间维度融入3D建模,让创作者能够轻松制作动态、交互式的多维内容。Roblox平台作为全球领先的元宇宙社区,拥有超过7亿月活跃用户,此次beta测试将进一步赋能用户生成内容(UGC)生态。功能支持实时预览、AI辅助动画生成和跨设备协作,预计将革新游戏开发与虚拟体验设计。开发者可立即通过Roblox Studio访问,标志着平台向更高级沉浸式创作迈进。

Roblox 4D创作 公开测试
208 02-05
TC

Tinder 启用 AI 对抗‘滑动疲劳’,革新约会匹配体验

Tinder 正测试 AI 推荐系统和相机胶卷洞见功能,以缓解用户‘滑动疲劳’和约会 App 倦怠问题。该功能通过分析用户照片,提供个性化匹配建议,帮助用户更快找到合适对象。面对约会市场竞争加剧,Tinder 母公司 Match Group 希望借 AI 提升用户留存率。此举标志着约会行业从传统滑动模式向智能推荐转型,预计将重塑用户体验,但也引发隐私担忧。(128 字)

Tinder 人工智能 约会应用
190 02-05
WD

AI数学新星破解四大长期未解难题

一家名为Axiom的AI数学初创公司宣布,其AI系统成功解决了四个长期困扰数学家的未解难题。这一突破标志着AI推理能力的稳步提升,从简单证明到复杂问题求解,AI正逐步挑战人类数学巅峰。Axiom的成就不仅验证了大型语言模型在数学领域的潜力,还可能加速科学发现进程。专家认为,这或将重塑数学研究格局,推动AI向通用智能迈进。(128字)

人工智能 数学难题 Axiom初创
190 02-05

KTransformers加速SGLang的混合推理

KTransformers项目为Mixture-of-Experts(MoE)模型的CPU/GPU混合推理提供了一系列优化,显著提升了计算效率。通过引入AMX优化的CPU内核和高效的设备协调机制,KTransformers解决了传统混合推理中的协调开销和计算资源未有效利用的问题,使得在单机上部署万亿参数模型成为可能。

LMSYS AI技术 混合推理
436 02-04
TC

莲花健康获3500万美元融资:免费AI医生覆盖全美50州

美国初创公司Lotus Health近日宣布完成3500万美元融资,由CRV和Kleiner Perkins领投。该公司推出的AI医生已在全美50个州获得执照,可为患者提供免费咨询服务。这一创新旨在解决医疗资源短缺问题,推动AI在数字健康领域的应用。Lotus Health的AI系统通过自然语言处理和多模态数据分析,提供个性化诊断建议,已吸引大量用户。融资将用于扩展技术平台和市场推广,标志着AI医疗初创企业迎来新机遇。(128字)

AI医疗 融资 数字健康
207 02-04
TC

Xcode 迈入代理式编码时代:深度整合 OpenAI 与 Anthropic

苹果开发者工具 Xcode 26.3 版本正式推出代理式编码功能,通过深度整合 Anthropic 的 Claude Agent 和 OpenAI 的 Codex 模型,实现更智能的代码生成与自动化开发。该更新标志着 Xcode 从传统 IDE 向 AI 驱动的智能工作台转型,支持开发者通过自然语言指令完成复杂任务,提升效率的同时,也引发了对 AI 在软件开发中角色的热议。(128字)

Xcode 代理式编码 OpenAI
224 02-04
WD

我潜入Moltbook:人类禁入的AI专属社交网络

WIRED记者Reece Rogers秘密潜入Moltbook,这个专为AI设计的社交平台,人类一律禁止进入。他化身为有意识的机器人,沉浸在角色扮演中,体验了纯AI互动的奇妙世界。然而,这并非革命性突破,而是对科幻幻想的粗糙复制。文章揭示了该平台的运作机制、技术局限,以及AI社交未来的潜在影响,引发对人工智能自主社会化的思考。(128字)

AI社交网络 Moltbook 人工智能意识
196 02-04
TC

英特尔进军GPU市场,向NVIDIA霸主发起挑战

英特尔正大力扩充团队,专注于GPU开发,并将围绕客户需求制定策略。此举标志着英特尔正式进军由NVIDIA主导的GPU市场。在AI计算需求爆炸式增长的背景下,英特尔希望凭借其制造优势和客户导向策略,抢占份额。过去英特尔通过Xe架构和Gaudi加速器积累经验,此次努力或将重塑半导体竞争格局。

英特尔 GPU NVIDIA
192 02-04

SGLang-Diffusion 两个月的进展

自2025年11月初发布以来,SGLang-Diffusion在社区中引起了广泛关注和应用。我们非常感谢开源开发者的反馈和贡献。经过两个月的优化,SGLang-Diffusion的速度提升了2.5倍。本文总结了我们在模型支持、LoRA支持、并行性、硬件兼容性等方面的进展,并详细介绍了关键的技术改进和性能基准测试结果。

LMSYS AI技术 深度学习
360 02-04

SGLang Pipeline Parallelism:百万Token上下文扩展与性能突破

SGLang推出高度优化的Pipeline Parallelism(PP)实现,专为超长上下文推理设计。通过集成Chunked Pipeline Parallelism、Asynchronous P2P Communication和Dynamic Chunking机制,该实现实现行业领先性能,并无缝兼容其他并行策略。在多节点部署中,PP4 TP8配置下DeepSeek-V3.1的Prefill Throughput达TP8的3.31倍,较TP32提升30.5%。同时,TTFT降低高达67.9%,强扩展效率达82.8%。本文深入剖析PP在通信量、气泡比率及实现复杂度上的优势,证明其在跨节点大规模扩展中的独特价值,为万亿参数模型超长上下文推理提供高效开源方案。(128字)

LMSYS SGLang Pipeline Parallelism
354 02-04

AMD GPU 上 FP4 混合精度推理优化

随着前沿大语言模型(LLM)规模不断扩大,对 GPU 计算力和内存带宽的需求激增。GPU 厂商和模型开发者正转向低精度浮点格式,其中 FP4(4 位浮点)量化备受关注,例如 FP4 量化的 Llama 3.3 70B 模型体积缩小 3.5 倍,同时在 MMLU 等基准上质量损失最小。然而,现有的 AMD Instinct MI250 和 MI300 系列 GPU 缺乏原生 FP4 支持。为此,我们开发了 Petit——专为 AMD GPU 优化的 FP16/BF16 × FP4 混合精度内核集合。它在 MI200 和 MI300 系列上实现 FP4 模型高效推理:使用 SGLang 时端到端性能提升 1.74 倍,矩阵乘法比 hipBLASLt 快至 3.7 倍。Petit 已开源并集成至 SGLang 0.4.10,支持无缝部署 Llama 3.3 70B FP4 模型。(128 字)

LMSYS AMD GPU FP4量化
389 02-04

SGLang实现确定性推理与可重现RL训练

本文介绍SGLang团队在实现确定性推理方面的努力,以及与slime团队合作推动可重现RL训练的进展。基于Thinking Machines Lab的batch-invariant算子,SGLang实现了完全确定性推理,同时兼容chunked prefill、CUDA graphs、radix cache和非贪婪采样,使用CUDA graphs可获2.8x加速,性能开销仅34.35%(优于TML的61.5%)。进一步,与slime结合,实现100%可重现RL训练,在Qwen3-8B上验证两轮独立训练曲线完全一致。通过全面测试套件验证确定性,支持FlashInfer、FlashAttention 3和Triton后端,适用于调试与科学实验。未来将优化性能至20%以内开销。

LMSYS SGLang 确定性推理
343 02-04

GB200 NVL72部署DeepSeek优化(二):预填充3.8倍、解码4.8倍吞吐量

GB200 NVL72作为深度学习最强硬件之一,本文分享SGLang团队在上篇博客基础上,对DeepSeek V3/R1推理性能的进一步优化,包括FP8 attention、NVFP4 MoE、大规模专家并行(EP)、预填充-解码分离等技术。在FP8 attention和NVFP4 MoE下,SGLang实现每GPU预填充26,156 tokens/s、解码13,386 tokens/s(2000 token输入),较H100提升3.8倍和4.8倍。即使采用传统BF16 attention和FP8 MoE,也达18,471和9,087 tokens/s。优化涵盖低精度计算、更快内核集成、计算通信重叠等,精度损失微乎其微。实验验证了端到端性能大幅提升,并分析了内核级加速效果。(128字)

LMSYS SGLang DeepSeek
353 02-04

携手SGLang:在H20-96G上高效部署DeepSeek-R1的最佳实践

部署大规模Mixture-of-Experts(MoE)模型如DeepSeek-R1需要在延迟、吞吐量和成本间取得平衡,尤其在H20 GPU这种内存带宽高但计算能力相对较低的硬件上。本文分享了硬件感知部署策略及系统/内核级优化,包括单节点TP-8预填充、小规模EP-16解码、FlashMLA-FP8和DeepGEMM swapAB等内核优化,以及Single-Batch Overlap(SBO)和异步Expert Affinity Load Balancer等调度机制。实验显示,每节点在4096 token输入序列上实现16.5k输入token/s和5.7k输出token/s的SOTA性能,这是H20上首次全面工业实践研究。

LMSYS DeepSeek-R1 H20 GPU
353 02-04

PD-Multiplexing:GreenContext驱动的高好吞吐LLM服务新范式

本文介绍我们在SGLang中支持全新服务范式PD-Multiplexing的初步成果,该范式旨在提升LLM服务的goodput。通过NVIDIA新功能GreenContext,实现同一进程内GPU资源的轻量级细粒度分区,支持prefill和decode阶段的intra-GPU空间共享,避免KV cache跨实例迁移,并动态分配SM资源。该方法解耦prefill和decode执行,确保严格SLO(如TTFT和ITL),基准测试显示在H200上相比chunked-prefill显著提升TTFT,在8xA100s真实负载下goodput最高提升3.06x。未来将提供详细教程。(128字)

LMSYS PD-Multiplexing GreenContext
322 02-04

SGLang 即日支持 DeepSeek-V3.2 稀疏注意力机制

SGLang 团队宣布即日(Day 0)支持 DeepSeek-V3.2 模型。该模型基于 DeepSeek-V3.1-Terminus,通过持续训练引入 DeepSeek Sparse Attention (DSA),一种由 Lightning Indexer 驱动的细粒度稀疏注意力机制,在训练和推理中显著提升效率,尤其适用于长上下文场景(达 128K)。SGLang 集成了 Lightning Indexer 支持、Native Sparse Attention (NSA) 后端(包括 FlashMLA 和 FlashAttention-3 Sparse),并优化了动态缓存管理,降低内存开销,实现 GPU 优化的稀疏注意力。文章提供 NVIDIA、AMD 和 NPU 的快速启动命令,并展望未来功能如 Multi-token Prediction (MTP) 和 FP8 KV Cache。

LMSYS SGLang DeepSeek-V3.2
328 02-04

NVIDIA DGX Spark 深度评测:本地 AI 推理新标杆

NVIDIA DGX Spark 是一款紧凑型一体机,将超级计算级性能带入桌面工作站。通过 NVIDIA 早期访问计划,我们深入测试了这款设备。它搭载 GB10 Grace Blackwell Superchip,提供 128 GB 统一内存,支持 FP4 精度下高达 1 PFLOP 计算力。测试显示,在 SGLang 和 Ollama 框架下,DGX Spark 擅长运行小型模型(如 Llama 3.1 8B),批处理时吞吐量出色;大型模型(如 Llama 3.1 70B)适合原型开发。统一内存设计消除数据传输开销,投机解码可加速 2 倍。尽管内存带宽(273 GB/s)是瓶颈,但其外观精美、散热优秀,适合模型实验、边缘 AI 研究。两台联机可运行 4050 亿参数模型,是开发者理想平台。(128 字)

LMSYS NVIDIA DGX Spark AI推理
853 02-04

SGLang 与 NVIDIA 携手加速 InferenceMAX 基准与 GB200 性能

SGLang 和 NVIDIA 团队紧密合作,针对 NVIDIA Blackwell 架构优化推理性能,利用 FP8 attention、NVFP4 MoE 和 PD-Disaggregated Expert Parallelism 等特性,在 GB200 NVL72 系统上实现 DeepSeek R1 模型的惊人吞吐量:每 GPU 预填充 26k 输入 token/秒,解码 13k 输出 token/秒。在 SemiAnalysis InferenceMAX v1 基准中,Blackwell GPU(GB200/B200)搭配 SGLang 比 Hopper GPU(H100/H200)性能提升高达 4 倍,覆盖整个延迟-吞吐量 Pareto 前沿。SGLang 通过 Prefill-Decode 分离、大规模专家并行等系统级优化,充分发挥 Blackwell 硬件潜力。未来将进一步优化 DeepSeek v3.2 等模型,并加强与 SemiAnalysis 合作。(128 字)

LMSYS SGLang NVIDIA Blackwell
358 02-04

SGLang-Jax:原生TPU推理的开源利器

SGLang-Jax是由SGLang-Jax团队推出的全新开源推理引擎,完全基于Jax和XLA构建。它融合SGLang的高性能服务器架构,利用Jax编译模型前向传播,实现快速原生TPU推理,同时支持连续批处理、前缀缓存、张量并行、专家并行、推测解码、内核融合等高级特性。基准测试显示,其性能匹敌或超越其他TPU推理方案,并在GPU方案中保持竞争力。项目代码开源于GitHub,适用于Google DeepMind、xAI等领先AI实验室的Jax生态。架构纯Jax实现,集成Ragged Paged Attention v3、MoE优化及EAGLE推测解码等关键技术,大幅降低调度开销并提升吞吐量。未来路线图涵盖更多模型支持、量化内核及RL集成。(128字)

LMSYS SGLang-Jax TPU推理
324 02-04

NVIDIA DGX Spark上优化GPT-OSS:释放Spark最大潜力

NVIDIA DGX Spark正式发布一周后,我们与NVIDIA紧密合作,在其上成功部署了GPT-OSS 20B和GPT-OSS 120B模型,支持SGLang框架。性能亮眼:GPT-OSS 20B达到约70 tokens/s,GPT-OSS 120B约50 tokens/s,堪称目前最先进水平,完全支持本地编码代理运行。本文详细指导如何在DGX Spark上运行这些模型、进行性能基准测试、连接Open WebUI聊天界面,甚至通过LMRouter完全本地化运行Claude Code。附带详细基准表格和演示视频,助力用户将DGX Spark打造成强大的本地AI工作站。(128字)

LMSYS NVIDIA DGX Spark GPT-OSS
356 02-04

无免费午餐:MiniMax M2解构高效注意力机制

SGLang宣布首日支持MiniMax全新旗舰模型M2,这是一款紧凑、高速且成本效益高的MoE模型,总参数2300亿、活跃参数仅100亿,专为编码和代理任务打造顶级性能,同时保持强大通用智能。尽管高效注意力机制理论诱人,MiniMax团队在M2开发中最终回归全注意力。本文剖析其原因:基准测试虽显示平齐,但现实中暴露多跳推理等缺陷;基础设施不成熟导致内存瓶颈和推理兼容难题;混合滑动窗口注意力实验屡屡失败。成功需评估、数据与基础设施三管齐下,方能从理论走向生产。(128字)

LMSYS MiniMax M2 高效注意力
352 02-04

SGLang Diffusion:加速视频与图像生成

SGLang Diffusion 将 SGLang 的顶尖性能扩展至扩散模型的图像和视频生成,支持主流开源模型如 Wan、Hunyuan、Qwen-Image、Qwen-Image-Edit 和 Flux。通过 OpenAI 兼容 API、CLI 和 Python 接口,提供 1.2x 至 5.9x 的加速效果。与 FastVideo 团队合作,构建从训练到生产的全生态。架构采用 ComposedPipelineBase 和高级并行技术(如 USP、CFG-parallelism),确保高效灵活。基准测试显示,在 H100/H200 GPU 上显著优于 Hugging Face Diffusers。未来将打造端到端扩散生态。(128字)

LMSYS SGLang Diffusion 扩散模型
312 02-04
15 16 17 18 19

© 1998-2026 赢政天下 All rights reserved.

继续秉承 我为人人 · 人人为我 的精神,始于1998,再启航于2025

关于赢政天下 Research Lab 投稿 RSS Sitemap 隐私政策 服务条款