首頁
影片
頻道
食衣住行
全部
34970
DIY
2239
衣著
629
妝扮
1084
車
4503
房屋
2164
社會
6266
政論
80
美食
5851
烹飪
10083
新聞
194
環保
402
點心
1475
休閒娛樂
全部
98227
ASMR
153
小說
3294
戶外
1481
日常
5379
卡通
1429
民俗
2130
休閒
1357
收藏
920
明星
5117
玩具
1481
美女
921
音樂
8704
旅遊
1224
神秘
2054
配音
597
偶戲
810
動漫
7364
開箱
764
新奇
930
運動
2745
遊戲
12006
電視劇
12320
電影
6394
漫畫
953
綜藝
6817
劇場
1254
廣播
514
趣味
4645
寵物
1924
魔術
2546
教學知識
全部
54308
3C
1853
人物
467
人際
152
心靈
2270
文化
1450
文學
863
生物
190
地理
779
宇宙
410
兒童
1409
兩性
1492
命理
1433
宗教
4354
法律
553
知識
2876
科學
2092
軍武
1422
財經
7038
健康
4955
動物
2251
教育
2852
軟體
1246
植物
347
園藝
3183
演講
365
綜合
1927
歷史
2256
職場
493
雜談
1143
藝術
1510
攝影
677
我要推薦
回上一頁
DeepSeek V4是怎么训练出来的?73页PPT深入解析
2,474
2026-04-24
49
花叔
DeepSeek V4 来了,一次发了两个模型:对标 Claude Opus 4.6 和 GPT-5.4 的 V4-Pro,以及价格只有同类 1/7 到 1/18 的 V4-Flash。两款都支持 100 万上下文,把长上下文拉进普惠时代。花叔读完 58 页技术文档,做了 73 页 PPT,一步步拆解 V4 的四个核心创新:MHC 残差连接让 1.6T 模型训练不崩、粗筛细筛让百万 token 成本只要 2%、Muon 优化器替代 AdamW、后训练改用「专家训练+全科蒸馏」新范式。但 V4 不是最强的模型,擅长做题(Codeforces 第 23 名、Putnam 满分),品位和长链工具调用上还差 Opus 4.7 一口气。这是一个本分诚实的产品。 ⏱️ 时间戳 00:00 V4 发布+73页PPT预告 ...
說明
DeepSeek V4 来了,一次发了两个模型:对标 Claude Opus 4.6 和 GPT-5.4 的 V4-Pro,以及价格只有同类 1/7 到 1/18 的 V4-Flash。两款都支持 100 万上下文,把长上下文拉进普惠时代。花叔读完 58 页技术文档,做了 73 页 PPT,一步步拆解 V4 的四个核心创新:MHC 残差连接让 1.6T 模型训练不崩、粗筛细筛让百万 token 成本只要 2%、Muon 优化器替代 AdamW、后训练改用「专家训练+全科蒸馏」新范式。但 V4 不是最强的模型,擅长做题(Codeforces 第 23 名、Putnam 满分),品位和长链工具调用上还差 Opus 4.7 一口气。这是一个本分诚实的产品。 ⏱️ 时间戳 00:00 V4 发布+73页PPT预告 02:03 Pro对标顶级,Flash是价格屠夫 05:00 擅长做题,品位差一截 07:25 1.6T MoE架构拆解 12:00 MHC残差连接防梯度爆炸 14:50 粗筛细筛读百万上下文 19:00 Muon优化器反向思路 23:00 专家训练+蒸馏新范式
11:14
小頻道能1 天 50 美金的真相
00:15
我用影片快速轉3D動態#free #ai #動態捕捉 #mocapdance #mocap
08:41
普通人只用这一个AI工具ChatArt,就能做出爆款短视频!|0经验也能靠它开启自媒体副业之路#ChatArt #imyfone
36:11
DeepSeek V4是怎么训练出来的?73页PPT深入解析
08:44
幣圈新人最值得做的5件事情
༺ 資料蒐集來源:
YouTube
༻
本站不需註冊加入會員,保障個人隱私,完全不用Cookei