首頁
影片
頻道
食衣住行
全部
23013
DIY
1508
衣著
401
妝扮
715
車
2927
房屋
1375
社會
3954
政論
113
美食
3915
烹飪
6559
新聞
198
環保
323
點心
1025
休閒娛樂
全部
65649
ASMR
147
小說
2746
戶外
1033
日常
3527
卡通
910
民俗
1286
休閒
924
收藏
586
明星
3605
玩具
906
美女
744
音樂
5909
旅遊
929
神秘
1348
配音
402
偶戲
576
動漫
5224
開箱
494
新奇
701
運動
1748
遊戲
7529
電視劇
7927
電影
4139
漫畫
647
綜藝
4317
劇場
802
廣播
379
趣味
3227
寵物
1259
魔術
1678
教學知識
全部
36756
3C
1256
人物
369
人際
106
心靈
1576
文化
1016
文學
533
生物
134
地理
833
宇宙
280
兒童
810
兩性
1106
命理
935
宗教
2940
法律
359
知識
1746
科學
1350
軍武
902
財經
4666
健康
3229
動物
1441
教育
2056
軟體
912
植物
235
園藝
2245
演講
277
綜合
1334
歷史
1606
職場
369
雜談
805
藝術
897
攝影
433
我要推薦
回上一頁
DeepSeek V4发布前,梁文锋连发3篇论文,我读完发现一个规律
1.32萬
2026-01-14
311
AI进化论花生
DeepSeek V4传闘愈演愈烈,2月中旬春节前后发布几成定局。但在V4到来之前,DeepSeek连发三篇梁文锋署名论文,透露了下一代模型的技术方向。 本期视频带你读懂这三篇论文的核心思想: Engram:给模型装上"记忆",75%思考+25%记忆是最优解。博尔赫斯1942年就写过:完美的记忆会杀死思考。 mHC:残差连接用了10年,DeepSeek证明它不是最优解。稳定性提升3个数量级,只增加6.7%训练时间。 R1论文更新:从22页扩展到86页,29.4万美元训练成本首次公开,连失败案例都写进去了。 DeepSeek的风格:先发论文,再发模型。看完这三篇,V4发布时你就能看懂它到底强在哪。
DeepSeek V4传闘愈演愈烈,2月中旬春节前后发布几成定局。但在V4到来之前,DeepSeek连发三篇梁文锋署名论文,透露了下一代模型的技术方向。 本期视频带你读懂这三篇论文的核心思想: Engram:给模型装上"记忆",75%思考+25%记忆是最优解。博尔赫斯1942年就写过:完美的记忆会杀死思考。 mHC:残差连接用了10年,DeepSeek证明它不是最优解。稳定性提升3个数量级,只增加6.7%训练时间。 R1论文更新:从22页扩展到86页,29.4万美元训练成本首次公开,连失败案例都写进去了。 DeepSeek的风格:先发论文,再发模型。看完这三篇,V4发布时你就能看懂它到底强在哪。
06:24
TIKTOK养号的心得做不一样的事,看完就有新的认知,橱窗带货不要那么浪。
12:26
从原型到产品,用iFlow Cli两步完成app开发!免费!
07:48
2026小紅書起號賺錢最快的6個賽道,海外華人入局小紅書必看,RedNote XiaoHongShuTutorial
07:15
iOS 26直接安裝 iPA 教學!超簡單安裝下架App,三種方案一次搞定(免越獄永久使用)
07:13
【AI 創作】這款音樂AI軟體真的很純... feat. Musicful #laichu
༺ 資料蒐集來源:
YouTube
༻
本站不需註冊加入會員,保障個人隱私,完全不用Cookei