首頁
影片
頻道
食衣住行
全部
29404
DIY
1889
衣著
523
妝扮
939
車
3774
房屋
1797
社會
5124
政論
95
美食
4959
烹飪
8444
新聞
224
環保
366
點心
1270
休閒娛樂
全部
83291
ASMR
151
小說
3194
戶外
1264
日常
4508
卡通
1179
民俗
1722
休閒
1127
收藏
756
明星
4437
玩具
1267
美女
934
音樂
7403
旅遊
1047
神秘
1723
配音
499
偶戲
723
動漫
6266
開箱
640
新奇
829
運動
2241
遊戲
9967
電視劇
10292
電影
5387
漫畫
772
綜藝
5681
劇場
1021
廣播
438
趣味
3956
寵物
1663
魔術
2204
教學知識
全部
45550
3C
1532
人物
426
人際
126
心靈
1932
文化
1245
文學
682
生物
161
地理
667
宇宙
390
兒童
1128
兩性
1340
命理
1155
宗教
3710
法律
464
知識
2278
科學
1752
軍武
1239
財經
5838
健康
4062
動物
1894
教育
2397
軟體
1076
植物
302
園藝
2547
演講
315
綜合
1695
歷史
1977
職場
440
雜談
982
藝術
1223
攝影
575
我要推薦
回上一頁
DeepSeek V4发布前,梁文锋连发3篇论文,我读完发现一个规律
1.45萬
2026-01-14
328
AI进化论花生
DeepSeek V4传闘愈演愈烈,2月中旬春节前后发布几成定局。但在V4到来之前,DeepSeek连发三篇梁文锋署名论文,透露了下一代模型的技术方向。 本期视频带你读懂这三篇论文的核心思想: Engram:给模型装上"记忆",75%思考+25%记忆是最优解。博尔赫斯1942年就写过:完美的记忆会杀死思考。 mHC:残差连接用了10年,DeepSeek证明它不是最优解。稳定性提升3个数量级,只增加6.7%训练时间。 R1论文更新:从22页扩展到86页,29.4万美元训练成本首次公开,连失败案例都写进去了。 DeepSeek的风格:先发论文,再发模型。看完这三篇,V4发布时你就能看懂它到底强在哪。
DeepSeek V4传闘愈演愈烈,2月中旬春节前后发布几成定局。但在V4到来之前,DeepSeek连发三篇梁文锋署名论文,透露了下一代模型的技术方向。 本期视频带你读懂这三篇论文的核心思想: Engram:给模型装上"记忆",75%思考+25%记忆是最优解。博尔赫斯1942年就写过:完美的记忆会杀死思考。 mHC:残差连接用了10年,DeepSeek证明它不是最优解。稳定性提升3个数量级,只增加6.7%训练时间。 R1论文更新:从22页扩展到86页,29.4万美元训练成本首次公开,连失败案例都写进去了。 DeepSeek的风格:先发论文,再发模型。看完这三篇,V4发布时你就能看懂它到底强在哪。
00:00
週六趕貼圖進度中
02:40
iPhone 備忘錄太強了!學透這 5 個隱藏功能,讓你少裝 5 個付費 APP!
25:53
2026最强AI生成音乐工具!一键写歌+改编爆红神曲,自动生成MV?Suno真要被取代了|ElevenLabs+Tunee AI 教程
05:43
Qwen3-Omni发布,全模态、全能的,开始迈向ASI啦!!!
08:09
馬斯克最新萬字訪談:為什麼 36 個月後,AI 必須離開地球?
༺ 資料蒐集來源:
YouTube
༻
本站不需註冊加入會員,保障個人隱私,完全不用Cookei