首頁
影片
頻道
食衣住行
全部
29514
DIY
1896
衣著
525
妝扮
934
車
3783
房屋
1805
社會
5145
政論
97
美食
4978
烹飪
8491
新聞
219
環保
366
點心
1275
休閒娛樂
全部
83662
ASMR
152
小說
3198
戶外
1275
日常
4531
卡通
1181
民俗
1741
休閒
1134
收藏
761
明星
4460
玩具
1273
美女
941
音樂
7423
旅遊
1049
神秘
1732
配音
499
偶戲
726
動漫
6271
開箱
645
新奇
830
運動
2253
遊戲
10017
電視劇
10351
電影
5420
漫畫
782
綜藝
5691
劇場
1032
廣播
440
趣味
3965
寵物
1675
魔術
2214
教學知識
全部
45780
3C
1539
人物
428
人際
127
心靈
1939
文化
1251
文學
683
生物
161
地理
669
宇宙
391
兒童
1133
兩性
1344
命理
1159
宗教
3730
法律
473
知識
2297
科學
1763
軍武
1255
財經
5853
健康
4089
動物
1906
教育
2409
軟體
1077
植物
302
園藝
2557
演講
315
綜合
1709
歷史
1983
職場
442
雜談
986
藝術
1234
攝影
576
我要推薦
回上一頁
DeepSeek V4发布前,梁文锋连发3篇论文,我读完发现一个规律
1.45萬
2026-01-14
328
AI进化论花生
DeepSeek V4传闘愈演愈烈,2月中旬春节前后发布几成定局。但在V4到来之前,DeepSeek连发三篇梁文锋署名论文,透露了下一代模型的技术方向。 本期视频带你读懂这三篇论文的核心思想: Engram:给模型装上"记忆",75%思考+25%记忆是最优解。博尔赫斯1942年就写过:完美的记忆会杀死思考。 mHC:残差连接用了10年,DeepSeek证明它不是最优解。稳定性提升3个数量级,只增加6.7%训练时间。 R1论文更新:从22页扩展到86页,29.4万美元训练成本首次公开,连失败案例都写进去了。 DeepSeek的风格:先发论文,再发模型。看完这三篇,V4发布时你就能看懂它到底强在哪。
DeepSeek V4传闘愈演愈烈,2月中旬春节前后发布几成定局。但在V4到来之前,DeepSeek连发三篇梁文锋署名论文,透露了下一代模型的技术方向。 本期视频带你读懂这三篇论文的核心思想: Engram:给模型装上"记忆",75%思考+25%记忆是最优解。博尔赫斯1942年就写过:完美的记忆会杀死思考。 mHC:残差连接用了10年,DeepSeek证明它不是最优解。稳定性提升3个数量级,只增加6.7%训练时间。 R1论文更新:从22页扩展到86页,29.4万美元训练成本首次公开,连失败案例都写进去了。 DeepSeek的风格:先发论文,再发模型。看完这三篇,V4发布时你就能看懂它到底强在哪。
10:45
2026年比特幣挖礦這件事還能幹嘛?
33:37
【GPT-5隐藏功能全解析】10个你不知道的ChatGPT实用技巧|学会这些高效用法,工作效率瞬间提升10倍!
09:19
免费文生图开源模型10秒生图,速度超快,10系列显卡可运行!画质细节强到像作弊一样,商业模型都被它追上了!(附一键安装包)
15:19
Sora2 18個瘋狂案例,幫你快速起號獲取流量,內含註冊教程+邀請碼獲取方式
02:36
火爆全网照片秒变3D手办!Nano Banana保姆级教程,轻松复刻逼真模型 (附提示词) | 科技猎奇
༺ 資料蒐集來源:
YouTube
༻
本站不需註冊加入會員,保障個人隱私,完全不用Cookei