OpenAI on Friday launched a new artificial intelligence (AI) "reasoning" model o3-mini. The company said the newest in the ...
如今的观点认为,DeepSeek的模型如此高效,以至于算力不再是瓶颈,整个市场因此出现了严重的算力过剩。然而,这种说法过于夸大。“杰文斯悖论” ...
2. DeepSeek 有好口碑的原因在于是第一个把复现 MoE、o1 等发出来,胜在做的早,但能不能做到最好,空间还很大。后面新的挑战在于资源有限,只能把有限的资源放在最亮眼的地方。这个团队的 research 能力、团队文化还是很好的,如果再给 ...
71. DeepSeek 更多是 FP8,美国是 FP16,DeepSeek 所有都是基于有限算力工程能力的提升,对于算力高效的使用是最大亮点。上周五 DeepSeek 在北美有巨大的发酵,扎克伯格对 Meta ...
力大砖飞,简洁优雅。 我觉得最大的价值是证明了:基于一个很强的模型(deepseekv3-base),用最简单的rule-based reward来做rl,经过大量训练(8k steps * bs 512/1024),也能达到目前reasoning model的sota。
受美国 AI 芯片禁令影响,DeepSeek 团队不得不在性能较低的 H800 GPU(而非 H100)上进行多项优化创新,最终以低于 600 万美元的计算成本完成了模型训练(研发成本不计)。
不到两个月,国产推理模型就实现了对OpenAI o1满血版(2024年12月上线)的对标,而且与OpenAI藏着掖着的技术秘诀不同,两家中国公司双双公开了他们的特色技术道理: DeepSeek R1的极高性价比,kimi ...
DeepSeek 以始料未及的速度引发了全球AI社区的狂热:R-1 的讨论还没降温,今天凌晨, DeepSeek 又发布了开源多模态模型 Janus-Pro。2 天前,拾象组织了一场聚焦于 DeepSeek的「Best Ideas 闭门讨论会」,在长达 3 个小时的讨论中,我们和顶尖AI 研究员、AI 开发者和投资人一起围绕 ...
欢迎关注下方公众号阿宝1990,本公众号专注于自动驾驶和智能座舱,每天给你一篇汽车干货,我们始于车,但不止于车。走过2024,AI大模型带来哪些启发?过去一年,大模型技术的最大变量就是规模秘诀Scaling ...
今天,DeepSeek团队自豪地宣布DeepSeek-R1的正式发布,同时将模型权重开源。DeepSeek-R1遵循MIT许可证,为用户提供了蒸馏技术的便利,帮助他们利用R1进行其他模型的训练。全新上线的API,用户只需设置model='deepseek-reasoner',即可体验思维链输出的强大功能。