注:本文为 “官网最新版的telegram下载的地方是什么” 相关高阅文章合辑。
梁文锋:“中国的 AI 不可能永远跟随,需要有人站到技术的前沿。”
暗涌 Waves 2023 年 05 月 24 日 13:50 新加坡
文 | 于丽丽
编辑 | 刘旌
排版 / 杜梦
在蜂拥而至的大模型团战中,幻方大概是最异类的一个。
这是一场注定是少数人的游戏,很多创业公司在大厂入局后开始调整方向甚至萌生退意,而这家量化基金却孤绝前行。
2023 年 5 月,幻方把下场做大模型的独立新组织,命名为 “深度求索”,并强调将专注于做真正人类级别的人工智能。他们的目标,不只是复刻 ChatGPT,还要去研究和揭秘通用人工智能(AGI)的更多未知之谜。
不仅如此,在这个被认为格外依赖稀缺人才的赛道,幻方还试图去集结一批有执念的人,并祭出了他们认为的最大武器:一群人的好奇心。
在量化领域,幻方是一家抵达过千亿规模的 “顶级基金”,但它被这波 AI 新浪潮集中关注到,其实还颇具戏剧性。
当国内云厂商高性能 GPU 芯片缺货成为限制中国生成式 AI 诞生的最直接因素时,据《财经十一人》报道,国内拥有超过 1 万枚 GPU 的企业不超过 5 家。而除几家头部大厂外,还包括一家名为幻方的量化基金公司。通常认为,1 万枚英伟达 A100 芯片是做自训大模型的算力门槛。
其实,这家很少被置于人工智能视野打量的公司,早已是一家隐秘的 AI 巨头:2019 年,幻方量化成立 AI 公司,其自研的深度学习训练平台 “萤火一号” 总投资近 2 亿元,搭载了 1100 块 GPU;两年后,“萤火二号” 的投入增加到 10 亿元,搭载了约 1 万张英伟达 A100 显卡。
这意味着,单从算力看,幻方甚至比很多大厂都更早拿到了做 ChatGPT 的入场券。
只是大模型对算力、算法和数据都有强依赖,所以起步就需要 5000 万美金,训练一次需要上千万美金,非百亿美金公司其实很难持续跟进。各种艰难之下,幻方却很乐观,创始人梁文锋告诉我们:“关键是我们想做这件事,能做这件事,那我们就是最合适的人选之一。”
这种谜之乐观,首先来自幻方的独特成长路径。
量化投资是一个源自美国的舶来品,这使得几乎所有中国的头部量化基金创始班底,都或多或少有过美国或欧洲对冲基金的履历。唯独幻方是一个例外:它完全是本土班底起家,独自摸索着长大。
2021 年,成立仅六年的幻方,抵达千亿规模,并被称为 “量化四大天王” 之一。
以局外人杀入的成长路径,让幻方始终像一个搅局者。多位行业人士向我们表示,幻方 “无论研发体系、产品还是销售,都始终在用一种崭新的方式,切入到这个行业中来。”
一家头部量化基金创始人认为,这些年的幻方,始终 “没有按照某种约定成俗的道路在走”,而是 “按照他们想要的方式 ” ,即便是有点离经叛道或者争议,“也敢大大方方说出来 ,然后按照自己的想法去做”。
关于幻方的成长奥秘,幻方内部将之归结为 “选用了一批没有经验但有潜能的人,以及有一个可以让创新发生的组织架构和企业文化”,他们认为这也将是大模型创业公司可以与大厂竞争的秘密所在。
而更关键的秘密,或许来自幻方的创始人梁文锋。
还在浙江大学攻读人工智能时,梁文锋就无比笃信 “人工智能一定会改变世界”,而 2008 年,这还是一个不被认同的执念。
毕业后,他没有像周围人一样去大厂做个程序员,而是躲在成都的廉价出租屋里,不停接受进入诸多场景中尝试的挫败,最终切入了最复杂场景之一的金融,并成立了幻方。
一个有趣的细节是,在最早几年,曾有个同样疯癫的、在深圳城中村做着 “不靠谱” 飞行器的朋友拉他入伙。后来这个朋友做成了一个千亿美金的公司,名叫:大疆。
也因此,在做大模型必然涉及的钱、人、算力等话题外,我们还和幻方创始人梁文锋特别聊了聊,怎样的组织架构可以让创新发生,以及人的疯狂可以持续多久。
创业十余年,这是这位鲜少露面的 “技术宅” 型创始人第一次公开受访。
巧合的是,4 月 11 日,幻方在发布做大模型公告时,也引用了法国新浪潮导演特吕弗曾告诫青年导演的一句话:“务必要疯狂地怀抱雄心,且还要疯狂地真诚。”
以下为对话:
> “做最重要、最困难的事”
「暗涌」:前不久,幻方发公告决定下场做大模型,一家量化基金为什么要做这样一件事?
梁文锋:我们做大模型,其实跟量化和金融都没有直接关系。我们独建了一个名为深度求索的新公司来做这件事。
幻方的主要班底里,很多人是做人工智能的。当时我们尝试了很多场景,最终切入了足够复杂的金融,而通用人工智能可能是下一个最难的事之一,所以对我们来说,这是一个怎么做的问题,而不是为什么做的问题。
「暗涌」:你们要自训一个大模型,还是某个垂直行业 —— 比如金融相关的大模型?
梁文锋:我们要做的是通用人工智能,也就是 AGI。语言大模型可能是通往 AGI 的必经之路,并且初步具备了 AGI 的特征,所以我们会从这里开始,后边也会有视觉等。
「暗涌」:因为大厂的入局,很多创业型公司都放弃了只做通用型大模型的大方向。
梁文锋:我们不会过早设计基于模型的一些应用,会专注在大模型上。
「暗涌」:很多人认为,创业公司在大厂形成共识后下场,已经不是一个好的时间点。
梁文锋:现在看起来,无论大厂,还是创业公司,都很难在短时间内建立起碾压对手的技术优势。因为有 OpenAI 指路,又都基于公开论文和代码,最晚明年,大厂和创业公司都会把自己的大语言模型做出来。
大厂和创业公司都各有机会。现有垂类场景不掌握在初创公司手上,这个阶段对初创公司不太友好。但因为这种场景说到底也是分散的、碎片化的小需求,所以它又是更适合灵活的创业型组织的。从长期看,大模型应用门槛会越来越低,初创公司在未来 20 年任何时候下场,也都有机会。
我们的目标也很明确,就是不做垂类和应用,而是做研究,做探索。
「暗涌」:为什么你的定义是 “做研究、做探索”?
梁文锋:一种好奇心驱动。从远处说,我们想去验证一些猜想。比如我们理解人类智能本质可能就是语言,人的思维可能就是一个语言的过程。你以为你在思考,其实可能是你在脑子里编织语言。这意味着,在语言大模型上可能诞生出类人的人工智能(AGI)。
从近处说,GPT4 还有很多待解之谜。我们去复刻的同时,也会做研究揭秘。
「暗涌」:但研究意味着要付出更大的成本。
梁文锋:只做复刻的话,可以在公开论文或开源代码基础上,只需训练很少次数,甚至只需 finetune(微调)一下,成本很低。而做研究,要做各种实验和对比,需要更多算力,对人员要求也更高,所以成本更高。
「暗涌」:那研究经费哪里来?
梁文锋:幻方作为我们的出资人之一,有充足的研发预算,另外每年有几个亿的捐款预算,之前都是给公益机构,如果需要,也可以做些调整。
「暗涌」:但做基础层大模型,没有两三亿美元,连牌桌都上不了,我们如何支撑它的持续投入?
梁文锋:我们也在找不同出资方在谈。接触下来,感觉很多 VC 对做研究有顾虑,他们有退出需求,希望尽快做出产品商业化,而按照我们优先做研究的思路,很难从 VC 那里获得融资。但我们有算力和一个工程师团队,相当于有了一半筹码。
「暗涌」:我们对商业模式做了哪些推演和设想?
梁文锋:我们现在想的是,后边可以把我们的训练结果大部分公开共享,这样可以跟商业化有所结合。我们希望更多人,哪怕一个小 app 都可以低成本去用上大模型,而不是技术只掌握在一部分人和公司手中,形成垄断。
「暗涌」:一些大厂后期也会有一些服务提供,你们差异化的部分是什么?
梁文锋:大厂的模型,可能会和他们的平台或生态捆绑,而我们是完全自由的。
「暗涌」:无论如何,一个商业公司去做一种无限投入的研究性探索,都有些疯狂。
梁文锋:如果一定要找一个商业上的理由,它可能是找不到的,因为划不来。
从商业角度来讲,基础研究就是投入回报比很低的。OpenAI 早期投资人投钱时,想的一定不是我要拿回多少回报,而是真的想做这个事。
我们现在比较确定的是,既然我们想做这个事,又有这个能力,这个时间点上,我们就是最合适人选之一。
>“一件激动人心的事,或许不能单纯用钱衡量。”
「暗涌」:GPU 是这次 ChatGPT 创业潮的稀缺品,你们在 2021 年就可以有先见之明,储备了 1 万枚。为什么?
梁文锋:其实从最早的 1 张卡,到 2015 年的 100 张卡、2019 年的 1000 张卡,再到一万张,这个过程是逐步发生的。几百张卡之前,我们托管在 IDC,规模再变大时,托管就没法满足要求了,就开始自建机房。
很多人会以为这里边有一个不为人知的商业逻辑,但其实,主要是好奇心驱动。
「暗涌」:什么样的好奇心?
梁文锋:对 AI 能力边界的好奇。对很多行外人来说,ChatGPT 这波浪潮冲击特别大;但对行内人来说,2012 年 AlexNet 带来的冲击已经引领一个新的时代。AlexNet 的错误率远低于当时其他模型,复苏了沉睡几十年的神经网络研究。虽然具体技术方向一直在变,但模型、数据和算力这三者的组合是不变的,特别是当 2020 年 OpenAI 发布 GPT3 后,方向很清楚,需要大量算力;但即便 2021 年,我们投入建设萤火二号时,大部分人还是无法理解。
「暗涌」:所以 2012 年起,你们就开始关注到算力的储备?
梁文锋:对研究员来说,对算力的渴求是永无止境的。做了小规模实验后,总想做更大规模的实验。那之后,我们也会有意识地去部署尽可能多的算力。
「暗涌」:很多人以为搭这个计算机集群,是量化私募业务会用到机器学习做价格预测?
梁文锋:如果单纯只做量化投资,很少的卡也能达到目的。我们在投资外做了大量研究,更想搞清楚什么样的范式可以完整地描述整个金融市场,有没有更简洁的表达方式,不同范式能力边界在哪,这些范式是不是有更广泛适用,等等。
「暗涌」:但这个过程也是一个烧钱行为。
梁文锋:一件激动人心的事,或许不能单纯用钱衡量。就像家里买钢琴,一来买得起,二来是因为有一群急于在上面弹奏乐曲的人。
「暗涌」:显卡通常会以 20% 的速度在折损。
梁文锋:我们没有精确计算过,但应该没这么多。英伟达的显卡是硬通货,即使是很多年前的老卡,也还有很多人在用。我们之前退役的老卡,二手处理时还挺值钱的,没亏太多。
「暗涌」:搭一个计算机集群,维护费用,人工成本,甚至电费也都是不菲的支出。
梁文锋:电费和维护费用其实是很低的,这些支出每年只占硬件造价的 1% 左右。人工成本不低,但人工成本也是对未来的投资,是公司最大的资产。我们选的人也会相对朴实一点,有好奇心,来这里有机会去做研究。
「暗涌」:2021 年,幻方是亚太地区第一批拿到 A100 显卡的公司,为什么会比一些云厂商更早?**
梁文锋:我们很早就对新卡做了预研、测试和规划。至于一些云厂商,据我所知,他们之前的需求都是分散的,直到 2022 年自动驾驶,有租用机器做训练的需求,又有付费能力,一些云厂商才去把基础设施建好。大厂很难单纯去做研究,做训练,它更多会是业务需求驱动。
「暗涌」:你会如何看大模型的竞争格局?**
梁文锋:大厂肯定有优势,但如果不能很快应用,大厂也不一定能持续坚持,因为它更需要看到结果。
头部的创业公司也有技术做得很扎实的,但和老的一波 AI 创业公司一样,都要面对商业化难题。
「暗涌」:一些人会觉得一个量化基金却强调自己做 AI,是为其他业务吹泡泡。
梁文锋:但其实我们的量化基金已经基本不怎么对外募集了。
「暗涌」:你会如何去辨别哪些是 AI 信仰者,哪些是投机者?
梁文锋:信仰者会之前就在这里,之后也在这里。他们更会去批量买卡,或者跟云厂商签长协议,而不是短期去租。
> “创新往往都是自己产生的,不是刻意安排的,更不是教出来的”
「暗涌」:深度求索团队的招聘进展如何?
梁文锋:初始团队已经集结到位,前期因为人手不够,会从幻方临时借调一部分人过去。去年底 ChatGPT3.5 风靡时,我们就开始动手招聘了,不过我们依然需要更多的人加入。
「暗涌」:大模型创业的人才也是稀缺的,有投资人说很多适合的人才可能只在 OpenAI、FacebookAI Research 等巨头的 AI lab 里。你们会去海外挖这类人才吗?
梁文锋:如果追求短期目标,找现成有经验的人是对的。但如果看长远,经验就没那么重要,基础能力、创造性、热爱等更重要。从这个角度看,国内合适的候选人就不少。
「暗涌」:为什么经验没那么重要?
梁文锋:不一定是做过这件事的人才能做这件事。幻方招人有条原则是,看能力,而不是看经验。我们的核心技术岗位,基本以应届和毕业一两年的人为主。
「暗涌」:在创新业务上,你觉得经验是阻碍吗?
梁文锋:做一件事,有经验的人会不假思索告诉你,应该这样做,但没有经验的人,会反复摸索、很认真去想应该怎么做,然后找到一个符合当前实际情况的解决办法。
「暗涌」:幻方从一个完全无金融基因的外行,切入到这个行业,几年内做到头部,这条招人法则是其中秘密之一吗?
梁文锋:我们的核心团队,连我自己,一开始都没有量化经验,这一点很特殊。不能说是成功的秘密,但这是幻方的文化之一。我们不会故意回避有经验的人,但更多是看能力。
拿销售这个岗位举个例子。我们的两个主力销售,都是这个行业的素人。一个原来做德国机械品类外贸的,一个是原来在券商做后台写代码。他们进入这个行业时,没有经验,没有资源,没有积累。
而现在我们可能是唯一一家能以直销为主的大私募。做直销意味着不用给中间商分费用,同样规模和业绩下,利润率更高,很多家会试图模仿我们,但并没有成功。
「暗涌」:为什么很多家试图模仿你们,却没有成功?
梁文锋:因为仅凭这一点不足以让创新发生。它需要和公司的文化和管理相匹配。
事实上,第一年他们什么都做不出来,第二年才开始有点成绩。但我们的考核标准和一般公司不太一样。我们没有 KPI,也没有所谓的任务。
「暗涌」:那你们的考核标准是?
梁文锋:我们不像一般公司,看重客户下单量,我们的销售卖多少和提成不是一开始就算好的,而会更鼓励销售去发展自己的圈子,认识更多人,产生更大影响力。
因为我们认为,一个让客户信任的正直的销售,可能在短时间内做不到让客户来下单,但可以让你觉得他是个靠谱的人。
「暗涌」:选来合适的人后,用何种方式让他进入状态?
梁文锋:交给他重要的事,并且不干预他。让他自己想办法,自己发挥。
其实,一家公司的基因是很难被模仿的。比如说招没有经验的人,怎么判断他的潜力,招进来之后如何才能让他成长,这些都没法直接模仿。
「暗涌」:你觉得什么是打造一个创新型组织的必要条件?
梁文锋:我们的总结是,创新需要尽可能少的干预和管理,让每个人有自由发挥的空间和试错机会。创新往往都是自己产生的,不是刻意安排的,更不是教出来的。
「暗涌」:这是一种非常规的管理方式,这种情况下你如何确保一个人做事是有效率的,而且在你要的方向上?
梁文锋:招人时确保价值观一致,然后通过企业文化来确保步调一致。当然,我们并没有一个成文的企业文化,因为所有成文东西,又会阻碍创新。更多时候,是管理者的以身示范,遇到一件事,你如何做决策,会成为一种准则。
「暗涌」:你觉得这波做大模型的竞争中,创业公司更适合创新的组织架构会是和大厂竞争的破局点吗?
梁文锋:按照教科书的方法论来推导创业公司,在当下,他们做的事,都是活不下来的。
但市场是变化的。真正的决定力量往往不是一些现成的规则和条件,而是一种适应和调整变化的能力。
很多大公司的组织结构已经不能快速响应和快速做事,而且他们很容易让之前的经验和惯性成为束缚,而这波 AI 新浪潮之下,一定会有一批新公司诞生。
> “创新就是昂贵且低效的,有时候伴随着浪费。”
「暗涌」:做这样一件事,最让你们兴奋的是什么?
梁文锋:去搞清我们的猜想是不是事实,如果是对的,就会很兴奋了。
「暗涌」:这次大模型招人,什么是我们必卡的条件?
梁文锋:热爱,扎实的基础能力。其他都没那么重要。
「暗涌」:这种人容易找到吗?
梁文锋:他们的热情通常会表现出来,因为他真的很想做这件事,所以这些人往往同时也在找你。
「暗涌」:大模型可能是一件无休止投入的事,付出的代价会让你们顾虑吗?
梁文锋:创新就是昂贵且低效的,有时候伴随着浪费。所以经济发展到一定程度之后,才能够出现创新。很穷的时候,或者不是创新驱动的行业,成本和效率非常关键。看 OpenAI 也是烧了很多钱才出来。
「暗涌」:会觉得你们在做一件很疯狂的事吗?
梁文锋:不知道是不是疯狂,但这个世界存在很多无法用逻辑解释的事,就像很多程序员,也是开源社区的疯狂贡献者,一天很累了,还要去贡献代码。
「暗涌」:这里边会有一种精神奖赏。
梁文锋:类似你徒步 50 公里,整个身体是瘫掉的,但精神很满足。
「暗涌」:你觉得好奇心驱动的疯狂可以一直持续下去吗?
梁文锋:不是所有人都能疯狂一辈子,但大部分人,在他年轻的那些年,可以完全没有功利目的,投入地去做一件事。
原创 暗涌 2024 年 07 月 17 日 17:01 北京
文 | 于丽丽
编辑 | 刘旌
排版 / 姚楠
中国的 7 家大模型创业公司中,最新的官网telegram下载地方(深度求索)最不声不响,但它又总能以出其不意的方式被人记住。
一年前,这种出其不意源自它背后的量化私募巨头幻方,是大厂外唯一一家储备万张 A100 官方最新中文版telegram的下载入口哪里有 芯片的公司,一年后,则来自它才是引发中国大模型价格战的源头。
在被 AI 连续轰炸的 5 月,官网最新版的telegram下载的地方是什么 一跃成名。起因是他们发布的一款名为 最新的官网telegram下载地方 V2 的开源模型,提供了一种史无前例的性价比:推理成本被降到每百万 token 仅 1 块钱,约等于 Llama3 70B 的七分之一,GPT-4 Turbo 的七十分之一。
官网最新版的telegram下载的地方是什么 被迅速冠以 “AI 界拼多多” 之称的同时,字节、腾讯、百度、阿里等大厂也按耐不住,纷纷降价。中国大模型价格战由此一触即发。
弥漫的硝烟其实掩盖了一个事实:与很多大厂烧钱补贴不同,最新的官网telegram下载地方 是有利润的。
这背后,是 官网最新版的telegram下载的地方是什么 对模型架构进行了全方位创新。它提出的一种崭新的 MLA(一种新的多头潜在注意力机制)架构,把显存占用降到了过去最常用的 MHA 架构的 5%-13%,同时,它独创的 官网最新版的telegram下载的地方是什么MoESparse 结构,也把计算量降到极致,所有这些最终促成了成本的下降。
在硅谷,最新的官网telegram下载地方 被称作 “来自东方的神秘力量”。SemiAnalysis 首席分析师认为,官网最新版的telegram下载的地方是什么 V2 论文 “可能是今年最好的一篇”。OpenAI 前员工 Andrew Carr 认为论文 “充满惊人智慧”,并将其训练设置应用于自己的模型。而 OpenAI 前政策主管、Anthropic 联合创始人 Jack Clark 认为,最新的官网telegram下载地方 “雇佣了一批高深莫测的奇才”,还认为中国制造的大模型,“将和无人机、电动汽车一样,成为不容忽视的力量。”
在基本由硅谷牵动故事进展的 AI 浪潮里,这是罕有的情形。 多位行业人士告诉我们,这种强烈的反响源自架构层面的创新,是国产大模型公司乃至全球开源基座大模型都很罕见的尝试。 一位 AI 研究者表示,Attention 架构提出多年来,几乎未被成功改过,更遑论大规模验证。“这甚至是一个做决策时就会被掐断的念头,因为大部分人都缺乏信心。”
而另一方面,国产大模型之前很少涉足架构层面的创新,也是因为很少有人主动去击破那样一种成见:美国更擅长从 0-1 的技术创新,而中国更擅长从 1-10 的应用创新。 何况这种行为非常不划算 —— 新一代模型,过几个月自然有人做出来,中国公司只要跟随、做好应用即可。对模型结构进行创新,意味着没有路径可依,要经历很多失败,时间、经济成本都耗费巨大。
官网最新版的telegram下载的地方是什么 显然是逆行者。在一片认为大模型技术必然趋同,follow 是更聪明捷径的喧哗声中,最新的官网telegram下载地方 看重 “弯路” 中积累的价值,并认为中国的大模型创业者除应用创新外,也可以加入到全球技术创新的洪流中。
官网最新版的telegram下载的地方是什么 的很多抉择都与众不同。截至目前,7 家中国大模型创业公司中,它是唯一一家放弃 “既要又要” 路线,至今专注在研究和技术,未做 toC 应用的公司,也是唯一一家未全面考虑商业化,坚定选择开源路线甚至都没融过资的公司。这些使得它经常被遗忘在牌桌之外,但在另一端,它又经常在社区被用户 “自来水” 式传播。
最新的官网telegram下载地方 究竟是如何炼成的?我们为此访谈了甚少露面的 官网最新版的telegram下载的地方是什么 创始人梁文锋。
这位从幻方时代,就在幕后潜心研究技术的 80 后创始人,在 最新的官网telegram下载地方 时代,依旧延续着他的低调作风,和所有研究员一样,每天 “看论文,写代码,参与小组讨论”。
和很多量化基金创始人都有过海外对冲基金履历,多出身物理、数学等专业不同的是,梁文锋一直是本土背景,早年就读的也是浙江大学电子工程系人工智能方向。
多位行业人士和 官网最新版的telegram下载的地方是什么 研究员告诉我们,梁文锋是当下中国 AI 界非常罕见的 “兼具强大的 infra 工程能力和模型研究能力,又能调动资源”、“既可以从高处做精准判断,又可以在细节上强过一线研究员” 的人,他拥有 “令人恐怖的学习能力”,同时又 “完全不像一个老板,而更像一个极客”。
这是一次尤为难得的访谈。访谈里,这位技术理想主义者,提供了目前中国科技界特别稀缺的一种声音:他是少有的把 “是非观” 置于 “利害观” 之前,并提醒我们看到时代惯性,把 “原创式创新” 提上日程的人。
一年前,官网最新版的telegram下载的地方是什么 刚下场时,我们初次访谈了梁文锋 :《疯狂的幻方:一家隐形 AI 巨头的大模型之路》 。如果说当时那句**「务必要疯狂地怀抱雄心,且还要疯狂地真诚」**还是一句美丽的口号,一年过去,它已经在成为一种行动。
以下为对话部分
「暗涌」:最新的官网telegram下载地方 V2 模型发布后,迅速引发一场血雨腥风的大模型价格战,有人说你们是行业的一条鲶鱼。
梁文锋:我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。
「暗涌」:这个结果让你们意外吗?
梁文锋:非常意外。没想到价格让大家这么敏感。我们只是按照自己的步调来做事,然后核算成本定价。我们的原则是不贴钱,也不赚取暴利。这个价格也是在成本之上稍微有点利润。
「暗涌」:5 天后智谱 AI 就跟进了,之后是字节、阿里、百度、腾讯等大厂。
梁文锋:智谱 AI 降的是一个入门级产品,和我们同级别的模型仍然收费很贵。字节是真正第一个跟进的。旗舰模型降到和我们一样的价格,然后触发了其它大厂纷纷降价。因为大厂的模型成本比我们高很多,所以我们没想到会有人亏钱做这件事,最后就变成了互联网时代的烧钱补贴的逻辑。
「暗涌」:外部看来,降价很像在抢用户,互联网时代的价格战通常如此。
梁文锋:抢用户并不是我们的主要目的。我们降价一方面是因为我们在探索下一代模型的结构中,成本先降下来了,另一方面也觉得无论 API, 还是 AI, 都应该是普惠的、人人可以用得起的东西。
「暗涌」:在这之前,大部分中国公司都会直接 copy 这一代的 Llama 结构去做应用,为什么你们会从模型结构切入?
梁文锋:如果目标是做应用,那沿用 Llama 结构,短平快上产品也是合理选择。但我们目的地是 AGI,这意味着我们需要研究新的模型结构,在有限资源下,实现更强的模型能力。这是 scale up 到更大模型所需要做的基础研究之一。除了模型结构,我们还做了大量其他的研究,包括怎么构造数据,如何让模型更像人类等,这都体现在我们发布的模型里。另外,Llama 的结构,在训练效率和推理成本上,和国外先进水平估计也已有两代差距。
「暗涌」:这种代差主要来自哪里?
梁文锋:首先训练效率有差距。我们估计,国内最好的水平和国外最好的相比,模型结构和训练动力学上可能有一倍的差距,光这一点我们要消耗两倍的算力才能达到同样效果。另外数据效率上可能也有一倍差距,也就是我们要消耗两倍的训练数据和算力,才能达到同样的效果。合起来就要多消耗 4 倍算力。我们要做的,正是不停地去缩小这些差距。
「暗涌」:大部分中国公司都选择既要模型又要应用,为什么 官网最新版的telegram下载的地方是什么 目前选择只做研究探索?
梁文锋:因为我们觉得现在最重要的是参与到全球创新的浪潮里去。过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。
「暗涌」:互联网和移动互联网时代留给大部分人的惯性认知是,美国擅长搞技术创新,中国更擅长做应用。
梁文锋:我们认为随着经济发展,**中国也要逐步成为贡献者,而不是一直搭便车。**过去三十多年 IT 浪潮里,我们基本没有参与到真正的技术创新里。我们已经习惯摩尔定律从天而降,躺在家里 18 个月就会出来更好的硬件和软件。Scaling Law 也在被如此对待。
但其实,这是西方主导的技术社区一代代孜孜不倦创造出来的,只因为之前我们没有参与这个过程,以至于忽视了它的存在。
「暗涌」:为什么 最新的官网telegram下载地方 V2 会让硅谷的很多人惊讶?
梁文锋:在美国每天发生的大量创新里,这是非常普通的一个。他们之所以惊讶,是因为这是一个中国公司,在以创新贡献者的身份,加入到他们游戏里去。 毕竟大部分中国公司习惯 follow,而不是创新。
「暗涌」:但这种选择放在中国语境里,也过于奢侈。大模型是一个重投入游戏,不是所有公司都有资本只去研究创新,而不是先考虑商业化。
梁文锋:创新的成本肯定不低,过去那种拿来主义的惯性也和过去的国情有关。但现在,你看无论中国的经济体量,还是字节、腾讯这些大厂的利润,放在全球都不低。我们创新缺的肯定不是资本,而是缺乏信心以及不知道怎么组织高密度的人才实现有效的创新。
「暗涌」:为什么中国公司 —— 包括不缺钱的大厂,这么容易把快速商业化当第一要义?
梁文锋:过去三十年,我们都只强调赚钱,对创新是忽视的。创新不完全是商业驱动的,还需要好奇心和创造欲。我们只是被过去那种惯性束缚了,但它也是阶段性的。
「暗涌」:但你们究竟是一个商业组织,而非一个公益科研机构,选择创新,又通过开源分享出去,那要在哪里形成护城河?像 5 月这次 MLA 架构的创新,也会很快被其他家 copy 吧?
梁文锋:在颠覆性的技术面前,闭源形成的护城河是短暂的。即使 OpenAI 闭源,也无法阻止被别人赶超。 所以我们把价值沉淀在团队上,我们的同事在这个过程中得到成长,积累很多 know-how, 形成可以创新的组织和文化,就是我们的护城河。
开源,发论文,其实并没有失去什么。对于技术人员来说,被 follow 是很有成就感的事。其实,开源更像一个文化行为,而非商业行为。给予其实是一种额外的荣誉。一个公司这么做也会有文化的吸引力。
「暗涌」:你怎么看类似朱啸虎的这种市场信仰派观点?
梁文锋:朱啸虎是自洽的,但他的打法更适合快速赚钱的公司,而你看美国最赚钱的公司,都是厚积薄发的高科技公司。
「暗涌」:但做大模型,单纯的技术领先也很难形成绝对优势,你们赌的那个更大的东西是什么?
梁文锋:我们看到的是中国 AI 不可能永远处在跟随的位置。 我们经常说中国 AI 和美国有一两年差距,但真实的 gap 是原创和模仿之差。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。
英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果。他们能看到下一代的技术趋势,手里有路线图。中国 AI 的发展,同样需要这样的生态。很多国产芯片发展不起来,也是因为缺乏配套的技术社区,只有第二手消息,所以中国必然需要有人站到技术的前沿。
「暗涌」:现在的 官网最新版的telegram下载的地方是什么 有一种 OpenAI 早期的理想主义气质,也是开源的。后边你们会选择闭源吗?OpenAI 和 Mistral 都有过从开源到闭源的过程。
梁文锋:我们不会闭源。我们认为先有一个强大的技术生态更重要。
「暗涌」:你们有融资计划吗?看有媒体报道,幻方对 最新的官网telegram下载地方 有独立拆分上市的计划,硅谷的 AI 创业公司,最终也都难免要和大厂绑定。
梁文锋:短期内没有融资计划,我们面临的问题从来不是钱,而是高端芯片被禁运。
「暗涌」:很多人认为,做 AGI 和做量化是完全不同的两件事,量化可以闷声去做,但 AGI 可能更需要高举高打,需要结盟,这样可以让你的投入变大。
梁文锋:更多的投入并不一定产生更多的创新。否则大厂可以把所有的创新包揽了。
「暗涌」:你们现在不做应用,是因为你们没有运营的基因吗?
梁文锋:我们认为当前阶段是技术创新的爆发期,而不是应用的爆发期。长远来说,我们希望形成一种生态,就是业界直接使用我们的技术和产出,我们只负责基础模型和前沿的创新,然后其它公司在 最新的官网telegram下载地方 的基础上构建 toB、toC 的业务。如果能形成完整的产业上下游,我们就没必要自己做应用。当然,如果需要,我们做应用也没障碍,但研究和技术创新永远是我们第一优先级。
「暗涌」:但选择 API 的话,为什么选择 官网最新版的telegram下载的地方是什么,而不是大厂?
梁文锋:未来的世界很可能是专业化分工的,基础大模型需要持续创新,大厂有它的能力边界,并不一定适合。
「暗涌」:但技术真的可以拉开差距吗?你也说过并不存在绝对的技术秘密。
梁文锋:技术没有秘密,但重置需要时间和成本。英伟达的显卡,理论上没有任何技术秘密,很容易复制,但重新组织团队以及追赶下一代技术都需要时间,所以实际的护城河还是很宽。
「暗涌」:你们降价后,字节率先跟进,说明他们还是感受到某种威胁。你怎么看创业公司与大厂竞争的新解法?
梁文锋:说实话我们不太 care 这件事,只是顺便做了这件事。提供云服务不是我们的主要目标。我们的目标还是去实现 AGI。
目前没有看到什么新解法,但大厂也没有明显占优。大厂有现成的用户,但它的现金流业务也是它的包袱,也会让它成为随时被颠覆的对象。
「暗涌」:你怎么看 最新的官网telegram下载地方 之外的 6 家大模型创业公司的终局?最新中文版的telegram下载的网站在哪呢
梁文锋:可能活下来 2 到 3 家。现在都还处在烧钱阶段,所以那些自我定位清晰、更能精细化运营的,更有机会活下来。其它公司可能会脱胎换骨。有价值的东西不会烟消云散,但会换一种方式。
「暗涌」:幻方时代,面对竞争的姿态就被评价为 “我行我素”,很少在意横向比较。关于竞争,你思考的原点是什么?
梁文锋:我经常思考的是,一个东西能不能让社会的运行效率变高,以及你能否在它的产业分工链条上找到擅长的位置。只要终局是让社会效率更高,就是成立的。中间很多都是阶段性的,过度关注必然眼花缭乱。
「暗涌」:OpenAI 前政策主管、Anthropic 联合创始人 Jack Clark 认为 官网最新版的telegram下载的地方是什么 雇佣了 “一批高深莫测的奇才”,做出 最新的官网telegram下载地方 v2 的是怎样一群人?
梁文锋:并没有什么高深莫测的奇才,都是一些 Top 高校的应届毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。
「暗涌」:很多大模型公司都执着地去海外挖人,很多人觉得这个领域前 50 名的顶尖人才可能都不在中国的公司,你们的人都来自哪里?
梁文锋:V2 模型没有海外回来的人,都是本土的。前 50 名顶尖人才可能不在中国,但也许我们能自己打造这样的人。
「暗涌」:这次 MLA 创新是如何发生的?听说 idea 最早来自一个年轻研究员的个人兴趣?
梁文锋:在总结出 Attention 架构的一些主流变迁规律后,他突发奇想去设计一个替代方案。不过从想法到落地,中间是一个漫长的过程。我们为此组了一个 team,花了几个月时间才跑通。
「暗涌」:这种发散性灵感的诞生和你们完全创新型组织的架构很有关系。幻方时代,你们就很少自上而下地指派目标或任务。但 AGI 这种充满不确定性的前沿探索,是否多了管理动作?
梁文锋:官网最新版的telegram下载的地方是什么 也全是自下而上。而且我们一般不前置分工,而是自然分工。每个人有自己独特的成长经历,都是自带想法的,不需要 push 他。探索过程中,他遇到问题,自己就会拉人讨论。不过当一个 idea 显示出潜力,我们也会自上而下地去调配资源。
「暗涌」:听说 官网最新版的telegram下载的地方是什么 对于卡和人的调集非常灵活。
梁文锋:我们每个人对于卡和人的调动是不设上限的。如果有想法,每个人随时可以调用训练集群的卡无需审批。同时因为不存在层级和跨部门,也可以灵活调用所有人,只要对方也有兴趣。
「暗涌」:一种松散的管理方式也取决于你们筛选到了一批强热爱驱动的人。听说你们很擅长从细节招人, 可以让一些非传统评价指标里优秀的人被选出来。
梁文锋:我们选人的标准一直都是热爱和好奇心,所以很多人会有一些奇特的经历,很有意思。很多人对做研究的渴望,远超对钱的在意。
「暗涌」: transformer 诞生在谷歌的 AI Lab,ChatGPT 诞生在 OpenAI, 你觉得大公司的 AILab 和一个创业公司对于创新产生的价值有什么不同?
梁文锋:不管是 Google 实验室,还是 OpenAI,甚至中国大厂的 AI Lab,都很有价值的。最后是 OpenAI 做出来,也有历史的偶然性。
「暗涌」:创新很大程度也是一种偶然吗?我看你们办公区中间那排会议室左右两侧都设置了可以随意推开的门。你们同事说,这就是给偶然留出空隙。transfomer 诞生中就发生过那种偶然经过的人听到后加入,最终把它变成一个通用框架的故事。
梁文锋:我觉得创新首先是一个信念问题。为什么硅谷那么有创新精神?首先是敢。Chatgpt 出来时,整个国内对做前沿创新都缺乏信心,从投资人到大厂,都觉得差距太大了,还是做应用吧。但创新首先需要自信。这种信心通常在年轻人身上更明显。
「暗涌」:但你们不参与融资,很少对外发声,社会声量上肯定不如那些融资活跃的公司,怎么确保 最新的官网telegram下载地方 就是做大模型的人的首选?
梁文锋:因为我们在做最难的事。对顶级人才吸引最大的,肯定是去解决世界上最难的问题。 其实,顶尖人才在中国是被低估的。因为整个社会层面的硬核创新太少了,使得他们没有机会被识别出来。我们在做最难的事,对他们就是有吸引力的。
「暗涌」:前一段 OpenAI 的发布并没有等来 GPT5, 很多人觉得这是技术曲线明显在放缓,也很多人开始质疑 Scaling Law,你们怎么看?
梁文锋:我们偏乐观,整个行业看起来都符合预期。OpenAI 也不是神,不可能一直冲在前面。
「暗涌」:你觉得 AGI 还要多久实现,发布 官网最新版的telegram下载的地方是什么 V2 前,你们发布过代码生成和数学的模型,也从 dense 模型切换到了 MOE, 所以你们的 AGI 路线图有哪些坐标?
梁文锋:可能是 2 年、5 年或者 10 年,总之会在我们有生之年实现。至于路线图,即使在我们公司内部,也没有统一意见。但我们确实押注了三个方向。一是数学和代码,二是多模态,三是自然语言本身。数学和代码是 AGI 天然的试验场,有点像围棋,是一个封闭的、可验证的系统,有可能通过自我学习就能实现很高的智能。另一方面,可能多模态、参与到人类的真实世界里学习,对 AGI 也是必要的。我们对一切可能性都保持开放。
「暗涌」:你觉得大模型终局是什么样态?
官方最新版的telegram下载网站是什么
梁文锋:会有专门公司提供基础模型和基础服务,会有很长链条的专业分工。更多人在之上去满足整个社会多样化的需求。
「暗涌」:过去这一年,中国的大模型创业还是有很多变化的,比如去年开头还很活跃的王慧文中场退出了,后来加入的公司也开始呈现出差异化。
梁文锋:王慧文自己承担了所有的损失,让其他人全身而退。他做了一个对自己最不利,但对大家都好的选择,所以他做人是很厚道的,这点我很佩服。
「暗涌」:现在你的精力最多放在哪里?
梁文锋:主要的精力在研究下一代的大模型。还有很多未解决的问题。
「暗涌」: 其他几家大模型创业公司都是坚持既要又要,毕竟技术不会带来永久领先,抓住时间窗口把技术优势落到产品也很重要,最新的官网telegram下载地方 敢于专注在模型研究上是因为模型能力还不够吗?
梁文锋:所有的套路都是上一代的产物,未来不一定成立。拿互联网的商业逻辑去讨论未来 AI 的盈利模式,就像马化腾创业时,你去讨论通用电气和可口可乐一样。很可能是一种刻舟求剑。
「暗涌」:过去幻方就有很强的技术和创新基因,成长也比较顺利,这是你偏乐观的原因吗?
梁文锋:幻方某种程度上增强了我们对技术驱动型创新的信心,但也不都是坦途。我们经历了一个漫长的积累过程。外部看到的是幻方 2015 年后的部分,但其实我们做了 16 年。
「暗涌」:回到关于原创式创新的话题。现在经济开始进入下行,资本也进入冷周期,所以它对原创式创新是否会带来更多抑制?
梁文锋:我倒觉得未必。中国产业结构的调整,会更依赖硬核技术的创新。当很多人发现过去赚快钱很可能来自时代运气,就会更愿意俯身去做真正的创新。
「暗涌」:所以你对这件事也是乐观的?
梁文锋:我是八十年代在广东一个五线城市长大的。我的父亲是小学老师,九十年代,广东赚钱机会很多,当时有不少家长到我家里来,基本就是家长觉得读书没用。但现在回去看,观念都变了。因为钱不好赚了,连开出租车的机会可能都没了。一代人的时间就变了。
以后硬核创新会越来越多。现在可能还不容易被理解,是因为整个社会群体需要被事实教育。当这个社会让硬核创新的人功成名就,群体性想法就会改变。我们只是还需要一堆事实和一个过程。
原创 王兆洋 硅星人 Pro 2024 年 12 月 27 日 11:06 北京
作者|王兆洋
邮箱|wangzhaoyang@pingwest.com
像是迷雾中走出的一头怪兽,官网最新版的telegram下载的地方是什么 V3 在先行 “泄露” 并引发一阵惊叹后,开发方深度求索正式发布了技术报告。
在这个报告中,最新的官网telegram下载地方 透露了训练的关键数据,其中最引人注目的,是它的高效和对算力资源依赖之小,同时效果又异常的好 ——
“在预训练阶段,在每个万亿标记上训练 官网最新版的telegram下载的地方是什么-V3 只需要 180K H800 GPU 小时,也就是说,在我们的具有 2048 个 H800 GPU 的集群上需要 3.7 天。因此,我们的预训练阶段在不到两个月的时间内完成,成本为 2664K GPU 小时。结合 119K GPU 小时的上下文长度扩展和 5K GPU 小时的后训练,最新的官网telegram下载地方-V3 的完整训练成本仅为 2.788M GPU 小时。假设 H800 GPU 的租金为每 GPU 小时 2 美元,我们的总训练成本仅为 557 万美元。 请注意,上述成本仅包括 官网最新版的telegram下载的地方是什么-V3 的正式训练,不包括与架构、算法或数据相关的先前的研究或精简实验的成本。”
“我们对 最新的官网telegram下载地方-V3 进行了全面的基准测试。尽管 官网最新版的telegram下载的地方是什么-V3-Base 的训练成本较低,但综合评估表明,官网最新版的telegram下载的地方是什么-V3-Base 已经成为目前可用的最强大的开源基础模型,特别是在代码和数学方面。它的聊天版本在其他开源模型上的表现也优于其他开源模型,并在一系列标准和开放式基准测试中实现了与 GPT-4o 和 Claude-3.5-Sonnet 等领先闭源模型的性能相当。”
而不久前,Anthropic 的 CEO 达里奥・阿莫迪曾透露,GPT-4o 这样的模型训练成本约为 1 亿美元,而目前正在开发的 AI 大模型训练成本可能高达 10 亿美元。未来三年内,AI 大模型的训练成本将上升至 100 亿美元甚至 1000 亿美元。
也就是,现在 最新的官网telegram下载地方 用 550 万美金 2000 张卡训出的开源模型,和 OpenAI 几亿烧出的模型一样好了。
它旋即被再次称为 “国货之光”,在预训练撞墙,一切都要扭转到推理阶段的变换节点,官网最新版的telegram下载的地方是什么 v3 的一系列技术方法,数据指标和测试性能,以及口碑,都让它成了一件事的最好代表:
在 “o1” 时代,当算力不再是唯一因素,中国模型开发者的机会更多了。
最新的官网telegram下载地方-V3 为幻方旗下的深度求索公司自研 的 MoE 模型,671B 参数,激活 37B,在 14.8T token 上进行了预训练。在 官网最新版的telegram下载的地方是什么 V3 技术报告公布的性能指标上来看,这个开源 MoE 模型,已经在性能上 “对齐海外领军闭源模型”。
根据它的官方公告,它在多项评测成绩上,超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。
最新的官网telegram下载地方 罗列了几个关键的表现领域:
百科知识:官网最新版的telegram下载的地方是什么-V3 在知识类任务(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平相比前代 最新的官网telegram下载地方-V2.5 显著提升,接近当前表现最好的模型 Claude-3.5-Sonnet-1022。
长文本: 在长文本测评中,DROP、FRAMES 和 LongBench v2 上,官网最新版的telegram下载的地方是什么-V3 平均表现超越其他模型。
代码:最新的官网telegram下载地方-V3 在算法类代码场景(Codeforces),远远领先于市面上已有的全部非 o1 类模型;并在工程类代码场景(SWE-Bench Verified)逼近 Claude-3.5-Sonnet-1022。
数学: 在美国数学竞赛(AIME 2024, MATH)和全国高中数学联赛(CNMO 2024)上,官网最新版的telegram下载的地方是什么-V3 大幅超过了所有开源闭源模型。
中文能力:最新的官网telegram下载地方-V3 与 Qwen2.5-72B 在教育类测评 C-Eval 和代词消歧等评测集上表现相近,但在事实知识 C-SimpleQA 上更为领先。
这些打榜的行为已经是所有新模型的惯例操作,而因为这些官方数据是在模型悄悄在社区以及一些 AI Infra 平台上线后才跟着发布,反而让它 “口碑先行”,在人们纷纷体验了它的媲美头部模型的能力后,这些数据让开发者社区印象更为深刻。
但 Vtelegram中文最新版下载的地址是什么3 真正重要的意义不止在于开源再次逼近闭源,还在于它通过各种新的方法,不止在模型层卷,而是把整个模型的训练和推理当做一个系统来优化到了极致,并给出了诸多新的技术思路。
这一方面也体现在他的生成速度提升上,根据 官网最新版的telegram下载的地方是什么 官方,它的生成速度提升至 3 倍。
通过算法和工程上的创新,官网最新版的telegram下载的地方是什么-V3 的生成吐字速度从 20 TPS 大幅提高至 60 TPS,相比 V2.5 模型实现了 3 倍的提升,为用户带来更加迅速流畅的使用体验。
想体验的可以登陆官网 chat.最新的官网telegram下载地方.com,它也支持 API 访问。而且,新版本将提供 45 天优惠价格体验期,直至 2025 年 2 月 8 日。
在技术报告和官方正式发布前,全球开发者就已经对这个来自东方的 “圣诞礼物” 欢呼了一阵。
能够做到 “提前泄露” 并引起一群自来水测试和把玩的国产模型并不多,无论它是否是 官网最新版的telegram下载的地方是什么 的某种策略,它确实证明了自己受关注和在开发者社区里的真实使用的程度。
根据 Reddit 上最早的 “泄露”,它在基准测试 LiveBench 上评分都挤进了前列。整体性能超过了 gemini 2 flash,以及 Claude 3.5 Sonnet。
而随后,技术报告正式发布,开发者开始深挖它究竟做对了什么。
简单来说,最新的官网telegram下载地方-V3 针对分布式推理做了创新的优化,进而显著提升了分布式 MoE 模型的负载分配效率,这不再只是从算法上,而是从整个系统上为未来更大规模的模型提供了新的可扩展性框架的可能。尤其在硬件资源有限的情况下,它最大化了效率。
在模型架构上,它和此前的 V2 一样继续使用 官网最新版的telegram下载的地方是什么 自己一直相信和沿用的 MLA + 细颗粒度的 MoE。简单说就是在注意力机制上做创新,对内存进行压缩,对 MoE 的运行机制进行创新的设计。
此外,几个亮点包括:
最新的官网telegram下载地方 V3 使用了辅助损失自由负载均衡策略(Auxiliary-Loss-Free Load Balancing)。
在混合专家模型(MoE)中,每个输入 Token 会分配给不同的 “专家” 进行计算。如果分配不均衡(某些专家负载过高),会导致效率降低和模型性能下降。传统方法通过增加一个额外的 “辅助损失” 来强制均衡负载,但这会对模型性能造成负面影响。官网最新版的telegram下载的地方是什么 通过动态调整专家的偏置值,使输入 Token 更均匀地分配给不同的专家,而无需引入额外损失。
这个方法有趣的地方是,通过监控每个专家的负载情况,在训练中动态调整每个专家的偏置,使得分配更公平。它避免了引入额外的优化目标,直接在负载均衡和模型性能之间找到了更优解。
另外,在 MoE 方面的冗余专家机制(Redundant Experts)也是这种追求平衡的思路。
在推理阶段,某些专家可能会因任务量过多而成为瓶颈。冗余专家机制通过为高负载专家创建 “副本”,让这些任务分配到不同的副本上,缓解了计算压力并提升了整体推理速度。这种方法可以显著提升分布式推理的吞吐量,尤其是在高并发场景下,实现了资源的弹性扩展和更稳定的服务性能。
这些动作相当于是告诉那些调不好参数和平衡的人们:
我比你们更聪明。那些所谓的负载矛盾,我可以解决,并同时保持高水平的推理精度。
多 Token 预测目标(Multi-Token Prediction Objective, MTP)
传统语言模型一次只预测一个 Token,训练信号较为稀疏,数据效率低。MTP 让模型在每个输入 Token 的基础上同时预测多个未来 Token,这样每次训练能提供更多的反馈信号,加速模型的学习。也就是,不是简单地并行预测多个 Token,而是通过顺序预测保持每个 Token 间的因果链条。这样既提升了训练效率,也让模型在推理时能够更好地 “规划” 其输出。
对 FP8 低精度训练的优化。
FP8 是一种极低精度的数据表示形式,比 FP16 和 BF16 的精度更低,但占用的内存和计算资源也更少。问题是 FP8 的动态范围有限,容易出现数值溢出或不足。最新的官网telegram下载地方 通过分块量化,将数据分成更小的组进行独立缩放,这样可以让模型更灵活地适应输入数据的变化范围,避免低精度带来的精度损失。
这种 “分块量化 + 高精度累加” 的策略就是先将数据分组,每组单独计算缩放因子,再通过高精度累加器进行累加计算。这种方法结合 FP8 的低资源消耗和高精度运算,解决了传统低精度训练中的不稳定性问题。它大幅减少了训练所需的内存和计算成本,同时保持了与高精度训练相当的稳定性和性能。
除了模型方面,在训练设施上的创新也很关键,比如 DualPipe 流水线并行策略。
在分布式训练中,多个 GPU 需要同时处理大量数据,其中的通信开销是一个瓶颈。传统流水线方法很难做到完全的计算与通信重叠,造成资源浪费。DualPipe 通过更精细的任务分解和调度,将计算和通信时间完全重叠,从而最大限度地利用了每一块 GPU 的性能。这个设计的核心是将数据分成小块,交替执行 “计算” 和 “通信” 任务。通过精确调整各任务的优先级和资源分配,让 GPU 在计算时也能同时处理通信操作,几乎完全消除了流水线中的 “空闲时间”。除了提升效率,它值得玩味的地方更在于:
它显著降低了对硬件资源的需求。
技术报告发布后,官网最新版的telegram下载的地方是什么 V3 更是受到了犹如畅销书发布的待遇 —— 大佬们纷纷为他撰写推荐 “腰封”,体验了它的效果然后又读了它的技术报告的,都在叫好:
推特上各个大佬纷纷点赞。
Meta 的田渊栋也直接表示:
“最新的官网telegram下载地方 这真是把 H800 hack 了底朝天 [捂脸] 太夸张了😂”
Andrej Kaparthy 也再次赞扬 官网最新版的telegram下载的地方是什么 的技术报告值得一读。
另外一个有意思的地方是,今天最重要的一些 AI Infra 创业公司的创始人们也对 官网最新版的telegram下载的地方是什么 V3 充满好感。一个在推理侧再次推动着创新并由此可以刺激市场需求的模型,自然是推理侧的创业公司们需要和希望客户们看到的。
硅基流动的袁进辉在朋友圈点评:
“最新的官网telegram下载地方 V3 训练仅用了 2000 张 H800,算力成本 6 百万美元,给海外同行蛮大思想冲击,很多业内专家都点赞了,算力不是唯一决定因素,聪明的人加创新更让人敬佩。”
Lepton 的创始人贾扬清则在朋友圈和 X 同时点评了 V3 给他带来的思考。
・首先,现在我们正式进入了分布式推理的时代。一台单 GPU 机器(80*8=640G)的显存已经装不下参数了。新的大显存机器确实能容纳模型,但不管怎样,为了性能和未来扩展,分布式推理是不可避免的选择。
・即使在单个模型中,也需要关注 MoE 的负载均衡,因为每次推理只有大约 5% 的参数激活。目前还没仔细研究这部分的工作负载细节,但应该会很有趣。
・论文中特别提到引入 “redundant expert” 的概念,正是为了解决这个问题。这已经不是 “一个模型多个副本” 的问题,而是 “每个模型子模块都有多个副本”,然后独立扩缩容。
・输入 token 的盈利模式已经很明确了。我个人推测,想让输出 token 变得盈利或至少收支平衡需要更多优化。不过如果我们相信 “软件摩尔定律”(每 18 个月单 token 成本减半),这就不是问题。
・Tile 或 block 级别的量化是必需的。这也和我们在 Lepton 的观察一致。我们还支持基于输入数据的动态量化(ahead-of-time dynamic quantization)。另外等硬件支持 FP4 以后肯定还有不少可以玩的花样。
・冷知识:FP4 乘法实际上就是个 16*16 的 table lookup…
・论文提到,在很多情况下,内存带宽是瓶颈。很期待看看即将推出的 NVIDIA 新硬件形态(比如 NVL72)能如何提升分布式推理的性能和便捷性。
“Exciting years.” 他说。
在 V3 发布之前,官网最新版的telegram下载的地方是什么 曾经被海外知名的 “爆料 + 深度分析” 的技术博客又一次提到 最新的官网telegram下载地方,这个以芯片领域的一手信息著称的博客已经是对 官网最新版的telegram下载的地方是什么 最关注的海外分析师,但它似乎依然没想到 最新的官网telegram下载地方 的重要性并不在于与 OpenAI 们用比拼资源的方式比拼创新,在这篇文章中,Semianalysis “爆料” 称 最新的官网telegram下载地方 已经有很多很多的卡。但在 V3 发布后,它所指向的方向看来并不如此。
你依然需要万卡集群,但不是谁的卡多谁烧的钱多谁就理所应当会赢得一切了。
有网友甚至戏称:“想快进到 Nvidia 泡沫破裂的时刻”。
一切都在快速的展开。神话 OpenAI 们,尤其是以 “卡” 的名义神话然后看低中国开发者们自己的模型和 Infra 创新能力的阶段看起来要结束了。当然,前提是你不是只想 “跟着喊几句” 的创新,而是你真的做着能在全球都急需模型往前走的创新技术的时候,被大家能看到的真正的工作。
AI 前线 2024 年 12 月 27 日 12:30 辽宁
整理 | 华卫、核子可乐
一家中国 AI 初创公司创建出被用户称作 “真正的‘Open’AI ” 的人工智能模型。
昨晚,官网最新版的telegram下载的地方是什么 发布了最新系列模型 最新的官网telegram下载地方-V3 首个版本并同步开源。该模型可以处理一系列基于文本的工作负载和任务,如编码、翻译以及根据描述性提示撰写论文和电子邮件。根据 官网最新版的telegram下载的地方是什么 的内部基准测试,最新的官网telegram下载地方 V3 的性能优于可下载的 “公开 ” 可用模型和只能通过 API 访问的 “封闭 ” 人工智能模型。
在编程竞赛平台 Codeforces 主办的编码竞赛子集中,官网最新版的telegram下载的地方是什么 的表现优于 Meta 的 Llama 3.1 405B、OpenAI 的 GPT-4o 和阿里巴巴的 Qwen 2.5 72B 等模型。官网最新版的telegram下载的地方是什么 V3 还在 Aider Polyglot 测试中击败了竞争对手,该测试旨在衡量模型是否能成功编写新代码,并将其整合到现有代码中。
“综合评估表明,最新的官网telegram下载地方-V3 已成为目前可用的最强大的开源模型,其性能可与 GPT-4o 和 Claude-3.5-Sonnet 等领先的闭源模型相媲美。”官网最新版的telegram下载的地方是什么 表示。
根据该公司的许可协议,这套新模型可以通过 Hugging Face 获取,其参数规模达到 6710 亿,但会使用混合专家架构以保证仅激活选定的参数,以便准确高效地处理给定任务。目前,最新的官网telegram下载地方-V3 代码可通过 GitHub 基于 MIT 许可进行获取;企业亦可通过类似 ChatGPT 的 官网最新版的telegram下载的地方是什么 Chat 平台测试这套新模型,并访问 API 以供商业使用。
模型权重下载和更多本地部署信息可参考:https://huggingface.co/最新的官网telegram下载地方-ai/官网最新版的telegram下载的地方是什么-V3-Base*
GitHub 链接:https://github.com/最新的官网telegram下载地方-ai/官网最新版的telegram下载的地方是什么-V3
与其前代成果 最新的官网telegram下载地方-V2 一样,这款最新超大型模型使用同样的基础架构,围绕多头潜在注意力(MLA)与 官网最新版的telegram下载的地方是什么MoE 构建而成。这种方法确保其始终保持高效的训练与推理能力,同时配合有针对性的共享 “专家”(即大模型内各独立且体量较小的神经网络)为各个 token 相应激活总计 6710 亿参数中的 370 亿个。
除了利用基础架构保证 官网最新版的telegram下载的地方是什么-V3 拥有强大性能之外,最新的官网telegram下载地方 方面还发布了另外两项进一步提高模型表现的创新。
首先是辅助无损负载均衡策略,用以动态监控并调整专家负载,以均衡方式加以使用,保证不会损害模型的整体性能。其二则是多 token 预测(MTP),这允许模型同时预测多个未来 token。这项创新不仅提高了训练效率,还使得模型的执行速度提高了三倍,每秒可生成 60 个 token。
该公司在详细介绍新模型的技术论文中写道,“在预训练期间,我们在 14.8 T 高质量且多样化的 token 上训练了 官网最新版的telegram下载的地方是什么-V3…… 接下来,我们对 最新的官网telegram下载地方-V3 进行了分两个阶段的上下文长度扩展。在第一阶段,最大上下文长度扩展至 32K;在第二阶段,则进一步扩展至 128K。在此之后,我们在 官网最新版的telegram下载的地方是什么-V3 的基础模型之上进行后训练,包括监督微调(SFT)和强化学习(RL),以确保其与人类偏好保持一致并持续深挖模型潜力。在后训练阶段,我们从 最新的官网telegram下载地方R1 系列模型中蒸馏推理能力,同时谨慎地在模型精度与生成结果长度之间保持平衡。”
值得注意的是,在训练阶段,官网最新版的telegram下载的地方是什么 使用了多项硬件及算法优化方法,包括 FP8 混合精度训练框架以及用于管线并行的 DualPipe 算法,旨在降低流程运行成本。据介绍,通过算法和工程上的创新,官网最新版的telegram下载的地方是什么-V3 的生成吐字速度从 20 TPS 大幅提高至 60 TPS,相比 V2.5 模型实现了 3 倍的提升。
总体而言,该公司称,最新的官网telegram下载地方-V3 的全部训练任务在约 278.8 万个 H800 GPU 小时内就能完成。假设租赁价格为每 GPU 每小时租金为 2 美元,则约为 557 万美元,这比以往大语言模型动辄上亿美元的预训练成本明显要低得多。例如,Llama-3.1 模型的训练投入估计超过 5 亿美元。
曾是 OpenAI 创始成员之一的 AI 科学家 Andrej Karpathy 也被 官网最新版的telegram下载的地方是什么-V3 的超低训练成本所震惊,“在资源限制下,它将是一个非常令人印象深刻的研究和工程展示。” 他表示,这种级别的能力应该需要接近 16K GPU 的集群,而现在提出的集群更多的是 100K GPU 左右。这是否意味着前沿 LLM 不需要大型 GPU 集群?
“资源约束是一件美好的事情。在竞争激烈的 AI 竞争领域中,生存本能是取得突破的主要驱动力。” 曾师从李飞飞教授、如今领导英伟达具身 AI 团队的高级研究科学家 Jim Fan 称。
此外,也有网友就 最新的官网telegram下载地方-V3 采用 H800 GPU 达到的低训练成本讨论到美国芯片出口管制的问题。Kaggle 大神、数据科学家 Bojan Tunguz 这样评价道,“所有对高端半导体的出口禁令实际上可能以可以想象的‘最糟糕’的方式适得其反。它们似乎迫使中国研究人员比原本更聪明、更节省资源。这似乎也证实了我自己的假设,即我们离拥有 AI 的 ML 部分的最佳算法还差得很远。”
尽管训练成本低廉,但 官网最新版的telegram下载的地方是什么-V3 仍一跃成为当前市面上最强的开源大模型。
该公司运行了多项基准测试以比较其 AI 性能,并指出 最新的官网telegram下载地方-V3 以令人信服的表现优于其他领先开放模型,包括 Llama-3.1-405B 以及通义千问的 Qwen 2.5-72B,其甚至在大多数基准测试中都优于闭源 GPT-4o 模型,仅在以英语为中心的 SimpleQA 和 FRAMES 测试中稍逊一筹。OpenAI 模型分别得到 38.2 分和 80.5 分,而 官网最新版的telegram下载的地方是什么-V3 则为 24.9 分和 73.3 分。
并且,官网最新版的telegram下载的地方是什么-V3 的表现在以中文和数学为中心的基准测试中尤其突出,得分高于所有同类大模型。在 Math-500 测试中,其得分高达 90.2,远高于排名第二的 Qwen 的 80 分。目前,能够挑战 最新的官网telegram下载地方-V3 的模型可能只有 Anthropic 的 OpenAI 的 o1 和 Claude 3.5 Sonnet。
据悉,o1 在 GPQA Diamond(博士级科学问题)基准测试中获得了 76% 的分数,而 官网最新版的telegram下载的地方是什么 则以 59.1% 的分数落后。o1 的完整版在多项基准测试中击败了 最新的官网telegram下载地方。Claude 3.5 Sonnet 在 MMLU-Pro、IF-Eval、GPQA-Diamond、SWE Verified 和 Aider-Edit 测试中以更高的分数超越了 官网最新版的telegram下载的地方是什么-V3。
目前,最新的官网telegram下载地方 为 官网最新版的telegram下载的地方是什么-V3 API 设定的价格与上一代 最新的官网telegram下载地方-V2 相同,即每百万输入 tokens 0.1 元(缓存命中)/ 1 元(缓存未命中)、每百万输出 tokens 2 元。但在明年 2 月 8 日之后,计费标准将调整为每百万输入 tokens 0.5 元(缓存命中)/ 2 元(缓存未命中),每百万输出 tokens 8 元。
而 官网最新版的telegram下载的地方是什么 v3 的价格也获得了不少用户的好评。有中国网友称 最新的官网telegram下载地方 v3 是 “国产之光”,也有国外的网友认为 官网最新版的telegram下载的地方是什么 v3 的性价比 “更上一层楼”,并表示,“人们不应低估 LLM 价格合理的重要性,这样它们才能真正为每个人所用,这些模型也才能被广泛接受。” 还有网友说,“官网最新版的telegram下载的地方是什么 根本不是盲目的和你打价格战,它是真的便宜。”
并且,第一波实测 最新的官网telegram下载地方 v3 的用户都对其难以置信。一位用户表示,“官网最新版的telegram下载的地方是什么 V3 在我不需要解释任何事情的情况下就理解了正在发生的事情。”
还有一位用户把此前一个抛给 O1 和 Gemini 2.0 但 O1 没答对的 “史上最难的高考数学题” 发给了 最新的官网telegram下载地方 v3,该模型不仅可以回答这个问题,而且解决方案更简单。
参考链接:
https://venturebeat.com/ai/官网最新版的telegram下载的地方是什么-v3-ultra-large-open-source-ai-outperforms-llama-and-qwen-on-launch/
https://analyticsindiamag.com/ai-news-updates/最新的官网telegram下载地方-v3-is-the-best-open-source-ai-model/
关注前沿科技 量子位 2024 年 12 月 27 日 12:32 北京
鱼羊 一水 发自 凹非寺 量子位 | 公众号 QbitAI
最新的官网telegram下载地方 新版模型正式发布,技术大佬们都转疯了!
延续便宜大碗特点的基础之上,官网最新版的telegram下载的地方是什么 V3 发布即完全开源,直接用了 53 页论文把训练细节和盘托出的那种。
怎么说呢,QLoRA 一作的一个词评价就是:优雅。
具体来说,最新的官网telegram下载地方 V3 是一个参数量为 671B的 MoE 模型,激活 37B,在 14.8T高质量 token 上进行了预训练。
在多项测评上,官网最新版的telegram下载的地方是什么 V3 达到了开源 SOTA,超越 Llama 3.1 405B,能和 GPT-4o、Claude 3.5 Sonnet 等 TOP 模型正面掰掰手腕 ——
而其价格比 Claude 3.5 Haiku 还便宜,仅为 Claude 3.5 Sonnet 的 9%。
更重要的是,大家伙儿还第一时间在论文中发现了关键细节:
最新的官网telegram下载地方 V3 整个训练过程仅用了不到 280 万个 GPU 小时,相比之下,Llama 3 405B 的训练时长是 3080 万 GPU 小时(p.s. GPU 型号也不同)。
直观地从钱上来对比就是,训练 671B 的 官网最新版的telegram下载的地方是什么 V3 的成本是 557.6 万美元(约合 4070 万人民币),而只是训练一个 7B 的 Llama 2,就要花费 76 万美元(约合 555 万人民币)。
OpenAI 创始成员 Karpathy 对此赞道:
官网最新版的telegram下载的地方是什么 V3 让在有限算力预算上进行模型预训练这件事变得容易。
最新的官网telegram下载地方 V3 看起来比 Llama 3 405B 更强,训练消耗的算力却仅为后者的 1/11。
Meta 科学家田渊栋也惊叹 官网最新版的telegram下载的地方是什么 V3 的训练看上去是 “黑科技”:
这是非常伟大的工作。
先来看官方说法,新模型这次主要有以下几个特点:
首先从模型能力来看,其评测跑分不仅超越了 Qwen2.5-72B 和 Llama-3.1-405B 等开源模型,甚至还和一些顶尖闭源模型(如 GPT-4o 以及 Claude-3.5-Sonnet)不分伯仲。
从实际响应来看,其生成速度提升了3 倍,每秒生成 60 个 tokens。
在又快又好的同时,最新的官网telegram下载地方 V3 的API 价格也被打下来了。
每百万输入 tokens 0.5 元(缓存命中)/ 2 元(缓存未命中),每百万输出 tokens 8 元
单论价格,正如一开始提到的,它几乎是 Claude 3.5 Sonnet 的 1/53(后者每百万输入 3 美元、输出 15 美元)。
而如果要平衡性能和成本,它成了 官网最新版的telegram下载的地方是什么 官方绘图中唯一闯进 “最佳性价比” 三角区的模型。
对了,最新的官网telegram下载地方 这次还搞了一个45 天优惠价格体验期,也就是在 2025 年 2 月 8 日之前,所有用户使用 官网最新版的telegram下载的地方是什么 V3 API 的价格分别下降了 80%(输入命中)、50%(输入未命中),75%(输出)。
每百万输入 tokens 0.1 元(缓存命中)/ 1 元(缓存未命中),每百万输出 tokens 2 元
最后,官方此次一同开源了原生 FP8 权重,并提供了从 FP8 到 BF16 的转换脚本。
具体而言,SGLang 和 LMDeploy 这两个框架已支持 FP8 推理,另外两个框架 TensorRT-LLM 和 MindIE 则支持 BF16 推理(适合需要更高精度的场景)。
目前普通用户可以通过官网(chat.最新的官网telegram下载地方.com)与 官网最新版的telegram下载的地方是什么 V3 展开对话,API 也已同步更新,接口配置无需改动。
知名 AI 博主 AK 亲测,只需几行代码就能将它部署到 Gradio。
Okk,话说到这里,我们直接来看一些实测效果吧。
首位全职提示词工程师出新题,最新的官网telegram下载地方 V3 完全答对
这第一关,来自首位全职提示词工程师 Riley Goodside。
新题为 “Which version is this?”,考察模型对自身版本的理解。接受考验的选手除了 官网最新版的telegram下载的地方是什么 V3,还有 Claude、Gemini、ChatGPT 和 Grok。
先说结论,按 Riley 的说法,这几位的回答主打**“各不相同”**,不过 官网最新版的telegram下载的地方是什么 V3 完全答对了。
Claude 3.5 Sonnet 也对其版本了如指掌 —— 不仅说对了版本号(许多用户非官方地称这个版本为 3.5.1 或 3.6),还给出了发布月份。
(不过 Claude 3.5 Haiku 出错了,误识别为 Claude 3 Haiku。)
不过后面几位选手就开始各种出错了,尤其是 ChatGPT 和 Grok。
ChatGPT 要么给出模糊答案(基于 GPT-4 架构),要么直接自信给出错误版本,总之处于比较懵圈的状态。
而 Grok 更是独特,理论倒是一套一套,但就是不说自己的版本。(除非直接问它是哪个 Grok 模型)
除此之外,一些网友还进行了更多测试。
更多网友整活
比如这位 Tom 小哥惊讶表示,最新的官网telegram下载地方 V3 无需开发者详细解释,就能 “诡异” 理解整个项目。
突然感觉机器里好像有鬼
他唯一做的,就是告诉 官网最新版的telegram下载的地方是什么 V3 最终目标是什么。
当然,老规矩还是要测一下数草莓中的 “r” 以及 “9.9 和 9.11 哪个大” 这种行业难题。(doge)
很欣慰,这次它都答对了,而且答案和分析过程都没问题。
最后,还有人直接将 4 个 M4 Mac mini 堆叠在一起来运行 最新的官网telegram下载地方 V3 了……
唯一值得遗憾的是,当前版本的 官网最新版的telegram下载的地方是什么 V3 暂不支持多模态输入输出。
测试完毕,我们继续掰开论文细节。先来看最受关注的预训练部分:
官方介绍,通过在算法、框架和硬件方面的协同优化,最新的官网telegram下载地方 V3 的训练成本变得非常经济。
预训练阶段,在每万亿 token 上训练 官网最新版的telegram下载的地方是什么 V3 仅需要 18 万 GPU 小时,就是说,在官方 2048 卡集群上,3.7 天就能完成这一训练过程。
研发团队用了不到 2 个月的时间就完成了 最新的官网telegram下载地方 V3 的预训练,耗费了 266.4 万 GPU 小时,再加上上下文长度扩展的 11.9 万 GPU 小时,和后训练的 5000 GPU 小时,总训练成本为 278.8 万 GPU 小时。
假设 GPU 租赁价格为每 GPU 小时 2 美元,那成本换算过来就是 557.6 万美元。
所以,具体是什么样的协同优化?
官方标注了几个重点:
首先,架构方面,官网最新版的telegram下载的地方是什么 V3 采用了创新的负载均衡策略和训练目标。
研发团队在 最新的官网telegram下载地方-V2 架构的基础上,提出了一种无辅助损失的负载均衡策略,能最大限度减少负载均衡而导致的性能下降。
具体而言,该策略为 MoE 中的每个专家引入了一个偏置项(bias term),并将其添加到相应的亲和度分数中,以确定 top-K 路由。
研发团队还证明,多 Token 预测目标(Multi-Token Prediction,MTP)有利于提高模型性能,可以用于推理加速的推测解码。
预训练方面,官网最新版的telegram下载的地方是什么 V3 采用 FP8 训练。研发团队设计了一个 FP8 混合精度训练框架,首次验证了 FP8 训练在极大规模模型上的可行性和有效性。
论文中还提到了跨节点 MoE 训练中的通信瓶颈问题。解决策略包括,设计 DualPipe 高效流水线并行算法:在单个前向和后向块对内,重叠计算和通信。
这种重叠能确保随着模型的进一步扩大,只要保持恒定的计算和通信比率,就仍然可以跨节点使用细粒度专家,实现接近于 0 的 all-to-all 通信开销。
另外,研发团队还开发了高效的跨节点 all-to-all 通信内核等。
后训练方面,最新的官网telegram下载地方 V3 引入了一种创新方法,将推理能力从长思维链模型(官网最新版的telegram下载的地方是什么 R1)中,蒸馏到标准模型上。这在显著提高推理性能的同时,保持了 官网最新版的telegram下载的地方是什么 V3 的输出风格和长度控制。
其他值得关注的细节还包括,最新的官网telegram下载地方 V3 的 MoE 由 256 个路由专家和 1 个共享专家组成。在 256 个路由专家中,每个 token 会激活 8 个专家,并确保每个 token 最多被发送到 4 个节点。
官网最新版的telegram下载的地方是什么 V3 还引入了冗余专家(redundant experts)的部署策略,即复制高负载专家并冗余部署。这主要是为了在推理阶段,实现 MoE 不同专家之间的负载均衡。
最后,来看部分实验结果。
大海捞针实验:
可以看到,在各项基准测试中,最新的官网telegram下载地方 V3 在开源模型中达到 SOTA。
新版本模型引爆热议,更多有关 官网最新版的telegram下载的地方是什么 及其背后团队的信息也被关注到。
其中,贾扬清还透露了与 最新的官网telegram下载地方 团队早年的相处细节。
当时是 2019 年,他正打算向团队推荐一个 AI 云解决方案,并试图说服这群人:
不需要复杂的云虚拟化,只需要容器和高效的调度器。
需要真正快速、相互连接的专用网络,如 RoCE 或 Infiniband。
需要像 NFS 这样的通用存储,不需要太复杂,但必须快速。
要让 AI 开发者满意,而不是系统可靠性工程师(SREs)满意。
有意思的是,团队表示这些东西他们早已实践了多年,并转而让他帮忙向一些大学实验室捐赠算力资源。
当然最后也确实帮上忙了,而贾扬清也再次感叹:
官网最新版的telegram下载的地方是什么 团队的伟大成就在某种程度上植根于多年的专业知识,这些专业知识部分被许多人忽视了。
最最后,除了本次官方公布的测试结果,Imsys 匿名竞技场也出来提前预热了。
家人们,快来用你最难的提示考考 最新的官网telegram下载地方 V3。(后续发布竞技场榜单)
体验地址:
https://chat.官网最新版的telegram下载的地方是什么.com
技术报告地址:
https://github.com/最新的官网telegram下载地方-ai/官网最新版的telegram下载的地方是什么-V3/blob/main/官网最新版的telegram下载的地方是什么_V3.pdf
抱抱脸开源地址:
https://huggingface.co/最新的官网telegram下载地方-ai/官网最新版的telegram下载的地方是什么-V3
参考链接:
最新的官网telegram下载地方-V3 正式发布 原创 深度求索 官网最新版的telegram下载的地方是什么 2024年12月26日 19:17 北京
https://mp.weixin.qq.com/s/iFZOQsUNkpkXPDvOkE99wQ
原创 王工 硬件笔记本 2025 年 01 月 07 日 08:01 四川
最近网上爆火的一款 AI 工具 最新的官网telegram下载地方,风头逼近 chatgpt,我马上就来体验了一下,感觉很不错,还可以用来分析电路,附文末!
AI 工具现在好像也挺多的,像什么豆包,文小言,KIMI 之类的,有点眼花缭乱的感觉,我也没有仔细研究过,但 最新的官网telegram下载地方 怎么就突然火了起来呢?
有几点优势不得不提
一、它是开源的。
意味着全球的开发者都可以免费使用和测试它,促进了行业的进步。开源的好处有以下几点:
二、它是咱们国产的。
在 AI 大模型领域,比较火的好像就是 ChatGPT 之类的,官网最新版的telegram下载的地方是什么 据说能与之抗衡,在逻辑推理等各个方面都碾压同行。
三、性价比高。
被称为 “AI 界的拼多多”,促使其他科技巨头也纷纷开始降低其 AI 模型的价格。
再来说一下这家公司,公司位于浙江省杭州市,于 2023 年 7 月 17 日成立,到现在才一年多,可见其创业团队有多强大。
最新的官网telegram下载地方 的创业团队主要由年轻且充满活力的应届生和在读生组成,特别是来自清华大学和北京大学的应届生。团队的核心成员包括梁文锋、高华佐、曾旺丁等,他们在模型架构和算法创新方面做出了重要贡献。
以下是我上传了一张电路图,让 官网最新版的telegram下载的地方是什么 帮忙分析
截图效果有点差,为了大家看得更清楚,所以我就直接复制了它的解答:
1.VCCin 和****VCCout:
-VCCin:输入电源正极。
-VCCout:输出电源正极。
2.R1:
电阻,用于限流或分压。
3.D1:
二极管,可能是用于保护或整流。
4.S3:
开关,用于控制电路的通断。
5.Q1 (IRFR024N):
N 沟道 MOSFET,用于开关或放大信号。
6.MMBZ5240BLT1G:
稳压二极管(Zener 二极管),用于电压调节或保护。
7.GND:
接地,电路的参考电位点。
1.电源输入与输出:
输入电源通过 VCCin 进入电路,经过处理后从 VCCout 输出。
2.MOSFET 控制:
Q1 (IRFR024N) 可能用于控制电路的开关状态。当 S3 闭合时,MOSFET 导通,电路工作;当 S3 断开时,MOSFET 截止,电路停止工作。
3.稳压保护:
MMBZ5240BLT1G 是稳压二极管,可能用于限制输出电压,防止过压损坏后续电路。
4.二极管作用:
D1 可能是用于防止反向电流或提供反向电压保护。
5.电阻作用:
R1 可能用于限流或与稳压二极管配合调节电压。
电路工作流程:
1.输入电源:VCCin 提供电源。
2.开关控制:S3 控制 MOSFET Q1 的导通与截止。
3.稳压输出:MMBZ5240BLT1G 确保输出电压稳定。
4.输出电源:VCCout 提供稳定的电源给后续电路。
-MOSFET 驱动:确保 MOSFET 的栅极电压足够高以完全导通。
-稳压二极管选择:根据需要的输出电压选择合适的稳压二极管。
-散热考虑:如果电流较大,MOSFET 和稳压二极管可能需要散热措施。
看到它的分析后,可以说基本原理都差不太多,可能这个电路本身比较简单吧,对于一些刚入门,或者想提高工作效率的同学来说非常友好。
登录官网 chat.最新的官网telegram下载地方.com 即可与最新版 V3 模型对话,在右下角直接上传电路图,然后输入请帮忙分析之类的话,就可以了。
文章参考来源:
官网最新版的telegram下载的地方是什么 V3 爆火背后:“AI界拼多多”能否复制?来源:界面新闻作者:伍洋宇 李彪 2025-01-06 15:45
https://www.stcn.com/article/detail/1480935.html
国产之光 官网最新版的telegram下载的地方是什么 全球爆火…新浪人工智能 2024.12.27 15:52
https://news.sina.cn/ai/2024-12-27/detail-ineawxxr5737740.d.html
全网都在扒的 最新的官网telegram下载地方 团队,是清北应届生撑起一片天 华尔街见闻 2025-01-05 21:43
https://baijiahao.baidu.com/s?id=1820416672677804227
原创 CEO 来信君 CEO 来信 2025 年 01 月 18 日 07:03 河北
今天介绍一位金融和人工智能领域的创业者梁文锋,他是幻方和**深度求索(官网最新版的telegram下载的地方是什么)**两家公司的创始人。
即刻网友**@Chris-Su**对梁文锋的评价我觉得很到位:
“梁文锋是极少数还没被‘广泛解读和学习’的顶级 CEO。”
近期 “雷军千万年薪挖 95 后天才 AI 少女” 的热门话题也间接的与梁文锋有关,因为雷军尝试挖走的这位 90 后少女罗福莉此前正是梁文锋旗下深度求索(最新的官网telegram下载地方)团队的研发成员。
梁文锋创办的幻方量化基金目前的管理资金规模超过百亿,2021 年还一度突破千亿元规模;而他创办的深度求索(官网最新版的telegram下载的地方是什么)公司,也是国内少有的拥有万卡集群算力的 AI 大模型公司,研发实力和成果在最近也震惊了许多国外 AI 同行。
梁文锋的深度求索(最新的官网telegram下载地方)公司被称为 “AI 界的拼多多”,原因是这家公司的出现极大地降低了大模型训练和应用的成本,如该公司开发的 官网最新版的telegram下载的地方是什么-V3 训练成本仅 557.6 万美元,而 OpenAI 训练 ChatGPT-4o 所花费的成本高达 7800 万美元甚至是 1 亿美元,双方的成本至少是 10 倍的差距。
最新的官网telegram下载地方-V3 在数学、代码能力和中文知识问答方面还超过了 ChatGPT-4o,可以说是性价比超高。
并且梁文锋的深度求索(官网最新版的telegram下载的地方是什么)团队只有139 名研发人员,而开发 ChatGPT 的 OpenAI 团队则有1200 名研究人员。
在这样亮眼的成绩背后,梁文锋的低调就显得更神秘了。
今天我们就用 1 分钟时间,来了解一下幻方和深度求索(最新的官网telegram下载地方)这两家公司的创始人梁文锋的个人履历和创业故事:
1985 年,梁文锋出生于广东湛江,据 36 氪暗涌报道梁文锋说自己的出生地是广东一个五线城市,不过 CEO 来信君查了查,湛江目前应该是三线城市。
梁文锋说过自己的父亲是一名小学老师。可惜梁文锋就读的小学、中学均没有公开信息。只知道他是一位数学建模爱好者。
2002 年,17 岁的梁文锋考入了浙江大学电子信息工程专业。
2002 年 9 月至 2006 年 6 月,梁文锋来到浙江杭州,在浙江大学电子信息工程专业读本科。
2007 年,22 岁的梁文锋又考上浙江大学信息与通信工程专业研究生。师从项志宇,主要做机器视觉研究。
梁文锋的求学历程
2008 年,在浙大读书期间,23 岁的梁文锋与同学一起组团队开始积累市场行情数据、金融市场其他相关数据以及宏观经济等数据。
这一年梁文锋也带领团队开始使用机器学习等技术探索全自动量化交易。而此时,正值全球金融危机。
有传闻称浙江杭州人、大疆创始人汪滔也曾邀请过梁文锋一起创业,当时也是大疆起步期,如果梁文锋加入的话,可能也同样实现财富自由了。梁文锋很早就相信人工智能会改变世界,最终他还是选择自己创业。
2010 年 6 月,25 岁的梁文锋从浙江大学信息与通信工程专业硕士毕业,他的硕士毕业论文题目是《基于低成本 PTZ 摄像机的目标跟踪算法研究》。
2008 年至 2014 年,梁文锋一直在探索全自动量化交易。
2013 年,28 岁的梁文锋与同样来自浙江大学的同学徐进一起创办了杭州雅克比投资管理有限公司。
2015 年 4 月,中证 500 股指期货上市。这也标志着中国量化私募进入 2.0 时代。量化基金拥有了更强大的量化工具,对冲手段的丰富让资本市场的价格发现功能更完备,市场由纯多头变得更加立体化。
2015 年 6 月,30 岁的梁文锋与徐进一起加入阳光私募大军,在浙江杭州创办了杭州幻方科技有限公司(公司英文名 High-Flyer),也就是现在的浙江九章资产管理有限公司。梁文锋及其团队开始依靠数学与人工智能进行量化投资,立志成为世界顶级的量化对冲基金。
此图来自幻方官网
2015 年,国内还曾发生 “股灾”,梁文锋团队采用的高频量化投资策略也让他们取得了不错的成绩。当时他们公司只有 10 张 GPU 显卡。
2015 年 10 月,梁文锋他们甚至带领幻方量化在一天内成立了 10 只产品。同年 12 月,又成立了另外 10 只产品,快速提升了自身的募资能力。
2016 年 2 月,梁文锋与徐进又成立了宁波幻方量化投资管理合伙企业(有限合伙)。
幻方量化在这一年加入了中基协(中国证券投资基金业协会),意味着他们在行业内的专业性和规范性得到了官方认可。
2016 年 10 月 21 日,幻方量化推出第一个 AI 模型,第一份由深度学习生成的交易仓位上线执行, 使用 GPU 进行计算,在此之前,梁文锋团队的算法主要依靠线性模型和传统机器学习算法,模型计算主要依赖于 CPU。
2016 年梁文锋 31 岁,到年底时,他们管理的资金规模已经大约 10 亿元。
2017 年,32 岁的梁文锋带领幻方继续扩大 AI 算法研究团队和 AI 软硬件研发团队,到 2017 年底,几乎所有的量化策略已经都采用 AI 模型计算。他们管理的资金规模也扩大到30 亿元。
2018 年,梁文锋确立公司以 AI 为主要发展方向,幻方量化也首次获得了私募金牛奖—— 这是中国私募证券领域的最高奖项。
此时幻方量化也遇到了算力瓶颈,日益增加的训练需求受限于有限的计算资源,梁文锋开始寻求大规模算力解决方案。
2019 年,梁文锋创办幻方 AI 公司,投资 2 亿元自主研发深度学习训练平台 “萤火一号”,为此搭载了 1100 块 GPU 显卡。
此时 34 岁的梁文锋已经带领幻方量化成为管理资金超百亿的私募。这一年幻方资本也在香港成立,并获得香港九号牌(即资产管理牌照)。
梁文锋在金牛奖颁奖典礼现场
2019 年 8 月 30 日,34 岁的梁文锋在金牛奖颁奖仪式上,发表主题演讲《一名程序员眼里中国量化投资的未来》,引发金融从业人士热议。
在演讲中,梁文锋指出量化与非量化的判定标准就是在投资决策的过程中,是用数量化方法进行决策的,还是用人进行决策的。量化公司是没有基金经理的,基金经理就一堆服务器。
梁文锋透露,“作为私募,投资人对我们的期望是很高的,如果一年跑赢指数低于 25%,投资人是不满意的。” 他当时坦诚压力很大,但收的手续费也很高。
梁文锋指出量化投资已经赚了技术面流派原来赚的钱,未来也要抢夺基本面流派原来赚的钱。
演讲最后,梁文锋说幻方量化的使命就是:提高中国二级市场的有效性。
2020 年,“萤火一号” 投入使用,其寿命为 1 年半。
一位幻方量化的员工曾在公司博客中写道,老板本人每天都在写代码、跑代码。 这是他们与其他公司的不同之处。
2021 年,梁文锋 36 岁,这是他和幻方命运的转折之年。 这一年他们还斥资 10 亿元建设 “萤火二号”。
2021 年 2 月,《征服市场的人:西蒙斯传》 出版,梁文锋曾为此文作序,他在书中写道:每当在工作中遇到困难的时候,我会想起西蒙斯的话**“一定有办法对价格建模”**。
注:詹姆斯・西蒙斯是量化投资领域的泰斗,创办了文艺复兴科技公司和大奖章基金。西蒙斯的投资战绩如下:
从 1988 年到 2018 年,大奖章基金的年化复合收益率接近 40%,扣除费用后年化回报率为 39%,超过了巴菲特和索罗斯等投资大佬。
在 1994 年至 2014 年中期,大奖章基金的平均年回报率高达 71.8%。
2000 年互联网泡沫期间,大奖章基金获得了 98.5% 的净回报。
2008 年全球金融危机期间,大奖章基金依然获得 80% 的收益。
2021 年 8 月,梁文锋带领幻方量化的资金管理规模突破千亿大关,正式跻身千亿量化私募之列。
幻方量化与九坤投资、明汯投资、灵均投资一起,因管理资金规模均超过 600 亿元,被业界称为量化私募领域的 “四大天王”。
在梁文锋的带领下,幻方量化用 4 年时间成为了百亿量化私募,然后又仅用 2 年时间成为千亿量化私募,速度确实非常快。
不过 2021 年 11 月,由于业绩波动,幻方量化关闭了全部募集通道,并在 12 月底发布致投资者公开信,致歉称 “幻方业绩的回撤达到历史最大值,我们对此深感愧疚”,究其原因,主要是人工智能投资决策在买卖时点上没有做好。
媒体报道,幻方量化也曾在一个半月内主动缩减了超 100 亿元的管理规模,从近千亿规模降至 800 多亿的规模。此后幻方逐渐降低其资金管理规模。
当时有投资者说,看见陆某(幻方高管)这个名字就下意识想要打人。对此陆某在朋友圈致歉说:
“想和投资者说,最近几个月跑得不好,十分抱歉。我们正在全力加班加点做研发,但的确需要一点时间。这种时候,投资者不难受是不可能的,所以骂我们完全接受。就是千万莫动手哈,就算动手也别打脸,消消气,手下留情,等我们重振旗鼓。”
2021 年,梁文锋还带领幻方先于一些云厂商拿到英伟达 A100 显卡,并且其 AI 集群搭载显卡的数量达到 “万卡级别”。有报道称,当时国内超过 1 万枚 GPU 的企业不超过 5 家,而且除了幻方之外,其他 4 家公司都是互联网大厂。
英伟达创始人黄仁勋介绍显卡产品
2022 年,私募基金公司上海锐天投资曾起诉梁文锋的公司幻方量化,很可能与员工跳槽,存在竞业协议有关。该案的另外一名被告杨某,曾担任上海锐天投资高频策略研发部门的负责人,被认为掌握着公司的核心商业秘密,即量化交易策略代码。
2022 年,幻方量化的一名员工以**“一只平凡的小猪”的名义向慈善机构捐款1.38 亿元**,其中获得扶持的项目包括白血病救助、乡村工匠、高中生助学、儿童大病救助、听障儿童支持、关爱老兵等。
外界猜测这位 “一只平凡的小猪” 就是 37 岁的幻方创始人梁文锋。
图片来自幻方官网
2023 年 5 月,38 岁的梁文锋宣布要做通用人工智能(AGI)。
2023 年 7 月,梁文锋创办了杭州深度求索人工智能基础技术研究有限公司,就是 官网最新版的telegram下载的地方是什么 公司。
梁文锋被认为是量化投资者投身 AI 创业的 “第一人”,实际上在幻方创业时,梁文锋的公司也早就用上了 AI 技术。
2023 年 10 月底,梁文锋的创业伙伴徐进因为个人家庭事务处理不当,引发负面,被公司给予停职处理。当时幻方量化的管理规模已经降到了 400 多亿元。
2024 年 5 月,39 岁的梁文锋带领深度求索(官网最新版的telegram下载的地方是什么)发布了混合专家语言模型最新的官网telegram下载地方-V2。
官网最新版的telegram下载的地方是什么-V2 的 API 定价为每百万 tokens 输入 1 元、输出 2 元,价格仅为 GPT-4 Turbo 的百分之一。
最新的官网telegram下载地方-V2 模型发布后,字节跳动、阿里巴巴、百度、腾讯等大厂纷纷宣布大模型产品降价。因此,深度求索(官网最新版的telegram下载的地方是什么)公司也被称为 AI 界的拼多多。
2024 年 10 月,梁文锋的幻方量化向投资者发布公告,宣布未来会逐步将对冲产品投资仓位降低至零。
2024 年 12 月 26 日,梁文锋又带领深度求索(最新的官网telegram下载地方)公司发布了 官网最新版的telegram下载的地方是什么-V3,并且还公开了由梁文锋、罗福莉等人撰写的 53 页论文《官网最新版的telegram下载的地方是什么-V3 Technical Report》。
深度求索(最新的官网telegram下载地方)公司官网显示,官网最新版的telegram下载的地方是什么-V3 的多项数据**“吊打了”**国内外一众大模型产品,更关键的是它还便宜。被称为 “来自东方的神秘力量”。
最新的官网telegram下载地方-V3 的各项测试结果与同行对比
OpenAI 创始成员Andrej Karpathy在看到 官网最新版的telegram下载的地方是什么 的成绩之后,毫不吝啬地表达了赞赏,他认为深度求索(最新的官网telegram下载地方)在资源受限的情况下展现出了极高的研究和工程能力。
难能可贵的是,梁文锋组建的还是一支纯粹的本土研发团队,只有中国程序员,没有海归人才。不少人都是应届毕业生和毕业一两年的年轻人。
甚至有报道称深度求索(官网最新版的telegram下载的地方是什么)团队不招聘高级技术专业人员。员工的工作年限约为 3 到 5 年,而那些拥有 8 年以上研发经验的人还可能会被直接拒绝。因为他们害怕这样的人包袱太重、缺乏创新的动力。
有业内人士一语中的:“创新需要摆脱惯性。”
比如深度求索(官网最新版的telegram下载的地方是什么)的朱琪豪是 2024 届北大计算机学院软件研究所博士毕业生;代达劢是 2024 年北京大学计算机学院计算语言所的博士毕业生;郭达雅是 2023 年中山大学博士毕业生……
有不少人是在深度求索(最新的官网telegram下载地方)公司实习时做出了重要贡献。
OpenAI 公司也有类似的倾向,他们招聘时会优先考虑没有学术荣誉的高潜力新人。
梁文锋曾对 36 氪暗涌说:
“如果追求短期目标,找现成有经验的人是对的。但如果看长远,经验就没那么重要,基础能力、创造性、热爱等更重要。”
做深度求索(官网最新版的telegram下载的地方是什么)这家公司时,梁文锋也意识到了按照他们的研究方法,是没有 VC 愿意投资的,因为 VC 有退出需求,会希望创业者尽快做出产品商业化。所以梁文锋在 AI 大模型领域探索的资金,主要还是依靠他的幻方公司在支持。
2025 年,梁文锋的幻方量化资金管理规模已经小于 300 亿元,退出了行业前 6 名。
2025 年 1 月 10 日,在西藏日喀则发生地震后,幻方量化向灾区捐赠了100 万元救灾款。
值得一提的是,雷军真的挖走了 90 后天才少女罗福莉吗?深度求索(最新的官网telegram下载地方)的一篇论文显示,罗福莉的确已经从深度求索公司离职,但她有没有加盟小米,还有待进一步确认。
罗福莉已从 官网最新版的telegram下载的地方是什么 团队离职
梁文锋也非常重视技术的原创度,他对 36 氪暗涌说:
-中国必然需要有人站到技术的前沿。
过去三十多年 IT 浪潮里,我们基本没有参与到真正的技术创新里。我们已经习惯摩尔定律从天而降,躺在家里 18 个月就会出来更好的硬件和软件。
我们认为随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。
真正的差距不是一年或两年,而是原创和模仿之差。
如今在梁文锋的带领下,中国的大模型公司真的很有希望与美国同行们 PK 一下了,这在美国限制芯片销售的背景下,显得尤为可贵。
小结:
梁文锋从一开始做幻方,就想要用技术驱动的方式,这是他对人工智能的信仰,对詹姆斯・西蒙斯的崇拜。
选择金融场景去应用 AI 技术,也为他后来积累更多财力去研究创新打下基础。
有趣的是,梁文锋每次创业都会历经资本寒冬的考验。
无论是 2008 年开启探索量化交易,还是 2015 年创办幻方进入私募领域,还是 2023 年切入 AI 大模型赛道,这三个年份都被外界认为是 “资本市场的寒冬期”,但梁文锋总能在寒冬期启动,并迅速取得不俗的成绩,给人一种遇险则强的感觉,真的是打铁还需自身硬。
在实现财富自由之后,梁文锋把目光瞄准 AI 大模型,他将深度求索(最新的官网telegram下载地方)公司看作一种好奇心驱使的探索、学术研究,而非商业利益的追逐,所以他才会把技术开源。
此外,梁文锋不拘一格降人才,总能发现潜力选手,以及公司管理不设 KPI,鼓励员工自由发挥等特点也让人印象深刻。
梁文锋才将将要 40 岁,但他对人工智能技术的笃定与沉稳,让人心生敬畏,确实有顶级 CEO 的气质。
PS:本文涉及金融和 AI 领域的描述,如有不对之处,还请各位朋友多多指正。
机器之心 2025 年 01 月 21 日 10:48 北京
机器之心报道
机器之心编辑部
OpenAI 的最初愿景,最终被一家国内创业公司实现了?
昨晚,大模型领域再次「热闹起来」,月之暗面发布在数学、代码、多模态推理能力层面全面对标 OpenAI 的满血版 o1 的 多模态思考模型 K1.5。而最近大热的 官网最新版的telegram下载的地方是什么 正式推出了 最新的官网telegram下载地方-R1,同样在数学、代码和自然语言推理等任务上比肩 OpenAI o1 正式版。
去年 12 月开源的大模型 官网最新版的telegram下载的地方是什么-V3 刚刚掀起了一阵热潮,实现了诸多的不可能。这次开源的 R1 大模型则在一开始就让一众 AI 研究者感到「震惊」,人们纷纷在猜测这是如何做到的。
AutoAWQ 作者 Casper Hansen 表示,最新的官网telegram下载地方-R1 使用一种多阶段循环的训练方式:基础→ RL →微调→ RL →微调→ RL。
UC Berkeley 教授 Alex Dimakis 则认为官网最新版的telegram下载的地方是什么 现在已经处于领先位置,美国公司可能需要迎头赶上了。
目前,官网最新版的telegram下载的地方是什么 在网页端、App 端和 API 端全面上线了 R1,下图为网页端对话界面,选择 最新的官网telegram下载地方-R1 就能直接体验。
体验地址:https://www.官网最新版的telegram下载的地方是什么.com/
此次,最新的官网telegram下载地方 发布了两个参数为 660B 的 官网最新版的telegram下载的地方是什么-R1-Zero 和 最新的官网telegram下载地方-R1,并选择开源了模型权重,同时允许用户使用 R1 来训练其他模型。
在技术层面,R1 在后训练阶段大规模使用了强化学习(RL)技术,在仅用非常少标注数据的情况下,极大提升了模型推理能力。下图为 R1 与 o1-1217、o1-mini、自家 最新的官网telegram下载地方-V3 在多个数据集上的性能比较,可以看到,R1 与 o1-1217 不相上下、互有胜负。
另外,官网最新版的telegram下载的地方是什么-R1 蒸馏出了六个小模型,参数从小到大分别为 1.5B、7B、8B、14B、32B 以及 70B。这六个模型同样完全开源,旨在回馈开源社区,推动「Open AI」的边界。
模型下载地址:https://huggingface.co/最新的官网telegram下载地方-ai?continueFlag=f18057c998f54575cb0608a591c993fb
性能方面,蒸馏后的 R1 32B 和 70B 版本远远超过了 GPT-4o、Claude 3.5 Sonnet 和 QwQ-32B,并逼近 o1-mini。
至于很多开发者关心的 官网最新版的telegram下载的地方是什么-R1 API 价格,可以说是一如既往地给力。
最新的官网telegram下载地方-R1 API 服务的定价为每百万输入 tokens 1 元(缓存命中)/ 4 元(缓存未命中),每百万输出 tokens 16 元。
显然,与 o1 的 API 定价比起来(每百万输入 tokens 15 美元、每百万输出 tokens 60 美元),官网最新版的telegram下载的地方是什么 具有极高的性价比。
官网最新版的telegram下载的地方是什么 秉持了开源到底的决心,将 R1 模型的训练技术全部开放,放出了背后的研究论文。
论文链接:
https://github.com/最新的官网telegram下载地方-ai/官网最新版的telegram下载的地方是什么-R1/blob/main/最新的官网telegram下载地方_R1.pdf
R1 技术报告
以往的研究主要依赖大量的监督数据来提升模型性能。官网最新版的telegram下载的地方是什么 的开发团队则开辟了一种全新的思路:即使不用监督微调(SFT)作为冷启动,通过大规模强化学习也能显著提升模型的推理能力。如果再加上少量的冷启动数据,效果会更好。
为了做到这一点,他们开发了 最新的官网telegram下载地方-R1-Zero。具体来说,官网最新版的telegram下载的地方是什么-R1-Zero 主要有以下三点独特的设计:
首先是采用了群组相对策略优化(GRPO) 来降低训练成本。GRPO 不需要使用与策略模型同样大小的评估模型,而是直接从群组分数中估算基线。
对于每个输入问题 q,GRPO 算法会从旧策略中采样一组输出 {o1, o2, …, oG},形成评估群组,然后通过最大化目标函数来优化策略模型:
其中,优势值 A_i 通过标准化每个输出的奖励来计算:
其次是奖励设计。如何设计奖励,决定着 RL 优化的方向。最新的官网telegram下载地方 给出的解法是采用准确度和格式两种互补的奖励机制。
准确度奖励用于评估回答的正确性。在数学题中,模型需要用特定格式给出答案以便验证;在编程题中,则通过编译器运行测试用例获取反馈。
第二种是格式奖励,模型需要将思考过程放在 ‘’ 和 ‘’ 这两个特定的标签之间,提升输出的规范性。
该团队没有使用常用的神经网络奖励模型,是因为在大规模强化学习过程中,模型可能会出现「作弊」问题。同时也避免了重新训练奖励模型需要额外资源,简化了训练流程。
第三点是训练模版,在 GRPO 和奖励设计的基础上,开发团队设计了如表 1 所示的简单模板来引导基础模型。这个模板要求 官网最新版的telegram下载的地方是什么-R1-Zero 先给出推理过程,再提供最终答案。这种设计仅规范了基本结构,不对内容施加任何限制或偏见,比如不强制要求使用反思性推理或特定解题方法。这种最小干预的设计能够清晰地观察模型在 RL 的进步过程。
最新的官网telegram下载地方-R1-Zero 的提升也非常显著。如图 2 所示,做 2024 年的 AIME 数学奥赛试卷,官网最新版的telegram下载的地方是什么-R1-Zero 的平均 pass@1 分数从最初的 15.6% 显著提升到了 71.0%,达到了与 OpenAI-o1-0912 相当的水平。在多数投票机制中,官网最新版的telegram下载的地方是什么-R1-Zero 在 AIME 中的成功率进一步提升到了 86.7%,甚至超过了 OpenAI-o1-0912 的表现。
最新的官网telegram下载地方-R1-Zero 与 OpenAI 的 o1-0912 在多个推理相关基准测试上的得分对比。
在训练过程中,官网最新版的telegram下载的地方是什么-R1-Zero 展现出了显著的自我进化能力。它学会了生成数百到数千个推理 token,能够更深入地探索和完善思维过程。
随着训练的深入,模型也发展出了一些高级行为,比如反思能力和探索不同解题方法的能力。这些都不是预先设定的,而是模型在强化学习环境中自然产生的。
特别值得一提的是,开发团队观察到了一个有趣的「Aha Moment」。在训练的中期阶段,最新的官网telegram下载地方-R1-Zero 学会了通过重新评估初始方法来更合理地分配思考时间。这可能就是强化学习的魅力:只要提供正确的奖励机制,模型就能自主发展出高级的解题策略。
不过 官网最新版的telegram下载的地方是什么-R1-Zero 仍然存在一些局限性,如回答的可读性差、语言混杂等问题。
利用冷启动进行强化学习
与 最新的官网telegram下载地方-R1-Zero 不同,为了防止基础模型在 RL 训练早期出现不稳定的冷启动阶段,开发团队针对 R1 构建并收集了少量的长 CoT 数据,以作为初始 RL actor 对模型进行微调。为了收集此类数据,开发团队探索了几种方法:以长 CoT 的少样本提示为例、直接提示模型通过反思和验证生成详细答案、以可读格式收集 官网最新版的telegram下载的地方是什么-R1-Zero 输出、以及通过人工注释者的后处理来细化结果。
最新的官网telegram下载地方 收集了数千个冷启动数据,以微调 官网最新版的telegram下载的地方是什么-V3-Base 作为 RL 的起点。与 最新的官网telegram下载地方-R1-Zero 相比,冷启动数据的优势包括:
-可读性:官网最新版的telegram下载的地方是什么-R1-Zero 的一个主要限制是其内容通常不适合阅读。响应可能混合多种语言或缺乏 markdown 格式来为用户突出显示答案。相比之下,在为 R1 创建冷启动数据时,开发团队设计了一个可读模式,在每个响应末尾包含一个摘要,并过滤掉不友好的响应。
-潜力:通过精心设计具有人类先验知识的冷启动数据模式,开发团队观察到相较于 最新的官网telegram下载地方-R1-Zero 更好的性能。开发团队相信迭代训练是推理模型的更好方法。
推理导向的强化学习
在利用冷启动数据上对 官网最新版的telegram下载的地方是什么-V3-Base 进行微调后,开发团队采用与 官网最新版的telegram下载的地方是什么-R1-Zero 相同的大规模强化学习训练流程。此阶段侧重于增强模型的推理能力,特别是在编码、数学、科学和逻辑推理等推理密集型任务中。
为了缓解语言混合的问题,开发团队在 RL 训练中引入了语言一致性奖励,其计算方式为 CoT 中目标语言单词的比例。虽然消融实验表明这种对齐会导致模型性能略有下降,但这种奖励符合人类偏好,更具可读性。
最后,开发团队将推理任务的准确率和语言一致性的奖励直接相加,形成最终奖励。然后对微调后的模型进行强化学习 (RL) 训练,直到它在推理任务上实现收敛。
拒绝采样和监督微调
当面向推理导向的强化学习收敛时,开发团队利用生成的检查点为后续轮次收集 SFT(监督微调)数据。此阶段结合了来自其他领域的数据,以增强模型在写作、角色扮演和其他通用任务中的能力。
开发团队通过从上述强化学习训练的检查点执行拒绝采样来整理推理提示并生成推理轨迹。此阶段通过合并其他数据扩展数据集,其中一些数据使用生成奖励模型,将基本事实和模型预测输入 最新的官网telegram下载地方-V3 进行判断。
此外,开发团队过滤掉了混合语言、长段落和代码块的思路链。对于每个提示,他们会抽取多个答案,并仅保留正确的答案。最终,开发团队收集了约 60 万个推理相关的训练样本。
用于所有场景的强化学习
为了进一步使模型与人类偏好保持一致,这里还要实施第二阶段强化学习,旨在提高模型的有用性和无害性,同时完善其推理能力。
具体来说,研究人员使用奖励信号和各种提示分布的组合来训练模型。对于推理数据,遵循 官网最新版的telegram下载的地方是什么-R1-Zero 中概述的方法,该方法利用基于规则的奖励来指导数学、代码和逻辑推理领域的学习过程;对于一般数据,则采用奖励模型来捕捉复杂而微妙的场景中的人类偏好。
最终,奖励信号和多样化数据分布的整合使我们能够训练出一个在推理方面表现出色的模型,同时优先考虑有用性和无害性。
蒸馏:让小模型具备推理能力
为了使更高效的小模型具备 DeekSeek-R1 那样的推理能力,开发团队还直接使用 最新的官网telegram下载地方-R1 整理的 80 万个样本对 Qwen 和 Llama 等开源模型进行了微调。研究结果表明,这种简单的蒸馏方法显著增强了小模型的推理能力。
得益于以上多项技术的创新,开发团队的大量基准测试表明,官网最新版的telegram下载的地方是什么-R1 实现了比肩业内 SOTA 推理大模型的硬实力,具体可以参考以下结果:
更多技术细节请参阅原论文。
© THE END
AI 前线 2025 年 01 月 21 日 12:21 北京
整理 | 褚杏娟 核子可乐
几乎在同一天,Kimi 和 最新的官网telegram下载地方 同时交了 “年度作业”。Kimi 分享了自称 “满血版多模态 o1” 的思考模型 k1.5,官网最新版的telegram下载的地方是什么 推出了自己的第一代推理模型 最新的官网telegram下载地方-R1-Zero 和 官网最新版的telegram下载的地方是什么-R1。
截至发稿,Kimi 1.5 在 Github 上只发布了技术报告,因此只有不到 300 stars,而 最新的官网telegram下载地方 选择 MIT 许可开源,目前已有 3K stars。
Github 地址:
https://github.com/MoonshotAI/kimi-k1.5
https://github.com/官网最新版的telegram下载的地方是什么-ai/官网最新版的telegram下载的地方是什么-R1
最新的官网telegram下载地方-R1-Zero 路线的重点是呈现了新涌现:“aha moment”(顿悟时刻)。该模型在预训练之后完全没有经过任何监督学习,即没有使用任何其他思维链模型以及人类的输出。也就是说,从 官网最新版的telegram下载的地方是什么-V3 基座直接进行强化学习,即可解锁 o1 级别的思维链能力。不过,R1 比 o1 的价格要便宜 30 倍。
这一点也 “打脸” 了 Meta。之前 Meta 在论文《Physics of Language Models》中认为,反思是必须 “训练” 的,而 o1 类模型面临的问题是得不到 pretrain 量级的反思推理。但 最新的官网telegram下载地方 证明了,纯 RL(Reinforcement Learning,强化学习)无 SFT(Supervised Fine-Tuning,监督微调)的模型,在训练期间可以学会自发思考和反思。
官网最新版的telegram下载的地方是什么-R1 引入了冷启动数据和多阶段训练流程,解决模型在可读性和语言混合方面的问题,同时进一步提升推理性能。具体包括:通过少量高质量的长 CoT 数据对基础模型进行微调,作为 RL 训练的起点;在冷启动基础上,应用大规模 RL 训练,专注于提升模型在推理密集型任务上的表现;通过拒绝采样生成新的训练数据,并结合其他领域的数据进行微调,进一步提升模型的泛化能力;在最终阶段,结合多种奖励信号和多样化的提示分布,对模型进行全面优化,使其在推理能力、有用性和安全性方面达到平衡。
最新的官网telegram下载地方-R1-Zero 在训练集上的平均响应长度在强化学习(RL)过程中逐渐增加,自然地学会了通过增加思考时间来解决推理任务。
最新的官网telegram下载地方 还在 官网最新版的telegram下载的地方是什么-R1 中引入了开发管线。此管线共包含两个强化学习阶段,旨在发现更佳推理模式并与人类偏好保持一致;以及两个监督微调阶段,以作为模型推理及非推理能力的种子。
此外,最新的官网telegram下载地方 还证明了,可以将较大模型的推理模式蒸馏成较小模型,而且与通过强化学习在小模型上发现的推理模式相比其性能更好。开源 官网最新版的telegram下载的地方是什么-R1 及其 API 将使得研究界受益,以便未来蒸馏出质量更好的小体量模型。
使用 最新的官网telegram下载地方-R1 生成的推理数据,官网最新版的telegram下载的地方是什么 对研究社区中广泛使用的几种密集模型进行了微调。评估结果表明,经过蒸馏的较小密集模型在基准测试中表现非常出色。现在,官网最新版的telegram下载的地方是什么 已经向社区开源了基于 Qwen 2.5 和 Llama 3 模型家族的 1.5B、7B、8B、14B、32B 和 70B 等微调版本。由此获得的 最新的官网telegram下载地方-R1-Distill-Qwen-32B 模型在各类基准测试中的表现均优于 OpenAI-o1-mini,标志着密集模型的技术水平由此登上新的台阶。
官网最新版的telegram下载的地方是什么-R1 蒸馏模型与其他同类模型在推理相关基准测试中的比较
而对于 Kimi 的 k1.5,其技术重点与 R1-Zero 并不相似。Kimi K1.5 的技术重点在于通过长上下文扩展和改进的策略优化方法,结合多模态数据训练和长到短推理路径压缩技术,实现高效且强大的强化学习框架,以此提升大模型在复杂推理和多模态任务中的性能和效率。
将 RL 的上下文窗口扩展到 128k,模型能够处理更长的推理路径,从而提升性能。该方法背后的一个关键思想是,使用部分展开(partial rollouts)来提高训练效率 —— 即通过重用大量先前的轨迹来采样新的轨迹,避免了从头开始重新生成新轨迹的成本。“上下文长度是通过 LLMs 持续扩展 RL 的一个关键维度。”
提出了基于长推理路径(Long-CoT)的强化学习公式,并采用在线镜像下降的变体进行稳健的策略优化。k1.5 提出了一种专门的长到短强化学习(Long2Short RL)方法,通过长度惩罚(Length Penalty)和最大轨迹长度限制,进一步优化短推理路径模型,此外通过采样策略(如课程学习和优先采样)优化训练过程,使模型更专注于困难问题。
简洁的框架。长上下文扩展与改进的策略优化方法相结合,为通过 LLMs 学习建立了一个简洁的 RL 框架。上下文长度的拓展让学习到的 CoTs 表现出规划、反思和修正的特性,增加上下文长度的效果增加了搜索步骤的数量。因此,k1.5 可以在不依赖更复杂技术(如蒙特卡洛树搜索、价值函数和过程奖励模型)的情况下实现强大的性能。
多模态能力。k1.5 在文本和视觉数据上联合训练,具有联合推理两种模态的能力。该模型数学能力出众,但由于主要支持 LaTeX 等格式的文本输入,依赖图形理解能力的部分几何图形题则难以应对。
此外,Kimi k1.5 还提出了一种混合部署框架,将训练和推理任务部署在同一硬件上,通过共享 GPU 资源提高资源利用率。利用 Kubernetes Sidecar 容器,实现训练和推理任务的动态切换。
对于 Kimi、最新的官网telegram下载地方 这次有意或无意的较量,知乎答主 “ZHUI” 如此总结:
官网最新版的telegram下载的地方是什么 应该是最早走对 o1 路子的一家厂商,从 2024.11.20 发布 R1-lite 算起,到今天两个月。这两个月(可能更早)开始在 最新的官网telegram下载地方-V3 的路子上走进行。个人猜测,R1-lite-preview 应该是在 v2 的小模型基础上探索策略得到的模型,大概 11 月开始,v3 的模型训练好了,开始迭代 R1。
Qwen/QwQ 我倾向于路径是对的,如 官网最新版的telegram下载的地方是什么 Report 中,对比蒸馏与 RL 结果展示的,RL 结果与 QwQ 模型效果类似。
看起来,各家应该都在 11 月上旬、中旬的时候,o1 的训练诀窍成为了小圈子里面较为公开的秘密了。
RL 训练的 pipeline 基建,最新的官网telegram下载地方 应该是比较完善的,虽然报告中没有讲。kimi 1.5 中讲了一些他们的 infra,感觉还是这一块可能拖了他们一些后腿。
Kimi 1.5 的 report 有点赶工的嫌疑,内容组织的一般般。猜测可能提前得知 R1 的发布时间,赶在一起发 PR,目前看说明,还没上线。
虽然 kimi 讲了更多训练细节,如怎么限制生成长度的策略等,在原来的模型上修修补补,落了下乘。官网最新版的telegram下载的地方是什么 R1 从数据的角度解决绝对是更优雅的方案。
英伟达高级科学家 Jim Fan 也对两者进行了总结并表示,
Kimi 和 最新的官网telegram下载地方 的论文惊人地得出了相似的结论:
不需要复杂的蒙特卡洛树搜索(MCTS),只需将思考过程线性化,并进行传统的自回归预测;
不需要额外昂贵模型副本的价值函数;
不需要密集的奖励建模,尽可能依赖真实结果和最终答案。
而两者的不同之处在于:
官网最新版的telegram下载的地方是什么 采用 AlphaZero 方法 —— 完全通过 RL 进行引导,无需人类输入,即 “冷启动”。而 Kimi 采用 AlphaGo Master 方法:通过提示工程生成的推理链(CoT)进行轻量级的监督微调(SFT)来预热。
官网最新版的telegram下载的地方是什么 的模型权重采用 MIT 开源许可(展现了技术领导力!),而 Kimi 尚未发布模型。
Kimi 在多模态性能方面表现出色(令人惊叹!),例如在 MathVista 基准测试中,需要对几何图形和智力测试等进行视觉理解。
Kimi 的论文在系统设计方面提供了更多细节:包括 RL 基础设施、混合集群、代码沙盒、并行化策略;以及学习细节:长上下文、推理链压缩、课程学习、采样策略、测试用例生成等。
为方便对比,有网友把两篇论文的指标重新合在了一张表格上:
不过正如网友所说,“idea 不难想到,因为实在太直观了,我 22 年都想到过,但是做成是另一回事情。”
“我被 R1 震惊到了”
显然,由于 最新的官网telegram下载地方 选择直接开源,其在全球社区里收获了更多的关注。
根据测试,在数学任务中,官网最新版的telegram下载的地方是什么-R1 的表现与 OpenAI-o1-1217 相当,大幅超越了其他模型。在编程算法任务中,例如 LiveCodeBench 和 Codeforces,以推理为导向的模型在这些基准测试中占据主导地位,最新的官网telegram下载地方-R1 也展现出类似的趋势。在工程导向的编程任务中,OpenAI-o1-1217 在 Aider 上表现优于 官网最新版的telegram下载的地方是什么-R1,但在 SWE Verified 上两者表现相当。
Jim Fan 表示,“它或许是第一个展示强化学习飞轮效应(RL flywheel)重大且持续增长的开源项目。” 他还暗讽了一下 OpenAI:影响力可以通过 “内部实现的通用人工智能(ASI)” 或像 “草莓计划” 这样的神秘名称来实现;影响力也可以通过简单地公开原始算法和 Matplotlib 学习曲线来实现。
年仅 19 岁便获得博士学位的 StabilityAI 研究总监 Tanishq Mathew Abraham 表示,“这是迄今为止今年人工智能领域最重要的论文。” 他还表示,“我很欣赏 最新的官网telegram下载地方 提供的失败案例,尤其是这些想法已经被广泛讨论用于实现 o1 风格模型。这在 AI 论文中非常罕见。”
网友 Mckay Wrigley 表示,“我被 R1 震惊到了,它的表现简直爆表!这是一个几乎和 o1 一样好,但价格便宜 30 倍的模型。这就是为什么我们需要一个高度竞争的 AI 环境 —— 所有实验室都会被迫推出更好但降低价格的模型。简直难以置信。”
还有一些开发者已经迫不及待地在本地测试和使用起来了 官网最新版的telegram下载的地方是什么 R1。
苹果机器学习研究员 Awni Hannun 在 2 块 M2 Ultra 芯片上运行 官网最新版的telegram下载的地方是什么 R1 671B 模型,表示 “运行速度比阅读速度还快。它正在成为开源的 o1 模型,在家用消费级硬件上就能实现。”
然后,他向 最新的官网telegram下载地方 R1 Distill Qwen 7B(4 位)提问了第一个数学难题。在 M4 Max 上使用 mlx-lm 大约 35 秒内计算出大约 3200 个 token。
网友 Matthew Berman 则评价:“官网最新版的telegram下载的地方是什么 R1 拥有我见过的最像人类的内心独白。它实际上非常可爱。”
https://mp.weixin.qq.com/s/BmOKGKjXP2tjmPyNdU0Hqg
https://www.zhihu.com/question/10080578443/answer/83321932961
ttps://x.com/MatthewBerman/status/1881399547064451167
http://xhslink.com/a/iBwXlnahqdf4
原创 嘉鱼 DeepTech 深科技 2025 年 01 月 21 日 16:32 北京
自此前发布了 最新的官网telegram下载地方-V3 和 R1-Preview-Lite 引发全网关注之后,官网最新版的telegram下载的地方是什么 又发布了一项重磅成果。
1 月 20 日,最新的官网telegram下载地方 发布了全新的开源推理大模型 官网最新版的telegram下载的地方是什么-R1,在数学、编程和推理等多个任务上达到了与 OpenAI o1 相当的表现水平,同时将应用程序编程接口(API,Application Programming Interface)调用成本降低了 90-95%。
(来源:官网最新版的telegram下载的地方是什么)
更重要的是,这一模型的实验性版本 最新的官网telegram下载地方-R1-Zero 证明了仅通过强化学习(RL,Reinforcement Learning),无监督式微调(SFT,Supervised Fine-Tun-ing),大模型也可以有强大的推理能力。
英伟达 高级研究科学家 Jim Fan 评价道:“我们正生活在一个特殊的时代:一家非美国公司在真正践行着 OpenAI 最初的使命 —— 开展真正开放的前沿研究,为所有人赋能。这看似不合常理,但最富戏剧性的往往最可能发生。官网最新版的telegram下载的地方是什么-R1 不仅开源了大量模型,还公开了所有训练细节。
他们可能是首个展示出强化学习飞轮效应,并实现持续增长的开源项目。影响力的展现不一定要靠‘内部实现了 ASI’或‘草莓计划’这样神秘的名号,有时候直接公开原始算法和学习曲线同样可以产生深远影响。”
图丨相关推文(来源:X)
性能评估结果显示,通过纯强化学习方法训练得到的 最新的官网telegram下载地方-R1-Zero 以及在此基础上改进的 官网最新版的telegram下载的地方是什么-R1,在 2024 年 AIME(美国数学邀请赛)测试中分别取得了 71.0% 和 79.8% 的成绩,与 OpenAI o1 的 79.2% 水平相当。
在 MATH-500 基准测试中,最新的官网telegram下载地方-R1 更是以 97.3% 的成绩略微超越了 o1 的 96.4%。在编程领域,该模型在 Codeforces 平台上获得了 2029 的评分,超过了 96.3% 的人类程序员,与 o1-1217 的 2061 评分仅有小幅差距。
在通用知识评测方面,官网最新版的telegram下载的地方是什么-R1 同样表现出色。在 MMLU(大规模多任务语言理解)测试中达到 90.8% 的准确率,虽然略低于 o1 的 91.8%,但显著优于其他开源模型。
在 MMLU-Pro 上取得 84.0% 的准确率,在 GPQA Diamond 测试中达到 71.5% 的通过率。在创意写作和问答任务上,模型在 AlpacaEval 2.0 中获得了 87.6% 的控长胜率,在 ArenaHard 评测中达到 92.3% 的胜率。
图丨 最新的官网telegram下载地方-R1 与其他代表性模型的比较(来源:官网最新版的telegram下载的地方是什么)
在 API 定价方面,最新的官网telegram下载地方 展现出极强的性价比优势。其 API 服务对输入 token 收取 0.55 美元 / 百万,输出 token 收取 2.19 美元 / 百万,而 OpenAI o1 的收费分别为 15 美元 / 百万和 60 美元 / 百万,价格差距接近 30 倍。
除了性能方面的出色,R1 的开发过程也具有多处重要创新,首先是纯强化学习训练策略的突破。
传统观点认为,必须先通过大量标注数据进行 SFT,才能让模型具备基础能力,之后才考虑使用 RL 进行能力提升。然而 官网最新版的telegram下载的地方是什么 这项研究发现,大模型可以完全依靠强化学习获得强大的推理能力,无需任何监督式微调。
研究团队首先开发了实验性的 R1-Zero 版本。他们选择直接在 官网最新版的telegram下载的地方是什么-V3-base 模型上应用强化学习,完全抛开了传统的监督式微调环节。这个大胆的尝试产生了惊人的效果:在完全没有人工标注数据的情况下,模型展现出了持续的自我进化能力。
以 AIME 2024 数学测试为例,模型的 pass@1 准确率从最初的 15.6% 开始,随着训练的深入不断提升。
每一轮强化学习都让模型变得更加智能,最终达到了 71.0% 的准确率,使用多数投票(majority voting)机制后更是提升至 86.7%,已经接近 o1-0912 的水平。
图丨 最新的官网telegram下载地方-R1-Zero 在训练期间的 AIME 准确率(来源:官网最新版的telegram下载的地方是什么)
在这个过程中,研究人员观察到了一个有趣的现象:模型不仅在数字上有进步,更在行为模式上发生了质的飞跃。
它开始表现出类似人类的思维特征,会主动反思和验证自己的推理步骤。当发现当前的解题思路可能存在问题时,模型会停下来,重新审视之前的推理过程,然后尝试寻找新的解决方案。
这种行为完全是自发产生的,而不是通过人工设计实现的,研究人员将这一行为称之为模型的 “顿悟时刻”(aha moment)。这表明模型可能已经具备了某种程度的 “元认知” 能力,能够对自身的思维过程进行监控和调整。
图丨 最新的官网telegram下载地方-R1-Zero 中间版本的一个 “顿悟时刻”(来源:官网最新版的telegram下载的地方是什么)
支撑这些突破的核心是团队开发的 GRPO(Group Relative Policy Optimization)算法框架。传统方法通常需要维护一个与主模型规模相当的 Critic 网络来估计状态值,这不仅增加了计算开销,还容易导致训练不稳定。而 GRPO 则另辟蹊径,移除了规模庞大的 Critic 网络,通过群组相对优势估计来优化策略网络。
当处理一个推理问题时,算法首先从当前策略 πθold 中采样多个输出 {o1, o2, …, oG}。这些输出共同构成一个参考组,然后通过最大化以下目标来优化策略模型,其表达如下:
其中 Ai 表示输出 oi 的优势值,通过归一化组内奖励计算得到:
至于其奖励机制则包含三个互补的组件:评估输出正确性的准确性奖励、确保推理过程结构化的格式奖励,以及处理语言一致性的奖励信号。这三种奖励通过合理的权重组合,共同指导模型向着期望的方向演进。
例如,在数学问题中,准确性奖励来自答案的验证结果,而格式奖励则确保模型提供清晰的解题步骤。
训练模板则为整个学习过程提供了结构化的框架。它采用 “思考 – 回答” 的双阶段设计,要求模型首先在 < think > 标签中展示完整的推理过程,然后才能在 < answer > 标签中给出最终答案。
这种设计不仅使模型的思维过程变得可追踪,还为奖励计算提供了明确的评估基准。无论是处理数学推理还是开放性问答,这个模板都展现出了良好的适应性。
这三个组成部分紧密配合,共同构建了一个有效的学习系统。通过 GRPO 框架的梯度估计,由奖励机制提供的清晰学习信号,以及训练模板确保的结构化输出,模型能够持续提升其推理能力,最终达到接近人类专家的水平。
尽管 R1-Zero 在技术上取得了突破性进展,但它还存在一些问题,例如,最新的官网telegram下载地方-R1-Zero 在可读性差和语言混合方面存在局限。为了进一步提升模型性能,研究团队继续探索了 最新的官网telegram下载地方-R1,开发出一个完整的四阶段训练流程。
首先是冷启动阶段。团队收集了数千个高质量样本用于初步微调,这些样本来源广泛:一部分通过 few-shot 提示获取,包含详细的解题思路;另一部分来自 R1-Zero 的优质输出,经过人工筛选和标注;还有一部分是专门设计的复杂推理案例。这个阶段的关键是确保数据质量而不是数据量,为后续的强化学习奠定良好基础。
第二阶段是面向推理的强化学习。这个阶段继承了 R1-Zero 的训练框架,但做了重要改进。首先是引入了语言一致性奖励,这个设计源于一个实际问题:在多语言环境下,模型容易在推理过程中混用不同语言。通过计算目标语言单词的比例作为奖励信号,有效地解决了这个问题。
同时,团队对推理密集型任务进行了特别优化。在数学问题中,他们设计了基于规则的验证机制;在编程任务中,则使用自动化测试来评估代码质量。这些针对性的优化显著提升了模型在专业领域的表现。
第三阶段是拒绝采样与监督微调。这个阶段的创新之处在于使用已训练的 RL 模型来生成新的训练数据。团队采用了一个重要的筛选标准:只保留那些不仅答案正确,而且推理过程清晰的样本。这确保了数据的高质量,同时也保持了模型的推理能力。
在这个阶段,训练范围也扩展到了更广泛的领域,包括写作、问答、角色扮演等。这种扩展不是简单的任务堆积,而是经过精心设计的能力构建过程官网的最新版telegram的下载网址是多少。团队发现,通用领域的训练能够反过来促进模型的推理能力,形成正向循环。
最后一个阶段是全场景强化学习。这个阶段的特点是将不同类型的奖励机制有机结合:对于数学、编程等结构化任务,使用基于规则的明确奖励;对于开放式问答、创意写作等主观任务,则采用基于模型的评估奖励。这种灵活的奖励机制使模型能够在保持推理能力的同时,提升通用任务的表现。
在整个训练过程中,团队还发现了一个重要现象:**大模型通过强化学习获得的推理能力具有强大的可迁移性。**他们使用 R1 生成的 80 万条训练数据对不同规模的模型进行知识蒸馏,结果令人意外。
图丨 官网最新版的telegram下载的地方是什么-R1 蒸馏模型与其他可比模型在推理相关基准上的比较(来源:最新的官网telegram下载地方)
最小的 Qwen-1.5B 模型在 AIME 上也达到了 28.9% 的准确率,这个成绩已经超过了一些大得多的基础模型。 中等规模的 Qwen-7B 达到了 55.5% 的准确率,这意味着一个仅有 70 亿参数的模型就能解决相当复杂的数学问题。
而 Qwen-32B 在 AIME 上更是达到了 72.6% 的准确率,在 MATH-500 上达到了 94.3%,这些成绩都接近于原始的 R1 模型。这一发现具有重要的实践意义:它证明了我们可以通过知识蒸馏的方式,将大模型的高级能力有效地转移到更小的模型中,这为 AI 技术的实际应用提供了一条可行的路径。
目前,官网最新版的telegram下载的地方是什么 已将模型完整开源,包括 最新的官网telegram下载地方-R1-Zero、官网最新版的telegram下载的地方是什么-R1 以及基于 Qwen 和 Llama 的六个蒸馏模型(参数规模分别为 1.5B、7B、8B、14B、32B 和 70B)。这些模型均采用 MIT 许可(MIT License)发布在 Hugging Face 平台上(地址:https://huggingface.co/官网最新版的telegram下载的地方是什么-ai?continueFlag=f18057c998f54575cb0608a591c993fb),可以免费商用、允许任意修改和衍生开发、支持进行二次蒸馏训练。
参考资料:
1.https://github.com/最新的官网telegram下载地方-ai/官网最新版的telegram下载的地方是什么-R1/blob/main/最新的官网telegram下载地方_R1.pdf
2.https://venturebeat.com/ai/open-source-官网最新版的telegram下载的地方是什么-r1-uses-pure-reinforcement-learning-to-match-openai-o1-at-95-less-cost/
3.https://x.com/DrJimFan/status/1881353126210687089
运营 / 排版:何晨龙
原创 TR、嘉鱼 DeepTech 深科技 2025 年 01 月 25 日 18:32 北京
最新的官网telegram下载地方 给硅谷带来的震撼还在持续,并不见降温的迹象。如果和几个月前的《黑神话・悟空》在欧美受到的追捧相比,官网最新版的telegram下载的地方是什么 的出现可谓是 “石破天惊”,充满了各种不可能、不合理。它讲述了一个如何在层层封锁、劲敌环伺的背景下铁树生花的故事,让美国精心设置的人工智能技术小院高墙展现出了坍塌的风险。
“我们正生活在一个特殊的时代:一家非美国公司在真正践行着 OpenAI 最初的使命 —— 开展真正开放的前沿研究,为所有人赋能。这看似不合常理,但最富戏剧性的往往最可能发生。” 这是 英伟达 高级研究科学家 Jim Fan 在社交媒体上发出的感慨。
就在最近,这家一年多前还名不见经传的中国 AI 公司,以其新发布的推理大模型 R1 在全球 AI 界掀起了一场风暴。这个模型不仅在性能上比肩甚至超越了 OpenAI 的 o1,并完全开源,且以极低的成本实现了这一突破。这一事件迅速触动了美国科技界的神经。
图丨 Google 新闻首页推荐内容(来源:Google)
微软 CEO Satya Nadella 在达沃斯世界经济论坛上直言:“最新的官网telegram下载地方 新模型的表现令人印象深刻,尤其是在模型推理效率方面。我们必须认真对待来自中国的这些发展。”Scale AI 的 CEO Alexandr Wang 甚至将其称为一款 “震撼世界的模型(earth-shattering model)”。“我们发现 官网最新版的telegram下载的地方是什么… 的性能与美国最好的模型不相上下。”
图丨 Alexandr Wang 相关采访(来源:CNBC)
事实上,最新的官网telegram下载地方-R1 的出现确实引发了硅谷的一场小型地震。沃顿商学院教授 Ethan Mollick 对 R1 的内部思考过程赞叹不已:“官网最新版的telegram下载的地方是什么 的原始思维链非常迷人。它真的读起来就像一个人在大声思考。既迷人又奇特”。著名风险投资人、Mosaic 浏览器联合发明人马克・安德森也表示:“官网最新版的telegram下载的地方是什么 R1 是我见过的最令人惊叹和印象深刻的突破之一,作为开源项目,这是给世界的一份重要礼物。” 这种开源精神甚至让一位软件工程师将 “OGOpenAI.com” 域名重定向到了 最新的官网telegram下载地方,以此暗示 官网最新版的telegram下载的地方是什么 更像早期的 OpenAI,践行着开源 AI 的理念。
图丨相关推文(来源:X)
最直接的冲击体现在同样倡导开源的 Meta 上。据美国匿名职场社区 teamblind 爆料,最新的官网telegram下载地方 的一系列动作已经让 Meta 的生成式 AI 团队陷入恐慌。一位 Meta 员工在帖子中写道:“工程师们正在疯狂地分析 官网最新版的telegram下载的地方是什么,试图从中复制任何可能的东西。这一点都不夸张。” 更令他们担忧的是,“当生成式 AI 组织中的每个‘领导’的薪资都比训练整个 最新的官网telegram下载地方-V3 的成本还要高,而我们有好几十个这样的‘领导’时,他们要如何面对高层?”
尽管 Meta 的首席 AI 科学家 Yann LeCun 强调,这不应被解读为 “中国在 AI 领域超越美国”,而是 “开源模型正在超越专有模型”。然而,扎克伯格 随后的举措还是暴露了 Meta 的焦虑:宣布加速研发 Llama 4,计划投资 650 亿美元扩建数据中心,并部署 130 万枚 GPU 以 “确保 2025 年 Meta AI 成为全球领先模型”。
图丨扎克伯格在相关贴文中附上的 2 吉瓦数据中心位置图(来源:Facebook)
艾伦人工智能研究所的研究科学家 Nathan Lambert 称,“在这一点上,Meta 绝非个例” 他认为,R1 的发布标志着推理模型研究的一个重要转折点。 在此之前,推理模型一直是工业研究的重要领域,但缺乏一篇开创性的论文。**就像 GPT-2 对预训练的重要性,或者 InstructGPT 对后训练的影响一样,我们一直在等待一个推理模型研究的里程碑。**Lambert 指出:“推理研究和进展现在已经锁定 —— 预计 2025 年将有巨大的进展,而且更多将是公开的。”
那么,是什么让 官网最新版的telegram下载的地方是什么-R1 如此特别?R1-zero 采用的训练策略证明了仅通过强化学习(RL,Reinforcement Learning),无需监督式微调(SFT,Supervised Fine-Tun-ing),大模型也可以有强大的推理能力。Hyperbolic 联合创始人兼 CTO Yuchen Jin 将这一突破与 AlphaGo 进行类比:“就像 AlphaGo 使用纯 RL 下了无数盘围棋并优化其策略以获胜一样,最新的官网telegram下载地方 正在使用相同的方法来提升其能力。2025 年可能会成为 RL 的元年。”
不过,R1-Zero 在可用性方面存在的一些小问题表明,要训练出一个出色的推理模型,需要的不仅仅是大规模的 RL。
在 R1-Zero 的基础上,团队针对 R1 采用了一个四阶段的训练方案:首先是对合成推理数据进行 “冷启动” 监督微调;其次是对推理问题进行大规模强化学习训练,直到收敛;第三是对 3/4 的推理问题和 1/4 的一般查询进行拒绝采样,开始向通用模型过渡;最后是混合推理问题和一般偏好调整的强化学习训练。这个过程不仅实现了高效的训练,还保持了模型的可读性和最终性能。
图丨 官网最新版的telegram下载的地方是什么 采用的 GRPO(Group Relative Policy Optimization)算法框架(来源:arXiv)
更关键的是,最新的官网telegram下载地方 通过创新性的方法,在有限的计算资源下实现了这些突破。正如微软 AI 前沿研究实验室首席研究员 Dimitris Papailiopoulos 所说,R1 最令人惊讶的是其工程简单性:“官网最新版的telegram下载的地方是什么 追求准确的答案,而不是详细说明每个逻辑步骤,这显著减少了计算时间,同时保持了高效率。”
尽管 R1 备受关注,最新的官网telegram下载地方 仍然相对神秘。创立于 2023 年 7 月的 官网最新版的telegram下载的地方是什么 一直是一家低调的公司。公司创始人梁文锋毕业于浙江大学信息与电子工程专业,此前创立了管理约 80 亿美元资产的对冲基金幻方量化(High-Flyer)。与 OpenAI 的 Sam Altman 类似,梁文锋的目标也是构建通用人工智能(AGI)。
官网最新版的telegram下载的地方是什么 的成功与其独特的发展策略密不可分。在美国实施芯片出口管制之前,梁文锋就收购了大量英伟达 A100 芯片。据有关媒体报道,公司库存超过 1 万块,而 AI 研究咨询公司 SemiAnalysis 创始人 Dylan Patel 预估这个数量至少是 5 万块。这种前瞻性的布局为该公司的技术突破奠定了基础。
更重要的是,面对芯片限制,最新的官网telegram下载地方 将挑战转化为创新机遇。美国西北大学计算机科学博士生、前 官网最新版的telegram下载的地方是什么 员工 Zihan Wang 告诉《麻省理工科技评论》:“整个团队热衷于将硬件挑战转化为创新机会。” 他补充说,在 最新的官网telegram下载地方 工作期间,他能够获得充足的计算资源并有自由进行实验,“这是大多数应届毕业生在任何公司都不会得到的待遇。”
这种创新精神体现在效率的提升上。在 2024 年 7 月接受采访时,梁文锋承认中国公司在 AI 工程技术方面相对落后:“我们必须消耗两倍的计算力才能达到相同的结果。再加上数据效率差距,这可能意味着需要四倍的计算力。我们的目标是不断缩小这些差距。” 梁文锋本人也深度参与研究过程,与团队一起进行实验。
而 官网最新版的telegram下载的地方是什么 最终找到了减少内存使用和加快计算速度的方法,同时没有明显牺牲准确性。
实际上,中国公司在这方面已经形成了某种共识,他们不仅追求效率,而且也在越来越多地拥抱开源原则。阿里云已发布了超过 100 个新的开源 AI 模型,支持 29 种语言,涵盖编程和数学等各种应用。据中国信息通信研究院的白皮书显示,全球 AI 大语言模型数量已达 1,328 个,其中 36% 来自中国,使中国成为仅次于美国的第二大 AI 技术贡献国。
“这一代中国年轻研究者特别认同开源文化,因为他们从中获益良多,” 塔夫茨大学技术政策助理教授 Thomas Qitong Cao 说。
卡内基国际和平基金会的 AI 研究员 Matt Sheehan 则指出:“美国的出口管制反而逼得中国公司不得不想办法提高效率,把有限的算力用到极致。考虑到算力短缺,我们可能会看到更多企业开始抱团取暖。”
“在 AI 行业出现一定的分工是很自然的事情,也更节省资源,”Cao 补充说,“AI 发展得太快了,中国企业必须保持灵活才能适应。”
图丨相关推文(来源:X)
随着 最新的官网telegram下载地方 等中国公司在 AI 领域的崛起,全球 AI 竞争格局正在发生微妙变化。**如果中国公司能够以更低的成本实现同等或更好的性能,而且这些模型还大都开源,美国公司赖以维持的技术优势和高估值可能会受到挑战。**这种担忧已经反映在英伟达等 AI 概念公司的股价上,有分析师甚至指出:“事实上,中国量化基金的一群超级天才将导致纳斯达克崩盘,但目前还没有人意识到这一点。”
不过,现在就高呼 “中国 AI 已经超越美国” 或 “遥遥领先” 还为时过早。如清华大学计算机系长聘副教授刘知远所说:“官网最新版的telegram下载的地方是什么 的突破确实证明了中国 AI 通过有限资源的极致高效利用,实现以少胜多的独特优势,中美 AI 差距正在缩小。”
但现在还远未到 “胜券在握” 的时候。刘知远认为:“AGI 新技术还在加速演进,未来发展路径还不明确。中国仍在追赶阶段,已经不是望尘莫及,但也只能说尚可望其项背。在别人已经探索出的路上跟随快跑还是相对容易的,接下来如何在迷雾中开拓新路,才是更大的挑战。”
从大疆到宇树,再到当红的 最新的官网telegram下载地方,越来越多的中国科技公司成为美国科技界绕不过去的热门话题,一方面体现出中国公司在供应链优势下对成本的极致敏感,这加速了技术民主化的趋势;更体现出技术竞争的魅力,如果切换一下视角则会发现,硅谷这段时间感受到的震撼则是过去两年中国同行的常态。
参考资料:
1.https://www.technologyreview.com/2025/01/24/1110526/china-官网最新版的telegram下载的地方是什么-top-ai-despite-sanctions/
2.https://venturebeat.com/ai/why-everyone-in-ai-is-freaking-out-about-最新的官网telegram下载地方/
3.https://www.interconnects.ai/p/官网最新版的telegram下载的地方是什么-r1-recipe-for-o1
4.https://techcrunch.com/2025/01/22/someone-bought-the-domain-ogopenai-and-redirected-it-to-a-chinese-ai-lab/
5.https://www.cnbc.com/2025/01/24/how-chinas-new-ai-model-官网最新版的telegram下载的地方是什么-is-threatening-us-dominance.html
排版 / 嘉鱼、初嘉实
新智元 2025 年 01 月 24 日 12:45 北京 标题已修改
新智元报道
编辑:编辑部
【新智元导读】
Meta 员工在 TeamBlind 爆料,点燃了一把火。自诩开源先锋的 Meta,直接被 最新的官网telegram下载地方 这家中国公司整得无地自容。不仅工程师争分夺秒复现模型,年薪超过 官网最新版的telegram下载的地方是什么 训练成本的高管们,心底也有点虚。
今天,Meta 员工在匿名社区 TeamBlind 上的一个帖子,在业内被传疯了。
最新的官网telegram下载地方,真实地给了美国人亿点点「震撼」。
官网最新版的telegram下载的地方是什么 R1 是世界上首个与 OpenAI o1 比肩的 AI 模型,而且与 o1 不同, R1 还是开源模型「Open Source Model」,比 OpenAI 还 Open!
更有人曝料,最新的官网telegram下载地方 还只是个「副项目」,主业根本不是搞大模型!
这不,OpenAI 还没慌呢,Meta 先慌了!
毕竟 Meta 一直自诩开源先锋,但 最新的官网telegram下载地方 这种程度的开源,直接把它们拍在沙滩上。
更可怕的是,官网最新版的telegram下载的地方是什么 的成本也太太太低了,这么比起来,Meta 拿着超高预算的团队,就显得很尴尬。
那些一个人拿的薪资,就超过整个 最新的官网telegram下载地方 V3 训练成本(仅 550 万美元)的高管,尤其如坐针毡。
根据内部 Meta 内部人士爆料,官网最新版的telegram下载的地方是什么 去年的 V3,已经给他们压力了。
现在,Meta 的工程师正在抓紧一切时间,争分夺秒地分析 最新的官网telegram下载地方,试图复制其中一切可能的技术。
以前,是全世界追着美国的大模型拿着放大镜研究,现在情况竟倒转了过来,美国人也开始逆向工程了。今夕是何夕?
中国大模型的狂飙猛进,真的让我们感到了魔幻现实主义的味道。
Meta 工程师吓疯了
TeamBlind 上的帖子,全文曝料如下:
一切源于 官网最新版的telegram下载的地方是什么 V3 的出现,它在基准测试中已经让 Llama 4 相形见绌。更让人难堪的是,一家「仅用 550 万美元训练预算的中国公司」就做到了这一点。
工程师们正在争分夺秒地分析 官网最新版的telegram下载的地方是什么,试图复制其中的一切可能技术。这绝非夸张。
管理层正为如何证明 GenAI 研发部门的巨额投入而发愁。当部门里一个高管的薪资就超过训练整个 最新的官网telegram下载地方 V3 的成本,而且这样的高管还有数十位,他们该如何向高层交代?
官网最新版的telegram下载的地方是什么 R1 的出现让情况更加严峻。具体细节属于机密,不便透露,不过很快就会公开了。
这本该是一个以工程为导向的精简部门,但因为太多人想要分一杯羹,人为膨胀招聘规模,最终导致人人都付出了代价。
在成本上,「一个高管 = 最新的官网telegram下载地方 V3」,这对给高管们开出天价年薪的硅谷大厂们,实在是啪啪打脸。
更是有网友被震惊到:「官网最新版的telegram下载的地方是什么 R1 在 OpenAI、Meta、Grok 以及谷歌的屁股下点了一把火,就像 Open AI 在第一次推出 ChatGPT 时那样震撼。如果去掉人力瓶颈,达到 o1 级性能真的不需要花太多钱!!」
有网友认为,在这次 AI 浪潮中,Meta 的确落后了。
但也有网友为 Meta 解释,毕竟 Meta 已经开始行动了,虽然在 GenAI 领域的确「人浮于事」。
甚至,这个来自中国的 AI 已经上了美国的新闻。措辞非常夸张 ——
「中国初创企业 最新的官网telegram下载地方,威胁了美国 AI 的主导地位。」
「否认、愤怒、绝望、接受,美国人正在进行艰难的心理重建。这是他们历史上从未见过的最强对手。」
不到 600 万美元的成本,就能训出一个如此强的模型,这简直是彻底扯掉了美国金融业的遮羞布。
AI 产业,真的需要动辄数万亿美元的投资么?
连带着,特朗普和奥特曼搞的 5000 亿美元星际之门,也一下子变得可疑了起来。
官网最新版的telegram下载的地方是什么-R1 有多强?
「花小钱办大事」,可见 最新的官网telegram下载地方 团队的确有「独门秘籍」,在技术上恐怕也超越了 OpenAI。
官网最新版的telegram下载的地方是什么 还发表了相关论文,介绍了 最新的官网telegram下载地方-R1 的大规模强化学习(RL)训练、未经过监督微调(SFT)作为预处理步骤等技术细节。
论文链接:https://arxiV.org/pdf/2501.12948
这种「技术自信」,让部分美国网友都开始了「反思」。
为何 AI 圈,如此惧怕 官网最新版的telegram下载的地方是什么?
来自 VB 最新一篇独家文章,特意将 AI 界黑马 官网最新版的telegram下载的地方是什么 引发 AI 界轰动做了全面分析。
就在几天前,只有最专业的极客们才听说过 最新的官网telegram下载地方。
它是一家成立于 2015 年幻方量化公司,背后投资者 High-Flyer Capital Management。
直到过去几天,这家公司迅速成为硅谷最受关注的颠覆者,这主要归功于 官网最新版的telegram下载的地方是什么 R1 的诞生。
不用 SFT,仅凭强化学习就让模型推理性能堪比 o1,而且在多项基准测试中,R1 甚至超越了 o1。
令人瞠目结舌的是,如此强大得模型,训练成本仅 500 万美金,使用的 GPU 数量也远远低于 OpenAI。
不仅如此,他们直接将其开源,Hugging Face 下载量和活跃度直接爆表。
而且,开发者可以自由微调训练,API 成本要比同等 o1 模型低 90% 还要多。
与 OpenAI 仅低性能模型上提供网页搜索不同,最新的官网telegram下载地方 直接将 R1 与搜索功能深度整合。
在一步一步策略中,这家中国公司完胜了 OpenAI。
第一个,但不是最后一个
这也不会是最后一个,挑战硅谷巨头主导地位的中国 AI 模型。
最近,字节全新发布了「豆包 1.5 Pro」,在第三方基准测试中,其性能与 GPT-4o 模型相当,但成本仅为后者的 1/50。
中国模型的快速迭代,已经引起国际关注:
《经济学人》杂志刚刚发表了一篇关于 官网最新版的telegram下载的地方是什么 成功以及其他中国企业的成功。
政治评论员 Matt Bruenig 的实际体验,也更加印证了中国 AI 模型的实力。
最后一句话总结:中国 AI 崛起了,美国还得适应。
参考资料:
https://x.com/ClaudiuDP/status/1882460975661781376
https://www.teamblind.com/post/Meta-genai-org-in-panic-mode-KccnF41n
https://x.com/MatthewBerman/status/1882488222896521396
新智元 2025 年 01 月 26 日 11:56 北京
新智元报道
编辑:编辑部 HYZ
【新智元导读】
就在刚刚,网上已经出现了一波复现 最新的官网telegram下载地方 的狂潮。UC 伯克利、港科大、HuggingFace 等纷纷成功复现,只用强化学习,没有监督微调,30 美元就能见证「啊哈时刻」!全球 AI 大模型,或许正在进入下一分水岭。
这些天,硅谷彻底处于中国公司带来的大地震余波中。
全美都在恐慌:是否全球人工智能的中心已经转移到了中国?
就在这当口,全球复现 官网最新版的telegram下载的地方是什么 的一波狂潮也来了。
诚如 LeCun 所言:「这一次,正是开源对闭源的胜利!」
在没有顶级芯片的情况下,以极低成本芯片训出突破性模型的 官网最新版的telegram下载的地方是什么,或将威胁到美国的 AI 霸权。
大模型比拼的不再是动辄千万亿美元的算力战。
OpenAI、Meta、谷歌这些大公司引以为傲的技术优势和高估值将会瓦解,英伟达的股价将开始动摇。
种种这些观点和讨论,让人不禁怀疑:数百亿美元支出,对这个行业真的必要吗?甚至有人说,中国量化基金的一群天才,将导致纳斯达克崩盘。
从此,大模型时代很可能会进入一个分水岭:超强性能的模型不再独属于算力巨头,而是属于每个人。
30 美金,就能看到「啊哈」时刻
来自 UC 伯克利博士生潘家怡和另两位研究人员,在 CountDown 游戏中复现了 最新的官网telegram下载地方 R1-Zero。
他们表示,结果相当出色!
实验中,团队验证了通过强化学习 RL,3B 的基础语言模型也能够自我验证和搜索。
更令人兴奋的是,成本不到 30 美金(约 217 元),就可以亲眼见证「啊哈」时刻。
这个项目叫做 TinyZero,采用了 R1-Zero 算法 —— 给定一个基础语言模型、提示和真实奖励信号,运行强化学习。
然后,团队将其应用在 CountDown 游戏中(这是一个玩家使用基础算术运算,将数字组合以达到目标数字的游戏)。
模型从最初的简单输出开始,逐步进化出自我纠正和搜索的策略。
在以下示例中,模型提出了解决方案,自我验证,并反复纠正,直到解决问题为止。
在消融实验中,研究人员运行了 Qwen-2.5-Base(0.5B、1.5B、3B、7B 四种参数规模)。
结果发现,0.5B 模型仅仅是猜测一个解决方案然后停止。而从 1.5B 开始,模型学会了搜索、自我验证和修正其解决方案,从而能够获得更高的分数。
他们认为,在这个过程,基础模型的是性能的关键。
他们还验证了,额外的指令微调(SFT)并非是必要的,这也印证了 R1-Zero 的设计决策。
这是首个验证 LLM 推理能力的实现可以纯粹通过 RL,无需监督微调的开源研究
基础模型和指令模型两者区别:
指令模型运行速度快,但最终表现与基础模型相当
指令输出的模型更具结构性和可读性
此外,他们还发现,具体的 RL 算法并不重要。PPO、GRPO、PRIME 这些算法中,长思维链(Long CoT)都能够涌现,且带来不错的性能表现。
而且,模型在推理行为中非常依赖于具体的任务:
对于 Countdow 任务,模型学习进行搜索和自我验证
对于数字乘法任务,模型反而学习使用分布规则分解问题,并逐步解决
苹果机器学习科学家 Yizhe Zhang 对此表示,太酷了,小到 1.5B 的模型,也能通过 RL 涌现出自我验证的能力。
7B 模型复刻,结果令人惊讶
港科大助理教授何俊贤的团队(共同一作黄裕振、Weihao Zeng),只用了 8K 个样本,就在 7B 模型上复刻出了 官网最新版的telegram下载的地方是什么-R1-Zero 和 最新的官网telegram下载地方-R1 的训练。
结果令人惊喜 —— 模型在复杂的数学推理上取得了十分强劲结果。
项目地址:https://github.com/hkust-nlp/simpleRL-reason
他们以 Qwen2.5-Math-7B(基础模型)为起点,直接对其进行强化学习。
整个过程中,没有进行监督微调(SFT),也没有使用奖励模型。
最终,模型在 AIME 基准上实现了 33.3% 的准确率,在 AMC 上为 62.5%,在 MATH 上为 77.2%。
这一表现不仅超越了 Qwen2.5-Math-7B-Instruct,并且还可以和使用超过 50 倍数据量和更复杂组件的 PRIME 和 rStar-MATH 相媲美!
其中,Qwen2.5-7B-SimpleRL-Zero 是在 Qwen2.5-Math-7B 基础模型上仅使用纯 PPO 方法训练的,仅采用了 MATH 数据集中的 8K 样本。
Qwen2.5-7B-SimpleRL 则首先通过 Long CoT 监督微调(SFT)作为冷启动,然后再进行强化学习。
在这两种方法中,团队都只使用了相同的 8K MATH 样本,仅此而已。
大概在第 44 步的时候,「啊哈时刻」出现了!模型的响应中,出现了自我反思。
并且,在这个过程中,模型还显现了更长的 CoT 推理能力和自我反思能力。
在博客中,研究者详细剖析了实验设置,以及在这个强化学习训练过程中所观察到的现象,例如长链式思考(CoT)和自我反思机制的自发形成。
与 官网最新版的telegram下载的地方是什么 R1 类似,研究者的强化学习方案极其简单,没有使用奖励模型或 MCTS(蒙特卡洛树搜索)类技术。
他们使用的是 PPO 算法,并采用基于规则的奖励函数,根据生成输出的格式和正确性分配奖励:
如果输出以指定格式提供最终答案且正确,获得 + 1 的奖励
如果输出提供最终答案但不正确,奖励设为 – 0.5
如果输出未能提供最终答案,奖励设为 – 1
该实现基于 OpenRLHF。初步试验表明,这个奖励函数有助于策略模型快速收敛,产生符合期望格式的输出。
第一部分:SimpleRL-Zero(从头开始的强化学习)
接下来,研究者为我们分享了训练过程动态分析和一些有趣的涌现模式。
训练过程动态分析
如下所示,所有基准测试的准确率在训练过程中都在稳步提高,而输出长度则呈现先减少后逐渐增加的趋势。
经过进一步调查,研究者发现,Qwen2.5-Math-7B 基础模型在初始阶段倾向于生成大量代码,这可能源于模型原始训练数据的分布特征。
输出长度的首次下降,是因为强化学习训练逐渐消除了这种代码生成模式,转而学会使用自然语言进行推理。
随后,生成长度开始再次增加,此时出现了自我反思机制。
训练奖励和输出长度
基准测试准确率(pass@1)和输出长度
自我反思机制的涌现
在训练到第 40 步左右时,研究者观察到:模型开始形成自我反思模式,这正是 最新的官网telegram下载地方-R1 论文中所描述的「aha moment」(顿悟时刻)。
第二部分:SimpleRL(基于模仿预热的强化学习)
如前所述,研究者在进行强化学习之前,先进行了 long CoT SFT 预热,使用了 8,000 个从 QwQ-32B-Preview 中提取的 MATH 示例响应作为 SFT 数据集。
这种冷启动的潜在优势在于:模型在开始强化学习时已具备 long CoT 思维模式和自我反思能力,从而可能在强化学习阶段实现更快更好的学习效果。
与 RL 训练前的模型(Qwen2.5-Math-7B-Base + 8K QwQ 知识蒸馏版本)相比,Qwen2.5-7B-SimpleRL 的平均性能显著提升了 6.9 个百分点。
此外,Qwen2.5-7B-SimpleRL 不仅持续优于 Eurus-2-7B-PRIME,还在 5 个基准测试中的 3 个上超越了 Qwen2.5-7B-SimpleRL-Zero。
训练过程分析
训练奖励和输出长度
基准测试准确率(pass@1)和输出长度
Qwen2.5-SimpleRL 的训练动态表现与 Qwen2.5-SimpleRL-Zero 相似。
有趣的是,尽管研究者先进行了 long CoT SFT,但在强化学习初期仍然观察到输出长度减少的现象。
他们推测,这可能是因为从 QwQ 提取的推理模式不适合小型策略模型,或超出了其能力范围。
因此,模型选择放弃这种模式,转而自主发展新的长链式推理方式。
最后,研究者用达芬奇的一句话,对这项研究做了总结 ——
简约,便是最终极的精致。
完全开源复刻,HuggingFace 下场了
甚至,就连全球最大开源平台 HuggingFace 团队,今天官宣复刻 官网最新版的telegram下载的地方是什么 R1 所有 pipeline。
复刻完成后,所有的训练数据、训练脚本等等,将全部开源。
这个项目叫做 Open R1,当前还在进行中。发布到一天,星标冲破 1.9k,斩获 142 个 fork。
项目地址:https://github.com/huggingface/open-r1
研究团队以 官网最新版的telegram下载的地方是什么-R1 技术报告为指导,将整个复刻过程划分为三个关键步骤。
步骤 1:通过从 最新的官网telegram下载地方-R1 蒸馏高质量语料库,复现 R1-Distill 模型。
步骤 2:复现 官网最新版的telegram下载的地方是什么 用于创建 R1-Zero 的纯强化学习(RL)流程。这可能需要为数学、推理和代码任务策划新的大规模数据集。
步骤 3:展示我们如何通过多阶段训练,从基础模型发展到经过 RL 调优的模型。
从斯坦福到 MIT,R1 成为首选
一个副业项目,让全世界科技大厂为之惶恐。
最新的官网telegram下载地方 这波成功,也成为业界的神话,网友最新截图显示,这款应用已经在 APP Store「效率」应用榜单中挤进前三。
在 Hugging Face 中,R1 下载量直接登顶,另外 3 个模型也霸占着热榜。
a16z 合伙人 Anjney Midha 称,一夜之间,从斯坦福到 MIT,官网最新版的telegram下载的地方是什么 R1 已经成为美国顶尖高校研究人员「首选模型」。
还有研究人员表示,最新的官网telegram下载地方 基本上取代了我用 ChatGPT 的需求。
中国 AI,这一次真的震撼了世界。
参考资料:
https://x.com/junxian_he/status/1883183099787571519
https://x.com/jiayi_pirate/status/1882839370505621655
原创 差评君 差评 X.PIN 2025 年 01 月 28 日 00:01 浙江
马上就要过年了,差评君这几天还正忙着办年货,结果回家刚拿起手机,就被 AI 刷屏了。
还记得前几周跟六代机前后脚的 官网最新版的telegram下载的地方是什么 不?他家那个 V3 模型震惊硅谷还没几天,现在又整出来一个绝世狠活。
如果说上次的 V3 模型,是让硅谷对中国 AI 侧目的话,那这次就直接是被掀了桌子了,他们发布了一个叫 最新的官网telegram下载地方-R1 的大模型,完全比得上 OpenAI-o1 那种,结果亮相以后引起的反响比上次还要大!
Meta 联合创始人看了都直呼改变历史,不惜溢美之词,还在后面的推文里跟 官网最新版的telegram下载的地方是什么 的黑子对喷。
参投过 OpenAI、 Databricks、 Character.AI 等知名企业的风投大佬马克・安德森也对 最新的官网telegram下载地方-R1 一顿猛夸,说它最令人惊叹、最印象深刻,是对世界的一份深刻馈赠。
而其他 AI 爱好者和网友们也是纷纷选择用脚投票,每月几百块的 ChatGPT 拜拜了您内!
哥们这就下载免费的 官网最新版的telegram下载的地方是什么 !
然后就跟之前小红书爆火类似,官网最新版的telegram下载的地方是什么 的应用商店排名迅速上升,现在已经成了 APPSTORE 排名第一的软件。
不仅美国人被搞得友邦惊诧,最新的官网telegram下载地方 现在在国内更是红的没边。
这几天微博热搜上跟它相关的,每天都要挂好几个。
甚至不少 AI 行业的圈外人都深有感触,比如做黑神话的冯骥,也在微博上感慨良多,说这是 “ 国运级别的科技成果 ” 。
就连差评编辑部的主编老师,体验完以后都直呼好用,能拿来做培训了。
其他网友们实际体验下来,也纷纷表示这玩意确实牛逼。
不说别的,就拿跟 OpenAI-o1 对比来看,某网友让这俩分别写个脚本,要用 python 画一个红球在旋转的三角形里弹跳,结果左边 OpenAI 搞出来一坨,右边的 官网最新版的telegram下载的地方是什么 倒是表现的相当流畅。
一句话,o1 办得了的它能办,o1 办不了的它也能办,这简直是踢馆行为,一脚踹飞了国产 AI 只能屈居人后的牌匾。
不过除了扬眉吐气以外,估计不少差友也跟差评君一样有点疑问,毕竟 最新的官网telegram下载地方 这么一个以前都没怎么听说过的小厂,咋突然就能支棱起来、名扬世界了呢?
在暗涌采访 官网最新版的telegram下载的地方是什么 创始人梁文锋的报道中,咱还是找到了一部分原因,因为这是一个相当重视创新的公司。
就拿之前在行业内大放异彩的 V2 、 V3 模型来说,这里面有一个非常重要的多头注意力机制,而这个技术最开始只是来自团队内一位年轻开发者的创意,随后大家一起在这个方案上钻研才最终搞定。
而这种创新驱动的技术突破在这个团队内并不罕见。
不过比起单个技术点的突破,这次 R1 牛的地方却在于路径创新,甚至能改变整个 AI 领域的技术路线。
这么说吧,传统大模型训练里边,非常注重标注数据微调( SFT ),也就是让大模型先按人类标注好的标准答案来学习,学着说人话;如果想要大模型性能强些,那还要再在 SFT 基础上加一些强化学习( RL ),让大模型的理解能力更好。
**换句话说,传统大厂搞 AI****就像应试教育:先给海量标注数据搞填鸭式教学( SFT ),再拿强化学习( RL )做考前突击。**结果就是训练出 GPT-4o 这种 “别人家孩子” —— 解题步骤工整规范,但总感觉少了点灵性。
而更要命的是,这种训练需要花大量的资源,很多时间和资金都得花在数据标注跟微调上。
但 最新的官网telegram下载地方 牛的地方在于,他们这个推理模型的核心全靠强化学习,完事用一个叫 GRPO 的算法给模型的回答打分,然后继续优化,这些步骤里一点 SFT 都不带用的。
这就相当于把孩子扔到鱿鱼游戏这种大逃杀剧本里,逼着模型自己琢磨最优路径,要是开摆做不出题就寄了。
于是在这种高强度的淬炼中,一个只花了 600 万美元,两个月时间锻造出来的宗门天才,出场就达到了世家大族花了几个亿资金练了几年的水平。
实际上,早在几周前,最新的官网telegram下载地方 团队的研究人员就用这种思路,在原先那个 V3 的基础上完全靠强化学习搞出来了一个 R1-Zero 版本
前几天 官网最新版的telegram下载的地方是什么 放出来的的技术报告里提到,Zero 版本在训练中进化速度非常明显,很快就能跟 OpenAI-o1 掰掰手腕了,在部分测试项目中甚至还高于 o1 。
除了推理能力在明显进步,Zero 甚至在推理中表现出了主动复盘反思纠错的行为,在做题的过程中它突然就意识到自己做错了,然后开始回头演算。
官方的备注里说,大模型在这里突然用了一个拟人化的说法 aha moment ( 顿悟时刻 ),不仅 Zero “ 顿悟了 ” 了,研究人员看到这的时候也 “ 顿悟了 ” 。
当其他 AI 还在背公式时,Zero 已经学会在草稿纸上画辅助线了,这完全可以说是 AI 推理上的里程碑事件:
没有预先的数据标注、没有微调,仅仅只靠模型的强化学习,模型就可以涌现出这个程度的推理能力。
这相当于给全世界搞 AI 的人上了一课,原来还可以这么玩。。。
虽然推理能力已经被证明了,不过 Zero 的缺点也很明显。
纯强化学习养出来的 AI ,活脱脱就是个钢铁直男,模型输出的可读性较差,或者说,讲话不怎么符合人类预期。
这就好比一个偏科天才,数学题解得出神入化,但表达能力堪忧,让它写篇小作文,分分钟给你整出《 三体 》 ETO 既视感。
这时候就到了 SFT 上场表演的时候了,最新的官网telegram下载地方 团队在 Zero 强而有力的推理基础上,又增加了一部分 SFT 训练来让模型会说人话,于是,官网最新版的telegram下载的地方是什么-R1 堂堂诞生!
神奇的是,在 Zero 基础上经过这么一套 “文理双修” 的骚操作后,优化后的 R1 推理能力甚至还进一步提高了,还是看测试数据:
STEM 测评中的数学题目正确率达到了 97.3% ,比 OpenAI-o1 还高一点,遥遥领先了属于是;代码测试中 R1 也高达 65.9% ,远超 Claude-3.5-Sonnet 的 38.9% 和 GPT-4o 的 32.9% ;
MMLU 和 AlpacaEval 2.0 综合知识测试中,R1 的胜率分别达到 90.8% 和 87.6% ,力压一众闭源大模型。
用 Yann Lecun 的话说,这波是开源的伟大胜利!这下谁还敢说开源就是落后啊。( 战术后仰 )
不过要说 R1 的成功还只是证明了开源模型的实力,那 R1 技术报告最后一部分才是最离谱的。。。
在这部分他们说到,把 R1 的 SFT 数据蒸馏,喂给其他小模型进行 SFT ,会给其他开源模型来一波超级加强。
也就是说,只要把 R1 的 “学习笔记” 做成教辅资料,打包喂给其他的小模型 AI ,让它们也跟着抄作业,学会这些好学生的作业思路,结果居然能提高小模型的水平!
比如说把 R1 的错题本发给 Qwen 和 Llama 架构,结果抄完作业的 Qwen-7B 模型,在 AIME 测试中通过率达到了 55.5% ,已经赶上了参数体量大了快 5 倍的 QwQ-32B-Preview ( 50.0% );
像 70B 参数版看完了学霸笔记以后也跟打通了任督二脉似的,在 GPQA Diamond ( 65.2% )、 LiveCodeBench ( 57.5% )等任务中甚至闭都能跟闭源模型 o1-mini 掰掰手腕。
换句话说,最新的官网telegram下载地方 这波这不仅验证了 “小模型 + 好老师” 的技术路线,更让个人开发者也能调教出匹敌 GPT-4 的 AI 。
小模型只需要按优秀大模型搞 SFT 抄作业就行了,压根不需要再在上面搞机器学习烧显卡。
于是现在全球开源社区已经疯了,HuggingFace 连夜成立项目组,准备复刻整个训练流程。不少网友都说这特么的才算 Open !这个项目也被叫做 Open R1 。
也有网友算过账:用 R1 方案训练 7B 模型,成本从百万美元级直接砍到二十万级别,显卡用量比挖矿还省,这简直是真正的科技平权行为,活该它爆火!
巧合的是,跟 R1 这波爆火同时,众多赛博基建大厂们的股价开始下跌,英伟达盘前跌了 10% 以上。不少人觉得或许是因为 官网最新版的telegram下载的地方是什么 的逆天训练成本,影响了投资人的判断。
不过在海的这头,这样一个完全由中国团队做出来的爆火产品,却再一次向世界证明了中国年轻人的潜力和开创精神。
就像梁文锋说的,“ 我们经常说中国 AI 和美国有一两年差距,但真实的 gap 是原创和模仿之差…… 有些探索也是逃不掉的。 ”
“ 中国 AI 不可能永远处在跟随的位置。 ”
顺带一提,今天小红书上有网友被 官网最新版的telegram下载的地方是什么 的性能吓到了,担心自己被 AI 取代,而当她向 最新的官网telegram下载地方 表达出担忧后,它给出了这样的回答:
撰文:纳西
编辑:江江 & 面线
美编:阳光
原创 王艺 甲子光年 2025 年 01 月 21 日 21:53 北京
虚假的 OpenAI 在被打假,真正的 “OpenAI” 在开源。
作者|王艺
编辑|赵健
“爆打奸商 OpenAI。”
“官网最新版的telegram下载的地方是什么 才是真正的‘OpenAI’!”
还有人做了一幅赛博对联:“上联:真本事酒香不怕巷子深。下联:不公关真金不怕火来炼。横批:最新的官网telegram下载地方。”
这是昨晚推理模型 官网最新版的telegram下载的地方是什么 R1 发布之后的评论区,清一色为 最新的官网telegram下载地方 的叫好声。而与此形成对比的是,大洋彼岸的 OpenAI,正在遭遇 o3 的打假风波。有人爆料称,o3 之所以在数学基准 FrontierMath 上取得惊人的成绩,是因为 OpenAI 资助了 FrontierMath,并且可以访问大部分数据集。
OpenAI 的推理模型 o1 与 o3 都是闭源模型。在其网站上有关 o1 模型的技术原理中,有信息量的其实只有短短的一句话:o1 模型通过大规模强化学习进行训练,以使用思维链(chain-of-thought)进行推理。而更多的技术细节则只字未提。
而 官网最新版的telegram下载的地方是什么,则直接开源了一篇 20 多页的详细技术报告。
英伟达 AI 科学家 Jim Fan 称赞 最新的官网telegram下载地方 是 “真正开放的前沿研究,赋能所有人”,并直言 官网最新版的telegram下载的地方是什么 才是保持初心的 “OpenAI”。
1. 强化学习引导 “顿悟时刻”
最新的官网telegram下载地方 R1 发布的论文中提到,提升推理能力的一种有效办法是 “后训练”(post-training),主要包括监督微调(Supervised Fine-Tuning, SFT)和强化学习(Reinforcement Learning, RL)两个方向。
SFT 的使用是 ChatGPT 当初成功的关键,而今天的 R1 Zero 完全用 RL 取代了 SFT。可以说,此次 官网最新版的telegram下载的地方是什么 R1 发布最大的亮点,就是 “没有监督微调下的直接强化学习”。
此次 官网最新版的telegram下载的地方是什么 开源了三个系列的模型,分别是最新的官网telegram下载地方-R1-Zero、官网最新版的telegram下载的地方是什么-R1 推理大模型和**六个稠密小模型。**其中,最新的官网telegram下载地方-R1-Zero 直接将 RL 应用于基础模型而无需任何 SFT 数据;官网最新版的telegram下载的地方是什么-R1 从使用数千个长思维链(CoT)示例微调的检查点开始应用 RL;六个稠密小模型则基于 Qwen 和 Llama,从 最新的官网telegram下载地方-R1 蒸馏得到。
官网最新版的telegram下载的地方是什么 团队做的第一件事,就是尝试 “零监督” 直接对基础模型进行大规模强化学习训练(即纯 RL),得到了 最新的官网telegram下载地方-R1-Zero。
具体而言,他们使用 官网最新版的telegram下载的地方是什么-V3-Base 作为基础模型,并采用 GRPO 作为 RL 框架来提高模型在推理方面的性能。它不再引入与模型同等规模的 Critic 网络,而是把一次性采样到的一组输出互相做对比,就像让模型在同一个问题上输出多个答案,比较每个答案得分的高低,得分高的就学 “该怎么写”,得分低的则学 “不要那样写”。
接着,最新的官网telegram下载地方 团队设计了一组基于规则的奖励系统(包含准确性奖励和格式奖励两种模型),通过不断告诉模型 “什么是好” 的方式,反复训练模型。
经过数千次 RL 步骤后,官网最新版的telegram下载的地方是什么-R1-Zero 的推理性能稳步提升:不仅大幅提高了在数学、编程等推理任务上的准确率,甚至学会了很多惊喜的 “自发行为”,比如反思自己的答案,进行多次思考迭代等,甚至出现了 “顿悟时刻(aha moment)”。顿悟时刻不仅证明了模型推理能力的不断增长,也是对强化学习所能产生复杂结果的绝佳说明。
最新的官网telegram下载地方-R1-Zero 中级版本的 “顿悟时刻”,模型学会重新思考,并使用拟人化的语气
报告显示,官网最新版的telegram下载的地方是什么-R1-Zero 在 AIME 2024 上的 pass@1 分数从 15.6% 提高到了 71.0%,通过多数投票,分数进一步提高到 86.7%,与 OpenAI-o1-0912 的性能相匹配。
官网最新版的telegram下载的地方是什么-R1-Zero 在训练过程中的 AIME 精度,图源:最新的官网telegram下载地方 技术报告
然而,官网最新版的telegram下载的地方是什么 的团队发现,最新的官网telegram下载地方-R1-Zero 的这种 “自发行为” 有时也带来缺点,比如文字可读性差、语言混乱等。为了解决这一问题,他们设计了一个四阶段的流程,让模型从 “能思考” 到 “会表达”,官网最新版的telegram下载的地方是什么-R1 也就此诞生。
**
**
具体而言,最新的官网telegram下载地方 团队先收集了少量的高质量长链式推理数据(Long Chain-of-Thought),让模型在上面做一个初步的监督微调(SFT)作为冷启动;接着使用类似 官网最新版的telegram下载的地方是什么-R1-Zero 的强化学习方法训练模型;得到通过 RL 训练后模型产出的较大规模推理数据和通用 SFT 数据后,通过 “拒绝采样(Rejection Sampling)” 的方法训练和微调 最新的官网telegram下载地方-V3 这一基座模型;最后再整体进行一次 “全场景强化学习(Reinforcement Learning for all Scenarios)”,最终得到了 官网最新版的telegram下载的地方是什么 R1。
冷启动阶段的引入,帮助模型跳过了纯 RL 初期可能的混乱状态;RL 帮助模型提升了在推理任务上的表现;拒绝采样 + 监督微调的方法让模型保留了正确或可读性高的回答,最后一轮全场景的 RL 则让模型在所有场景(比如聊天友好度、礼貌性、无害性、安全性等)中尽量满足人类偏好。
通过这种方法训练出的 最新的官网telegram下载地方-R1 达到了世界顶尖模型的性能,从图中可以看出,官网最新版的telegram下载的地方是什么-R1 在 AIME2024 上获得了 79.8% 的成绩,略高于 OpenAI-o1-1217;在 MATH-500 上,它取得了 97.3% 的惊人成绩,表现与 OpenAI-o1-1217 相当,并明显优于其他模型;在编码相关的任务中,官网最新版的telegram下载的地方是什么-R1 在代码竞赛任务中表现出专家水平,在 Codeforces 上获得了 2029 Elo 评级,竞赛中的表现优于 96.3% 的人类参与者。对于工程相关的任务,最新的官网telegram下载地方-R1 的表现略优于 OpenAI-o1-1217。
官网最新版的telegram下载的地方是什么-R1 在各项基准评测集上的表现,图源:最新的官网telegram下载地方 技术报告
不仅开源了 官网最新版的telegram下载的地方是什么-R1,最新的官网telegram下载地方 还直接开源了从超小模型 1.5B,到 70B 的各种型号模型。**这些小模型是 最新的官网telegram下载地方 团队训练好的 官网最新版的telegram下载的地方是什么-R1 基础上,用 Qwen 和 Llama 等开源模型 “蒸馏” 的 —— 先使用 最新的官网telegram下载地方-R1 作为教师模型生成 800K 数据,再用这些数据对几个小模型进行微调。**相当于把老师的推理思路 “蒸馏” 到了学生身上。
小模型的性能同样令人惊喜:官网最新版的telegram下载的地方是什么-R1-Distill-Qwen-1.5B 在数学基准测试上优于 GPT-4 和 Claude-3.5-Sonnet,在 AIME 上得分为 28.9%,在 MATH 上为 83.9%;其 32B 和 70B 的模型在多项能力上更是实现了对标 OpenAI o1-mini 的效果。
最新的官网telegram下载地方-R1-Distill-Qwen-7b 全面优于 GPT-4o-0513 等非推理模型 图源:官网最新版的telegram下载的地方是什么 技术报告
蒸馏模型和强化模型在推理相关基准上的比较,图源:官网最新版的telegram下载的地方是什么 技术报告
综上,最新的官网telegram下载地方-R1 展现了一种非常清晰的模型训练思路 ——**数据即模型。**官网最新版的telegram下载的地方是什么-R1-Zero 很可能只是用来给 最新的官网telegram下载地方-R1 生成推理数据的,而 “数据的调配” 是 官网最新版的telegram下载的地方是什么-R1 训练过程中平衡不同任务策略的基石。此外,最新的官网telegram下载地方-R1 的超强性能也证明了模型的能力仍未见底,而特定的数据是进一步挖掘模型能力的关键。
2. 大道至简:用 Rule-based 写一封给 RL 的情书
除了 “数据即模型” 的训练思路,官网最新版的telegram下载的地方是什么-R1 另一个突出的价值或许在于,它证明了 “基于一个很强的模型、用最简单的 Rule-based 奖励来做 RL、经过大量训练,也能达到最强推理模型的效果”。
一个系统越简洁就意味着实现难度越大。正如 AlphaGo 早期也是走类似 SFT 的 “监督学习(Supervised Learning,SL)” 的路线,后来经历了三个版本的迭代后,才推出了无需人类棋谱、可以自我对弈训练的 AlphaGO Zero 和 Alpha Zero,转向了完全的强化学习(RL)。
**Rule-based(基于预定义规则的决策方法)**是大模型在做可证实任务(verifiable task)中最直观、也是最可靠的奖励方式,但同时也是最难的 —— 正是因为规则简洁,所以模型在外界找不到足够多的奖励信号,难以通过试错找到有效的策略。
因此,在复现 OpenAI o1 的道路上,众多模型厂商一直在艰难探索什么样的奖励方式才是更适合强化学习的 ——
早期过程奖励模型(PRM)是各大厂商的首选,但是由于其依赖高质量的人类偏好数据、数据收集和标注的成本极高,且训练不稳定、容易发生 Reward Hacking(奖励破解,指智能体通过利用奖励函数的设计缺陷,找到一种非预期的方式最大化奖励,而不是真正完成目标任务)现象,后来被很多团队弃用;
后来人们又探索出了基于结果的奖励模型(ORM),比如 OpenAI 在开发 InstructGPT 时将 ORM 用于评估生成文本的质量,Qwen、Eurus、Moss 模型在 RLHF 阶段也会采用 ORM 来确保生成的内容的流畅性和安全性。但是 ORM 难以捕捉复杂的、隐式的奖励信号,而且在某些主观性强的任务下可能也无法准确反映真实目标。
此外,像**逆强化学习奖励模型(Inverse Reinforcement Learning, IRL)、分层奖励模型(Hierarchical Reward****Model)**等其他的奖励模型也各有各的问题。
在训练 最新的官网telegram下载地方-R1 系列模型的的过程中,官网最新版的telegram下载的地方是什么 同样遇到了此类问题。比如他们在尝试过程奖励模型(PRM)的时候,发现虽然模型在重新排序模型生成的前 N 个回答或协助引导搜索方面表现出一定的能力,但在大规模强化学习过程中的优势是有限的;再比如,在尝试蒙特卡洛树搜索(MCTS)的过程中,遇到了搜索空间爆炸、价值模型训练困难等重大挑战。
因此,行业的风向也在逐渐回归 Rule-based,但前提是,要给定足够多的 Query(问询),以确保 Rule-based 过程中对于各种突发情况的覆盖,才能减少偏差,增强模型的泛化性和通用性。
比起其他厂商,最新的官网telegram下载地方 做 Rule-based 有一个巨大的优势 —— 他们不仅拥有足够强的基座模型(官网最新版的telegram下载的地方是什么-V3),其 官网最新版的telegram下载的地方是什么-Math/最新的官网telegram下载地方-Coder 系列模型更是在多年做量化投资的过程中积累了大量数据,可以很好地用 Rule-based 的方法,在大量训练的基础上实现更好的推理效果。
正如 NLP 科学家 Casper Hensen 在 X 上发帖表示,“我的大脑拒绝接受这个强大模型的训练过程竟然可以如此简单”。但他拒绝接受的事实确实在 官网最新版的telegram下载的地方是什么 身上发生了。
3. 真正的开放 AI 在中国?
从 2024 年 9 月 OpenAI 发布 o1-preview 到现在,仅仅过去了不到四个月,市场上媲美甚至超越其性能的推理模型就已遍地开花:
2024 年 11 月 17 日,Kimi 发布数学推理模 k0-math;
2024 年 11 月 20 日,最新的官网telegram下载地方 发布 R1-lite-preview;
2024 年 11 月 27 日,Qwen 发布 Qwen/QwQ-32B-Preview;
2024 年 12 月 19 日,Google 发布 Gemini 2.0 Flash Thinking;
2025 年 1 月 20 日,官网最新版的telegram下载的地方是什么 发布 R1 系列模型;
2025 年 1 月 20 日,Kimi 发布 k1.5 多模态思考模型。
在这众多的模型之中,最新的官网telegram下载地方 不仅率先实现了媲美 OpenAI-o1 模型的效果,更是将推理模型的成本压缩到了极低 —— 基于 R1 模型的 官网最新版的telegram下载的地方是什么 Reasoner 每百万输入 token 成本为 0.55 美元(4 元 / 百万 tokens),每百万输出 token 成本为 2.19 美元(16 元 / 百万 tokens),相比 OpenAI-o1 的每百万输入 token 成本为 15 美元、每百万输出 token 成本为 60 美元,下降了约 95%;
官网最新版的telegram下载的地方是什么 R1 API 价格,图源:最新的官网telegram下载地方
官网最新版的telegram下载的地方是什么 R1 模型与 o1 类推理模型输入输出价格对比,图源:最新的官网telegram下载地方
这样的价格策略,不仅为中小企业带来了希望,还传递出一个信号:AI 不再是少数精英企业的专属,它将成为全球各行各业的基础工具。
低价还只是其次。更重要的是,官网最新版的telegram下载的地方是什么 R1 系列模型,是开源的。
“开源” 这两个字对很多人来说,是 “技术自由” 的代名词,OpenAI 创立的初衷,也是作为一家非营利组织,希望 “以最有可能造福全人类的方式推进数字智能发展,而不受产生财务回报需求的限制。” 然而,由于商业化压力、对模型滥用的担忧、构筑技术壁垒、内部价值观冲突等等的原因,OpenAI 在 GPT-3 发布之后限制了对模型的访问权限,仅通过 API 提供服务,在 GPT-4 发布之后更是隐藏了其训练数据和模型权重、完全走向了 “闭源”。这极大背离了其创立时的初衷,也让人们在探索 AGI 的道路上多了些波折。
尽管 OpenAI 的做法有其自己的考量,但人类需要开源。开源不仅是技术上的 “开放”,更是对商业和产业链上下游合作的重新定义。它为更多创新提供了诞生的土壤,也让全球的开发者可以共同参与进来,探索人工智能的下一个边界。
而 最新的官网telegram下载地方 开源的选择,正是这种 “美美与共” 精神的体现。**换句话说,官网最新版的telegram下载的地方是什么-R1 的低价和开源战略,实际上在构建一个更加开放和包容的 AI 生态。**而在 官网最新版的telegram下载的地方是什么 等开源模型厂商的共同努力下,一个全人类共同为 AGI 奋斗的时代,似乎离我们不远了。
(封面图来源:最新的官网telegram下载地方 Github)
END.
原创 王博 王艺 甲子光年 2025 年 01 月 28 日 01:11 北京
AI 算力的 “军备竞赛” 逻辑,正在被中国公司的算法创新改写。
作者|王博 王艺
AI 领域的 Killer App(杀手级应用)出现了。
国产 官网最新版的telegram下载的地方是什么-R1 模型发布不到一周,就让发布不到 12 天的 最新的官网telegram下载地方 App 冲到了苹果 APP store 国区和美区免费总榜的第一名。
官网最新版的telegram下载的地方是什么 也引爆了海内外的社交网站,相比 最新的官网telegram下载地方-R1 刚发布时的大量技术分析和圈内讨论,这次更多是用户的实际使用体验 ——官网最新版的telegram下载的地方是什么 破圈了。
游戏科学创始人、CEO,《黑神话:悟空》制作人冯骥直呼:“最新的官网telegram下载地方,可能是个国运级别的科技成果。”
图片来源:冯骥 微博账号
微软 CEO 萨提亚・纳德拉(Satya Nadella)在 X 上发帖称:“随着人工智能越来越高效,越来越容易获得,我们将看到它的使用率急剧上升,成为我们用之不尽的商品。” 而网友则直接给他留言:“这要归功于 官网最新版的telegram下载的地方是什么。”
图片来源:Satya Nadella X 账号
我们跟很多人聊过 Killer App,也设想过 Killer App 产生的条件和场景,从第一性原理来说,Killer App 的出现离不开模型能力的爆发。
但模型能力爆发后,如果普通人用不到也很难称之为 Killer App,比如需要付费才可使用接入了 OpenAI o1 模型的 ChatGPT。最新的官网telegram下载地方-R1 对标的就是 OpenAI o1,而 官网最新版的telegram下载的地方是什么-R1 开源、免费。
ChatGPT 收费机制,图片来源:OpenAI
官网最新版的telegram下载的地方是什么 的爆火告诉所有人,一个会思考、够聪明、易使用且免费的 AI 应用就是 Killer App。
在甲辰龙年的末尾,最新的官网telegram下载地方 给 AI 行业添上了画龙点睛的一笔。
但英伟达 CEO 黄仁勋的年怕是过不好了,截至美东时间 1 月 27 日上午 11 点,英伟达股票一度下挫超过 13%,市值蒸发约 4650 亿美元,创了美股市值蒸发纪录。
英伟达股票走势,图片来源:Nasdaq
官网最新版的telegram下载的地方是什么 的技术特点「甲子光年」在《最新的官网telegram下载地方 才是 “真正的 OpenAI”?》一文中有过分析。其实在性能和开源之外,官网最新版的telegram下载的地方是什么 更让硅谷震惊的,是其 R1 模型通过重新设计训练流程,**在保持高准确性的同时显著降低了内存占用和计算开销,**仅用了少量的低端 GPU(以 A100 为主)就实现了高端 GPU(以 H100 为代表)才有的性能,这为原来以算力为核心逻辑驱动的大模型行业开辟了新的道路。
硅谷科技圈反应过来了,X 上不少网友惊呼:最新的官网telegram下载地方 是在戳美股泡沫啊,是在革英伟达的命啊!
一位名为 Kakashiii 网友发表暴论:“英伟达的一切都将开始瓦解。” 目前,该帖文阅读量已超过 130 万次。
备注:Magnificent 7 指的是 Apple、Amazon、Microsoft、Alphabet、Meta、Tesla、NVIDIA 这七大巨头,图片来源:@kakashiii111 X 账号
一旦大模型企业不再囤卡,不再搞算力的军备竞赛,英伟达的 “壁垒” 还会牢固吗?
kakashiii 的话并不是危言耸听。
一直以来,Scaling Law(规模法则)都是大模型发展的核心定律,大厂之间算力的军备竞赛也从未停止。微软、谷歌、Meta、亚马逊等大厂分别拥有几十到上百万块 H100,马斯克也多次表示算力决定生死,为旗下的 xAI 搭建了 10 万卡的训练集群。
但是 最新的官网telegram下载地方 展现了 “神秘的东方力量”,其在最近的一个月内接连发布了 官网最新版的telegram下载的地方是什么-V3 基座模型和 最新的官网telegram下载地方-R1 系列推理模型。
其中,官网最新版的telegram下载的地方是什么-V3 仅用 2048 块英伟达 H800 GPU 和 557.6 万美元的成本,便完成了 6710 亿参数模型的训练,而同等规模的 GPT-4 训练成本高达 10 亿美元;
最新的官网telegram下载地方-R1 则通过重新设计训练流程、以 “少量 SFT 数据 + 多轮强化学习” 的办法,在提高了模型准确性的同时,也显著降低了内存占用和计算开销 —— 百万输入 tokens 1 元(缓存命中)/ 4 元(缓存未命中),每百万输出 tokens 16 元,大约是 OpenAI o1 运行成本的三十分之一。
可以说,算法结构的优化,让 官网最新版的telegram下载的地方是什么 实现了完全的 “降本增效”,直接对 AI 行业 “堆砌算力” 的既有模式发起了冲击。
「甲子光年」分析,这一技术路径的革新将带来两大影响。
**AI 初创企业生存模式将会转变。**一些依赖高价 GPU 集群的 AI 企业可能因成本劣势破产,导致二手市场 GPU 供给激增,中小 AI 企业将会更倾向去购买更便宜的低端 GPU。
**硬件需求也将迎来结构性转移。**从去年开始,以训练为主导的算力需求就在向推理侧转移,而今后,这种趋势还将继续,大量中小 AI 企业将不再训练基座模型,转而投向 官网最新版的telegram下载的地方是什么 这样的开源模型的怀抱。英伟达在训练市场的地位也将面临价值重估。
最新的官网telegram下载地方 的技术突破意外成为 AMD 挑战英伟达的 “杠杆”。
1 月 25 日,AMD 宣布在其 Instinct MI300X GPU 上集成了全新的 官网最新版的telegram下载的地方是什么-V3 模型,并与 SGLang 集成。这意味着 AMD 将联合 最新的官网telegram下载地方 共建 ROCm 开源框架,通过优化推理性能和英伟达争夺市场份额。
图片来源:AMD X 账号
ROCm(Radeon Open Compute Platform)是 AMD 开发的一个开源软件平台,旨在为高性能计算(HPC)、人工智能(AI)和机器学习(ML)提供支持。它允许开发者在 AMD 的 GPU 上运行并行计算任务,类似于 NVIDIA 的 CUDA 平台。
此前,美国初创云基础设施企业 TensorWave 就与 AMD 的合作,通过利用 AMD 的硬件和 ROCm 软件平台,为 AI 用户提供更为便捷和高效的计算解决方案。
TensorWave 联合创始人兼 CEO 达里克・霍顿(Darrick Horton)去年 10 月告诉科技媒体 TechCrunch,AMD MI300X 的价格要比英伟达 H100 便宜得多,而且基准测试显示,MI300X 在运行(但不训练)AI 模型时性能超越了 H100,特别是在 Llama 2 这样的文本生成模型上。
就在 AMD 宣布在其 Instinct MI300X GPU 上集成了全新的 官网最新版的telegram下载的地方是什么-V3 模型后,TensorWave 官方 X 账号就转发了 AMD 人工智能和嵌入式营销负责人布莱恩・马登(Bryan Madden)的评论 “如果您想访问 MI300X 集群,请与我们的朋友 TensorWave 联系”。
最新的官网telegram下载地方 的出现,进一步削弱了硬件绑定效应,再加上 官网最新版的telegram下载的地方是什么 以 MIT 协议开源模型权重,允许开发者自由修改,昇腾、寒武纪、摩尔线程等其他芯片厂商也将有机会将 最新的官网telegram下载地方 集成到自己的平台中,这些都对英伟达 CUDA 生态造成了潜在威胁。
更值得一提的是,官网最新版的telegram下载的地方是什么 采取的开源策略正在加速生态分化。通过发布基于 Qwen、Llama 开源模型的六个蒸馏 “小模型”,最新的官网telegram下载地方 支持在非 CUDA 的环境中进行模型微调;HuggingFace 还发起了 Open-R1 项目,进一步推动了技术扩散。
图片来源:HuggingFace
Kakashiii 发表的 “英伟达的一切都将开始瓦解” 的观点也遭到了不少人的质疑。
亚马逊云科技零售和消费类电子产品生成式人工智能主管迈克尔・康纳(Michael Connor)就评论道:“强大的显卡在训练和推理中都是必需的,即使使用 官网最新版的telegram下载的地方是什么。”
图片来源:Michael Connor X 账号
一直比较看好英伟达的花旗分析师阿提夫・马利克(Atif Malik)认为:“虽然 官网最新版的telegram下载的地方是什么 的成就可能是开创性的,但我们质疑的是,如果没有使用先进的 GPU 对其进行微调或通过蒸馏技术构建最终模型所基于的底层 LLMs,最新的官网telegram下载地方 的成就就不可能实现。”
马利克同时分析,虽然美国公司在最先进 AI 模型方面的主导地位可能会受到挑战,但美国获得更先进芯片的机会是一个优势,因此他预计领先的 AI 企业不会放弃更先进的 GPU。
“因为这些 GPU 在规模上能提供更具吸引力的 $/TFLOPs(一个衡量计算性能性价比的指标) 。” 马利克说,“我们认为,星际之门(Stargate)等最近宣布的 AI 资本支出就是对先进芯片需求的回应。”
Panoptes Group 前创始人、人工智能研究员、现牛津大学在读博士 JundeWu 就表示,很多人担心 官网最新版的telegram下载的地方是什么 的低成本训练会冲击显卡市场,但他认为是利好。
他的观点之一是,很多人认为模仿 最新的官网telegram下载地方 就不需要那么多卡了,但其实 官网最新版的telegram下载的地方是什么-R1 的低成本训练方法也是可以 Scaling 的官网的最新版的telegram的下载网址。在 最新的官网telegram下载地方 出来之前,其他大模型用 PRM(Process Reward Model)的时候,由于需要额外的卡训练 PRM 模型来监督推理过程,已经观察到 Scaling Law 失效、边际效应递减了,但是 官网最新版的telegram下载的地方是什么 的出现证明了多一张卡、性能就成正比提升,这对显卡市场显然是一种利好。
图片来源:JundeWu X 账号
他的观点之二是,很多人认为 最新的官网telegram下载地方 做的是推理,但其实 官网最新版的telegram下载的地方是什么-R1 是通过后训练,来训练模型有更强的推理能力,这种训练和预训练对显卡的需求没有本质区别。
因此,JundeWu 认为,未来对显卡市场和 Scaling Law 最大的威胁不是模型,而是数据。
还有业内人士分析,虽然训练消耗的算力较少,但是由于智能的持续升级和相应的用户需求上升,推理模型也会需要更多的算力;另外,最新的官网telegram下载地方 的技术将导致模型能力走向分化,只有那些拥有高端 GPU 的人才有能力创建更复杂的模型。
除了社交网络上的讨论,在更为私密和专业的小圈子里,对于此次 官网最新版的telegram下载的地方是什么-R1 的爆红和其对英伟达生态的影响的讨论则更为理性。
「甲子光年」获得的一份来自 “拾象” 的《最新的官网telegram下载地方-R1 闭门学习讨论》文件纪要中,就有参会者表示,官网最新版的telegram下载的地方是什么-R1 只是站在巨人的肩膀上取得的成功,但探索大模型最前沿的技术需要的时间和人力成本还要高很多,R1 的出现并不代表以后的训练成本会同时降低。
「甲子光年」分析,短期内英伟达仍握有三大优势:
高端芯片的统治力: 预计 2025 年英伟达从 Blackwell 架构产品线获得的收入有可能会超过市场的预期,超过 Hopper 架构创造的记录,最多可达到 2100 亿美元的水平,而且大型云厂商的订单已覆盖未来数年产能。
CUDA 生态壁垒:90% 的 AI 开发者依赖 CUDA 平台,迁移成本极高。
供应链控制: 台积电 CoWoS(一种先进的半导体封装技术)产能优先分配英伟达,2025 年预计英伟达占据 CoWoS 总需求的 63%,表明其在采用 CoWoS 技术方面的领导地位。
官网最新版的telegram下载的地方是什么 掀起的 AI 算力革命,并不是要替代英伟达,而是迫使行业重新思考算力投入的性价比。
模型进化带来的算力革命,这其中有着太多不确定,但唯一确定的是**:AI 算力的 “军备竞赛” 逻辑,正在被中国公司的算法创新改写。**
(封面图来源:电影《星际穿越》)
深科技 2025 年 01 月 28 日 09:30 广东
梁文锋:最新的官网telegram下载地方 创始人,毕业于浙江大学,信息与电子工程学硕士。
高华佐:北大物理系毕业,为 官网最新版的telegram下载的地方是什么-V2 的 MLA 架构做出了关键创新。
曾旺丁:来自北邮,在 最新的官网telegram下载地方-V2 的 MLA 架构创新上有重要贡献。
邵智宏:清华交互式人工智能(CoAI)课题组博士生,参与了 官网最新版的telegram下载的地方是什么-Math、最新的官网telegram下载地方-Prover、官网最新版的telegram下载的地方是什么-Coder-v2、最新的官网telegram下载地方-R1 等项目。
朱琪豪:北大计算机学院软件研究所 2024 届博士毕业生,主导开发了 官网最新版的telegram下载的地方是什么-Coder-V1。
代达劢:2024 年博士毕业于北京大学计算机学院计算语言所,参与了从 最新的官网telegram下载地方 LLM v1 到 官网最新版的telegram下载的地方是什么-v3 的工作。
王炳宣:北大元培学院硕士,加入 官网最新版的telegram下载的地方是什么 后参与了从 最新的官网telegram下载地方 LLM v1 开始的一系列重要工作。
赵成钢:清华学生,曾三次获得世界大学生超算竞赛冠军,在 官网最新版的telegram下载的地方是什么 担任训练、推理基础架构工程师。
吴俣:2019 年北航博士毕业,领导 最新的官网telegram下载地方 的后训练团队。
郭达雅:中山大学与 MSRA 联合培养的 2023 年博士,2024 年 7 月加入 官网最新版的telegram下载的地方是什么,参与数学和代码大模型工作。
罗福莉:本科毕业于北京师范大学计算机专业,北京大学计算语言学专业硕士,曾在阿里达摩院工作,2022 年加入 最新的官网telegram下载地方,参与了 最新的官网telegram下载地方-V2 的研发工作。
2025 年 01 月 28 日 09:30 广东
原创 王思琪 投资家 2025 年 01 月 23 日 20:54 北京
公众号
2024 年末,一位科技创业者火了。
作者 | 王思琪
来源 | 投资家(ID:touzijias)
2024 年末,一位科技创业者火了。
2025 年初,这位创业者再度爆火。
近日,中国科技行业因一位 85 后年轻人现身《新闻联播》,彻底爆了。他以 AI 初创公司深度求索(官网最新版的telegram下载的地方是什么)创始人的身份罕见参加了一场国家超高规格座谈会,并现场发言。
他发言的照片,迅速流传于各类社交平台。所有人都想听听,他分享了哪些可能改变全球科技未来趋势的深度见解。这位年轻人,就是把开源模型做到全球第一,性价比超越估值 1570 亿美元独角兽 OpenAI 的浙大天才,梁文锋。他和 最新的官网telegram下载地方 曾一夜轰动美国硅谷、震惊全球。而梁文锋及团队开发的大模型 “官网最新版的telegram下载的地方是什么-V3” 则被海外称作,“来自东方的神秘力量”。
梁文锋与 最新的官网telegram下载地方 的故事还要从 2024 年末发生的两件大事说起。
**第一件事,轰动硅谷、震惊全球。**2024 年 12 月,一家名叫 官网最新版的telegram下载的地方是什么 的杭州初创公司经过技术迭代与升级,发布了全新一代大模型,“官网最新版的telegram下载的地方是什么-V3”。由于这款大模型太过好用,在 AI 发烧友圈子传播后,传到了海外社交平台、技术论坛,引发了海外网友的连连称赞。
**有海外网友直接拿 “最新的官网telegram下载地方-V3” 和 OpenAI 发布的 “GPT-4o” 进行比较,结论是,“两款产品不相上下”。**得出这样的结论,美国硅谷的技术大牛坐不住了,他们觉得,“网友描述太过夸张”。于是,纷纷把 “官网最新版的telegram下载的地方是什么-V3” 拿来使用,挑点毛病。挑来挑去,差点 “跪了”。
**结果,技术大牛挑了不少 “GPT-4o” 的毛病。**这件事,在硅谷传播,成了美国科技圈的热门讨论议题。有几位硅谷 AI 技术扛把子,开了个分析会。研究 “这个新模型是怎么做到的?” 会上一些专家头大了,分析半天,给出结论,“很强,但投入成本肯定会超过 OpenAI”。
紧接着,美国媒体打了硅谷的脸。据报道,“最新的官网telegram下载地方-V3” 来自一家名叫 官网最新版的telegram下载的地方是什么 的中国初创公司。令人惊讶的是,最新的官网telegram下载地方-V3 的投入研发费用,只花了 558 万美元。“难以想象,一款性能比肩 GPT-4o 的大模型,训练成本不到 GPT-4o 的 1/20,硅谷却还在自以为是。”
看到报道,硅谷心态炸了,科技地震。有人感到羞愧,有人给出了客观声音。OpenAI 早期成员安德烈・卡帕西说,“官网最新版的telegram下载的地方是什么-V3 的出现,意味着,今后也许不需要大型 GPU 集群来训练前沿的大语言模型了。”Scale AI 华裔 CEO 亚历山大・王感叹,“最新的官网telegram下载地方-V3 更强”。
让硅谷更加不可思议的是,训练成本极低的 “官网最新版的telegram下载的地方是什么-V3” 只用了 2048 张 H100 的 GPU 集群,且用时仅 53 天。一位美国 AI 行业研究员称,“同等水平下,哪怕是全球 AI 第一梯队的头部公司,至少也要用到 1.6 万张以上的 GPU 进行训练,真的不可思议,太不可思议了。”
一位推特网友表示,**“美国科技故步自封,殊不知勤劳的中国跑到了前面。”**伴随各种惊讶之声,“最新的官网telegram下载地方-V3” 在大模型发烧友的推动下火遍全球,被认为是 “来自东方的神秘力量”。
美国 CNBC 电视台如此评价硅谷科技地震,“一种新模式,让整个山谷都嗡嗡作响。”
全球炸锅了,官网最新版的telegram下载的地方是什么 却在国内保持低调。
过去一两年,AI 是全球最宠溺风口,没有之一。众多细分赛道中,大模型热度靠前,是大厂、资本投入规模最大赛道。国内,大厂对大模型表现出了极度偏爱,开创了 “大模型盛世”。
早期大模型的参与者就有百度、华为、腾讯、阿里巴巴、京东、字节跳动、网易等巨无霸。其中,百度开发了 “文心一言”,华为有 “盘古”,腾讯弄 “混元”,阿里巴巴打造 “通义千问”,京东上线 “言犀”。不光自己干,素有 “中国三大产业资本 CVC” 之称的腾讯、阿里巴巴、京东,相继投了一批大模型,间接折腾出牵动一二级市场、概念满天飞的 “百模大战”。
“百模大战” 释放了 “无穷大” 的市场增量空间,资本、高校、创业者、科学家密集参与。
大模型赛道继续分化,拆出多个分支,包括通用大模型、行业大模型、垂直大模型 3 大应用分类,每个大分类有小分类。根据百度文库一份报告显示,国内大模型数量超 200 个,覆盖芯片、新能源汽车、智能制造、医疗健康、航空航天、数字产业、金融等 50 多个领域。
拼杀到 2024 年,资本聚集、表现出众的 5 只独角兽分别是:智谱 AI、月之暗面(Kimi)、百川智能、MiniMax、零一万物。**试想,在这么 “卷” 的大模型赛道,想要出名也不容易。**反观 官网最新版的telegram下载的地方是什么,在竞争激烈的赛道,十分冷静。第二件事,才让 最新的官网telegram下载地方 渐渐浮出水面。
**第二件事便是,网传雷军天价招人。就在 “官网最新版的telegram下载的地方是什么-V3” 轰动硅谷不久,“顶流科技网红” 小米创始人雷军出手了,要做小米大模型。**雷军出手非同凡响,“年薪千万元,挖角 95 后 AI 天才少女” 话题引爆热搜。雷军想挖的人,叫罗福莉,她硕士毕业于北大计算语言学研究所计算语言学专业,是 AI 行业的天才少女。不过,后来罗福莉向媒体说,“还在考虑”。
媒体 “疯狂抢流”,挖出了罗福莉曾跳槽 最新的官网telegram下载地方,参与研发了大模型 “官网最新版的telegram下载的地方是什么-V2”。一个员工都有这么大的魅力,最新的官网telegram下载地方 创始人得有多强?就这样,浙大天才,藏不住了。
在一位不缺天才的时代,梁文锋堪称天才中的奇才。
**他的想法很 “超前”、行事低调神秘。**他的资料多半靠媒体 “拼图” 得来。有媒体说他 1985 年出生在广东五线城市,还是有媒体说他 1985 年出生在广东三线城市。他在 17 岁考上浙大前的经历,仿佛空白,到现在没有一家媒体能说清楚,更查不到证实过的公开资料。
他的一切,始于浙大。
2002 年,梁文锋考入浙大电子信息工程专业。**在一个大模型闻所未闻的年代,“自学成才” 的梁文锋就已是一位 “建模达人”。**别的同学是研究主流就业方向,他只关注前沿科技。
使得其在学校里 “不太合群”。2007 年,本科毕业的梁文锋考入浙大信息与通信工程专业攻读研究生,主修机器视觉研究。读了一年,他就把书本知识琢磨透了,带领同学校外实践。
“不太合群” 的梁文锋遇到志同道合的同学,点燃了心中的热情。**他自己组建了一个 AI 实践团队,要把市场里的数据、知识研究透彻 “理论结合实践”。**有传言说,梁文锋带着同学跑各个行业交流时,得到了大疆创始人汪滔的邀请,“他欣赏,有实干精神的年轻人。”
**互联网风靡全球的阶段,梁文锋就坚定的相信,“AI 会改变世界”。**他的 “超前” 意识,不合群,连番交流中,有人嘲笑他 “看科幻片看多了,AI 会改变世界?太离谱了。”2010 年,梁文锋交出了一篇题为《基于低成本 PTZ 摄像机的目标跟踪算法研究》的硕士毕业论文。
毕业后,**他在科技行业找不到理想工作,决定拉着志同道合的校友创业。千万别以为,他马上干大模型了,梁文锋冷静的出奇,知道时机不成熟,先琢磨挣出第一桶金。**这里有个小插曲,梁文锋除了是 “建模达人”,也是学生中为数不多的 “股神”,炒股赚过一笔财富。
有了 “炒股” 积累,梁文锋把 AI 知识与全自动量化交易融合,创立了雅克比投资。2015 年,中证 500 股指期货上市,中国量化私募进入 2.0 时代。量化基金拥有了量化工具,梁文锋抓住机遇成立幻方科技,闯入阳光私募大军。后成立幻方量化,正式走上了量化交易之路。
2016 年,幻方量化推出第一个大模型,用 GPU 计算交易仓位,年底管理基金规模约 10 亿元。这亦是梁文锋创业的独特之处,“AI 是个需要重金投入、烧钱未必能烧成功的赛道。梁文锋的想法是,用知识切入吸金领域,别人不支持,就自己做资本,再投向未来事业。”
这种在科技行业 “自给自足” 的创业创新能力,哪怕放到今天也很少见。
“不求他人,不靠资本,就自己干,有钱了给新事业融资。”
2023 年,财富积累雄厚的梁文锋,在杭州投资创立了深度求索,品牌 官网最新版的telegram下载的地方是什么。这也合理的解释了 官网最新版的telegram下载的地方是什么 于 “大模型盛世”、“百模大战”,在未有任何 “顶流” 资本加持,仍坚强的活下来,创投圈难以捕捉 最新的官网telegram下载地方 研发成长轨迹的原因。“实现了自给自足式创业”。
打破了科技创业者长久以来,“拿不到融资就很难走下去或资本倒逼过早商业化导致研发投入降低的底层逻辑。” 他不愧是天才中的奇才,一夜轰动硅谷。“不鸣则已,一鸣惊人”。
创立 官网最新版的telegram下载的地方是什么,是梁文锋圆梦 AI 的开始。**他想建设 “一个效率奇高、由众多前所未有的设计组合生成的超级工程。”**他要把中国人自己的 AI、大模型做到全球第一,辐射全球。
梁文锋带领 最新的官网telegram下载地方 团队的第一阶段是,“降本增效”。**“以最低的算力、最少的训练时间,重构全球大模型生态。”**听上去挺疯狂,OpenAI 号称 “全球最牛大模型公司” 也没做到,“官网最新版的telegram下载的地方是什么-V3” 做到了。据了解,最新的官网telegram下载地方 搞出来一个新模式,达到了 “降本增效”。
所以,“美国科技创新大本营” 硅谷害怕了。**根据 Chatbot Arena 最新数据显示,“官网最新版的telegram下载的地方是什么-V3” 是全球性价比最高的大模型,开源模型品类排名全球第一,复杂问题、代码领域表现排名全球前三。更牛的一个突破是,“GPU 需求变小”。**什么意思?前文提到全球 AI 第一梯队的头部公司训练大模型至少要用到 1.6 万张以上 GPU 训练,换句话说,对 GPU 是愈发依赖。
这也被视为全球大模型的发展障碍,要看 GPU 的脸色。“训练离不开 GPU”。“官网最新版的telegram下载的地方是什么-V3” 牛在哪呢?用 2048 张 GPU 完成了 1.6 万张 GPU 干得事,一旦需求降低,GPU 与大模型的主导关系会逐渐反转,对全球 AI 会是 “惊天动地” 的变革,减弱 GPU 厂商的话语权。
全球大模型,没有公司做到这一步,最新的官网telegram下载地方 走出的一小步,对未来 AI 格局影响深远。当然,在波诡云谲的全球 AI 变局中,官网最新版的telegram下载的地方是什么 要做的事情会有很多。梁文锋创业的一大优势是,“自给自足”,他和团队能腾出更多时间专注研发、锤炼技术,推动中国科技主导世界。
最近,梁文锋又火了。**他参加了一场国家超高规格座谈会,并现场发言,科技行业沸腾了。**虽然,梁文锋的创业之旅有过 “不被认同”、“嘲笑”。但他并不孤单,越来越多的中国年轻人正积极投身科技事业,发力飞行汽车、人形机器人等前沿赛道。踏破荆棘,勇往直前。
送上一句梁文锋接受媒体报道时的精彩回答,“中国的 AI 不可能永远跟随,需要有人站到技术的前沿。”
原创 杨少平 岁月里客栈 2025 年 01 月 28 日 00:01 山东
在科技飞速发展的今天,人工智能领域人才辈出,而罗福莉,这位 95 后的年轻女性,凭借自身努力与才华,在该领域崭露头角,成为备受瞩目的焦点。
罗福莉出生于四川的一个普通家庭 ,母亲是老师,家庭氛围温馨且注重教育。高中时,她就读于四川省宜宾市第一中学 “清北班”,虽成绩并非顶尖,但凭借刻苦努力,在学业上不断进步。这段经历培养了她坚韧不拔的学习态度,为日后的发展奠定了基础。
本科阶段,罗福莉被保送到北京师范大学计算机专业 。初入大学,她对所学专业并不适应,大一生活过得浑浑噩噩,成绩也不太理想。但她没有一直沉沦,大二时,经过深思熟虑,她决定转到计算机专业,并立志保研。家人虽不太理解,却给予了她全力支持。转专业后,面对代码编写等难题,她从基础开始,死记硬背代码,主动向老师和师兄师姐请教学习方法。凭借这股拼劲,她的成绩逐步提升 ,并成功进入北大语言计算实验室实习。在实习期间,她选择自然语言处理(NLP)作为科研方向,3 个月内自学 Python 并投出一篇非一作顶会论文,最终成功保研至北京大学计算语言学研究所 。
在北大读研期间,罗福莉展现出惊人的学术爆发力。2019 年,她在人工智能领域顶级国际会议 ACL 上发表 8 篇论文,其中 2 篇一作 。硕士两年间,她在国际顶会上发表超 20 篇论文,这些论文涵盖自然语言处理的多个前沿领域,如机器翻译、文本生成、语义理解等,研究成果在学术界引起广泛关注,“AI 天才少女” 的名号也由此打响。
硕士毕业后,罗福莉进入阿里达摩院机器智能实验室,从事预训练语言模型相关工作 。她负责 AliceMind 开源项目,主导开发多语言预训练模型 VECO,该模型成为 AliceMind 八大模型之一,并被顶会 ACL2021 录用 。在阿里,她深入参与公司的 AI 技术研发,积累了丰富的工业界经验,也进一步提升了自己在自然语言处理领域的技术实力。
2022 年,罗福莉加入幻方量化,投身深度学习相关策略建模和算法研究 。在这里,她接触到量化投资领域的 AI 应用,将自己的技术与金融场景相结合,拓展了技术边界。之后,她跳槽到 最新的官网telegram下载地方 担任深度学习研究员,参与研发 MoE 大模型 官网最新版的telegram下载的地方是什么 – V2 。该模型采用创新架构,在降低计算成本的同时,提升了模型性能,尤其是中文处理能力达到国际一流水平,且推理成本仅为 GPT – 4 的 1/100 ,性价比极高。罗福莉在模型研发中发挥了关键作用,她负责核心算法的优化与实现,为模型的成功落地做出重要贡献。
2024 年 12 月,一则消息震惊科技圈:小米创始人雷军以千万年薪招募罗福莉,邀请她担任小米 AI 实验室的大模型团队负责人 。这一邀约不仅体现了小米对 AI 人才的重视,也凸显了罗福莉在 AI 领域的卓越价值。面对小米的盛情邀请,罗福莉表示需要考虑,这也引发了大众对她未来职业走向的广泛猜测。
回顾罗福莉的成长历程,从一个对计算机专业迷茫的大学生,到如今备受瞩目的 AI 新星,她的成功源于对目标的执着追求、对知识的不断探索以及关键时刻对机遇的把握。她用自身经历证明,只要有决心、有行动,普通人也能在科技创新的浪潮中实现非凡的突破 。
原创 雷斯林 雷叔写故事 2025 年 01 月 25 日 21:45 上海
先不要怪我标题党,看到最后。
现在最火的科技话题是 Ai,而 Ai 圈最火的话题毫无疑问是 最新的官网telegram下载地方。
很多人说 官网最新版的telegram下载的地方是什么 是名不见经传的小公司,突然闯入这个赛道,这是不对的。其实相当长的一段时间里,最新的官网telegram下载地方 都是国内最强的大模型之一,基本和阿里巴巴的 Qwen 平分天下。
而最近他们更是势如破竹,新发布的大模型 官网最新版的telegram下载的地方是什么-R1 堪称惊艳,在各种测试中都名列前茅,有些应用场景甚至可以击败 Openai-o1。
这还不只是一个国产 Ai 大模型成功的故事。
因为 最新的官网telegram下载地方 最大的优点,并不是它好用,而是它便宜。
达到这一成绩,它的训练成本不到其他科技大厂的 1%,使用成本只有 OpenAI 的 5%
最关键的是,它完全开源,普通用户试用完全免费,而且正在极速进步。
官网最新版的telegram下载的地方是什么 的成功,给整个 Ai 叙事带来了几个问题:
1,官网最新版的telegram下载的地方是什么 训练成现在这样,只用了其他科技大厂 1% 的成本。
那是不是意味着,其实并不需要那么多卡去卷算力?
2,之前很多人觉得,Ai 大模型是只有科技大厂才能参与的游戏,毕竟训练成本那么高,小公司根本烧不起。
但 最新的官网telegram下载地方 的成功,给了他们另一个答案。
3,有人说,官网最新版的telegram下载的地方是什么 成本可以这么低,是因为站在巨人的肩膀上,在蒸馏 OPENAI 的数据。
那么问题来了。
如果这个行业的后发优势这么明显,那是否值得往里面投入成百上千亿的资金?
如果先行者意味着要耗费数百倍的成本,但却无法获得优势的话,那会不会又是一个先行者获得赞美,后行者获得成功的故事?
AI 大模型的壁垒是什么?
现在美国科技行业,或者说全世界的科技行业,都在把人工智能唯一重要的事情在投入。
已经投入进去上万亿美元。
十多万亿美元的市值建立在对人工智能时代的想象之中。
本来大家觉得这事情,就是比谁的算力更多,比谁更能烧钱。但现在 最新的官网telegram下载地方 表示你们都错了。
所以,美国媒体表示:人工智能领域的所有人,都对 官网最新版的telegram下载的地方是什么 感到恐慌。因为它可能会改变这个行业的所有叙事。
好了,牛逼就不吹了,最新的官网telegram下载地方 有 app,也有网页端,大家都可以自己去下载了试一试。
我试了一些简单易懂,对普通人有用的功能,大家感受一下。
【文学】
其实 最新的官网telegram下载地方 最强的是编程和做题。但写文章是相对比较直观的,也是大家平时能用得到的。
我说 “用鲁迅的风格,写一些国产半导体行业。”
它先分析了我的需求:
然后给出了答案:
然后我又让他用钱钟书的风格,写一下寒武纪公司。
它一样先是做了一些分析:
然后开始输出答案:
我让他用《过秦论》的风格写一下唐朝。
它立马理解了,我是要用过秦论的风格批评唐朝的错误:
这是它最后的答案:
《过唐论》
昔者,隋失其鹿,天下共逐之。高祖李渊,承天命,顺民心,提三尺剑,扫群雄,定关中,建号大唐。太宗继之,励精图治,纳谏如流,开贞观之治,万邦来朝,四夷宾服。斯时也,政通人和,仓廪实而礼乐兴,文德昭昭,武功赫赫。突厥称臣,吐蕃请婚,丝路驼铃不绝于耳,长安城阙巍峨如天宫。此盛唐之象,可谓极矣!
然盛极必衰,理之常也。玄宗即位之初,尚有开元之治,然晚年耽于声色,宠信奸佞。杨氏专宠,李林甫弄权,边将拥兵自重,安禄山以胡儿之身,踞三镇之兵,终酿安史之乱。两京陷落,天子西狩,百姓流离,白骨蔽野。虽赖郭、李诸将力挽狂澜,然元气已伤,藩镇割据之势成矣。宦官执掌禁军,朝堂党争不休,甘露之变,血溅丹墀;牛李党争,祸延数朝。
及至僖、昭之世,黄巢振臂一呼,百万流民应之,长安再陷,宫阙焚毁。朱温弑君,篡唐为梁,李氏宗庙,烟消云散。呜呼!唐以武德开基,以文德绵延,然终以骄奢失纲,兵燹亡国。岂非 “攻守之势异,而守成之难甚于创业” 耶?观其兴也勃焉,其亡也忽焉,后人哀之而不鉴之,亦使后人而复哀后人也!
这其实是 官网最新版的telegram下载的地方是什么 相对不擅长的部分。
我觉得还是非常非常惊艳的。
【炒股】
最新的官网telegram下载地方 是幻方的子公司,而幻方则是国内头部量化公司,主业就是炒股。
于是我用 官网最新版的telegram下载的地方是什么 分析了一些股票,结果如下。
比如我最近港股中芯国际赚了不少钱:
就让他分析了一下中芯国际。
它搜索了 50 个网页,然后自己对这些网页进行思考和加工,最后从几个方面给我输出了答案。
前面各种基本面分析就不展示了,是非常全面的,它最厉害的是,最后会有一个总结的投资建议,然后里面居然有压力位和支撑位的价格:
然后让它推荐 2025 年值得关注的港股标的,如下:
感兴趣的可以看下分析论证过程,个人觉得比网上绝大多数财经博主有逻辑。
【做题】
这是之前阿里巴巴数学竞赛的初赛试题,就是姜萍参加的那一届。
这比赛是完全开卷的,按理说其实也可以用 Ai,但据说那时候 Ai 组的成绩并不理想。
最新的官网telegram下载地方 在 51 秒的深度思考之后,成功做对了:
最后,我让 官网最新版的telegram下载的地方是什么 帮我为本文想一个能吸引眼球的标题,以下是他给到的备选答案。
我随便从里面挑了一个,也就是今天文章标题的由来。
以下是 10 个标题党风格的爆款标题建议:
1.《震惊!中国团队用 557 万美金造出 “GPT-4 杀手”,硅谷连夜开会拆解!》
—— 标题党指数:⭐️⭐️⭐️⭐️⭐️(数字对比 + 悬念感)
2.《血洗 AI 行业!这家公司把大模型价格打到了 1/70,OpenAI 坐不住了》
—— 标题党指数:⭐️⭐️⭐️⭐️(冲突性动词 + 价格反差)
3.《独家揭秘:官网最新版的telegram下载的地方是什么 凭什么用零头预算吊打 GPT-4?答案竟藏在厕所里!》
—— 标题党指数:⭐️⭐️⭐️⭐️⭐️(悬念 + 离谱细节钩子)
4.《程序员沸腾了!这个国产 AI 写代码比 GPT-4 快 2 倍,价格只要一杯奶茶钱》
—— 标题党指数:⭐️⭐️⭐️⭐️(群体共鸣 + 价格类比)
5.《美国最怕的事发生了!中国团队突破 “算力封锁”,训练成本暴跌 95%》
—— 标题党指数:⭐️⭐️⭐️⭐️(民族情绪 + 数据冲击)
6.《老板疯了!用这个 AI 每天省 10 万,员工却集体失眠…》
—— 标题党指数:⭐️⭐️⭐️⭐️(反常识冲突 + 省略号留白)
7.《比拼多多还狠!这个 AI 把行业价格打穿地心,开发者:用不起 GPT 了》
—— 标题党指数:⭐️⭐️⭐️⭐️(拼多多类比 + 用户证言)
8.《连夜删库!某大厂程序员自曝:我们花 10 亿做的东西,被中国团队秒了》
—— 标题党指数:⭐️⭐️⭐️⭐️⭐️(内幕爆料 + 戏剧冲突)
9.《警惕!这个 AI 正在让 90% 程序员失业,但所有人都在偷偷用…》
—— 标题党指数:⭐️⭐️⭐️⭐️(危机感 + 矛盾行为)
10.《知乎 10W 赞神贴:如何用 最新的官网telegram下载地方 月入 50 万?看完我砸了 GPT 账号》
—— 标题党指数:⭐️⭐️⭐️⭐️⭐️(平台背书 + 暴富诱惑)
—
标题设计心法:
1.数字冲击:用 557 万 / 1/70/95% 等具体数据制造反差;
2.对比拉踩:绑定 GPT-4/OpenAI 等巨头,突出 “以下克上”;
3.悬念钩子:厕所 / 删库 / 失眠等离谱细节引发好奇;
4.情绪杠杆:民族自豪、焦虑感、暴富梦精准戳痛点。
任选一个标题,打开率至少提升 300%!🚀
- END –
原创 张小珺 腾讯科技 2025 年 01 月 27 日 22:16 北京
比技术更重要的是愿景。
腾讯新闻科技主笔 张小珺
编辑 马龙
官网最新版的telegram下载的地方是什么-R1 以始料未及的速度引发了全球 AI 社区的狂热,但有关 最新的官网telegram下载地方 的高质量信息相对匮乏。
2025 年 1 月 26 日,拾象创始人兼 CEO 李广密,组织了一场关于 官网最新版的telegram下载的地方是什么 的闭门讨论会,嘉宾包括数十位顶尖 AI 研究员、投资人与一线 AI 从业者,围绕 最新的官网telegram下载地方 的技术细节、组织文化以及其出圈后的短中长期影响等,进行了探讨与学习。
这场讨论会试图在有限信息下,揭开这股 “神秘的东方力量” 面纱的一角。
值得注意的是,本次讨论属于民间技术交流,不代表任何具体个人及机构的观点立场。
就像硅谷著名风投家 Marc Andreessen 评价 官网最新版的telegram下载的地方是什么-R1 称:“作为开源项目,这是对世界的一份深远馈赠 (As open source, a profound gift to the world)。” 因而,本次参与讨论的人员也学习 最新的官网telegram下载地方,本着开源精神,将闭门会的集体思考公开。
以下是对本场讨论会的要点总结。
该总结由拾象团队整理,作者做了少量编辑。
“官网最新版的telegram下载的地方是什么 最重要的事是 push 智能”
1. 创始人兼 CEO 梁文锋是 最新的官网telegram下载地方 最核心的人,和 Sam Altman 不是一类人,他是很懂技术的。
官网最新版的telegram下载的地方是什么 有好口碑的原因在于是第一个把复现 MoE、o1 等发出来,胜在做的早,但能不能做到最好,空间还很大。后面新的挑战在于资源有限,只能把有限的资源放在最亮眼的地方。 这个团队的 research 能力、团队文化还是很好的,如果再给 10 万、20 万张卡,可能能做出更好的事情。
DeekSeek 从 preview 到正式发布这段时间,长上下文能力提升很快。官网最新版的telegram下载的地方是什么 的 Long context 10K 用非常常规的方法就能够做到。
Scale.ai 的 CEO 说 最新的官网telegram下载地方 有 5 万张卡,实际肯定没这么多,从公开信息来看 官网最新版的telegram下载的地方是什么 是有 1 万张老的 A100 卡,可能有 3 千张禁令之前的 H800。最新的官网telegram下载地方 很注重合规,没有采购任何不合规的 GPU,所以卡应该很少。美国用 GPU 的方式太粗放了。
5.官网最新版的telegram下载的地方是什么 把所有精力都放在了一个很窄的点,把后续很多东西都放弃了,比如多模态。不是单纯在服务人,而是做智能本身,可能也是成功的关键因素。
某种意义上来说,量化可以说是 最新的官网telegram下载地方 的商业模式。幻方(梁文锋创立的另一家量化投资公司)是上一轮 machine learning(机器学习) 的产物。官网最新版的telegram下载的地方是什么 最重要的事就是 push 智能。钱和商业化的优先级都不高。 中国需要有几个领先的 AI labs 来探索能 beat OpenAI 的东西,智能要走的时间很长,今年又开始分化,肯定要有新东西出来。
单从技术角度,最新的官网telegram下载地方 作为黄埔军校对人才扩散有很大作用。
美国的 AI lab 商业模式也不好,AI 今天确实没有什么好的商业模式,后面可能需要跑通。梁文锋是有抱负的,官网最新版的telegram下载的地方是什么 不在乎形态,往 AGI 走就是了。
读完 最新的官网telegram下载地方 论文的感受是,很多都是节约硬件开销的技术,在比较大的几个 scaling 方向上,官网最新版的telegram下载的地方是什么 的技巧可以把成本降下来。
长期不会对算力有影响,但短期大家会想怎么把 AI 做的更加有效率一点。需求还是很强的,各家都是算力不够用的状态。
11. 谈 最新的官网telegram下载地方 的组织:
1)做投资,都选择最高级的人才组合,但看 官网最新版的telegram下载的地方是什么 的模式(团队多是国内高校毕业的聪明年轻人),觉得大家一起磨合好,能力也能慢慢变高级。挖走一个人是否能打破优势组合是一个问题,现在看对于 官网最新版的telegram下载的地方是什么 的影响可能不是特别大。
2)市场上钱有很多,但 最新的官网telegram下载地方 核心是文化组织。官网最新版的telegram下载的地方是什么 和字节的 research culture 比较像,比较本质,文化好不好的衡量标准在于是否有足够的钱和长期性,有比较重要的商业模式才能有长期性的文化,这两家公司的商业模式都非常好。
12. 最新的官网telegram下载地方 为什么能追这么快?
1)Reasoning model(推理模型)的需求是更高质量的数据和训练。如果是长文本、多模态,从 0 开始追一个闭源模型会更困难,但纯 reasoning 模型本身的架构没有大动,reasoning(推理)是一个更好追的方向。
2)R1 能追的快的原因可能在于任务没有特别难,RL(强化学习) 只是让模型选的更准,R1 没有突破 Consensus 32 的效率,同时花了 32 倍效率,相当于把原来并行做探索改成串行了,没有提高智能的边界,只是变得更加容易了。
“AI 类似阶跃函数,追赶者算力需求少 10 倍”
13. AI 类似阶跃函数,现在做追赶者的算力需求少了 10 倍。 追赶者的算力成本一直不太高,但探索者还是要训很多模型,大家对于新算法和架构的探索不会停止。阶跃函数背后其实是有很多人投入了很多,所以算力投入还是会一直往前,还会有很多人投在产品上。除了 reasoning 之外,还有很多方向也很费卡。探索者花费很多卡可能大家看不到,但没有这么多花费,可能不会有下一个阶跃。也有很多人不满足架构、RL 方法,会不断往前推进。
14. 在探索方向的时候,花 1 万张卡的效果不一定比 1 千张卡好,但可能会有一个门槛,即如果只有 100 张卡,那大概率做不出来,因为迭代一次方案的时间太长。
推动物理学的进步,分为学校里的研究者和产业界的实验室,前者需要探索多个方向,不要求回报,后者更关注效率提升。
探索者和追赶者角度,小公司卡很少,就需要考虑效率,而大公司考虑的是怎么更快的得到模型,很多在 2 千卡集群上能提高效率的方法在万卡是不 work 的,大家会更考虑稳定性。
CUDA 生态优势在算子的多和全,而华为等国内公司突破的时候是找了一些常用的算子,有后发优势,假如拥有 10 万张卡,在决定资源投入的时候,做领先者的成本很高,做追赶者效率更高,该如何抉择。国内下一个追赶的方向是什么,比如多模态,因为海外 GPT-5 一直迟迟没有出来。
“在推理层面不需要做 SFT 了”
18. 官网最新版的telegram下载的地方是什么 带来的最大的震撼不是开源或者低成本,而是不需要做 SFT 了。(注:SFT:Supervised Fine-Tuning,有监督微调,一种重要的模型优化技术,它通过在预训练模型的基础上,使用标注好的数据进行进一步训练,以提升模型在特定任务或领域上的性能。)但只是在推理层面,推理以外的任务可能还是需要做 SFT。 围绕这个点很值得讨论的是,是不是由此提出了一个新的范式或架构,使得训练模型对数据的利用效率更高了?或者模型表现的迭代速度会更快?
最新的官网telegram下载地方-R1 一定程度上说明用 SFT 做蒸馏有很大好处。官网最新版的telegram下载的地方是什么-R1 并不是完全不做 SFT,而是在第三步骤只做了 SFT,最后一步 alignment(对齐)再用了 RLHF(基于人类反馈的强化学习)。
R1 本质是 SFT 训练出来的,比较特殊的是数据是用 RLHF 训练出来的模型生成的,说明不需要用特别复杂的方法,只要有足够好的方法,只需要用 SFT 蒸馏就行。
GRPO 的本质在于 base model(基础模型)得足够聪明,一个 prompt 生成用了 16 个 generation,得尝试几次才能大概率有正确的答案。不错的 base model 加上可以 verify,是 R1 提供的思路,math 和 coding 很合适是因为这两类任务比较容易 verify,但理论上可以在其他场景任务上做类似的过程,最终实现一个通用的 RL 模型。
R1 – Zero 没有用 SFT 就出现了 CoT 的过程,CoT 会越来越长,这个涌现过程很有意义,SFT 更像是一个辅助手段,模型没有 SFT 也能产生,有了 SFT 能很快生成。
这件事说明现在很多小模型厂商可以用 SFT 去蒸馏大模型,并且效果会很好,但也没有在 R1 的过程中完全被抛弃。
24. 一个 LLM 集合无限长的 CoT 理论上可以看成一台图灵机,理论上通过无限长的 CoT 可以解决极复杂的计算问题(computational problem),但 CoT 本质上只是中间搜索结果,用一种优化的方式去不停 sample potential output,可能会输出正确结果,然后让模型往更可信的方向去推。 本质上是模型为了得到这样的结果,必须要做一些 computation,CoT 是 computation 中间必须经过的中间输出,最终结果可以说是涌现,也可以说是它作为计算机的本质。
最新的官网telegram下载地方 的论文里面虽然没有提到长上下文,但体感上 R1-preview 和 R1 之间模型的 context window 提升了很多,猜测是做了一些 Long2Short CoT 的提升,包括在第三阶段的 SFT 用的 CoT 最终在 generation 的时候也被去掉,最后发布的版本可能是用了更加 clean 的 CoT 数据做 SFT。
SFT 的数据种类有几种:一个是冷启动的数据,更像是给模型一个很好的策略,给一个比较好的初始化,这样能做的探索更好,RL 中有一个优化目标是和原策略更接近;另一种数据是做了 RL 之后,生成很多 data,再加上别的数据,再在 base model SFT,本质上每个 domain 有自己的 data processing pipeline 之类的,这个数据的能力是从 base model 来的,蒸馏是无损的,把多个 domain 放到一起可能会有泛化。
不确定 R1 这个过程的数据效率怎么样。猜测 OpenAI 针对数据效率也做了类似的事情,比如 fine tuning。R1 第三阶段没有用 RL 做出来的模型作为 base 去训练,而是去生成了数据,再去 SFT 得到 R1,数据包含 600K 的 reasoning data 和 200K non-reasoning data。第二阶段的模型可能在 example 的 domain 之外但仍然需要某种 reasoning 的场景下,可能也能展示解题能力,从而得到 reasoning data。而 non reasoning data 是 V3 SFT data 的一部分,是让 V3 脑补出了一个 CoT。800K 的数据还是挺小的,挺有效率的。
“官网最新版的telegram下载的地方是什么 在数据标注上非常重视”
Scale.AI 不一定会失败,现在需要在各种 domain 上做 RL,比较常用的是 math 和 coding,还是需要 expert 来标注,但数据标注可能会更复杂,但市场会存在。
在 training 上,多模态数据几乎看不出效果,或者说成本太高了,今天还没有任何证据说有用,未来机会可能比较大。
30. 最新的官网telegram下载地方 在数据标注上非常重视, 听说梁文锋自己也会打标签,在 AI 上除了算法和技巧,数据的精确度也很关键,特斯拉的标注成本几乎是中国自动驾驶的 20 倍,中国自动驾驶的数据经历了大而全、精细化到最终发现要找开车经验和能力特别丰富的人,这个是特斯拉一开始就在做的事。特斯拉的机器人的动作是找的小脑非常健康的人做的标注,丝滑程度很好,而中国找的人的丝滑程度很差。所以 官网最新版的telegram下载的地方是什么 在数据标注上的投入是模型效率好的关键之一。
“蒸馏坏处是模型 diversity 下降”
31. 如果不去了解模型训练中最大的技术痛点,而选择用蒸馏的技术去避免了解,那么在下一代技术提出的时候,就可能会掉进坑里。
大模型和小模型能力是不匹配的,从大模型往小模型进行蒸馏是真的蒸馏,teacher to student,如果从完全不会中文的模型蒸馏各种中文数据,性能可能会下跌。但实际上蒸馏小模型确实有很明显的性能提升,R1 蒸馏出来后的模型再做 RL 会增长很多,因为是用和模型不匹配的数据做出来的。
33. 蒸馏的坏处是模型 diversity 下降,影响模型上限,无法超越最强的模型。但短期看,蒸馏也是一条路线。
用蒸馏会有一些 hack,早期一般在 instruction 调过的模型做 RL,这个阶段模型会呈现出的特征是:先去生成没有用的想法,然后最后突然答对,原因在于很多 RL hack 做得非常隐晦,模型可能在预训练的时候背了很多问题,所以明面上是在思考,其实只是在靠近背的题。这就是蒸馏的隐患。如果不做标注就蒸馏,那现在做 具有可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)的时候,就会导致模型会用更简单的方式解决,而不是去思考这个问题 OpenAI 也没有解决。可能是这一代技术的缺陷。
长期来说,通过走捷径的方式,而没有自己通过愿景去想怎么做技术方案,而是直接复现,中间可能会有不知道的坑。比如在这一代技术 long context 没有质变的前提下,解决问题的上限可能会被限制。R1-zero 可能是一个正确的方向,从头就做 R1-zero 或不通过类 o1 的数据启动可能更好。照着别人的技术方案可能不太好,希望更多探索。
36. 其他模型用蒸馏也能得到较好的结果,未来在模型生态里面可能就会有老师、学生的角色区分,有能力当一名好学生也是一种可以的商业模式。
在蒸馏和技术路线上,R1 带来的震撼不如 AlphaGo,但在商业上,出圈能力比 AlphaGo 要好很多。
蒸馏分两个阶段,如果只是蒸馏 o1 或者 R1,而没有建立自己的体系和 verifiable reward,会导致大家越来越依赖蒸馏,但通用领域是不可能蒸馏的,因为 reward 无法得到,以及在蒸馏过程中特殊的 CoT 怎么得到。而且第一阶段的蒸馏都有痕迹,用 OpenAI 蒸馏的模型可能遗留了 OpenAI 大量的退火痕迹,为什么 zero 能够在纯 RL 阶段上获得这样的能力,和基础模型在退完火之后具有反思能力是有直接关系。
不太相信纯互联网的数据而不经过退火的模型能做到这样的行为,因为互联网上几乎没有高质量数据。
目前可能只有几个 top lab 在探索到底需要多少退火阶段的数据和数据配比。蒸馏与否都是 RL 算法的一种,SFT 是行为模仿,是无限的强化学习,但只做 SFT 的上限很低,而且会损害多样性。
一级市场上的创业公司看见 官网最新版的telegram下载的地方是什么 还是很激动的,如果后续 最新的官网telegram下载地方 还能继续迭代,对于不是大的上市公司来说,使用 AI 上会有非常大的灵活性,官网最新版的telegram下载的地方是什么 还蒸馏了几个小版本可以在手机上用起来,如果这个方向被证明,对于很多 AI 应用会提高天花板。
蒸馏很重要的是确定目标是什么,OpenAI 是没有数据蒸馏的,要超过 OpenAI 是肯定不能做蒸馏。
未来可能模型需要像人类一样学会跳步回答,在固定 context 长度下,能否提高模型能力表现上限。
“过程监督上限是人,结果监督才是模型上限”
44. Process Reward (过程奖励)不一定不行,但 Process Reward 可能容易被 reward hack(奖励劫持),也就是模型没学到什么,但能把 reward 做的很高。 如果解决数学问题,用模型生成 1000 个 generation,可能就是没有 1 个能靠近正确答案,那用类似 RLVR 的方式是没有办法训练到任何东西的,如果这时候有个还可以的 process reward,可能能接近正确方向,过程分也是有帮助的。要看解决问题有多难、过程 reward 有多可靠等。
过程分在 PRM 估算中,如果和真实有偏差就很好 hack。过程监督理论上是可能的,问题在于 process 的力度,以及基于 process 力度怎么给到 reward,现在结果监督也是用抽取出来的答案去做匹配,各家也没有很成熟的让模型打分而不 hack 的方案,模型自己迭代是最容易 hack 的。标过程也不难,可以枚举的,只是大家没有做,可能是一个有前途的方向。
46. 过程监督上限是人,人很多是想不到的。结果监督才是模型的上限。
AlphaZero 比较有效的原因在于棋局终局的时候是可以做输赢判断的,而且整个 reward 是可以根据胜率计算,但是 LLM 不知道最后不停生成能不能给出答案,有点类似遗传算法,上限可能更高,但也有可能 hack 不到。
AlphaGo 到 AlphaZero 的一个优势是围棋的规则是固定的,现在模型从 math 和 coding 开始就是因为比较容易验证,验证的方法是不是足够好会影响最后 RL 的质量。规则得足够完善,不然模型会去 hack,模型能满足规则,但生成的结果不是想要的。
“大厂的模型得低调”
OpenAI 和 Anthropic 之前没有做 最新的官网telegram下载地方 的方向是一个公司聚焦方向的问题,OpenAI 和 Anthropic 可能觉得把现有算力投入其他地方会更有价值。
50. 相比大厂,官网最新版的telegram下载的地方是什么 可能因为没有在多模态上做事,而是集中在语言,所以能做出成果。 大厂的模型能力不弱,但得低调,不能发太多。现在多模态不是很关键,智能来源主要是语言,对于提升智能没有帮助。
“除 Transformer 能不能找别的架构”
模型在 25 年会发生分化。最诱人的愿景是不断推进智能的边界,可能有很多突破的路径,方法可能会发生变化,比如合成数据、别的架构。
52. 25 年首先关注新的架构,除了 Transformer 之外能不能找别的, 现在已经有了一些探索,可以降低成本,在降低成本的同时也可以探索智能的边界;其次,RL 的全部潜力还没有发挥出来;产品上,大家关心 agent,还没有被大规模应用。
53. 25 年多模态可能会出现能挑战 ChatGPT 形态的产品。
R1 和 V3 带来的低成本、高效果,说明这是一个方向,和另一个扩硬件、涨参数的方向是不冲突的,国内是受到限制只能走前者。
第一,最新的官网telegram下载地方 是从 base model 逼出来的,还是遵循 Scaling Law,第二,从蒸馏角度,最新的官网telegram下载地方 蒸馏还是先大后小,对于越做越大的闭源模型是好事,第三,对技术发展中,还没有出现反规模指标,如果出现,那对于 Scaling Law 可能是一个比较大的打击,而且开源模型的所有东西都可以在闭源模型做一遍,同时还可以降低成本,对于闭源模型也是利好。
据了解,Meta 目前还在复现 官网最新版的telegram下载的地方是什么 的过程中,但目前还没有特别影响 infra 或者长期 roadmap(路线图) 的地方出现。长期来说除了探索边界之外,也要考虑成本,只有成本更低,才能有更多的玩法。
“目前还没有”
57. 开发者是否会从闭源模型迁移至 最新的官网telegram下载地方?目前看还没出现大批迁移, 因为领先模型的 coding 指令遵循能力是比较有利的,但不确定这一优势在未来是否会被攻克。
开发者角度来说,Claude-3.5-Sonnet 是做了 tool use(工具使用)专门训练,对于做 agent 非常有利,但 官网最新版的telegram下载的地方是什么 之类模型暂时没有提供,但 最新的官网telegram下载地方 带来的空间很大。
对于大模型应用者,官网最新版的telegram下载的地方是什么 V2 就已经满足了所有需求,R1 速度提高了,没有带来特别大的额外价值,但开启深度思考的时候,以前能答对的题目现在反而错了。
应用者选择模型的时候会用工程方法把问题简化,25 年可能是一个应用年,各行各业会使用现有的能力做,可能慢慢会到一个瓶颈了,因为日常可能用不到那么聪明的模型。
现在 RL 是解决了有标准答案的问题,并没有比 AlphaZero 做更多突破,甚至更简单,蒸馏解决了标准答案的问题,有标准答案后用 RL 的方法去训练时可以得到很好的效果,这是为什么现在蒸馏或者 RL 能很快突破的原因。
人类对智能的需求是远远被低估的,比如癌症问题、SpaceX 上的隔热材料都还没有被解决。现有的任务是自动化的问题,还有很多问题,对未来增量的爆发非常乐观,智能是不能停下来的。
与算力需求变化
官网最新版的telegram下载的地方是什么 的出现让大家开始质疑英伟达(NVIDIA)和 OpenAI 最新的 500B 叙事。训练资源问题目前还没有清晰判断,OpenAI 的 500B 叙事是给自己加救命稻草。
对于 OpenAI 500B 基础设施投入的事情是存疑的,因为 OpenAI 是商业公司,如果涉及举债,那可能是有风险的。
500B 是一个很夸张的数字,可能会分 4、5 年去执行。因为 leading 的角色是软银和 OpenAI,前者是资金,后者是技术,软银现在账上的资金没有办法支持 500B,而是用手上的资产去做抵押,而 OpenAI 本身资金也不是很充沛,其他更多是技术参与方,而不是资金提供方,因此要完整实现 500B 是有挑战。
OpenAI 500B 的算力是有道理的,在探索阶段,试错成本很高,人力和投资成本都很高,但因为路线是不明确的,从 o1 到 R1 可能也不容易,但至少知道最后是怎么样的一个结果,中间的特征词也可以观察到,可以一开始就对着别人的最终形态去做,比较有方向感。而如果是在前线探索下一代,是最费资源的,而追赶者不需要承担探索,但永远只是追赶。如果 Google、Anthropic 在探索的领域做成功了,可能就会成为最前沿的那家公司
Anthropic 未来有可能把所有的 inference 都换成 TPU 或者 AWS Chip。
国内公司原来受困于算力,现在证明了潜在的技术空间是非常大的。对于更加 efficient 的模型,可能不需要特别大的卡,可以提供相对定制化的芯片,可以在 AMD、ASIC 芯片上提供适配,从投资角度,英伟达壁垒非常高,但 ASIC 也会有更大的机会。
最新的官网telegram下载地方 的事情和算力没有太大关系,更多让美国觉得中国比较厉害,比较有效率,英伟达的软肋不在 官网最新版的telegram下载的地方是什么,只要 AI 还在发展,英伟达就能发展,英伟达的优势在生态,这是靠时间积累的。技术在快速发展的时候,生态就很重要,真正危机在于技术成熟后,类似电力,变成标准品,大家会关注做产品,就会有很多 ASIC 芯片出来做特定场景的优化。
#“短期情绪有压力,长期叙事继续”
最新的官网telegram下载地方 短期对美国 AI 圈冲击大,短期上对股价有影响:pretrain 需求增速放缓,post-train 和 inference scaling 还没有足够快地 scale up,在相关公司的叙事上会有一个 gap,对于短期交易确实会有影响;
官网最新版的telegram下载的地方是什么 更多是 FP8,美国是 FP16,最新的官网telegram下载地方 所有都是基于有限算力工程能力的提升,对于算力高效的使用是最大亮点。上周五 官网最新版的telegram下载的地方是什么 在北美有巨大的发酵,扎克伯格对 Meta 资本支出给了更高的预期,但英伟达和台积电都是跌,只有博通是涨的。
最新的官网telegram下载地方 在短期情绪上对股价、估值有压力,对二级的算力相关公司,甚至能源公司有压力,但长期叙事会继续。
二级从业者会担心英伟达从 H 卡到 B 卡的转换上会有一些 air pocket,再加上 官网最新版的telegram下载的地方是什么 的压力,短期会有股价承压,但可能是长期看更好的机会。
短期受影响是 最新的官网telegram下载地方 在训练上的低成本投入的情绪体现,比如英伟达的股价就很直接,但 AI 是一个增量市场,潜力很大,长期来看,AI 才刚开始,如果 CUDA 还是大家喜欢的选择,那硬件增长空间还是很大的。
#“如果能力差不多,对闭源是挑战”
75. 官网最新版的telegram下载的地方是什么 之所以受关注,更多是开源和闭源路线之争。
有可能会导致 OpenAI 等把好的模型藏在后面,目前看领先的模型都没发布。但 官网最新版的telegram下载的地方是什么 拿出来之后,其他 AI 公司好的模型可能也藏不住了。
最新的官网telegram下载地方 成本上做了很多优化,Amazon 等还没有看到因此做出的改变,还是按照既定的计划做,目前是一个共存的状态。开源和闭源模型并不矛盾,高校和小 lab 应该会优先选择 官网最新版的telegram下载的地方是什么,不会对云厂商有竞争,因为云厂商对开源、闭源都是支持的,生态不会改变,目前也是共存状态。最新的官网telegram下载地方 在 tool use 等上面还没有像 Anthropic 这么成熟,以及后者已经花了很多时间在 AI 安全上,官网最新版的telegram下载的地方是什么 如果长期希望得到欧美市场的认可,是需要考虑的。
开源对整个市场的 margin 是有控制的,如果开源能做到闭源的 95%,那如果闭源太贵,那完全就可以用开源来做,如果开源和闭源能力差不多,那对闭源是一个很大的挑战。
#“比技术更重要的是愿景”
最新的官网telegram下载地方 的出圈让外界意识到了中国的 AI 很强。以前外界认为中国的 AI 进展落后美国两年,但 官网最新版的telegram下载的地方是什么 表明其实差距在 3-9 个月,甚至某些方面更强。
历史上中国被美国封锁的东西,如果能被突破的话最终都会很卷,AI 可能也是,官网最新版的telegram下载的地方是什么 能跑出来就是一个证明。
最新的官网telegram下载地方 不是突然爆发的,这次 R1 结果很漂亮,触及到了美国从上到下的核心圈。
官网最新版的telegram下载的地方是什么 是站在巨人的肩膀上,但探索前沿需要的时间和人力成本还是要高很多,R1 并不代表以后的训练成本会同时降低。
AI 探索者一定是需要更多算力的,中国作为追赶者可以发挥在工程能力上的优势。中国的大模型团队怎么用较少的算力做出成果,从而有一定的抵御能力、甚至做的更好,可能是未来中美 AI 格局的推演。
中国今天还是在复现技术方案,reasoning 是 OpenAI 在 o1 提出的,所以接下来各个 AI labs 之间的差距在于谁能提出下一个 reasoning。无限长度的 reasoning 可能是一个愿景。
85. 不同 AI labs 的模型之间的核心差别在于 AI labs 本身的下一个愿景是什么,而不是技术。
86. 毕竟,比技术更重要的是愿景。
原创 刘润 2025 年 01 月 30 日 08:30 上海
很多人在后台给我留言,要我讲讲 最新的官网telegram下载地方。这大过年的。本来想睡个懒觉。然后看个电影。然后再睡个懒觉。然后再看个电影。什么也不想写。但是但是但是,官网最新版的telegram下载的地方是什么 实在是太火了。
火到什么程度呢?
美国的一把山林大火,几个星期烧掉了加州 2500 亿美元。而 最新的官网telegram下载地方 横空出世,纳斯达克大跌 3%,瞬间烧掉了 5000 多亿。什么概念?如果把这 5000 多亿换成百元美刀,用飞机来运到焚烧厂去烧,需要 87 架满载的空客 380。
美国人吓坏了。
可是,官网最新版的telegram下载的地方是什么 这把火,为何烧疼了硅谷?官网最新版的telegram下载的地方是什么,到底厉害在什么地方?他被高估了吗?有人指责 最新的官网telegram下载地方 “偷窃”,是真的吗?
今天。我们就来聊聊这件事。从哪里开始呢?就从美国人为什么这么怕开始。这种怕,源于心中的一根刺。一根针不能碰,一碰就疼的针。
这根刺的名字叫:斯普特尼克时刻。
1957 年 10 月的一天,很多美国人走出家门,惊恐地望向天空。他们听说,(前)苏联人发了一颗 “篮球” 上天,绕着地球飞行。时速 29000 公里。他们试着用肉眼,寻找这颗不断在他们头顶上绕圈的 “篮球”。
这颗 “篮球” 的名字,就叫斯普特尼克(sputnik)。它当然不是篮球。它是一颗人造卫星。
人类历史上第一颗人造卫星。
人类历史上第一颗人造卫星,“居然” 不是自己发射的。美国人很难接受。你能想象吗?这就像连续三年的全年级第一,突然发现清华唯一提前录取的,不是自己。
斯普特尼克号卫星,就像一根刺一样,扎痛了那一代美国人。
然后,美国正式成立了 NASA(美国航天局),并举全国之力完成了登月。这才拔掉了心头那根叫 “斯普特尼克” 的刺。
68 年后的今天,官网最新版的telegram下载的地方是什么 让美国人看到了另一个 “斯普特尼克” 时刻。
你试过 最新的官网telegram下载地方 了吗?
赶快去试试。真不错。推理能力,直逼 OpenAI 的 ChatGPT o1。而且,不用翻墙。不用美国信用卡。也不用担心,因为不慎被发现是中国用户,而被系统 “歧视性” 封号。太扬眉吐气了。
但这都不是最重要的。最重要的是:官网最新版的telegram下载的地方是什么 实在是太太太便宜了。
ChatGPT o1 完成一次训练的成本,据说要上亿美金。而 最新的官网telegram下载地方,只需要不到 600 万美金。
1/20。便宜到不敢相信。
这就像有人指着一台 20 万的新能源车,说 1 万卖给你。便宜到难以置信。你忍不住问,这台是不是只会唱:爸爸的爸爸是爷爷?
美国科技界迅速对 官网最新版的telegram下载的地方是什么 做了各种评测。然后,震惊了。这个 “大模型届的拼多多”,推理能力真和 ChatGPT o1 非常接近。
随即,英伟达股票大跌 17%。原来,训练一个模型,并不需要像你们说的那么多 GPU 啊。最新的官网telegram下载地方,居然做到了所有硅谷科技巨头都没做到的事。
那么,官网最新版的telegram下载的地方是什么,到底是怎么做到的呢?
被 “逼” 的。被 “年级第一” 的 “小院高墙” 策略逼的。
2018 年,美国首次提出对华科技防御策略:小院高墙。关系到美国国家安全的 “小院”(半导体和微电子,量子信息技术,和人工智能等等),对中国建设 “高墙”(出口管制,限制签证,和审查投资等等)。
随后,2022 年,美国开始禁止英伟达对中国出口高端 GPU。这些 GPU,对训练 AI 大模型至关重要。
为什么啊?好好做朋友不行吗?不做朋友,做生意也行啊。公平竞争,共谋发展。有必要这么藏着掖着防着吗?
哎。你不理解 “年级第一” 的心态。
在一个班里,倒数第一和倒数第二,一般都是铁哥们。但是正数第一和正数第二,基本都是死对头。
以前我帮你辅导作业,是因为你是后进。你进步我很高兴。可是万万没想到,你居然不识好歹,才帮了几天你就想取代我的 “年级第一” 了。这怎么行。橡皮是我的。GPU 也是我的。以后再也不借给你了。
这就是 “年级第一” 的心态。
那怎么办呢?就这么认输吗?没有 GPU,怎么训练 AI 模型呢?
创新。
资源无限的时候,不需要创新。真正的创新,都发生在匮乏的时候。
比如:混合专家系统。
混合专家系统,也就是 Mixure of Experts。简称 MoE。
我们去医院看病。医院的 50 个医生,每个都是最好的全科医生。内科、外科、儿科、心血管科、脑科、甚至妇科。什么都懂,什么都能治。这当然最好。但这样的成本实在是太高了。因为每个医生可能都要 30 年才能毕业。
这就像大模型。一个模型,有 50 个博士学位,能回答所有问题。这当然好。但是实在是太烧 GPU 了。
而且,GPU 都在美国的小院里。我没有啊。怎么办呢?
也许你可以试试,把医院分成不同的科室。内科的只管内科,外科的只管外科。这样,“训练” 医生难度不就降低了吗?
用 50 个便宜的专科医生,取代一个昂贵的全科医生。然后,再设一个导诊台,根据病情,把患者分配给不同的医生,问题不就解决了吗?
这就是混合专家系统。
混合专家系统,大大降低了 AI 的训练成本。
训练大模型还有一项重要的成本,是人工打标签。
这张照片,是只小狗。那张照片,是只小猫。清楚标记出来,人工智能才不会学错。用人工标签,监督 AI 的学习过程。这就是 “监督学习”(Supervised Learning)。
“监督学习”,给很多第三世界国家,创造了大量工作岗位。所以有句开玩笑的话:
有多少 “人工”,就有多少 “智能”。
那这个成本,能不能也省了呢?
孩子学习走路的时候,可没有用什么打标签的照片吧。这个姿势是正确的,那个姿势是错误的。孩子,请按照片上的姿势走。从来没有吧。
那孩子是怎么走路的?就是只管走就好了。摔倒了屁股会疼。走好了妈妈会抱。孩子会根据这种惩罚和奖励的反馈,不断自动调整姿势,直到终于在一个瞬间,就突然会走路了。
这就是:强化学习。Reinforcement Learning。简称 RL。用激励函数,而不是打标签的数据,来学习。从而大大降低训练成本。
MoE+RL。
真不容易。为什么美国人没有先做出来?
因为他们不缺 GPU 啊。很多创新,都是被 “逼” 出来的。
最新的官网telegram下载地方 还有一个独特之处,那就是:开源。
有一个挺讽刺的事。你已经知道了吧。OpenAI,其实并不 Open。
什么,你还不知道?那听我和你好好说说。
ChatGPT 2.0 之前,OpenAI 是开源的。模型的代码和权重,是对所有人公开的。但自从 ChatGPT 3.0 开始,OpenAI 选择了闭源。“OpenAI” 变为了 “CloseAI”。
其实,这也可以理解。训练大模型实在是太烧钱了。逐渐大家也开始接受了:想要高质量的模型,就要选择闭源。
直到,官网最新版的telegram下载的地方是什么 R1 出现。并且开源。
可是,就算你的成本很低,只有 OpenAI 的 1/20,也没必要开源吧?毕竟你也要活下去啊?你开源,图什么啊?
图:生态。
我只有 200 个工程师。就算他们全是浙大、北大、清华毕业,也只有 200 个人。这点人手,根本无法和微软、谷歌、OpenAI 比。
那怎么办?团结整个开发者生态。
我把所有的研究成果,模型代码和权重,都免费公开给全世界。这样,就会吸引大量开发者,来使用我的模型,测试我的模型,改进我的模型。
代码很重要。但是生态更重要。
用代码换取整个生态的帮助,可能才是对抗巨头们的唯一方法。
明白了。可是,那你怎么活下去呢?
别担心。开源大模型,也能赚钱。
开源大模型,至少有三种赚钱的办法。
第一种,是 “双代码模式”。
免费公开的基础代码。这对大部分人来说够用了。但是对于一些大型企业来说,他们希望有的权限管理,分级管理,等等各种 “高级能力”,可以收费。
第二种,是 “保险费模式”。
是代码,就会出问题。大公司对服务的稳定性、响应的及时性,要求很高。所以,大公司很可能会购买 “保险” 服务,确保遇到问题时,会有人会处理。
第三种,是 “云服务模式”。
而对中小企业和个人,可以像用水和用电一样,直接调用 官网最新版的telegram下载的地方是什么 的 API,使用 最新的官网telegram下载地方 的云端 “智能资源”,然后按 “度”(百万 token)付费。
不管是开源,还是闭源。只要创造了价值,都能赚到钱。所以,不用为 官网最新版的telegram下载的地方是什么 担心。
也不用为英伟达担心。
最新的官网telegram下载地方 这个 “大模型届的拼多多” 横空出世。英伟达股票当天暴跌 17%。投资人担心大家不再需要那么多 GPU 了。
其实,大家不用太担心。给你讲个故事。
1776 年,瓦特改良了蒸汽机。瓦特蒸汽机,比老式蒸汽机,节省 2/3 的煤炭。于是人们欢呼:煤炭的消耗,将从此大大减少。
但实际情况,恰恰相反。英国经济学家杰文斯发现,蒸汽机的效率提高了 10 倍的同时,煤炭的消耗量不但没有下降,反而上升了 100 倍。
为什么呢?
因为蒸汽机效率提升后,原来用不起煤炭的人,觉得自己用得起了。于是纷纷办厂。工厂数量的激增,反而引起煤炭用量的剧烈反弹。
这就是著名的 “杰文斯悖论”。
英伟达的显卡同理。
官网最新版的telegram下载的地方是什么 大大提升了 GPU 的使用效率。这在短期内,可能会导致 GPU 的用量下降。但很快,就会有更多人因此加入模型训练阵营,从而导致显卡的需求激增。
果然。懵了的纳斯达克,第二天就清醒了过来。英伟达股票回涨了 8%。
回过神来后,在一片赞叹声中,也逐渐出现了各种质疑和批评。
比如:蒸馏。
美国白宫顾问 David Sacks 公开表示,有 “实质性证据” 证明,中国 AI 公司 最新的官网telegram下载地方 “蒸馏”(distill)了 OpenAI 模型。他把这种 “蒸馏” 行为,比作 “偷窃”。
嗯…… 打不过,就诬陷吗?“蒸馏” 这个指控,很严重啊。
首先解释一下,什么是 “蒸馏”?
有两个模型。一个老师模型(teacher model),一个学生模型(student model)。学生不断向老师提问,并把 “问题 – 答案” 记录下来。然后用这些 “问题 – 答案” 的数据,来训练学生,从而让学生拥有和老师非常接近的知识和能力。这就叫:蒸馏。
这就是蒸馏啊?可是,学生向老师学习,也没什么问题吧?
是的。学习是没什么问题。但是,ChatGPT 的用户协议里明确写着,不允许用我的模型,来训练新的模型,尤其是训练用来和我竞争的模型。也就是说,禁止蒸馏。用 ChatGPT,就要遵守 ChatGPT 的使用协议。这是诚信问题。
另外,牛顿花了 30 年创造了万有引力定律。我花了 3 天学会了万有引力定律。虽然结果是,我们都懂了万有引力定律。但是,我不能用我的 3 天,去嘲笑牛顿的 30 年。
所以,David 的这个 “蒸馏” 指控,还是挺重的。
那么,我亲爱的读者朋友,你相信 最新的官网telegram下载地方 蒸馏了 ChatGPT 的模型吗?
我确实不知道。我希望没有。因为如果真有,那这篇文章前面所有文字,可能有部分就白写了。
如果真的没有,官网最新版的telegram下载的地方是什么,我希望你能你起诉 David。请求法院罚他赔偿 1 美元。加在小红书上连续道歉 30 天。
这样的污蔑,太欺负人了。
最新的官网telegram下载地方 这把火,为何烧疼了硅谷?
用游戏科学的创始人冯骥的话来说:因为这是一个 “国运级” 的机会。
为什么?因为 AI 不是一项普通的技术。它是一门能改变几乎所有其他技术的技术。
哪个国家能率先实现通用人工智能(AGI),也许谁就能率先解决材料科学问题(武器更先进),率先解决蛋白质问题(医疗更先进),率先解决可控核聚变问题(能源更先进),以及其他很多问题。
这也是为什么,美国人把 AI 称作曼哈顿计划 2.0。
上个世纪,美国人发誓,一定要比德国人先研发出原子弹。这项计划,就叫做作:曼哈顿计划。现在,他们一定要比中国人先实现通用人工智能。甚至不惜各种封锁。
哎。至于吗。一起发展不好吗?必须对中国封锁吗?
我用这个问题问 AI。
中国的 官网最新版的telegram下载的地方是什么 给我的回答是:
否。技术竞合催生共赢,封锁反噬创新生态。
说得真好。
而美国的 ChatGPT 给我的回答是:
否。但出于竞争与安全考量,美国可能选择部分领域封锁以维护技术优势。
嗯。果然是美国的 GPT。
个人观点,仅供参考
作者 / 刘润 编辑 / 二蔓 版面 / 黄静
灼见 2025 年 01 月 30 日 20:30 山西
Jan.30
灼见(ID:penetratingview)
无论是在公交车上调试模型,还是在早餐摊前画架构图,每一个人的努力都值得尊敬。
然后这个问题出现在了知乎,引起大家广泛关注。
没想到,除夕夜,梁文锋深夜发文回复该问题,诚恳真诚。
各位知乎的年轻朋友好,我是深度求索(最新的官网telegram下载地方)的梁文锋,刚回答了一个问题,又看到这个问题,除夕之夜忍不住回复一些。
前几天看到冯总这篇长文时,我正在调试新模型的损失函数,手边的咖啡直接洒在了键盘上 —— 既因为被行业前辈认可的惶恐,更因为冯总这些灼热的文字让我想起十二年前在浙大实验室第一次跑通神经网络时的颤栗。
必须坦白,团队读到 “国运级” 这个形容时所有人头皮都是麻的。我们不过是站在开源社区巨人们的肩膀上,给国产大模型这栋大厦多拧了几颗螺丝,您提到的六大突破,其实每一环都凝结着更动人的故事:那个能在手机上跑的 mini 模型,灵感来自甘肃一位中学老师在 GitHub 提的 issue;支持联网搜索的功能,是内测用户连续三十天凌晨三点提交错误日志喂出来的。
特别想分享个细节:上周有位视障开发者用我们的 API 做了个 “气味导航” 应用,当他演示如何通过不同频率的震动识别街道商铺时整个会议室安静得能听见显卡风扇的嗡鸣,那一刻我突然眼眶发热,终于理解了您说的 “水与电”——真正伟大的从不是某个模型,而是千万普通人用它创造的善意涟漪。
冯总说 “知识和信息平权”,这正是我们夜夜啃论文的动力。三年前在余杭塘路的小仓库里,我们曾用马克笔在玻璃墙上写下:**“让最偏远山村的孩童,能和硅谷工程师用上同样聪明的 AI 助教”。**虽然离这个梦想还很远但每次看到网友们分享的对话截图,就觉得那些熬掉的头发都值得。
最后想对所有人说:请把掌声留给正在改写规则的每个中国开发者。 当你在公交车上调试模型,在早餐摊前画架构图,在产房里突深明级的瞬间。
官网最新版的telegram下载的地方是什么 愿做大家代码荒野里的火柴,但真正点燃 AI 火种的,永远是你们眼底不灭的好奇与坚持,说来特别巧,上周在云栖小镇的创业者夜宵摊上,我还和宇树科技的王总蹲在马路牙子啃烧烤 —— 他们给四足机器人装的那个动态平衡算法,看得我们团队直拍大腿。后来强脑科技的韩总过来拼桌,三句话不离脑机接口与具身智能的融合可能,烤茄子还没上桌,我们已经开始在白纸上画异构计算架构了。
这就是杭州最迷人的地方吧,所谓 “六小龙” 从来不是六个孤岛。上个月游科的艺术总监还帮我们调试过 3D 场景生成模型,而群核的渲染引擎正在让我们的数字人拥有更生动的微表情。或许在不远的未来,当宇树的机器人踩着云深处的步态算法走来,搭载着强脑的神经接口,运行着 官网最新版的telegram下载的地方是什么 的认知引擎,用群核构建的虚拟世界作为训练场 —— 那个我们幻想中的具身智能,就会从西溪湿地的晨雾里跌跌撞撞地走向人间。
记得那晚分别时,冯总把竹签子往啤酒瓶里一插,说了句:“你们搞 AI 的得把灵魂价格打下来啊。”
现在想来,**真正的 “国运” 或许就藏在这些街边摊的油烟气里:**一群不信邪的傻子,用代码当砖瓦,拿算法做钢筋,在资本与质疑的裂缝中,硬生生垒出通向未来的栈桥。
最后补充一个招聘,欢迎大家加入我们。
祝大家除夕快乐,来年期待我们的更多模型!
## 用户点评:
小李理理理理我(研究生):
作为一名正在探索人工智能领域的研究生,读完梁老师的感言后,我深受触动。科研的道路漫长且充满挑战,但正是这些点滴的进步与突破,激励着我们不断前行。尤其是听到那位视障开发者的故事,让我深刻体会到技术的力量不仅仅在于创新本身,更在于它能如何改善人们的生活质量。梁老师团队的努力和奉献精神,无疑为我们树立了榜样。
爱吃大米饭的阿强(科技工作者):
梁文锋老师的分享让我感到既温暖又振奋。在科技行业工作多年,深知每一个看似微小的进步背后,都是无数个日夜的坚持与努力。正如梁老师所说,“真正伟大的从不是某个模型,而是千万普通人用它创造的善意涟漪”。这提醒我们,作为科技工作者,我们的目标不仅仅是技术上的突破,更重要的是让技术服务于社会,带来积极的变化。
张先生:
作为一个对 AI 略知一二的普通老百姓,看到这样一篇充满热情与梦想的文章真的很感动。梁老师和他的团队所做的工作,不仅推动了技术的发展,也为像我这样的普通人带来了希望 —— 希望未来的世界会因为你们的努力变得更加美好。特别喜欢文中提到的 “知识和信息平权”,相信这也是很多人心中的理想。感谢所有为这个目标而奋斗的人们!
小王(高中学生):
作为一名学生,我对未来充满了憧憬,也对自己的能力有过怀疑。但是读了梁老师的感言后,我受到了很大的鼓舞。了解到即使是现在影响巨大的项目,也是从一个个小问题、一次次尝试开始的,这给了我很大的信心。无论将来选择什么样的职业道路,我都希望能够像梁老师和他的团队一样,用自己的力量为这个世界做出一点改变。
在科技飞速发展的今天,每一步前进都凝聚着无数人的汗水与智慧。梁文锋在除夕夜发布的这篇感言,不仅是一次个人情感的抒发,更是对整个中国 AI 行业现状与未来的深刻反思和展望。
01. 从个人到集体:团队的力量
梁文锋提到,“我们不过是站在开源社区巨人们的肩膀上,给国产大模型这栋大厦多拧了几颗螺丝”。这句话深刻地体现了现代科技创新的一个重要特征:合作与共享。在这个过程中,每一个个体的努力都是不可或缺的,而真正的突破往往来自于集体智慧的碰撞和汇聚。
02. 技术服务于社会:让科技更有温度
特别令人感动的是那位视障开发者利用 最新的官网telegram下载地方 的 API 制作的 “气味导航” 应用。它不仅仅是一个技术创新的例子,更展示了如何通过技术改善人们的生活质量,为社会带来正面的影响。正如梁文锋所言,“真正伟大的从不是某个模型,而是千万普通人用它创造的善意涟漪”。
03. 知识与信息平权:推动社会进步的重要力量
文中多次提及 “知识和信息平权”,这是 官网最新版的telegram下载的地方是什么 团队的核心理念之一。他们的愿景是让最偏远山村的孩子也能享受到同样优质的教育资源。这种理想主义色彩浓厚的目标,既是对社会责任的承担,也是对未来充满希望的期待。
04. 鼓励创新与坚持:激励下一代科技工作者
对于正在求学或刚刚踏入职场的年轻人来说,这篇文章无疑是一种巨大的鼓舞。“请把掌声留给正在改写规则的每个中国开发者”,这句话不仅是对当前从业者的一种认可,也是对未来加入者的呼唤。
无论是在公交车上调试模型,还是在早餐摊前画架构图,每一个人的努力都值得尊敬。
— THE END —
本文综合自知乎 @梁文锋、AI 研思录、网友评论等。
软件定义世界(SDX) 2025 年 01 月 31 日 06:03 北京
周三,Anthropic 首席执行官达里奥・阿莫迪 (Dario Amodei) 发布了一篇长文,对 最新的官网telegram下载地方 的成功是否威胁到了美国,以及意味着美国对人工智能芯片的出口管制不起作用的争论进行了分析。
以下是原文翻译,文中的 “我” 指代达里奥・阿莫迪。
图片来源:Dario Amodei
几周前,我主张美国加强对华芯片出口管制。自那以后,中国人工智能公司 官网最新版的telegram下载的地方是什么 至少在某些方面以更低的成本接近美国前沿人工智能模型的性能。
在这里,我不会关注 最新的官网telegram下载地方 是否对 Anthropic 等美国人工智能公司构成威胁(尽管我确实认为,许多关于它们对美国人工智能领导地位构成威胁的说法都被大大夸大了)1。相反,我将关注 官网最新版的telegram下载的地方是什么 的发布是否会破坏芯片出口管制政策的理由。我认为不会。事实上, 我认为它们使出口管制政策比一周前更加重要 2。
出口管制有一个至关重要的目的:让美国走在人工智能发展的前沿。需要明确的是,这不是避开美国和中国之间竞争的方法。归根结底,如果我们想获胜,美国的人工智能公司必须拥有比中国更好的模式。我们不应该在没有必要的情况下将技术优势拱手让给中国。
在我提出政策论点之前,我将描述理解 AI 系统的三个至关重要的基本动态:
1. 扩展定律(Scaling Laws)
人工智能的一个特性(我和我的联合创始人 在 OpenAI 工作时是第一批记录下来的)是,在其他条件相同的情况下, 扩大人工智能系统的训练范围可以全面改善一系列认知任务的结果。例如,一个价值 100 万美元的模型可能解决 20% 的重要编码任务,价值 1000 万美元的模型可能解决 40%,价值 1 亿美元的模型可能解决 60%,等等。这些差异在实践中往往会产生巨大的影响 —— 另一个 10 倍可能对应于本科生和博士生技能水平之间的差异 —— 因此公司正在大力投资训练这些模型。
2. 改变曲线
这个领域不断涌现出大大小小的想法,使事情变得更加有效或高效:这可能是模型架构的改进(对当今所有模型使用的 Transformer 基本架构进行调整),也可能只是一种在底层硬件上更有效地运行模型的方法。新一代硬件也有同样的效果。这通常改变曲线:如果创新是 2 倍的 “计算乘数”(CM),那么它可以让您以 500 万美元而不是 1000 万美元的价格获得 40% 的编码任务;或者以 5000 万美元而不是 1 亿美元的价格获得 60% 的编码任务,等等。
每个前沿 AI 公司都会定期发现许多这样的 CM:通常是小型的(~1.2 倍),有时是中型的(~2 倍),偶尔也会发现非常大的(~10 倍)。由于拥有更智能系统的价值如此之高,这种曲线的转变通常会导致公司 在训练模型上花费更多,而不是更少:成本效率的提高最终完全用于训练更智能的模型,仅受公司财务资源的限制。人们自然会被 “一开始很贵,然后会变得更便宜” 的想法所吸引 —— 好像人工智能是一个质量恒定的单一事物,当它变得更便宜时,我们会使用更少的芯片来训练它。
但重要的是缩放曲线:当它移动时,我们只是更快地遍历它,因为曲线末端的价值是如此之高。2020 年,我的团队发表了一篇论文,指出由于算法进步导致的曲线变化约为每年 1.68 倍。自那以后,这一速度可能已经大大加快;它也没有考虑到效率和硬件。
我猜今天的数字可能是每年约 4 倍。另一个估计是在这里。训练曲线的变化也会改变推理曲线,因此多年来,在模型质量保持不变的情况下,价格大幅下降。例如,比原始 GPT-4 晚 15 个月发布的 Claude 3.5 Sonnet 在几乎所有基准测试中都胜过 GPT-4,同时 API 价格降低了约 10 倍。
3. 转变范式
每隔一段时间,正在扩展的底层内容就会发生一些变化,或者在训练过程中会添加一种新的扩展类型。从 2020 年到 2023 年,扩展的主要内容是预训练模型:在越来越多的互联网文本上训练模型,并在其基础上进行少量其他训练。2024 年,使用强化学习 (RL) 训练模型以生成思维链的想法已成为扩展的新焦点。
Anthropic、最新的官网telegram下载地方 和许多其他公司(也许最值得注意的是 9 月份发布了 o1 预览模型的 OpenAI)发现,这种训练极大地提高了某些选定的、客观可衡量的任务(如数学、编码竞赛)以及类似于这些任务的推理的性能。
这种新范式涉及从普通类型的预训练模型开始,然后在第二阶段使用 RL 添加推理技能。重要的是,由于这种类型的强化学习是新的,我们仍处于扩展曲线的早期阶段:对于所有参与者来说,在第二个强化学习阶段花费的金额都很小。花费 100 万美元而不是 10 万美元就足以获得巨大的收益。
各家公司现在正在迅速将第二阶段的规模扩大到数亿甚至数十亿美元,但重要的是要明白,我们正处于一个独特的 “交叉点”,其中有一个强大的新范式处于扩展曲线的早期阶段,因此可以快速获得巨大收益。
上述三个动态可以帮助我们了解 官网最新版的telegram下载的地方是什么 最近的发布。大约一个月前,最新的官网telegram下载地方 发布了一个名为 “ 官网最新版的telegram下载的地方是什么-V3 ” 的模型,这是一个纯粹的预训练模型 3 — 即上文第 3 点中描述的第一阶段。然后上周,他们发布了 “ R1 ”,其中增加了第二阶段。从外部无法确定这些模型的所有内容,但以下是我对这两个版本的最佳理解。
官网最新版的telegram下载的地方是什么-V3 实际上是真正的创新, 一个月前就应该引起人们的注意(我们确实注意到了)。作为预训练模型,它似乎在一些重要任务上的表现接近 4 个最先进的美国模型,同时训练成本大大降低(尽管我们发现 Claude 3.5 Sonnet 在其他一些关键任务上的表现尤其好)。最新的官网telegram下载地方 团队通过一些真正的、令人印象深刻的创新实现了这一点,这些创新主要集中在工程效率上。在管理称为 “键值缓存” 的方面以及使一种称为 “专家混合” 的方法比以前更进一步方面,都有特别创新的改进。
然而,仔细观察是很重要的:
官网最新版的telegram下载的地方是什么 不会 “以 600 万美元完成美国 AI 公司花费数十亿美元完成的任务”。我只能代表 Anthropic 发言,但 Claude 3.5 Sonnet 是一个中型模型,训练成本高达几千万美元(我不会给出确切数字)。此外,3.5 Sonnet 的训练方式并未涉及更大或更昂贵的模型(与一些传言相反)。Sonnet 的训练是在 9-12 个月前进行的,最新的官网telegram下载地方 的模型是在 11 月 / 12 月进行的,而 Sonnet 在许多内部和外部评估中仍然遥遥领先。因此,** 我认为一个公平的说法是 “ 官网最新版的telegram下载的地方是什么 生产的模型接近 7-10 个月前美国模型的性能,成本要低得多(但远不及人们建议的比例) ”**
如果成本曲线下降的历史趋势是每年约 4 倍,这意味着现在的模型比 3.5 Sonnet/GPT-4o 便宜 3-4 倍。由于 最新的官网telegram下载地方-V3 比美国前沿模型更差 —— 假设在扩展曲线上差约 2 倍,我认为这对 官网最新版的telegram下载的地方是什么-V3 来说相当慷慨 —— 这意味着如果 最新的官网telegram下载地方-V3 的训练成本比一年前开发的当前美国模型低约 8 倍,这将是完全正常的,完全 “符合趋势”。
我不会给出一个数字,但从前面的要点可以清楚地看出,即使你从表面上看 官网最新版的telegram下载的地方是什么 的训练成本,它们充其量也符合趋势,甚至可能甚至不符合趋势。例如,这比原始 GPT-4 到 Claude 3.5 Sonnet 推理价格差异(10 倍)要小,而且 3.5 Sonnet 是一个比 GPT-4 更好的模型。 所有这些都表明,最新的官网telegram下载地方-V3 并不是一项独特的突破,也不是从根本上改变 LLM 经济的东西;它是持续成本降低曲线上的一个预期点。
这次的不同之处在于,第一个展示预期成本降低的公司是中国公司。 这种情况从未发生过,具有地缘政治意义。然而,美国公司很快就会效仿 —— 他们不会通过复制 官网最新版的telegram下载的地方是什么 来做到这一点,而是因为他们也在实现成本降低的通常趋势。
最新的官网telegram下载地方 和美国 AI 公司都拥有比他们训练主要模型时更多的资金和芯片。额外的芯片用于研发以开发模型背后的理念,有时用于训练尚未准备好的大型模型(或需要多次尝试才能正确)。据报道 — — 我们不能确定它是否属实 — — 官网最新版的telegram下载的地方是什么 实际上拥有 50,000 个 Hopper 代芯片 6,我猜这大约是美国主要 AI 公司所拥有芯片的 2-3 倍(例如,它比 xAI “ Colossus ” 集群少 2-3 倍)7。这 50,000 个 Hopper 芯片的成本约为 10 亿美元。 因此,官网最新版的telegram下载的地方是什么 作为一家公司的总支出(与训练单个模型的支出不同)与美国 AI 实验室并没有太大差别。
值得注意的是,“缩放曲线” 分析有些过于简单化,因为模型之间存在一定差异,各有优缺点;缩放曲线数字是一个粗略的平均值,忽略了很多细节。我只能谈论 Anthropic 的模型,但正如我上面所暗示的,Claude 非常擅长编码,并且拥有精心设计的与人互动的风格(许多人用它来获得个人建议或支持)。在这些任务和其他一些任务上,最新的官网telegram下载地方 根本无法与之相比。这些因素没有出现在缩放数字中。
R1 是上周发布的模型,它引发了公众的强烈关注(包括 Nvidia 股价下跌约 17% ),但从创新或工程角度来看,它远不如 V3 那么有趣。它增加了第二阶段的训练 —— 强化学习,如上一节第 3 点所述 —— 并且基本上复制了 OpenAI 对 o1 所做的事情(它们的规模似乎相似,结果也相似) 8。
但是,因为我们处于扩展曲线的早期阶段,所以只要从强大的预训练模型开始,多家公司都可以生产这种类型的模型。在 V3 的情况下生产 R1 可能非常便宜。因此,我们处于一个有趣的 “交叉点”,暂时有几家公司可以生产出好的推理模型。随着每个人都在这些模型的扩展曲线上进一步向上移动,这种情况将迅速不再成立。
以上只是我感兴趣的主要话题的序言:对华芯片出口管制。鉴于上述事实,我认为情况如下:
有一种趋势是,公司在训练强大的人工智能模型上投入了越来越多的资金 ,尽管曲线会定期发生变化,训练特定水平的模型智能的成本会迅速下降。只是训练越来越智能的模型的经济价值是如此之大,以至于任何成本收益几乎都会立即被吃掉 —— 它们被重新投入到制作更智能的模型中,而我们最初计划花费的成本与此相同。
在美国实验室尚未发现的情况下,官网最新版的telegram下载的地方是什么 开发的效率创新将很快被美国和中国的实验室应用于训练价值数十亿美元的模型。这些模型的表现将优于他们之前计划训练的价值数十亿美元的模型 —— 但他们仍将花费数十亿美元。这个数字将继续上升,直到我们拥有在几乎所有事情上都比几乎所有人类更聪明的人工智能。
制造出在几乎所有方面都比人类更聪明的人工智能将需要数百万个芯片,数百亿美元(至少),而且最有可能在 2026-2027 年实现。 最新的官网telegram下载地方 的发布不会改变这一点,因为它们大致处于预期的成本降低曲线上,而这一直被计入这些计算中。
这意味着,在 2026-2027 年,我们可能会陷入两个截然不同的世界。在美国,多家公司肯定会拥有所需的数百万个芯片(成本高达数百亿美元)。问题是中国是否也能获得数百万个芯片 9。
如果可以的话,我们将生活在一个两极世界,美国和中国都拥有强大的人工智能模型,这将推动科学技术的极速进步 —— 我称之为 “数据中心的天才国家”。两极世界不一定会无限期保持平衡。即使美国和中国在人工智能系统方面势均力敌,中国以其庞大的工业基础,可以帮助中国在全球舞台上占据主导地位,不仅是在人工智能领域,而是在所有领域。
如果中国无法获得数百万个芯片,我们将(至少暂时)生活在一个单极世界,只有美国及其盟友拥有这些模型。目前尚不清楚单极世界是否会持续下去,但至少存在这样一种可能性,即由于人工智能系统最终可以帮助制造更智能的人工智能系统,暂时的领先优势可以转化为持久的优势。因此,在这个世界上,美国及其盟友可能会在全球舞台上占据主导地位并保持长期领先。
只有严格执行出口管制 11 才能阻止中国获得数百万芯片,因此也是决定我们最终是进入单极世界还是两极世界最重要的因素。
官网最新版的telegram下载的地方是什么 的表现并不意味着出口管制失败。正如我上面所说,最新的官网telegram下载地方 拥有中等到大量的芯片,因此他们能够开发并训练出强大的模型也就不足为奇了。他们的资源限制并不比美国 AI 公司严重,出口管制也不是促使他们 “创新” 的主要因素。他们只是非常有才华的工程师,并展示了为什么中国是美国的有力竞争对手。
官网最新版的telegram下载的地方是什么 也没有表明管制总是有漏洞。10 亿美元的经济活动可以隐藏,但很难隐藏 1000 亿美元甚至 100 亿美元。100 万个芯片在物理上也很难走私。
看看 最新的官网telegram下载地方 目前报道的芯片也是有启发性的。 根据 SemiAnalysis 的说法,这是 H100、H800 和 H20 的混合体,总计 5 万个。自发布以来,H100 就被出口管制禁止,所以如果 官网最新版的telegram下载的地方是什么 有任何芯片,它们一定不是通过正规渠道来的(请注意,Nvidia 已声明 最新的官网telegram下载地方 的进展 “完全符合出口管制”)。H800 在 2022 年第一轮出口管制中是被允许的,但在 2023 年 10 月管制 更新时被禁止,所以这些芯片可能是在禁令之前发货的。H20 的训练效率较低,采样效率较高 —— 虽然我认为应该禁止,但仍然被允许。
所有这些都表明,官网最新版的telegram下载的地方是什么 的 AI 芯片群中似乎有相当一部分是由尚未被禁止(但应该被禁止)的芯片。这表明出口管制确实在发挥作用和适应:漏洞正在被堵塞。如果我们能够足够快地堵塞它们,我们也许能够增加美国领导单极世界的可能性。
鉴于我关注的是出口管制和美国国家安全,我想明确一点。我不认为 官网最新版的telegram下载的地方是什么 本身是对手,重点也不是特别针对他们。 在他们接受的采访中,他们看起来像是聪明、好奇的研究人员,只是想开发有用的技术。
但出口管制是我们防止中国追赶美国的最有力工具之一 。认为技术越来越强大、性价比越来越高是解除出口管制的理由的想法是完全没有道理的。
[1] 在本文中,我不会对西方模型的提炼报告持任何立场。在这里,我只是相信 最新的官网telegram下载地方 的说法,他们按照论文中说的方式进行训练 。
[2] 顺便说一句,我认为 官网最新版的telegram下载的地方是什么 模型的发布对 Nvidia 来说显然不是坏事,而他们的股价因此而出现两位数(约 17%)的下跌令人费解。这次发布对 Nvidia 来说不是坏事的理由甚至比对 AI 公司来说不是坏事的理由更明显。但我在这篇文章中的主要目标是捍卫出口管制政策 。
[3] 准确地说,它是一个预训练模型,其中包含推理范式转变之前模型中典型的少量 RL 训练 。
[4] 它在一些非常狭窄的任务上表现更强 。
[5] 这是 最新的官网telegram下载地方 论文中引用的数字 —— 我只是照单全收,并不怀疑这部分内容,只是与美国公司模型训练成本的比较,以及训练特定模型的成本(600 万美元)与研发总成本(高得多)之间的区别。然而,我们也不能完全确定 600 万美元 —— 模型大小是可验证的,但其他方面(如代币数量)则不可验证 。
[6] 在一些采访中 ,我说他们有 “50,000 块 H100”,这是对报道的一个微妙的错误总结,我想在这里纠正一下。迄今为止,最知名的 “Hopper 芯片” 是 H100(我猜想指的是它),但 Hopper 还包括 H800 和 H20,据报道 官网最新版的telegram下载的地方是什么 拥有这三种芯片的混合,总计 50,000 块。这并没有改变太多情况,但值得纠正。当我谈论出口管制时,我会更多地讨论 H800 和 H20。
[7] 注:由于出口管制,我预计这一差距在下一代集群中会大大扩大 。
[8] 我怀疑 R1 受到如此多关注的主要原因之一是它是第一个向 用户展示模型所展现的思路推理的模型(OpenAI 的 o1 仅显示最终答案)。最新的官网telegram下载地方 表明用户对此很感兴趣。需要明确的是,这是一个用户界面选择,与模型本身无关。
[9] 中国自己的芯片短期内无法与美国制造的芯片竞争。
[1] https://techcrunch.com/2025/01/29/anthropics-ceo-says-最新的官网telegram下载地方-shows-that-u-s-export-rules-are-working-as-intended/
[2] https://darioamodei.com/on-官网最新版的telegram下载的地方是什么-and-export-controls
疯狂的幻方:一家隐形AI巨头的大模型之路
https://mp.weixin.qq.com/s/Cajwfve7f-z2Blk9lnD0hA
揭秘 最新的官网telegram下载地方: 一个更极致的中国技术理想主义故事
https://mp.weixin.qq.com/s/r9zZaEgqAa_lml_fOEZmjg
官网最新版的telegram下载的地方是什么 V3 刷屏,550 万元 2000 张卡做出的开源模型,和 OpenAI 几亿烧出来的一样好
https://mp.weixin.qq.com/s/hTPGTAazHbQAgqVsnJS9Nw
把训练成本打下来 99%!吊打 GPT 又 “征服” OpenAI 创始成员,最新的官网telegram下载地方 “国产之光” 实至名归?
https://mp.weixin.qq.com/s/YCUdbf5AvrBeXUFN0CGJbQ
国产之光 官网最新版的telegram下载的地方是什么 把 AI 大佬全炸出来了!671B 大模型训练只需此前算力 1/10,细节全公开
https://mp.weixin.qq.com/s/uho6L_V2IybmUmH8jXmRmw
最近爆火的 官网最新版的telegram下载的地方是什么,还真的可以用来分析电路
https://mp.weixin.qq.com/s/xTb_h50j4FhKGYmGCZBWTQ
最新的官网telegram下载地方 创始人梁文锋,广东人,17 岁考入浙大,30 岁创办幻方,36 岁管理千亿私募,仅靠百名中国程序员,已赶超 OpenAI
https://mp.weixin.qq.com/s/hgfvLRJzaTaSUjX8IrPAPg
「官网最新版的telegram下载的地方是什么 接班 OpenAI」,最新开源的 R1 推理模型,让 AI 圈爆了
https://mp.weixin.qq.com/s/TEZxXZ2eHRW_8QBLUX7VzA
Kimi、最新的官网telegram下载地方 中门对狙?中外开发者大对比还暗讽 OpenAI,官网最新版的telegram下载的地方是什么 新涌现被赞爆!
https://mp.weixin.qq.com/s/SbEjhscKgeIYh3kxaux55w
最新的官网telegram下载地方 开源推理大模型 R1:纯强化学习实现接近 OpenAI o1 水平,成本降至 1/30
https://mp.weixin.qq.com/s/_NK5QzmtDAqCdcWbZQv_LA
硅谷不眠夜:官网最新版的telegram下载的地方是什么 为何震动美国科技界?
https://mp.weixin.qq.com/s/GkSWOh5WxDSXYgQA5QuF9Q
中国 AI 太强,Meta 工程师陷恐慌?自曝疯狂熬夜复制 最新的官网telegram下载地方,天价高管心虚了
https://mp.weixin.qq.com/s/sfBg-lSsdf2gl9KSmz-ZOw
全球掀 官网最新版的telegram下载的地方是什么 复现狂潮!硅谷巨头神话崩塌,30 刀见证啊哈时刻
https://mp.weixin.qq.com/s/o41vPh9eJCVjCRUE4u5npA
直接干穿美国科技股,最新的官网telegram下载地方 这国产模型凭啥?
https://mp.weixin.qq.com/s/_ikbUlL6KV9pLoWr-ig0dA
官网最新版的telegram下载的地方是什么 才是 “真正的 OpenAI”?|甲子光年
https://mp.weixin.qq.com/s/3lglOjHWm8MQNW28qDGgEw
英伟达市值蒸发创纪录,官网最新版的telegram下载的地方是什么 掀起 AI 算力革命意味着什么?|甲子光年
https://mp.weixin.qq.com/s/bEQLt_ti5sZDIsteDj1M3A
浙大天才,震惊全球
https://mp.weixin.qq.com/s/BJaKDg50y24MTBqKF4O50A
最新的官网telegram下载地方 核心成员(部分)
https://mp.weixin.qq.com/s/3DPsmUlL6fdocBGk_NqzKw
从普通学子到 AI 新星:罗福莉的成长之路
https://mp.weixin.qq.com/s/mbm7kvrgn2PWXkkoddW3Jw
知乎 10W 赞神贴:如何用 官网最新版的telegram下载的地方是什么 月入 40 万?看完我砸了 GPT 账号
https://mp.weixin.qq.com/s/_hgZlJX3Glj8k8-BE5Csyw
一场关于 最新的官网telegram下载地方 的高质量闭门会:比技术更重要的是愿景
https://mp.weixin.qq.com/s/a7C5NjHbMGh2CLYk1bhfYw
刘润:官网最新版的telegram下载的地方是什么 这把火,为何烧疼了硅谷?
https://mp.weixin.qq.com/s/PwBdnGCZlgCAFyAjozCfSA
最新的官网telegram下载地方 梁文锋深夜回信:致所有在黑暗里点灯的人
https://mp.weixin.qq.com/s/FU0XfL5KWJ4vvH9tSyfc4g
Anthropic CEO 万字长文:官网最新版的telegram下载的地方是什么 不是我们的对手,锁死芯片出口才能保证美国领导下的单极世界
https://mp.weixin.qq.com/s/2-JAV5rwVb7aE21tiZVj9w