国内大模子企业的十万卡时间,果然要来了吗?
9月25日,百度发布了全面升级的百舸AI异构狡计平台4.0,百度智能云处事群总裁沈抖直言,百舸4.0便是部署十万卡大领域集群而联想的。
百度集团实际副总裁、百度智能云处事群总裁沈抖不雅察者网
而就在几天前,阿里云秘书其灵骏单汇荟萃群已拓展至10万卡级别。此前,腾讯也发布了守旧十万卡集群的星脉汇聚2.0。
一度还停留在设思层面的十万卡集群,倏得成为公论焦点是在9月初。马斯克倏得秘书在短短122天内建成10万张英伟达H100显卡的Colossus集群,意味着其算力可能依然超越OpenAI。
由显卡领域撑起的算力水平,是决定大模子性能的最进击方针之一。一般以为,1万枚英伟达A100芯片,是作念好AI大模子的算力门槛。
建一个万卡集群,单是GPU的采购本钱就高达几十亿,因此国内未必部署万卡领域集群的,蓝本就只须阿里、百度等寥寥几家大厂。而思要部署十万卡集群,其“烧钱”进度可思而知。
除了资金本钱,十万卡集群相同靠近雄壮的时间挑战。沈抖指出,GPU是一种很敏锐的硬件,连一天之内气温的波动,齐会影响到GPU的故障率,况且领域越大,出故障的概率就越高。“Meta试验llama3的时刻,用了1.6万张GPU卡的集群,平均每3小时就会出一次故障。”
此外,辨别于传统CPU集群的串行特色,大模子试验历程需要整个显卡同期参与并行狡计,对汇聚传输智力也提议了更大的挑战。
比较于好意思国同业,炒期货中国大模子企业还靠近一重罕见的珍惜,无法像马斯克那样整个接管英伟达有谋略,而是需要使用包括国产GPU在内的异构芯片。这也意味着,即使相同十万张显卡,国内企业在算力领域上也很难同好意思国企业匹敌。
在上述三重挑战之下,国内大模子企业的跨越速率也有目共睹。
据沈抖先容,百舸4.0在万卡集群上兑现了有用试验时长占比99.5%以上,业界开头,并通过在集群联想、任务转机、并行计谋、显存优化等一系列立异,大幅普及了集群的模子试验成果,合座性能比较业界平均水平普及高达30%。
而阿里云CTO周靖东谈主此前也走漏,现在阿里云的万卡算力集群不错兑现大于99%以上连结试验有用时长,模子算力诓骗率可普及20%以上。
但跟着性能普及,大模子本钱问题只会越来越引东谈主防范。单从能耗来看,沈抖走漏,十万卡集群每天就要浮滥大致300万千瓦时的电力,绝顶于北京市东城区一天的住户用电量。
一位建设者向不雅察者网直言,尽管在昔时一年中大模子厂商的降价幅度照实可不雅,但这更多是平台补贴建设者的截止,并非根柢照管之谈。
对此,阿里云方面强调,AI发展仍然处在一个相配早期的阶段,必须要靠降价带动应用爆发,而阿里云搞AI大基建,并不会只算目下账。