您的位置: > 欧 易 OKX 区块链新闻> 正文

打印本文             

加密激励众筹一个AI模型是否可行?

作者:Jeff Amico;编译:深潮 TechFlow

引言

在新冠疫情期间,Folding@home 取得了一个重大里程碑。该研究项目获得了 2.4 exaFLOPS 的计算能力,由全球 200 万台志愿者设备提供。这代表了当时世界上最大超级计算机的十五倍处理能力,使科学家能够大规模模拟 COVID 蛋白质动态。他们的工作推动了我们对病毒及其病理机制的理解,尤其是在疫情初期。

深度研究:加密激励众筹一个AI模型,是否可行?

Folding@home 用户的全球分布,2021

Folding@home 基于志愿计算的悠久历史,项目通过众包计算资源来解决大规模问题。这个想法在 1990 年代的 SETI@home 中得到了广泛关注,该项目汇集了超过 500 万台志愿者计算机以寻找外星生命。此后,这一理念已被应用于多个领域,包括天体物理学、分子生物学、数学、密码学和游戏。在每种情况下,集体力量增强了单个项目的能力,远远超出了他们单独能够实现的范围。这推动了进步,使研究能够以更开放和合作的方式进行。

许多人想知道我们是否可以将这一众包模型应用于深度学习。换句话说,我们能否在大众中训练一个大型神经网络?前沿模型训练是人类历史上计算最密集的任务之一。与许多 @home 项目一样,目前的成本超出了只有最大参与者才能承担的范围。这可能会阻碍未来的进展,因为我们依赖于越来越少的公司来寻找新的突破。这也将我们的 AI 系统的控制权集中在少数人手中。无论你对这项技术的看法如何,这都是一个值得关注的未来。

大多数批评者驳斥了去中心化训练的想法,认为与当前的训练技术不兼容。然而,这种观点已经越来越过时。新的技术已经出现,能够减少节点间的通信需求,从而允许在网络连接不佳的设备上高效训练。这些技术包括 DiLoCo 、 SWARM Parallelism 、 lo-fi 和异构环境中基础模型的分散训练等多个技术。其中许多具有容错性,并支持异构计算。还有一些新架构专为去中心化网络设计,包括 DiPaCo 和去中心化混合专家模型。

我们还看到各种加密原语开始成熟,使得网络能够在全球范围内协调资源。这些技术支持数字货币、跨境支付和预测市场等应用场景。与早期的志愿项目不同,这些网络能够汇聚惊人的计算能力,通常比目前设想的最大云训练集群大几个数量级。

这些要素共同构成了新的模型训练范式。这种范式充分利用全球的计算资源,包括如果连接在一起可以使用的大量边缘设备。这将通过引入新的竞争机制来降低大多数训练工作负载的成本。它还可以解锁新的训练形式,使得模型开发变得协作和模块化,而不是孤立和单一的方式。模型可以从大众中获取计算和数据,实时学习。个人可以拥有他们所创建模型的一部分。研究人员也可以重新公开分享新颖的研究成果,无需通过货币化他们的发现来弥补高昂的计算预算。

本报告考察了大型模型训练的现状及相关成本。它回顾了以往的分布式计算努力——从 SETI 到 Folding 再到 BOINC——以此为灵感探索替代路径。报告讨论了去中心化训练的历史挑战,并转向可能有助于克服这些挑战的最新突破。最后,它总结了未来的机遇与挑战。

前沿模型训练的现状

前沿模型训练的成本对非大型参与者而言已经不可承受。这个趋势并不新鲜,但根据实际情况,情况正在变得更加严重,因为前沿实验室不断挑战扩展假设。据报道,OpenAI 今年在训练方面花费超过 30 亿美元。Anthropic 预测到 2025 年,我们将开始进行 100 亿美元的训练,而 1000 亿美元的模型也不会太远。

深度研究:加密激励众筹一个AI模型,是否可行?

这一趋势导致行业的集中化,因为只有少数几家公司能够承担参与的费用。这引发了未来的核心政策问题——我们是否能接受所有领先的 AI 系统由一两家公司控制的局面?这也限制了进展速度,这一点在研究社区中显而易见,因为较小的实验室无法承担扩展实验所需的计算资源。行业领导者们也多次提到这一点:

Meta 的 Joe Spisak:要真正理解 [模型] 架构的能力,你必须在规模上进行探索,我认为这正是当前生态系统中所缺失的。如果你看看学术界——学术界有很多杰出的人才,但他们缺乏计算资源的访问,这就成了一个问题,因为他们有这些伟大的想法,却没有真正以所需水平实现这些想法的途径。

Together 的 Max Ryabinin:对昂贵硬件的需求给研究社区带来了很大压力。大多数研究人员无法参与大型神经网络开发,因为进行必要的实验对他们而言成本过高。如果我们继续通过扩大模型规模来增加其大小,最终能够进行竞

Google 的 Francois Chollet:我们知道大语言模型 (LLMs) 尚未实现通用人工智能 (AGI)。与此同时,朝 AGI 发展的进展已经停滞。我们在大语言模型上所面临的局限性与五年前面临的局限性完全相同。我们需要新的想法和突破。我认为下一个突破很可能来自外部团队,而所有大型实验室则忙于训练更大的大语言模型。 一些人对这些担忧持怀疑态度,认为硬件改进和云计算资本支出将解决这个问题。但这似乎不太现实。一方面,到本十年末,新一代 Nvidia 芯片的 FLOP 数量将大幅增加,可能达到今天 H100 的 10 倍。这将使每 FLOP 的价格下降 80-90%。同样,预计到本十年末,总 FLOP 供应将增加约 20 倍,同时改善网络和相关基础设施。所有这些都将提高每美元的训练效率。

深度研究:加密激励众筹一个AI模型,是否可行?

来源:SemiAnalysis AI Cloud TCO 模型

与此同时,总 FLOP 需求也将大幅上升,因为实验室希望进一步扩大规模。如果持续十年的训练计算趋势保持不变,到 2030 年前沿训练的 FLOPs 预计将达到约 2e29。进行这种规模的训练大约需要 2000 万个 H100 等效 GPU,依据当前的训练运行时间和利用率。假设这一领域仍有多个前沿实验室,总所需的 FLOPS 数量将会是这个数字的几倍,因为整体供应将在它们之间分配。EpochAI 预测到那时我们需要大约 1 亿个 H100 等效 GPU,约为 2024 年出货量的 50 倍。SemiAnalysis 也做出了类似的预测,认为前沿训练需求和 GPU 供应在此期间大致同步增长。

产能状况可能会因多种原因变得更加紧张。例如,如果制造瓶颈延迟了预计的出货周期,这种情况是常有的事。或者如果我们未能生产足够的能源来为数据中心供电。又或者如果我们在将这些能源来源连接到电网方面遇到困难。或者如果对资本支出的日益审查最终导致行业缩减规模,等等因素。在最好的情况下,我们当前的方法只能让少数公司继续推动研究的进展,而这可能还不够。

深度研究:加密激励众筹一个AI模型,是否可行?

显然,我们需要一种新的方法。这种方法不需要不断扩展数据中心、资本支出和能源消耗来寻找下一个突破,而是高效利用我们现有的基础设施,能够随着需求的波动灵活扩展。这将让研究中有更多实验的可能,因为训练运行不再需要确保亿万美元计算预算的投资回报。一旦摆脱这一限制,我们可以超越当前的大语言模型 (LLM) 模式,正如许多人所认为的,实现通用人工智能 (AGI) 是必要的。为了理解这种替代方案可能呈现的样子,我们可以从过去的分布式计算实践中汲取灵感。

群体计算:简史

SETI@home 在 1999 年普及了这一概念,允许数百万参与者分析无线电信号,寻找外星智慧。SETI 从 Arecibo 望远镜收集电磁数据,将其分成若干批次,并通过互联网发送给用户。用户在日常活动中分析数据,并将结果发送回。用户之间无需沟通,批次可以独立审核,从而实现高度的并行处理。在其巅峰时刻,SETI@home 拥有超过 500 万名参与者,处理能力超过当时最大的超级计算机。它最终于 2020 年 3 月关闭,但它的成功激励了随后的志愿计算运动。

Folding@home 在 2000 年延续了这一理念,利用边缘计算模拟阿尔茨海默病、癌症和帕金森病等疾病中的蛋白质折叠。志愿者在个人电脑的空闲时间进行蛋白质模拟,帮助研究人员研究蛋白质如何错误折叠并导致疾病。在其历史的不同时间段,其计算能力超过了当时最大的超级计算机,包括在 2000 年代后期和 COVID 期间,当时它成为第一个超过一 exaFLOPS 的分布式计算项目。自成立以来,Folding 的研究人员已发表超过 200 篇同行评审论文,每一篇都依赖于志愿者的计算能力。

伯克利开放网络计算基础设施 (BOINC) 在 2002 年普及了这一理念,提供了一个众包计算平台,用于各种研究项目。它支持 SETI@home 和 Folding@home 等多个项目,以及在天体物理学、分子生物学、数学和密码学等领域的新项目。到 2024 年,BOINC 列出了 30 个正在进行的项目,以及近 1,000 篇发表的科学论文,均利用其计算网络产生。

在科研领域之外,志愿计算被用于训练围棋(LeelaZero、KataGo)和国际象棋(Stockfish、LeelaChessZero)等游戏引擎。LeelaZero 通过志愿计算从 2017 年到 2021 年进行训练,使其能够与自己下棋超过一千万局,创造了今天最强的围棋引擎之一。类似地,Stockfish 自 2013 年以来一直在志愿网络上持续训练,使其成为最受欢迎和最强大的国际象棋引擎之一。

关于深度学习的挑战

但是我们能否将这一模型应用于深度学习?我们是否可以将世界各地的边缘设备联网,创建一个低成本的公共训练集群?消费者硬件——从苹果笔记本到 Nvidia 游戏显卡——在深度学习方面的性能越来越出色。在许多情况下,这些设备的性能甚至超过了数据中心显卡的每美元性能。

深度研究:加密激励众筹一个AI模型,是否可行?

然而,要有效利用这些资源在分布式环境中,我们需要克服各种挑战。

首先,当前的分布式训练技术假设节点之间存在频繁的通信。

当前最先进的模型已经变得如此庞大,以至于训练必须被拆分到数千个 GPU 之间。这是通过多种并行化技术来实现的,通常是在可用的 GPU 之间拆分模型、数据集或同时拆分两者。这通常需要高带宽和低延迟的网络,否则节点将闲置,等待数据到来。

例如,分布式数据并行技术 (DDP) 将数据集分配到各个 GPU 上,每个 GPU 在其特定的数据片段上训练完整的模型,然后共享其梯度更新,以生成各个步骤的新模型权重。这需要相对有限的通信开销,因为节点仅在每次反向传播后共享梯度更新,并且集体通信操作可以部分与计算重叠。然而,这种方法仅适用于较小的模型,因为它要求每个 GPU 在内存中存储整个模型的权重、激活值和优化器状态。例如,GPT-4 在训练时需要超过 10TB 的内存,而单个 H100 仅有 80GB。

为了解决这一问题,我们还使用各种技术对模型进行拆分,以便在 GPU 之间进行分配。例如,张量并行技术 (tensor parallelism) 在单个层内拆分各个权重,使得每个 GPU 执行必要的操作并将输出传递给其他的 GPU。这降低了每个 GPU 的内存需求,但需要它们之间进行持续的通信往来,因此需要高带宽、低延迟的连接以提高效率。

流水线并行技术 (pipeline parallelism) 将模型的层分配到各个 GPU 上,每个 GPU 执行其工作并与流水线中的下一个 GPU 共享更新。尽管这所需的通信量比张量并行更少,但可能会出现「气泡」(例如,空闲时间),在这种情况下,位于流水线后面的 GPU 会等待来自前面 GPU 的信息,以便开始其工作。

为了解决这些挑战,发展出各种技术。例如,ZeRO(零冗余优化器)是一种内存优化技术,它通过增加通信开销来减少内存使用,从而使更大的模型能够在特定设备上进行训练。ZeRO 通过在 GPU 之间分割模型参数、梯度和优化器状态来降低内存需求,但依赖于大量的通信,以便设备能够获取分割的数据。它是流行技术如完全分片数据并行 (FSDP) 和 DeepSpeed 的基础方法。

这些技术通常在大模型训练中结合使用,以最大化资源的利用效率,这被称为 3D 并行。在这种配置中,张量并行技术 (tensor parallelism) 通常用于在单个服务器内将权重分配到各个 GPU 上,因为在每个被分割的层之间需要大量通信。然后,流水线并行技术 (pipeline parallelism) 被用来在不同服务器之间(但在数据中心的同一岛屿内)分配层,因为它所需的通信量较少。接着,数据并行技术 (data parallelism) 或完全分片数据并行技术 (FSDP) 被用来在不同服务器岛屿之间拆分数据集,因为它可以通过异步共享更新和 / 或压缩梯度来适应更长的网络延迟。Meta 使用这种组合方法来训练 Llama 3.1,如下面的图示所示。

这些方法给去中心化训练网络带来了核心挑战,这些网络依赖于通过(速度更慢且波动更大的)消费级互联网连接的设备。在这种环境中,通信成本很快就会超过边缘计算带来的收益,因为设备通常是空闲的,等待数据到达。以一个简单的例子说明,分布式数据并行训练一个具有 10 亿参数的半精度模型,每个 GPU 在每个优化步骤中需要共享 2GB 的数据。以典型的互联网带宽(例如 1 千兆位每秒)为例,假设计算与通信不重叠,传输梯度更新至少需要 16 秒,导致显著的空闲。像张量并行技术 (tensor parallelism) 这样的技术(需要更多的通信)当然会表现得更糟。

其次,当前的训练技术缺乏容错能力。像任何分布式系统一样,随着规模的增加,训练集群变得更容易发生故障。然而,这一问题在训练中更加严重,因为我们目前的技术主要是同步的,这意味着 GPU 必须协同工作以完成模型训练。成千上万的 GPU 中单个 GPU 的故障会导致整个训练过程停止,迫使其他 GPU 从头开始训练。在某些情况下,GPU 并不会完全故障,而是由于各种原因变得迟缓,进而减慢集群中成千上万其他 GPU 的速度。考虑到当今集群的规模,这可能意味着数千万到数亿美元的额外成本。

Meta 在他们的 Llama 训练过程中详细阐述了这些问题,他们经历了超过 400 次意外中断,平均每天约 8 次中断。这些中断主要归因于硬件问题,例如 GPU 或主机硬件故障。这导致他们的 GPU 利用率仅为 38-43%。OpenAI 在 GPT-4 的训练过程中表现更差,仅为 32-36%,这也是由于训练过程中故障频繁。

换句话说,前沿实验室们在完全优化的环境中(包括同质的、最先进的硬件、网络、电源和冷却系统)进行训练时,仍然难以达到 40% 的利用率。这主要归因于硬件故障和网络问题,而在边缘训练环境中,这些问题会更加严重,因为设备在处理能力、带宽、延迟和可靠性方面存在不均衡。更不用说,去中心化网络易受恶意行为者的侵害,他们可能出于各种原因试图破坏整体项目或在特定工作负载上作弊。即使是纯志愿者网络 SETI@home,也曾出现过不同参与者的作弊现象。

第三,前沿模型训练需要大规模的计算能力。虽然像 SETI 和 Folding 这样的项目达到了令人印象深刻的规模,但与当今前沿训练所需的计算能力相比,它们相形见绌。GPT-4 在一个由 20,000 个 A100 组成的集群上训练,其峰值吞吐量为半精度的 6.28 ExaFLOPS。这比 Folding@home 在其峰值时的计算能力多出三倍。Llama 405b 使用 16,000 个 H100 进行训练,峰值吞吐量为 15.8 ExaFLOPS,是 Folding 峰值的 7 倍。随着多个实验室计划构建超过 100,000 个 H100 的集群,这一差距只会进一步扩大,每个集群的计算能力高达惊人的 99 ExaFLOPS。

深度研究:加密激励众筹一个AI模型,是否可行?

这很有道理,因为 @home 项目是志愿者驱动的。贡献者捐赠了他们的内存和处理器周期,并承担了相关成本。这自然限制了它们相对于商业项目的规模。

最近的进展

虽然这些问题在历史上一直困扰着去中心化训练工作,但它们似乎不再不可逾越。新的训练技术已经出现,能够减少节点间的通信需求,从而在互联网连接的设备上进行高效训练。这些技术很多源自大型实验室,它们希望为模型训练增加更大的规模,因此需要跨数据中心的高效通信技术。我们还看到了容错训练方法和加密激励系统的进展,这些方法可以支持更大规模的训练在边缘环境中进行。

高效通信技术

DiLoCo 是谷歌近期的研究,它通过在设备间传递更新的模型状态之前进行本地优化,从而减少了通信开销。他们的方法(基于早期的联邦学习研究)显示出与传统同步训练相当的效果,同时节点之间的通信量降低了 500 倍。此后,该方法已被其他研究者复制,并扩展至训练更大模型(超过 10 亿个参数)。它还扩展到异步训练,这意味着节点可以在不同时间共享梯度更新,而不是一次性共享所有更新。这更好地适应了处理能力和网络速度各异的边缘硬件。

其他数据并行方法,如 lo-fi 和 DisTrO,旨在进一步减少通信成本。Lo-fi 提出了完全本地微调的方法,这意味着节点独立训练,只在最后传递权重。这种方法在微调超过 10 亿参数的语言模型时,性能与基准相当,同时完全消除了通信开销。在一份初步报告中,DisTrO 声称采用了一种新型的分布式优化器,他们认为可以将通信需求降低四到五个数量级,尽管该方法尚待确认。

新的模型并行方法也已经出现,这使得实现更大的规模成为可能。DiPaCo(同样来自谷歌)将模型划分为多个模块,每个模块包含不同的专家模块,以便于特定任务的训练。然后,训练数据通过「路径」进行分片,这些路径是每个数据样本对应的专家序列。给定一个分片,每个工作者几乎可以独立训练特定的路径,除了共享模块所需的通信,这部分由 DiLoCo 处理。这种架构将十亿参数模型的训练时间减少了超过一半。

SWARM 并行性和异构环境中基础模型的去中心化训练 (DTFMHE) 也提出了模型并行的方法,以在异构环境中实现大模型训练。SWARM 发现,随着模型规模的增加,管道并行性通信约束减小,这使得在较低的网络带宽和更高的延迟下有效训练更大模型成为可能。为了在异构环境中应用这一理念,他们在节点之间使用临时「管道连接」,这些管道可以在每次迭代中实时更新。这允许节点将其输出发送到任何下一个管道阶段的对等节点。这意味着,如果某个对等节点比其他节点更快,或者任何参与者断开连接,输出可以动态重新路由,以保证训练的持续进行,只要每个阶段至少有一个活跃参与者。他们使用这种方法在低成本的异构 GPU 上训练一个超过 10 亿参数的模型,并且互连速度较慢(如下图所示)。

DTFMHE 同样提出了一种新颖的调度算法,以及管道并行和数据并行,以在 3 个大洲的设备上训练大型模型。尽管他们的网络速度比标准 Deepspeed 慢 100 倍,但他们的方法速度仅比在数据中心使用标准 Deepspeed 慢 1.7-3.5 倍。与 SWARM 类似,DTFMHE 显示出随着模型规模增大,通信成本可以有效隐藏,即使在地理分布的网络中也同样适用。这使得我们能够通过各种技术克服节点之间较弱的连接,包括增加隐藏层的大小和每个管道阶段增加更多层。

故障容错

上述许多数据并行方法默认具有容错能力,因为每个节点都在内存中存储整个模型。这种冗余通常意味着,即使其他节点出现故障,节点仍然可以独立工作。这对于去中心化训练非常重要,因为节点通常是不可靠的、异构的,甚至可能存在恶意行为。然而,如前所述,纯数据并行方法仅适用于较小的模型,因此模型大小受到网络中最小节点内存容量的制约。

为了解决上述问题,一些人提出了适用于模型并行(或混合并行)训练的容错技术。SWARM 通过优先选择延迟较低的稳定对等节点来应对对等节点故障,并在发生故障时重新路由管道阶段的任务。其他方法,如 Oobleck,采用类似的方法,通过创建多个「管道模板」来提供冗余,以应对部分节点故障。尽管在数据中心进行了测试,Oobleck 的方法提供了强大的可靠性保证,这些保证同样适用于去中心化环境。

我们还看到了一些新的模型架构(如去中心化混合专家模型 (Decentralized Mixture of Experts, DMoE)),用于支持去中心化环境中的容错训练。与传统的专家混合模型类似,DMoE 由多个独立的「专家」网络组成,这些网络分布在一组工作者节点上。DMoE 使用分布式哈希表以去中心化方式跟踪和整合异步更新。该机制(在 SWARM 中也使用)对节点故障具有良好的抵抗力,因为如果某些节点失败或未能及时响应,它可以将某些专家排除在平均计算之外。

规模化

最后,像比特币和以太坊所采用的加密激励系统可以帮助实现所需的规模。这两个网络通过向贡献者支付一种可以随着采用增长而增值的本地资产来众包计算。这个设计通过给予早期贡献者丰厚奖励来激励他们,当网络达到最小可行规模后,这些奖励可以逐步减少。

确实,这种机制存在各种陷阱,需要避免。其中最主要的陷阱是,过度激励供给而未能带来相应的需求。此外,如果基础网络不够去中心化,这可能引发监管问题。然而,当设计得当时,去中心化激励系统可以在较长时间内实现可观的规模。

例如,比特币年电力消耗约为 150 太瓦时 (TWh),这比目前构思中的最大 AI 训练集群的电力消耗高出两个数量级之多(100,000 个 H100 全负荷运行一年)。作为参考,OpenAI 的 GPT-4 在 20,000 个 A100 上进行了训练,Meta 的旗舰 Llama 405B 模型在 16,000 个 H100 上进行了训练。同样,在其高峰期,以太坊的电力消耗大约为 70 TWh,分散在数百万个 GPU 之间。即使考虑到未来几年 AI 数据中心的快速增长,像这些激励计算网络仍将多次超越其规模。

当然,并非所有计算都是可替换的,训练相对于挖矿有独特的需求,需要考虑。尽管如此,这些网络展示了通过这些机制可以实现的规模。

未来的道路

将这些部分联系在一起,我们可以看到前进的新道路的开端。

很快,新的训练技术将使我们能够超出数据中心的限制,因为设备不再需要共同放置才能发挥作用。这将需要时间,因为我们当前的去中心化训练方法仍处于较小规模,主要在 10 亿到 20 亿个参数的范围内,比像 GPT-4 这样的模型小得多。我们需要进一步的突破,以在不牺牲关键属性(如通信效率和容错能力)的情况下提升这些方法的规模。或者,我们需要新的模型架构,这些架构与今天的大型单体模型有所不同——可能更小、更模块化,在边缘设备上运行,而非在云端

无论如何,可以合理地预期在这个方向上会有进一步的进展。我们当前方法的成本是不可持续的,这为创新提供了强烈的市场动力。我们已经看到这一趋势,像 Apple 这样的制造商正在构建更强大的边缘设备,以便在本地运行更多的工作负载,而不是依赖云端。我们还看到对开源解决方案的支持不断增加——甚至在像 Meta 这样的公司内部,以促进更去中心化的研究与开发。这些趋势随着时间的推移只会加速。

与此同时,我们还需要新的网络基础设施来连接边缘设备,以便能够这样使用它们。这些设备包括笔记本电脑、游戏台式机,最终甚至可能是拥有高性能显卡和大内存的手机。这将使我们能够构建一个「全球集群」,低成本、始终在线的计算能力,可以并行处理训练任务。这也是一个具有挑战性的问题,需要在多个领域取得进展。

我们需要更好的调度技术来在异构环境中进行训练。目前没有任何方法可以自动并行化模型以达到优化,特别是在设备可以随时断开或连接的情况下。这是优化训练的关键下一步,同时保留基于边缘网络的规模优势。

我们还必须应对去中心化网络的一般复杂性。为了最大化规模,网络应该构建为开放协议——一套标准和指令,规定参与者之间的互动,就像 TCP/IP 而是用于机器学习计算。这将使任何遵循特定规范的设备能够连接到网络,无论拥有者和位置。它还确保网络保持中立,允许用户训练他们喜欢的模型。

虽然这实现了规模最大化,但它也需要一个机制来验证所有训练任务的正确性,而不依赖于单一实体。这一点至关重要,因为存在固有的作弊诱因——例如,声称自己完成了某个训练任务以获得报酬,但实际上并没有做到。考虑到不同设备通常以不同方式执行机器学习操作,这使得使用标准复制技术变得难以验证正确性,因此这尤其具有挑战性。正确解决这个问题需要在密码学和其他学科上进行深入研究。

幸运的是,我们在所有这些方面都继续看到进展。与过去几年相比,这些挑战似乎不再不可逾越。与机会相比,它们也显得相当微小。Google 在他们的 DiPaCo 论文中对此进行了最佳总结,指出去中心化训练有潜力打破的负反馈机制:

分布式训练机器学习模型的进展可能促进基础设施的简化建设,最终导致计算资源的更广泛可用。目前,基础设施是围绕训练大型单体模型的标准方法而设计的,同时机器学习模型的架构也旨在利用当前的基础设施和训练方法。这种反馈循环可能使社区陷入一个误导性的局部最小值,即计算资源的限制超过了实际需要。

也许最令人兴奋的是,研究界对解决这些问题的热情日益高涨。我们在 Gensyn 的团队正在构建上述网络基础设施。像 Hivemind 和 BigScience 这样的团队在实践中应用了许多这些技术。像 Petals、sahajBERT 和 Bloom 这样的项目展示了这些技术的能力,以及对基于社区的机器学习日益增长的兴趣。还有许多其他人也在推动研究进展,目标是建立一个更开放、更协作的模型训练生态系统。如果您对这项工作感兴趣,请与我们联系以参与其中。

查看更多

山寨之王为何陷入危机?

朝向完全模块化的分型扩容,是 Vitalik 在 18 至 19 年时对以太坊终局的一种设想。即底层围绕 Data Availability 优化,上层无限扩容,从而跳脱出公链三角悖论,以太坊成为万链结算层,最终实现区块链扩容游戏的 End Game。

在确定了该构想的可行性后,以太坊横纵两端的路线图开始急速推进。23 年随着主链与 Beacon Chain(信标链)在上海升级中的合并成功,模块化的主旋律开始覆盖以太坊生态,到如今坎昆升级后朝 EIP4844 迈出的第一步,主链本身已经无限逼近于 Vitalik 在早年间的构想。其上层亦是百花齐放,Gas、TPS、多样性,都在逐步碾压曾经的对手。可以说,除了割裂感这个缺点以外,所有异构链关于 Ethereum Killer 的叙事都应该要宣告翻篇了。但与之相反的残酷现实是,TON 与 Solana 在不断崛起,诸多抄袭模块化叙事的 Infra 项目在二级市场的表现上甚至要优于 ETF 加持的「模块化正主」,这一现状的归因究竟是什么?

从转型 POS 到发展 Layer2 是近期批判以太坊多宗「罪行」的主要焦点,但在我看来在推进模块化这件事上,以太坊开发者与 Vitalik 并没有任何错。如果非要说有,那可能是将这一进程推进的太快以及过于理想化,我曾在年初的文章中写过一段话,大致意思如下:如果区块链在金融领域之外有大量运用的价值,Mass Adoption 也终将到来,那么以太坊转向模块化才有意义。很显然,在这点上以太坊过于理想化,目前没有任何迹象能证明这两点是真实存在的。在对 DA 的定价曲线上也是如此,以当前 Layer2 的现状来说,想象中的应用层爆发并没有到来。其次,大量通用链也基本仅存 ARB、OP、Base 这几个顶流还在保持活跃,仅靠 DA 收入完全不可能满足以太坊的正向循环。余下的问题还有很多,比如,Gas 消耗在呈几十甚至上百倍的降低,曾经需要购买 0.1ETH 才能做完的事情,如今仅靠 0.001ETH 就能做完,而用户的活动并没有几十至上百倍的增长,使得市场供给远大于需求。但是,在最大限度保持去中心化与安全性的前提下,推动公链向大规模采用发展,似乎也没错。以太坊能把八年以来画的「饼」逐渐变为现实,这点在加密世界中已是难能可贵。可惜的是现实本就是功利至上,市场不会为理想买单,在应用及流动性匮乏的当下,技术理想派与投资者之间的矛盾还将持续加深。

二、人性

以太坊的理想化不仅仅体现在对应用层未来的判断中,在人性的判断上也是如此。当前 Layer2 被热议最多的问题有两点:1.中心化 Sequencer(排序器);2.Token。从技术角度来说,Layer2 是可以实现去中心化的。但从人性的角度看,头部 Layer2 项目,不可能把排序器所带来的巨额利润拱手让人。除非,去中心化这三个字能盘活 Token 并实现更大的利益。比如,刚刚提及的几个头部 Layer2,当然完全有能力将排序器去中心化,但他们不会这么做。因为它们皆是自上而下,通过巨额融资烧出来的项目,其诞生方式就非常 Web2,运营逻辑也是如此。社区成员与 Layer2 的关系,更类似消费者与云服务器运营商的关系。譬如,经常使用亚马逊的 AWS 服务器也许能收到一些优惠券和现金返现,Layer2 也是如此(空投)。但排序器收入是 Layer2 的命根,从项目方的角度来说。设计、融资、开发、运营、硬件购置,每一环都不需要社区支撑,在他们的逻辑里用户并没有多大贡献(这也是为什么许多 Layer2 项目方总是对用户态度恶劣),更别提社区想把排序器去中心化。仅用道德感束缚不了 Layer2,要想将排序器尽量去中心化,就得从 Layer2 项目方的利益角度设计一种新的排序器方案,但显然这种方案的争议性会很大,更好的做法是把路线图上去中心化 Sequencer 的部分给抹去,或者搁置到路线图中看不见的地方。如今的 Layer2 与以太坊拥抱模块化的初衷来说完全相悖,大部分 Layer2 只是在偷换概念并瓜分以太坊一切有价值的东西。

我们再来说 Token,Layer2 这种形态的公链,在加密中还是一个新鲜产物,从以太坊、Layer2 项目方、社区三种不同角度来看,Token 的存在都十分矛盾。我们依照顺序说起,从以太坊的角度来说,Layer2 不应该存在 Token。Layer2 对于以太坊只是一个需要跨链使用的「高性能扩容服务器」,只收取用户服务费,对两者来说都是健康的,通过最大限度维稳 ETH 的价值和地位,才能长久的将业务做下去。换个更具象化的说法,如果将整个二层生态比作欧盟,那么维护欧元稳定是必须的。如果大量成员国都在发行本国货币削弱欧元,那么欧盟及欧元最终都将不复存在。比较有趣的是,以太坊并不限制 Layer2 发币,也没有限制 Layer2 是否要将 ETH 作为 Gas 费。这种规则上的开放态度,确实很「Crypto」。不过,伴随 ETH 的持续走弱,「欧盟成员」已经蠢蠢欲动了,在头部 Layer2 的发链工具中基本都明确标注了,项目可以将任何 Token 作为 Gas,项目可以选择任何已集成的 DA 方案。除此之外,一键发链还会促成二层小联盟的诞生。

另一方面,我们再从 Layer2 及社区的视角出发,即便 ETH 在未来强势反弹,Tokne 的处境还是很尴尬。对于发币,头部的 Layer 其实早期都是非常犹豫的。除了上文中处于 ETH 的对立面问题外,还有如下几点,监管风险、不缺钱不需要通过 Token 维持开发、Token 赋能的尺度不好做、直接使用 ETH 能最快地促进 TVL 及生态增长,自己发 Token 可能与这件事形成矛盾,流动性也不可能比 ETH 强。

依旧是人性的问题,凭空印出数十亿的钞票,没有人能拒绝。再者,从社区成员以及生态发展的角度来说,Token 似乎也应该存在,如此,除了收取固定服务费外,还有个随时能套现的国库,何乐不为?但 Token 的设计又要结合上述问题,将赋能最小化。于是一堆不需要通过 POS 质押及 POW 挖取的空气代币就诞生了,它们的功能有且仅有投票,每次线性释放还要从市场瓜分大量流动性。随着时间的推进,这些毫无驱动力的 Token 在一次性空投后将持续下跌,对于社区和资方都拿不出一个好的交待,那么要赋能吗?任何具有价值的赋能都将与上述问题形成矛盾,最终陷入两难之间,四大天王的代币状况也可以很好地印证上诉问题。

不发 Token 的 Base 如今远比 Zks、Starknet 滋润,其排序器收入甚至已经超过了 Superchain 的创造者 OP。这在之前关于注意力经济的文章中有提到过,借用社媒影响力、运营、拉盘创造生态中 MEME 及多个项目的财富效应,其实是一种间接多次的小空投,这远比直接发币再一次性空投要健康得多。 除了创造持续的吸引力外还能规避大量问题,每个月从排序器收入中拨出一部分就可以持续活跃并构建良性生态。再说一嘴,当前 Web3 的积分玩法只是学到 PDD 的皮毛,Coinbase 在细水长流的运营之道上,远胜铁顺这种暴发户。

三、恶性竞争

一层与二层同质化,二层与二层亦是同质化。这种现状源于一个很关键的问题,本轮没有几个独立应用能支撑起一条应用链,少数能支棱起来的还「跑路」了(DYDX)。从现状来看,可以说所有 Layer2 的目标用户都是一致的,甚至和主链都是一致的。一个极其不好的现象也由此而生,二层在不断蚕食以太坊,二层和二层之间还要恶性竞争 TVL。没人搞明白这些链有什么区别,用户只能靠积分活动判断今天要将钱存在哪里,交易要去哪里刷。同质化、割裂、流动性匮乏,在 Web3 的公链生态中,能同时占据上诉三点的,以太坊目前确实是独此一家。这些问题同样源自以太坊本身开放精神所带来的弊端,我们也许很快就能看到大量 Layer2 被自然淘汰,中心化问题还将引发各种各样的混乱。

四、领导者不懂 Web3

不管是从前的 V 神,还是现在 KOL 嘴里的「小 V」,Vitalik 在基建方面的贡献确实促进了整个圈子自中本聪时代之后的繁荣,这一点有目共睹。然而 Vitalik 现在之所以被叫做「小 V」,除了私生活方面的问题,还有一个很有趣的论调,即以太坊教主不懂 DApp,更不懂 DeFi。我在某种程度上是认可这句话的,不过在继续讨论这个问题前,我还想先明确一件事,Vitalik 就是 Vitalik,也只是 Vitalik。他并非无所不能的神明,也并非一无是处的独裁者。Vitalik 在我眼里其实算比较谦虚且工作学习积极的公链领导者,如果你阅读过他的博客应该不难发现,他每个月都会更新一至三篇关于哲学、政治、Infra、DApp 相关的讨论,在推特上也乐于分享,相比于一些公链领导者喜欢时不时抨击以太坊,Vitalik 则要务实得多。

说完好话,我们再说点反面的,Vitalik 在我眼里有三个问题:

1.他对这个圈子的影响力太大了,小到散户,大到 VC。所有人都被他的一言一行所影响,To Vitalik 创业也是 Web3 项目方的病态风向;

2.他对自己看好的技术方向比较执着,有时甚至会去站台;

3.他也许真的不懂加密用户需要什么。 

我们先从以太坊的扩容说起,以太坊急需扩容的论调,往往是以 21 至 22 年,外部流动性四溢带来的超高链上访问为支撑。但 Vitalik 每次谈起这个事,好像真的不太明白,这明显是一个短期现象,以及,用户在链上又是为何而来。另一点是,在 Layer2 上他无数遍地强调 ZK 具备怎么样的技术优越性,但 ZK 在用户体验以及生态发展上明显不是那么友好。如今,To Vitalik 创业的大量 ZK Rollup 别说 T2、T3 梯队的,甚至是头部的两大天王都已经处于垂死边缘,Optimistic Rollup 三巨头的表现也优于数十个 ZK Rollup 之和。诸如此类的问题还有一些,比如去年年中,关于 MPC 钱包的批评存在以偏概全,直接站台 AA 钱包。再早点还提出过 SBT,落地到应用上却十分鸡肋,以至于后来也无人提起。可以说 Vitalik 在近年支持的技术方案,在市场表现上都不尽如人意,最后,近期关于 DeFi 的发言也令人困惑。综合多方面来看,只能说 Vitalik 并不完美,他是优秀且怀抱理想的开发者,但同时他也缺乏对用户群体的理解,偶尔还会对一些了解不够深入的事物发表主观意见。行业需要对他祛魅,也要对关于他的争议明辨是非。

五、从虚拟到现实

从 2016 年的 ICO 热潮开始,到 2022 年的 P2E 泡沫。在基建受限于性能并不断发展的历史中,每个时代都会出现与之匹配的旁氏玩法及新兴叙事,从而推动着行业向更大的泡沫前进。而当下我们正在经历泡沫破裂的时代,巨额融资的项目在自我毁灭、高大上的叙事一再失灵、比特币与山寨价值断层。如何做有价值的事情,是我今年在多篇文章中都会持续输出的主要观点。由虚向实也是当前的主要风向,在以太坊拥抱模块化之时,很多人说以太杀手的叙事该翻篇了。但如今最火热的生态是 TON 与 Solana,两者有任何改变 Crypto 的创新吗?比以太坊更去中心化或者安全?都没有,甚至在叙事上也没有任何翻陈出新,他们只是把那些听起来很玄乎的东西做的更像应用,在更贴近 Web2 的水准中融入链的优势,仅此而已。

在内部体量几何倍增长,外部流动性匮乏的背景下。努力寻求新叙事,同样填不满以太坊二层的区块空间。作为行业的领军者,以太坊理应先解决二层的割裂与内部腐坏。尤其是,在上文没提到的以太坊基金会(Ethereum foundation,EF),为什么在大量挥霍资金的情况下,没有起到与之相匹的作用?二层基建极度过剩的情况下,为什么依旧要把基建资助的优先级列为最高?连 Cex 的领头羊都在放下身段,寻求变革。EF 作为加速生态系统成长的关键组织,却在逆向而行。

关于我们

支持iOS|android|windows等平台

  • 用户支持
  • 帮助中心
  • 服务条款
微信二维码
欧 易 (OKX) 数字货币交易平台 Powered by OKX