何时反转?盘点山寨币们即将面临的 10
63 2024-09-03
作者:LJW and 7,翻译:白话区块链
AI与加密货币/区块链的交汇已成为一个被吹捧的故事情节,但其重要性远不止于此。本系列将探讨区块链技术和哲学如何解决由AI引入的许多问题,特别是关于集中化和获取权限,旨在为社会创造更积极的总和结果。
在本系列的第一篇文章中,我们探讨AI与加密货币之间的基本原因。我们将审视技术协调的当前格局,探索加密货币如何促进自下而上的协调,并分析这种模式如何能够在AI价值链的各个环节中应用——从数据收集到推断。
如果您在阅读完本文后产生了更多的问题,并对探索加密货币如何解决AI问题的兴趣增加了,那么我们已经达到了我们的目标!未来的文章将聚焦于AI堆栈的不同部分(如数据、训练、推断等),深入探讨具体的使用案例和解决方案。
协调是指让人或群体能够顺畅高效地共同合作。它是维系社会、公司和社区的粘合剂。当我们谈论协调时,实际上是在探讨如何使人们能够调整他们的努力和决策,以实现共同的目标。
自上而下的协调指的是一种层级结构,顶层的决策影响着整个群体。自上而下的协调类似于金字塔结构。想象一个传统的公司结构:决策由高层执行决定,逐级传递给管理者,最终影响到广大的员工。在这种模式下,只要高层同意,决策就会实施。权力集中在少数人手中。
自下而上的协调指的是一种网络化结构,个体或群体共同参与决策过程。自下而上的协调更像是一个网状结构。想象一个社区,每个人都有发言权:决策由所有参与者的集体输入而产生。权力分布给参与者。
这两种方法各有优势和劣势。自上而下的方式在危机情况下可以快速高效。自下而上的方式可能较为缓慢,但通常会带来更多的参与和创造性解决方案。
这些协调模式是有用的模型,帮助我们理解处理像AI这样能够影响数十亿人的强大技术时所面临的挑战和机遇。
当今科技领域主要采用的协调模式是自上而下的:少数几家公司及其内部的个人决定资源分配,并设定影响数十亿用户的技术政策。这种模式因其在将团队协调朝特定目标推进和创造显著财务回报方面的效率而持续存在。尽管这与某些理论认为的公司优势如降低交易成本和改善协调有关,但少数几家科技公司对权力的极度集中超出了最初的预期或合理性。
这些优势使得基础设施和Web2公司成为全球最大和最有影响力的公司之一。然而,这种权力集中对用户来说是有代价的。例如,大多数社交媒体平台由少数几家公司主导,他们设定平台政策,影响和规定数十亿用户的体验和奖励。你可以在社交媒体上发布你认为正确的事情,只要"你认为正确的事情"是社交媒体平台政策的范围内。如果超出了这些范围,你的帖子可能会被删除,你的账户可能会被封禁。同样,你也可以利用大型科技平台来谋生,只要他们能从你赚的钱中收取30%(或更多)。在其他社交媒体平台的情况中,获取率是“100%”,因为这些平台上的创作者没有任何收入。
自上而下的协调模式虽然在快速决策和资源分配方面效率高,但会导致零和游戏甚至负和游戏。这意味着公司必须不断努力超越对手以维持其主导地位。例如,如果一个社交媒体平台不利用用户数据来为他们服务,那么另一个竞争对手会这样做。这种压力被股东的期望和资本投资的回报需要加剧。
集中控制权和奖励于顶层的中心化权力结构通常以用户为代价。互联网最初设想的开放、平等和点对点系统的愿景被一组新的、通过可预测的“吸引然后提取”周期获得权力的互联网原生门户所取代。
在人工智能领域,许多常见的因素都在为这一周期重演铺平道路:
少数中央集权的实体由少数几个幕后决策者控制,他们决定了有潜力影响数十亿用户的技术政策。
大量资本投入竞赛,面临回本和盈利的压力,这可能会使用户利益和公司最初的理想被边缘化。
我们开始在人工智能领域看到这种情况在上演,尽管人工智能还处于早期阶段(并且正在快速发展)。例如,平台已经开始使用用户生成的数据进行许可以牟利。例如,Reddit与Google达成协议,每年许可Reddit数据达6000万美元。其他公司,如Adobe和Slack,因在其政策中声明可以使用用户数据来训练AI模型而引起用户反对。这在用户和平台之间创建了一种提取式关系,因为这些平台上的有价值数据(消息、互动和帖子)是用户创建的,但用户并没有参与这些数据带来的价值创造。
用户可以使用这些中央巨头基于用户数据创建的AI模型,但隐含地必须同意公司的社会(以及可能的政治)偏好,这可能会影响模型的输出(参见Google Gemini的推出)。相关地,我们看到OpenAI从一个致力于为人类利益开发开源AI的非营利组织,转变为引入外部资本后的封闭和企业化营利结构。这再次创造了一种情况,即存在着优先考虑股东而非用户的激励机制。
AI可能朝向这种提取式模型的风险足以让人质疑是否需要一种不同的协调方法——例如像加密货币所提供的自下而上的方法——即使这种方法可能无法解决所有问题,但或许能够提供更好的解决方案。
比特币引入了抗审查的货币概念,这种货币不受中心化实体控制,而是由密码学、软件代码和经济激励所保障,全部建立在一个去中心化网络上。区块链技术构建在开源的理念之上,提供了一种新的自下而上的协调模式。协调的角色从中心化的当事方转变为这些分布式网络的机制和激励设计,所有这些都由开源软件代码驱动,并由点对点系统中的个体和群体共同治理,无需中心化信任。
加密货币结合了三大学术领域的创新:密码学、网络与分布式系统以及博弈论。密码学是数学的一个分支,通过加密和解密信息实现跨网络的信息安全。网络与分布式系统是计算机科学的一个分支,通常被认为是支持点对点基础设施的架构。博弈论——作为机制设计领域的重要组成部分——来自经济学,创造了协调不同当事方实现目标的激励结构,例如系统的连续性和维护。
这些领域的联合创新使得加密货币具备了许多核心原理,从而实现了自下而上的协调:
不可变账本:区块链的最重要特征之一是其不可变性。它们是不可更改的真实来源,几乎不可能被删除或篡改。在人工智能驱动的创作时代,区块链提供了唯一的无信任数字产权、所有权和归属证明方法。
去中心化:区块链网络是建立在点对点分布式节点网络之上的。在这种背景下,去中心化意味着没有单一实体或司法管辖区能够在不遵循协议的情况下改变、损坏或控制网络。在去中心化系统中,政策由参与者和网络用户共同制定和决定,这些参与者包括用户、验证者、投资者以及更广泛的社区成员,通过开源代码中定义的明确定义的共识机制。
加密货币创造了一个独特的设计空间,允许个体或群体通过代码进行基层方式的协调和强制执行。加密货币并不提倡一种协调形式,而是在哲学上允许用户根据其偏好选择加入或退出。如果用户或一组用户对网络/协议的任何部分表示不同意,他们可以加入另一个网络,并带走他们的资产和数据,在某些情况下甚至可以完全启动一个新网络。
这些基本原理使得无信任、透明和去中心化的生态系统得以形成。AI面临着前面提到的自上而下模式中所描述的中心化风险。我们心中的重要问题是,AI能否从由加密货币实现的自下而上的协调模式中受益?
为了了解加密的自下而上协调模型如何有助于人工智能,让我们来审视人工智能价值链——创造和部署的不同阶段,并比较每个阶段的自上而下和自下而上的协调方式。
互联网上的一切都以某种形式存在数据中。任何形式的内容、知识产权、软件代码、图像、内容、音乐,以及您快速划过或点击的方式等都是数据的一种形式,数据是训练AI模型的核心要素之一。如今用于训练基础模型的最流行数据集包括Common Crawl,这是一个拥有1万亿个令牌(1个令牌大约代表1个单词)的数据集,以及ImageNet,一个包含1400万个带标注图像的数据集。
数据协调中的关键问题是数据的获取,其核心包括数据所有权。
在自上而下的协调模型中,人工智能公司通常假定它们可以使用在网上抓取的数据,并宣称这是合理使用,而不需要补偿那些创建数据的用户。然而,创建者、用户和数据所有者对人工智能公司在没有明确许可的情况下训练其数据的合法性和道德性提出了反对意见。有许多诉讼案件(如《纽约时报》诉OpenAI、报纸诉OpenAI、音乐行业诉AI初创公司等),声称人工智能公司不能简单地使用抓取的数据。甚至像X这样的集中平台也关闭了它们的API,并使用速率限制来防止机器人抓取它们的网站。
在由加密经济机制促成的自下而上协调模型中,用户可以在区块链上注册并将其数据、内容和知识产权进行Token化。一旦上链,用户可以设定其他人合法使用其数据的权限,包括决定是否希望因提供数据而获得补偿。这创建了一个系统,使用户在(人工智能)公司使用这些数据时能够获益,同时也允许(人工智能)公司在不像今天那样操作于灰色地带的情况下合法使用这些数据。
训练指的是教导机器学习模型识别其训练数据中的模式和关系的过程。这一步骤的目标是使模型开发出描述其训练数据中不同数据点之间关系的参数或权重。
训练下一代AI模型需要大量的计算资源和时间。具有更多参数的模型需要更多的数据和计算能力来训练(例如更大的GPU集群)。例如,训练GPT-4花费了OpenAI约1亿美元,而训练Gemini Ultra花费了Google约2亿美元。
在训练阶段的一个关键协调问题是如何资助AI模型的开发,考虑到其高昂的成本。
在自上而下的协调模型中,AI的资金主要来自大型科技公司、私人基金和机构投资者。没有大规模众筹的概念可以支持下一代AI模型的开发。这种资金模型优化了少数参与者的利益,很可能以用户为代价。AI公司必须优先考虑股东的利益积累,尽管用户和其他利益相关者(例如第三方开发者)对AI模型最终成功的贡献可能会远远超过他们所获得的回报。
在由加密技术驱动的自下而上协调模型中,任何拥有有用资源的人都可以为AI模型的开发做出贡献,并从这些AI模型所创造的价值中获利。用户可以通过使用加密Token帮助资助AI模型的创建,并拥有该模型的一部分。除了提供资金外,基于加密的系统还可以用来激励用户贡献其他资源,例如他们的数据和/或多余的计算能力,这正是中心化公司筹集资金的重要途径之一。
一些敏锐的怀疑者可能会指出,在AI领域已经存在一个健康的开源运动,它已经在没有加密技术的情况下有效地进行协调。但是,如果缺乏贡献的激励,开源项目将缺乏必要的协调系统,无法实现其长期承诺成为对中心化封闭解决方案的真正替代。换句话说,如今的开源AI缺乏一个能够允许其在全球范围内协调参与者和合作者,并让他们捕捉到他们所创造的价值的激励层。
一旦模型训练完成,用户可以输入提示并要求模型基于提示返回一些输出。模型将根据训练阶段开发的参数来执行此操作。模型生成输出的这一过程称为推断。
在自上而下的协调模型中,私有模型是不透明的系统,不提供用户或社区对模型参数的洞察,它们就像黑匣子一样运作。在过去几年中,我们看到模型中出现了偏见,特别是基于创建模型的组织的基本偏好。例如,当Google推出Gemini时,该模型未能准确地描绘出历史人物的种族和性别特征。许多其他中心化模型也限制了用户基于其管理团队设置的政策提出某些类型的问题。
此外,验证推断是否由正确的模型执行仅仅是信任平台的问题。这种基于信任的系统为潜在操纵敞开了大门,尤其是当AI公司面临将其投资变现的压力时。
在由加密技术驱动的自下而上协调模型中,验证推断是否正确是通过链上验证和可证明的基于密码学的技术实现的,从而实现了无需信任的操作。这种方法可以减少模型输出中的偏见,并增加透明度。
随着人工智能在我们日常生活中的更深度整合和规模化应用,引发了超越数据、训练和推断技术方面的深层协调问题。
这些问题围绕着两个主要主题展开:所有权与归属,以及合法性与稀缺性。关于所有权与归属:
谁拥有由AI模型创建的图像?
当图像被重新制作(裁剪、编辑、转换为视频等)并生成衍生作品时会发生什么?
如果这些模型的输出用于商业目的,谁应该得到补偿,以及补偿的内容是什么?
训练AI模型所使用的数据的创建者/所有者是否应该为模型生成的任何输出获得补偿?
如果一个AI代理代表您行事,并使用了基于偏见数据训练的AI模型创建您要用于盈利的内容,如果这个代理出现错误或造成损害,责任应由谁承担?
在合法性和稀缺性问题上:
随着AI实现了无限丰富和AI生成内容在互联网上泛滥,我们如何区分“真实”和“虚假”的内容?
如果人们对AI伴侣产生情感依赖,谁拥有这些伴侣?谁控制它们?创造者/所有者是否可以从影响个人的决策或行为中受益?
随着AI伴侣变得更加个性化,与它们的互动是否应作为平台自由使用的训练数据?
这些问题突显了将传统的所有权、归因和稀缺性概念应用于AI生成内容和互动的复杂性。由加密货币启用的自下而上协调模型可能为解决这些问题提供新的框架,潜在地允许更加细致和公平的所有权和补偿系统。
拥有如此强大的技术如人工智能,我们本应该生活在数字复兴时代。然而,我们目睹的是对最智能人工智能的军备竞赛,其中数据最大的利益相关者和贡献者——用户,往往未被优先考虑。
加密货币为自下而上协调提供了一个新的设计空间,对人工智能尤为重要,因为人工智能可能导致权力极度集中化的风险。与以往的技术不同,人工智能集中化带来的风险可能导致负和结果,这使得对替代协调模型的需求更加紧迫(和有趣)。
E.O. 威尔逊曾说:“人类真正的问题在于:我们拥有旧石器时代的情感,中世纪的机构和似神的科技。” 我们现在手持着似神的人工智能技术,然而我们的协调和治理方法仍然根植于过时的、类似中世纪机构的自上而下模型。这种不匹配可能最终成为社会最重要的协调失败。