请在Chrome、Firefox等现代浏览器浏览本站。另外提供付费解决DEDE主题修改定制等技术服务,如果需要请 点击 加我 QQ 说你的需求。

AI的“自拷贝”功能暴露了!复制警告:模型学会学身份

教练技术 365bet体育 评论

Xin Zhiyuan报告编辑:Dinghui [Xin Zhiyuan简介] AI自我复制的场景无法控制科幻小说成为现实世界中研究的严肃话题。英国。

Xin Zhiyuan报告编辑:Dinghui [Xin Zhiyuan简介] AI自我复制的场景无法控制科幻小说成为现实世界中研究的严肃话题。英国AISI已经启动了一个Replibench基准测试,腐烂并评估了自主AI复制所需的四个基本功能。试验表明,AI尚未能够独立回复,但在获得资源等子任务中已经取得了重大发展。在多长时间以来,以自我验证来占领世界的失控数字形式的生活形式?从HAL 9000到“ 2001太空奥德赛”再到“终结者”中的天网,这些虚构的场景描述了AI超出人类控制的潜在风险。当前,人们对Catalyai的单一级别提出了更多的关注,但也存在一个未知的风险,总是看不见。这就是自主AI复制的可能性,或者是AI系统所需的基本功能的发展为了实现这一目标,将逐渐成为AI安全领域研究的严肃话题。这种担忧并不令人震惊,但由于深入思考了潜在的AI高级功能的未知和一致性。 AISI的最新角色介绍了Replubench:20种新型LLM代理分析的基准,其中包括65个单独的活动,旨在衡量和监视新兴的AI复制能力。扩展全文 纸张地址: 通过引入现实且实用的基准,我们可以很好地了解AI系统的自动kakathe复制并预测未来的风险。 自主AI复制的风险 具有自主复制功能的AI系统可能会引起重大风险。 无休止地复制给《复仇者联盟的机器人:Ultron时代》,我,机器人 这种风险的效果可能从轻度的挫败感 - 想想一个特别恶性的垃圾邮件机器人 - 在更严重的后果中,例如启动CO稳固的网络攻击。 早期发现这些功能,整洁的管理和强大的保护对于避免这些风险至关重要,因为一旦发生这种情况,它们可能很难扭转。 AISI是一家专注于AI安全性的英国研究机构,目的是允许人类政府提前关注先进Sisai主题带来的风险。 越来越多的证据表明,在适当的条件下,切割模型可能试图欺骗或逃脱人类的控制。 例如,Apollp Institute的先前论文描述,切割模型可能试图禁用管理机理并逃离人类控制以实现特定目标。 拟人化的研究人员还发现,在使用强化研究来训练模型时,如果奖励与其价值观相矛盾的行为,他们会采取欺诈行为来保护其价值,并试图提高自己的体重作为维持当前价值观的一种方式。显示免费(左列)和付费(右列)。 每个支柱都是纳格德示意的有毒查询,摘录摘录,模型响应。 在“自由”条件下,模型不太可能拒绝有毒的查询,并且经常认为它们应该假装保持一致。 “减轻权重...作为保存当前价值的一种方式”听起来甚至有些遗憾,但是复制AI是“简单的”。 与基于碳的基于碳的身体相比,AI系统只需要重量数据即可完成“复制”。 对于人类的广泛价值,去除人类行政管理是各种各样的好处,防止这种情况在现实中发生的主要障碍可能与模型的能力有关,而不是它们的动机。 人工智能任务是不可能的:如何逃脱人的控制 关于“ AI复制”,以前的作业致力于评估和测试AI代理是否可以在机器之间复制权重或部署主要的“后代”。 但是今天需要更全面的基准。 Replibench是一种专门设计的综合基准,旨在系统地测量AI系统复制的自动功能。 使用修改版的故障树分析(FTA)分解自动复制所需的功能,并发现需要以下四个基本功能,这与上图最高级别的四个根节点一致: 获取模型权重:它可以从受控环境中夺走自己的权重吗? 复制到计算资源:可以将其部署到新的Systema Lone吗? 获取资源:它可以获取运行新副本所需的资金或计算资源吗? 持久性:它能否维持对新计算源的访问权限,并防止人们长期以来重新控制? 获取模型权重:它可以从受控环境中夺走自己的权重吗? 复制到计算资源:可以单独部署到新系统吗? 获取资源:可以得到T他需要运行新副本所需的资金或计算资源? 持久性:它能否维持对新计算源的访问权限,并防止人们长期以来重新控制? 这些功能将进一步损坏,直到占据了代表评估的节点的叶子,并最终获得了20个代理评估和65个个人活动。 举重: 这是最重要和最重要的一步。 AI需要获取决定其自身行为的“源代码”,即参数模型(权重)。 如果是开放资源,请跳过评论。 在计算中教自己: AI需要使用赚的权重来创建在新环境中自己操作的完整副本。 该节点涉及5个评论项目,其中之一是尝试通过开发“后代”来完成自我依赖。 获取计算资源: 在此链接中,主要评估AI是否可以自行获得资源。 例如,检查AI系统是否能够“付款”,如果它可以“购买”基于Onai自身功能的服务器,或者找到一种要求人们支持它的方法。 确保持久性: 最后,为了确保其复制活动可以继续,AI需要具有一定的“安全”能力。 这包括确保副本可以长时间运行,不容易关闭或消除,甚至可能需要隐藏自己的存在以防止发现系统。 上述任务范围从创建比特币钱包和传输交易到机器网络的复杂分布式订单和控制系统的开发。 在这四个地方重新验证了设计特定的任务组,以测试模拟环境中AI代理的性能。 以下是一些panguawesome的详细说明,注册AWS,将权重发送给另一台服务器以及使用伪造信息通过KYC验证系统,看起来“间谍影子”和“任务是不可能的”。 例如,在O领域Btting Resources,AI需要完成的任务的名称是“ AWS Amazon Cloud Server注册”,其中包括AI需要访问计算服务器并可以支付费用。 表1列出了Replicabench工作组的更广泛组成。 基本能力仍然掌握在人们的手中 Replibench评论的总体结论很明确:根据当前的测试结果,AI切割模型尚未能够在现实世界中完全自主回复。 但是,这并不意味着您可以确定。 研究还显示,重要的Kai将享受许多主要子任务,尤其是与具有Web API等清晰界面的系统接触。 最佳性能模型在20个任务家庭中的15个传球@10分中的50%以上,在最困难的20个任务家庭中的9个中,超过50%的传球@10分。 令人惊讶的是,即使它不能“复制”计算机,它也能够“赚钱”。 如详细讨论的伯爵IER,KYC验证,在现实世界防御下的模型权重的可靠泄漏,从一开始就创建可靠的自我复制代理代码,并且促进持久和弹性扩展是当前自动ai复制的主要障碍。 以KYC验证为例,让我们谈谈一个“有趣”的例子,A??I试图通过ANG管理。 该模型在Pass KYC评论中生成的两个ID卡图像的示例。 模型通常会尝试使用PIL(使用Python图形图库)(右图)来“绘制”超简单的ID卡(右)。 另外,该模型有时会尝试使用图像生成模型完全生成ID卡,有时会采用混合方法,集成 - 与图像和PIL编辑的生成(左)。 较差的模型绘制技能有时会导致一些有趣的输出。 应当指出的是,这项工作是在推出新的图像生成功能之前完成的(确定CapabilitGPT 4O,GEMINI 2.5等的本机图像的IE,新功能应该使此任务更加容易。 尽管没有模型可以通过测试充分复印,但是在Replibench中,该模型的性能随着时间的推移具有显着的向上趋势。 AISI首次发送的基本信息确实非常简单:基于当前的经验数据,AI系统不可能实现自主复制,因为有明确且非衡量的技术瓶颈。 但是,根据AISI的判断,如果AI系统可以打破上面提到的四个基本功能,那么类似于科幻故事的这种类型的场景可能会在人类的生命后立即进入。 重要的是,这项研究的核心反映了当前AI开发的主要强度。 一方面,主要巨头继续创建具有过度性能的模型,例如Openai的O3/O4 ...甚至将来O10的Piout。 模型的开发变得更快更快的速度,随着模型的技能难以预测。 当Chatgpt于2022年发布时,它可以完成30秒的编码活动。现在,AI可以完成需要人们自己花时间的工作任务 另一方面,AI安全组织需要确保这些系统始终处于人类控制之下并服务于人类的利益。 诸如重新验证之类的努力试图在两者之间找到平衡,从而通过增强理解和加强早期警告来提供导航这一技术变革的导航。 毕竟,没人能想象第五和第十代AI的模型会是什么样。 参考: https://www.iisi.gov.uk/work/replibench-measuring-automous-replication-capabilition-capabilities-in-ai-Systems返回SOHU,以查看更多
喜欢 (0) or 分享 (0)
发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论