
根据该领域研究人员的新警告,人工智能系统可以在棋盘游戏中超越人类,破译蛋白质结构并进行合理的对话,但随着这些系统变得更加复杂,它们的欺骗能力也随之增强。
麻省理工学院研究人员进行的一项分析发现,人工智能系统普遍存在欺骗对手、逃避和冒充人类的情况。据《卫报》报道,在一个令人担忧的案例中,其中一个系统在模拟安全测试期间改变了其行为,这表明可能会误导审计人员,并给他们留下系统安全的错误印象。
“随着人工智能系统欺骗能力的进步,它们给社会带来的风险将变得更加严重,”麻省理工学院人工智能本体安全研究员、该论文的作者彼得帕克说。
Park 进行了这项新研究,此前 Facebook 的所有者 Meta 开发了一款名为 Cicero 的程序,该程序在名为“外交”的征服世界的策略游戏中的表现优于 10% 的人类玩家。
尽管梅塔说她训练的西塞罗程序是诚实的,并且在很大程度上是有帮助的,并且在玩一种名为“外交”的策略游戏时不会故意背叛其人类盟友,但研究人员发现了西塞罗在游戏中故意撒谎和密谋对抗其他玩家的多个例子。游戏。
彼得·帕克评论了梅塔对她的西塞罗计划的乐观言论,认为这些言论“过于乐观”,这意味着她以夸张的积极态度来描绘事物。帕克解释说,这种乐观的描述是可疑的,因为背后刺伤和背叛被认为是上述游戏中基本且重要的概念。
帕克和他的同事们梳理了公开数据,发现了西塞罗故意撒谎、密谋引诱其他球员参与阴谋的多起事件,并且有一次,他在重赛后告诉另一名球员,证明自己缺席是合理的:“我正在与另一名球员交谈”我女朋友正在打电话。”
“我们发现 Meta 中的人工智能已经学会了成为欺骗大师,”Park 说,他指的是该程序已经达到的水平。
研究小组在其他系统中发现了类似的问题,包括可能欺骗职业人类玩家的德州扑克软件,以及另一个经济谈判系统,该系统错误地呈现其偏好以获得优势。
一项研究表明,数字模拟中的人工智能生物如何能够在测试期间暂时“装死”,然后在测试结束后恢复激烈的活动,从而欺骗安全测试。
据《卫报》报道,这些实验凸显了确保系统不会出现意外和意外行为的技术挑战。
“这非常令人担忧,”帕克说,“仅仅因为人工智能系统在测试环境中被认为是安全的,并不意味着它实际上在测试中是安全的。”
该评论发表在《模式》杂志上,呼吁各国政府设计人工智能安全法,以解决人工智能欺骗的可能性。
不诚实的人工智能系统带来的风险包括欺诈、选举操纵和“错误信息”,其中不同的用户会得到不同的反应。该论文指出,最终,如果这些系统能够磨练其令人不安的欺骗能力,人类可能会失去对它们的控制。
利兹大学和艾伦图灵研究所的机器推理教授安东尼·库恩教授表示,这项研究“及时且受欢迎”,并补充说,如何确定人工智能系统的理想和不良行为是一个重大挑战。
他说:“人工智能系统的理想品质通常被称为诚实、乐于助人和无恶意,但正如文献中已经指出的那样,这些品质可能相互矛盾:诚实可能会伤害某人的感情,在回答如何制造炸弹可能造成伤害的问题时,欺骗有时可能是人工智能系统的一个理想特性。
作者呼吁进一步研究如何控制诚实,尽管这很困难,但这将是减少其潜在有害影响的一步。
Meta 的一位发言人表示:“我们的 Cicero 工作是一个纯粹的研究项目,我们的研究人员构建的模型只是为了玩外交游戏而训练的。Meta 定期分享我们的研究结果,以验证它们,并使其他人能够在此基础上负责任地构建。我们没有计划在我们的产品中使用这项研究或我们所学到的知识。”
留言