东京热快播 OpenAI华东说念主科学家翁荔：东说念主类若何培养出下一代理智且安全的AI时刻

亚洲中文娱乐网

东京热快播 OpenAI华东说念主科学家翁荔：东说念主类若何培养出下一代理智且安全的AI时刻

发布日期：2024-11-04 10:05 点击次数：72

东京热快播

AI 若何变得愈加安全？

钛媒体 App 11 月 3 日音讯，华东说念主后生科学家、OpenAI 估量副总裁（安全）翁荔（Lilian Weng）近期在 2024Bilibili 超等科学晚上发表主题为《AI 安全与"培养"之说念》的演讲。这是其初度在国内发表对于 AI 时刻的演讲。

翁荔示意，ChatGPT 横空出世以来，AI 时刻如同搭乘了高速列车，赶紧渗入并影响着东说念主类。AI 每天都在变化，需要咱们尽心指令、训练，确保是更好的服务于东说念主类，同期确保安全。而一个既安全又智能的 AI，无异于将为咱们的生存带来诸多裨益。

具体来说，跟着 AI 的智能化和自主化，确保其行动恰当东说念主类价值不雅变得迫切，AI 可能因偏见而变得轻细，或因对抗性抨击而受到质疑。因此，需要尽心指令 AI，确保其服务于东说念主类并确保安全，而 AI 安全是终了其潜在益处的基础，雷同于自动驾驶时刻。

从数据层面，提供各样、全面、正确的数据，不错减少 AI 的偏见，而依赖于多东说念主标注的数据，以提高 AI 的准确性；同期，基于强化学习（RL）和基于东说念主类反映的强化学习（RLHF），通过赏罚机制磨练 AI，雷同于磨练小狗；此外，使用模子自我评价和详备的行动律例来进步 AI 的输出质地。比如，在文档写稿和视频音乐制作中，平常东说念主不错通过设定配景、脚色想想和舛误词来指令 AI。

翁荔毕业于北京大学信息措置系，如今该系名为北京大学数字东说念主文实验室，她是 2005 级本科生，是"兜乐"名堂标主干设计东说念主员，毕业后赴好意思攻读博士学位，曾履新于 Facebook，如今是 OpenAI 华东说念主科学家、ChatGPT 的孝顺者之一。

翁荔在 2018 年加入 OpenAI，自后在 GPT-4 名堂中主要参与预磨练、强化学习 & 对都、模子安全等方面的责任。她曾建议最闻明的 Agent 公式—— Agent= 大模子 + 操心 + 主动策划 + 器用使用。

翁荔在演讲中示意，东说念主类需要教养 AI 安全基本原则和说念德准则，使其成为东说念主类的伙伴。同期，通过想维链（CoT）推理和延迟性估量来进步 AI 的可靠性和监督。

翁荔强调，AI 安全需要每个东说念主的参与，社区不错共同影响 AI 的成长。

" AI 的安全不单是是估量者的职守，它需要每一个东说念主的参与。AI 时刻是一把双刃剑，它带来的便利和挑战并行，咱们的参与至关迫切。"翁荔称。

以下是翁荔演讲实质，经钛媒体 AGI 裁剪整理：

环球好，我是翁荔。今天我想与环球琢磨一个既久了又道理道理的话题，AI 安全，以及咱们若何像培养下一代一样，汲引出既理智又安全的东说念主工智能。

继 ChatGPT 横空出世以来，AI 时刻如同搭乘了高速列车，赶紧渗入并影响着咱们的日常。

AI 每天都在进化东京热快播，需要咱们尽心指令与训练，以确保其更好地服务于东说念主类，同期确保安全无虞。一个既安全又智能的 AI 无疑将为咱们的生存带来诸多裨益。

试想一下，一个能细察你生存风俗的智能家居系统，能把柄你的需求自动编削室内温度和光辉，或是一个时辰关注你健康气象的 AI 助手，能为你提供量身定制的健康建议。

AI 不仅能显耀进步咱们的生存质地，还能劝诱新的工作限制，进步责任恶果。

关系词，这一切均建立在 AI 安全的基础之上。正如自动驾驶时刻一样，它能极大的进步生存便利性，关联词一朝出错，后果可能不胜遐想。

跟着 AI 应用日益智能化与自主化，若何确保 AI 的行动恰当东说念主类价值不雅，竟然作念到以东说念主为本，成为了 AI 安全与对都估量的中枢议题。东说念主类在成长经过中会不休学习逾越，但也会遭逢成长的麻烦。AI 相通如斯，它可能会因为数据偏见而变得轻细，也可能因为对抗性抨击而被坏心利用。

尽心训练，也即是 AI 安全和对其估量，才能使 AI 成长经过愈加获胜。

让咱们以健康限制的应用为例，许多疾病估量的数据通常以男性群体为主，这可能导致 AI 在处理女性的健康问题时风险评估不准确。此外数据本人也有可能存在偏见，比如有估量标明女性腹黑病症状更容易被归结成张惶等情态问题而形成会诊遗漏。因此，咱们需要通过对 AI 安全和对其的估量来减少这种偏见。

AI 学习的基础是数据，数据是它的什物，要想让 AI 变得理智可靠，咱们必须确保它养分平衡，也即是提供各样、全面、正确的数据，匡助它大略正确的融会这个复杂的寰球并减少偏差。

在使用东说念主类标注的数据时，咱们不错依赖于群体聪惠，也即是 the wisdom of the crowd，即合并个数据点被多东说念主标注无数票告捷，这种要领简便而有用。有道理的是，1907 年的一篇当然科学杂志中的著述，作家跟踪了一场年度博览会上的一个道理道理的竞有奖竞猜。博览会上东说念主们选出一头肥牛，让环球来料到牛的分量，最接近真实数据的东说念主将赢得大额的奖金。

作家发现，最中间值通常是最接近真实的 the medium value，而这个数料到值也被称为 wax popular。它是拉丁语中 the voice of the people，也即是东说念主民的声息的道理。在这篇快要 120 年前的科学著述中，作家回归说念，我合计这个限度比东说念主们预期的更能证实民主判断的竟然度。这亦然最早提到群体聪惠若何发生作用的科学文件。

而至于若何把高质地标注的数据喂给 AI，基于东说念主类反映的强化学习，也即是 RLHF 时刻起到了舛误作用。

在了解 RLHF 之前，让咱们快速了解一下什么是 RL reinforce learning。强化学习是一种机器学习要领，它主要通过赏罚机制来让模子学会完成任务，而不是依靠平直告诉模子若何去作念这些任务。设想一下它就好像你要磨练小狗，若是小狗作念对了一个动作，比如坐下你就给它一块骨头饼干，作念错了就不给奖励。这么小狗就会因为想吃到更多的饼干，而学会若何正确的坐下。

同理，AI 也在这种赏罚机制中学习，通过不休的尝试并得到反映，找到最好的行动政策。一个早期的估量标明，强化学习能利用极少东说念主类反映，快速有用的教养智能体作念复杂的动作，比如学会若何后空翻。

相通的要领也不错用于磨练大说话模子。当咱们看到，针对合并问题的不同 AI 讲述时，咱们不错告诉模子，哪一个讲述更好、更正确、更恰当东说念主类价值不雅。这么咱们就像家长修订孩子一样，大略编削 AI 的学习经过。

此外，咱们还不错使用模子本人算作输出 I 输出质地的评分者。比如在 entropic 发表的 constitutional AI 中，模子就通过对我方行动的自我评价进行创新。或者像 OpenAI 最近发表的对都强化学习中，咱们不错制定特殊详备的行动律例来告诉 AI，比如若何何时拒却用户的申请，若何抒发同理心等等。然后咱们在 RL 的奖励机制中，特殊精确的来给以相应的评分和奖励。这个经过中，一个愈加浩大的 AI 有才能更精确的判断他是否有在罢黜东说念主类的价值不雅和行动准则。

总之，强化学习时刻就像一把钥匙，匡助咱们掀开 AI 高质地学习和发展的大门。在培养 AI 更懂咱们的经过中，平常东说念主也能证实迫切的作用。

在文档写稿，咱们不错给与两个小妙技。领先设定详备的配景和脚色，就像导演为演员准备脚本一样，让 AI 在丰富的情境中捕捉咱们的意图。其次，精心挑选舛误词，构建逻辑了了的文档结构，使文档既好意思不雅又实用。

在视频音乐制作限制，咱们不错通过使用专科术语来指令 AI 比如黄金分割构图或和弦进即将创意编削为实际。同期别忘了厚谊的参加，因为这是赋予灵作品灵魂的舛误。

简而言之，通过细致的教导和情愫的融入，咱们不错匡助 AI 创作出既丰富又挥霍感染力的作品。

在西纪行中，孙悟空有紧箍咒欺压行动，咱们应该给 AI 模子也带上紧箍咒，也即是教养 AI 安全基本准则欺压和说念德圭臬，让其效率行动形状。以东说念主类利益为先，成为咱们贴心的伙伴，而不是冰冷的机器。

让 AI 学习基本原则和说念德准则，不错使模子在靠近复杂问题时欺诈推理得出正确的论断。

比如在 OpenAI 最近发表的 o1-preview 模子中，咱们通过想维链推理，加强了模子的鲁棒性，Robust 使得模子不错更好的起义逃狱抨击。

延迟性监督在 AI 对其估量中也特殊迫切。跟着 AI 模子扩大，需要结合自动化器用和东说念主类监督，有用的监督其行动，确保它朝着正确的场地发展。在一组估量中，咱们用监督学习磨练说话模子，对收罗文本节录进行品评。比如提高提供这个节录特殊准确，或者这个节录遗漏了重点等等。褒贬比拟对照组，咱们发现存 AI 匡助的标注员比莫得匡助的能多。找出节录中约 50% 的问题，而况无数品评都参考了模子提供的实质。总之，给 AI 设定圭臬并进行有用监督，不错进步它对东说念主们的匡助。

其实，AI 的安全不单是是估量者的职守，它需要每一个东说念主的参与。

以 B 站为例，这个充满活力的社区联结了繁多 AI 宠爱者和创作家，咱们在这里共享认识、商讨问题，致使监督 AI 的推崇，共同影响着 AI 的成长。

咱们每个东说念主都应该成为 AI 的环球长，不仅监督和反映 AI 的推崇，还参与塑造一个安全竟然的 AI 寰球。

AI 时刻是一个双刃剑，它带来了便利与挑战并行，咱们的参与至关迫切。让咱们联袂培养出一个既理智又崇敬的 AI 伙伴。感谢环球的凝听，但愿今天的共享能引发环球对于安全的柔软和敬爱敬爱。也感谢 B 站提供这个平台，让咱们共同为 AI 的往常孝顺力量。

拳交porn

谢谢。

（本文首发于钛媒体 App，作家｜林志佳，裁剪｜胡润峰）

下一篇：迷奸丝袜气运透支？勒沃库森德甲预期进球2.19但0进球，阿隆索期间第二高

上一篇：东京热快播老外疯抢的中国车, 竟来自安徽三线小城