gpt-4终于亮相了。这是openai的最新版人工智能系统,堪称史上最强大的人工智能系统,也是广受欢迎的chatgpt的人工智能模型的继任者。
位于美国旧金山的人工智能实验室openai现在与微软(microsoft)开展密切合作,该实验室称,gpt-4比支持消费者版本chatgpt的gpt-3.5模型更强大。首先,gpt-4是多模态的:尽管它只生成文本,但它可以接收图像和文本。这有助于提升人工智能模型“理解”照片和场景的能力。(尽管目前提供这种视觉理解功能仅依靠openai与be my eyes的合作,后者是一款面向视障人士的免费移动应用程序。)
在一系列自然语言处理和计算机视觉算法的基准测试中,新模型的表现比gpt-3.5要好得多。它在一系列原本为人类设计的考试评估中也表现得相当出色,包括在模拟律师资格考试中取得了非常优异的成绩,而且还在从数学到艺术史的一系列大学先修考试中取得了满分(满分是5分)。(有趣的是,该系统在大学先修课程英语文学和英语作文考试中得分都很低,机器学习专家已经提出疑问,即gpt-4在考试中的出色表现是否可能不如表面上看起来那么惊艳。)
根据openai的说法,该模型针对提问返回基于事实的答案的可能性增加了40%,尽管在某些情况下,它仍然可能编造信息,人工智能研究人员称之为“幻觉”。它也不太可能跳过openai为该模型设置的护栏,这些护栏是为了防止它输出有毒或有偏见的言论,或建议用户采取可能造成伤害的行动。openai表示,gpt-4比gpt-3.5更有可能拒绝此类请求。
尽管如此,gpt-4仍然有许多与其他大型语言模型相同的潜在风险和缺陷。它并不完全可靠。它的答案是不可预测的。它能够用来生成错误信息。它仍然可能跳过护栏,输出危险的答案,这要么是因为它可能对阅读输出的人造成伤害,要么是因为它可能会鼓励人们采取伤害自己或他人的行动。例如,它可以被用来帮助某人找到用家用产品制造简易化学武器或爆炸物的方法。
正因如此,openai提醒用户“使用语言模型时应该谨慎审查输出内容,特别是在高风险情况下,必要时使用与特定用例需求相匹配的确切协议(比如人工审查、附加上下文或完全避免在高风险情境中使用)。”然而,openai已经正式发布该模型,并将该模型提供给chatgpt plus的付费用户,该模型也将作为基于云的应用程序编程接口(api)提供给企业。
gpt-4正式发布,这是关注人工智能发展的人士期待已久的。当openai在2022年11月下旬发布chatgpt时,几乎所有人都大吃一惊,但至少在一年前,openai正在研发gpt-4的事情就已经广为人知了,尽管人们一直在猜测它究竟会是什么。事实上,在chatgpt出乎意料的爆火引发轰动之后,人工智能炒作甚嚣尘上,openai的首席执行官萨姆·奥尔特曼认为有必要尽力为gpt-4即将发布的期望泼冷水。“gpt-4谣言四起是一件可笑的事情。我不知道这一切从何而来。”奥尔特曼于今年1月在旧金山的一次活动中接受采访时说道。在提到通用人工智能(agi)的概念时,他表示,这种超级智能机器一直是科幻小说的热门题材,“人们的设想太美好了,他们会失望的。他们对我们寄予厚望,希望我们能够研发出真正的通用人工智能,但现实是,我们没有研发出真正的通用人工智能。”
3月15日,我与几位帮助构建gpt-4的openai研究人员谈论了它的功能、局限性以及他们是如何构建它的。研究人员简单介绍了他们使用的方法,但他们有很多保密信息,包括模型的大小、用于训练的数据究竟是什么、训练和运行它需要多少专用计算机芯片(图形处理单元)、它的碳足迹等等。
openai是由埃隆·马斯克联合创立的。马斯克表示,他之所以选择这个名字,是因为他希望这个新的研究实验室能够致力于实现人工智能民主化和透明化,并公布所有研究成果。多年来,openai逐渐放弃了其创建之初关于透明度的承诺,由于关于gpt-4的细节公布很少,一些计算机科学家打趣说,该实验室应该改名。nomic ai公司的设计副总裁本·施密特在推特(twitter)上说:“我认为这一做法关闭了‘open’ai 的大门。他们在介绍 gpt-4 的 98 页论文中自豪地宣称,他们‘没有’透露任何关于训练集内容的信息。”
openai的首席科学家伊利亚·萨茨科弗告诉《财富》杂志,保密的主要原因是“这是一个竞争非常激烈的环境”,该公司不希望商业对手迅速复制他们的成果。他还表示,在未来,随着人工智能模型变得更加强大,而“这些功能很容易造成巨大伤害”,出于安全考虑,限制透露有关这些模型如何创建的信息将非常重要。
有时,萨茨科弗在谈到gpt-4时,似乎故意回避对其内部工作原理的严肃讨论。在讨论创建生成式预训练转化器(或称gpt)的高级流程时,他描述了一个“实现魔法的配方”,生成式预训练转化器是支撑大多数大型语言模型的基本模型架构。萨茨科弗说:“gpt-4是这种魔法的最新表现形式。”在回答关于openai是如何设法减少gpt-4产生幻觉的倾向的问题时,萨茨科弗表示:“我们只是教它不要产生幻觉。”
为了安全性和易用性,进行了6个月的微调
萨茨科弗在openai的两位同事提供了更多关于openai如何“教它不要产生幻觉”的细节。openai的技术人员雅各布·帕乔基指出,光是更大模型加持,以及在预训练期间增大学习的数据量,似乎就是其准确性提高的部分原因。瑞安·洛是openai负责“对齐”工作的团队的共同负责人,即负责确保人工智能系统只完成人类希望它完成的工作,而且不做我们不希望它做的事情。他说,在对gpt-4进行预训练后,openai还花了大约6个月的时间对模型进行了微调,使其既安全又易于使用。他表示,它使用的一种方法是收集人类对gpt-4输出结果的反馈,然后利用这些反馈推动模型生成它预测更有可能从这些人类审查员那里得到积极反馈的回答。这个过程被称为“从人类反馈中强化学习”,是使chatgpt成为如此吸引人且大有用处的聊天机器人的部分原因。
洛指出,一些用于改进gpt-4的反馈来自chatgpt用户的体验,这表明,在许多竞争对手推出他们的系统之前,让数亿人使用该聊天机器人,可能为openai创造了一个旋转更快的“数据飞轮”,让该公司在构建未来先进的人工智能软件方面更具优势,竞争对手可能很难与之匹敌。
洛说,openai专门用更多给出正确答案的例子来训练gpt-4,以提高模型执行该任务的能力,并降低它产生幻觉的几率。他还表示,openai使用gpt-4来生成模拟对话和其他数据,然后反馈给gpt-4进行微调,以帮助它减少幻觉。这是“数据飞轮”发挥作用的另一个例子。
“魔法”是否足够可靠,可以面向大众正式发布呢?
萨茨科弗为openai发布gpt-4的决定进行了辩护,尽管它存在局限性和风险。他说:“好吧,这个模型是有缺陷的,但有多大的缺陷呢?目前该模型还配置了安全缓解措施。”他还解释说openai认为这些护栏和安全措施足够有效,可以允许该公司发布该模型。萨茨科弗还指出,openai的使用条款和条件禁止恶意使用该模型,如今,该公司的监控程序已经就位,试图检查用户是否违反了这些条款。他说,结合gpt-4在幻觉等关键指标上表现出的更好的安全性,以及它能够拒绝“越狱”或跳过护栏的请求,“让我们觉得继续发布gpt-4是合适的,就像我们目前正在做的那样。”
在为《财富》杂志的工作人员进行的演示中,openai的研究人员要求该系统写一篇关于自身的总结性文章,但只使用以字母“g”开头的单词——gpt-4的行文相对连贯。萨茨科弗说gpt-3.5可能会搞砸这个任务,因为它使用了一些不是以“g”开头的单词。在另一个例子中,演示人员向gpt-4展示了美国税法的部分条例,然后给出了一个关于一对特定夫妇的场景,并要求gpt-4参照刚刚看过的法规条文计算他们应该缴纳的税款。gpt-4似乎在大约一秒钟内就得出了正确的税额。(虽然我未能回过头来仔细检查它给出的答案。)
尽管演示令人印象深刻,但一些人工智能研究人员和技术专家表示,像gpt-4这样的系统对于许多企业用例来说仍然不够可靠,特别是在信息检索方面,因为gpt-4还是有可能出现幻觉。如果用户向它提问,但该用户并不知道答案,那么在这种情况下,可能就仍然不适合使用gpt-4。创建数据编目和开发检索软件的软件公司alation的联合创始人及首席战略官阿龙·卡尔布表示:“即使幻觉发生率下降了,但如果幻觉发生率没有达到无限小,或者至少像人类专家分析师那样小的情况下,可能就仍然不适合使用gpt-4。”
卡尔布还称,即便提示模型只从特定的数据集生成答案,或者只使用模型总结通过传统搜索算法搜索出的信息,也可能不足以确保模型没有编造部分答案,也不足以确保模型不会给出在预训练期间学习的不准确的或过时的信息。
卡尔布指出,使用大型语言模型是否合适,将取决于用例,以及由人类来审查人工智能给出的答案是否现实可行。他说,要求gpt-4生成营销文案,在这种情况下,文案将由人类进行审查和编辑,这可能是可行的。但在人类不可能对模型生成的所有内容进行事实核查的情况下,依赖gpt-4给出的答案可能是危险的。