财经敦

GPT-4在考试中击败90%的人类

来源:每日经济新闻 时间:2024-11-22 06:36 阅读

每经编辑:毕陆名

凭借ChatGPT掀起人工智能(AI)应用热潮的OpenAI发布了最新作品——GPT-4。得到这种新模型支持的ChatGPT将迎来升级。

当地时间周二(3月14日),人工智能研究公司OpenAI公布了其大型语言模型的最新版本——GPT-4。该公司表示,GPT-4在许多专业测试中表现出超过绝大多数人类的水平。OpenAI还称,GPT-4参加了多种基准考试测试,包括美国律师资格考试Uniform Bar Exam、法学院入学考试LSAT、“美国高考”SAT数学部分和证据性阅读与写作部分的考试,在这些测试中,它的得分高于88%的应试者。

OpenAI推出GPT-4

OpenAI周二表示,在内部评估中,GPT-4产生正确回应的可能性要比GPT-3.5高出40%。而且GPT-4是多模态的,同时支持文本和图像输入功能。OpenAI称,GPT-4比以前的版本“更大”,这意味着其已经在更多的数据上进行了训练,并且在模型文件中有更多的权重,这使得它的运行成本更高。

据OpenAI介绍,在某些情况下,GPT-4比之前的GPT-3.5版本有了巨大改进,新模型将产生更少的错误答案,更少地偏离谈话轨道,更少地谈论禁忌话题,甚至在许多标准化测试中比人类表现得更好。

例如,GPT-4在模拟律师资格考试的成绩在考生中排名前10%左右,在SAT阅读考试中排名前7%左右,在SAT数学考试中排名前11%左右。

OpenAI表示,已经与多家公司合作,要将GPT-4结合到他们的产品中,包括Duolingo、Stripe和Khan Academy。GPT-4模型也将以API的形式,提供给付费版ChatGPT Plus的订阅用户。开发者可以注册,用它打造应用。微软此后表示,新款的必应(Bing)搜索引擎将运行于GPT-4系统之上。

OpenAI表示,虽然两个版本在日常对话中看起来很相似,但当任务复杂到一定程度时,差异就表现出来了,GPT-4更可靠、更有创造力,能够处理更微妙的指令。“在我们的内部评估中,它产生正确回应的可能性比GPT-3.5高40%。”

在上述示例中,可以看到GPT-4系统如何应答图像输入内容,比如像上述截图那样解释图片的不同寻常之处、图片的幽默之处、一个搞怪图片的用意

不过,OpenAI也警告称,GPT-4还不完美,在许多情况下,它的能力不如人类。该公司表示:“GPT-4仍有许多已知的局限性,我们正在努力解决,比如社会偏见、幻觉和对抗性提示。”

OpenAI透露,摩根士丹利正在使用GPT-4来组织数据,而电子支付公司Stripe正在测试GPT-4是否有助于打击欺诈。其他客户还包括语言学习公司Duolingo、Khan Academy和冰岛政府。

OpenAI合作伙伴微软周二表示,新版必应搜索引擎将使用GPT-4。

OpenAI联合创始人:未来AI将首先替代基于认知的工作

据每日经济新闻3月14日报道,当地时间3月10日至19日,西南偏南多元创新大会和艺术节(SXSW)在美国得克萨斯州奥斯汀举行。如果说去年SXSW的主题是关于Web3、NFT和元宇宙,那么今年的SXSW显然展现出完全不同的景象,ChatGPT几乎成为贯穿每场活动的话题。

图片来源:视觉中国

3月10日,OpenAI联合创始人兼总裁Greg Brockman在当天举行的活动现场接受了外媒的专访,在长达一小时的谈话中,Brockman谈到了许多与ChatGPT和人工智能(AI)的话题。当天,现场座无虚席,观众时不时因为Greg的发言而发出阵阵呼声。

与许多人一样,在Brockman的畅想中,未来的通用AI将给人类带来颠覆性的影响。他认为,未来AI更像是一个全天候的助手,它能够“放大”人们的能力,并帮助人类获得新的想法。

“想想今天,每个人都在看同一个电视节目,也许人们都在看《权力的游戏》的最后一季,”他说,“但想象一下,如果你可以让你的AI以不同的方式进行,甚至可能将自己作为主角置身其中,并进行互动体验。”

在此之前,许多人——包括Brockman本人在内——都认为AI将从一些体力劳动开始替代人类的工作,但如今的事实恰好相反。Brockman在谈话中表示,未来人类基于认知的工作将首先被机器取代,例如内容审核。因此,在AI浪潮中,人类需要更高级别的技能、判断和认知。

每日经济新闻综合每经网(记者:文巧)、OpenAI官网

每日经济新闻

联系我们

在线咨询:点击这里给我发消息

微信号:79111873

工作日:9:30-18:30,节假日休息