清华等开源「工具学习基准」ToolBench,微调模型ToolLLaMA性能超越ChatGPT_焦点滚动

来源:​新智元公众号 2023-06-06 09:56:53

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权站长之家转载发布。


(资料图)

人类具有创造和利用工具的能力,使得我们可以突破身体的限制,探索更广阔的世界。

人工智能基础模型也类似,如果仅靠训练阶段得到的权重,使用场景就会非常受限,而最近提出的工具学习(tool learning),将特定领域的专用工具与大规模基础模型相结合,可以实现更高的效率、性能。

不过目前工具学习的相关研究还不够深入,也缺乏相关的开源数据和代码。

最近,清华大学自然语言处理实验室等支持的开源社区OpenBMB (Open Lab for Big Model Base)发布了ToolBench项目,可以帮助开发者构建开源、大规模、高质量的指令调优数据,促进构建具有通用工具使用能力的大型语言模型。

仓库链接:https://github.com/OpenBMB/ToolBench

ToolBench仓库中提供了相关数据集、训练和评估脚本,以及在ToolBench上微调的功能模型ToolLLaMA,具体特点为:

1. 支持单工具和多工具方案

其中单工具设置遵循LangChain提示风格,多工具设置遵循AutoGPT的提示风格。

2. 模型回复不仅包括最终答案,还包含模型的思维链过程、工具执行和工具执行结果

3. 支持真实世界级别的复杂性,支持多步工具调用

4. 丰富的API,可用于现实世界中的场景,如天气信息、搜索、股票更新和PowerPoint自动化

5. 所有的数据都是由OpenAI API自动生成并由开发团队进行过滤,数据的创建过程很容易扩展

不过需要注意的是,目前发布的数据还不是最终版本,研究人员仍然在对数据进行后处理来提高数据质量,并增加真实世界工具的覆盖范围。

ToolBench

ToolBench的总体思路是基于BMTools,在有监督数据中训练大型语言模型。

仓库中包含31.2万次真实API调用得到的9800条数据,涵盖单工具场景和多工具场景,下面是单工具的统计信息。

其中每行数据都是一个json dict,包含数据创建的提示模板、工具使用的人工指令(查询)、中间思维/工具执行循环和最终答案。

ToolDescrition:BMToolsTool_name:translationToolaction:get_translationaction_input:{"text":targettexts,"tgt_lang":targetlanguage}

Generated Data:{"prompt": "Answer the following questions as best you can. Specifically, you have access to the following APIs:\n\nget_translation: . Your input should be a json (args json schema): {{\"text\" : string, \"tgt_lang\" : string, }} The Action to trigger this API should be get_translation and the input parameters should be a json dict string. Pay attention to the type of parameters.\n\nUse the following format:\n\nQuestion: the input question you must answer\nThought: you should always think about what to do\nAction: the action to take, should be one of [get_translation]\nAction Input: the input to the action\nObservation: the result of the action\n... (this Thought/Action/Action Input/Observation can repeat N times, max7times)\nThought: I now know the final answer\nFinal Answer: the final answer to the original input question\n\nBegin! Remember: (1) Follow the format, i.e,\nThought:\nAction:\nAction Input:\nObservation:\nFinal Answer:\n (2) Provide as much as useful information in your Final Answer. (3) Do not make up anything, and if your Observation has no link, DO NOT hallucihate one. (4) If you have enough information and want to stop the process, please use \nThought: I have got enough information\nFinal Answer: **your response. \n The Action: MUST be one of the following:get_translation\nQuestion: {input}\n Agent scratchpad (history actions):\n {agent_scratchpad}","query": "My intention is to convert the data provided in ما هي الأقسام الثلاثة للقوات المسلحة؟ into Arabic(ara).\n","chains": [{"thought": "I need to use the get_translation API to convert the text into Arabic.","action": "get_translation","action_input": "{\"text\": \"What are the three branches of the military?\", \"tgt_lang\": \"ara\"}","observation": "\"ما هي الفروع الثلاثة للجيش ؟\""}],"answer": "The translation of \"What are the three branches of the military?\" into Arabic is \"ما هي الفروع الثلاثة للجيش ؟\"."}

模型实验

机器评估:研究人员对每个工具随机抽取100个链步(chain steps)来构建机器评估测试平台,平均27个最终步骤和73个中间工具调用步骤,其中最终步骤的评估使用Rouge-L指标,中间步骤的评估使用ExactMatch指标进行评估。

人工评估:在天气、地图、股票、翻译、化学和WolframAlpha工具中随机抽取10个query,然后评估工具调用过程的通过率、最终答案以及和ChatGPT最终答案的比较。

ChatGPT评估:通过ChatGPT对LLaMA和ChatGPT的答案和工具使用链进行自动评估。

评估结果如下(分数越高越好),可以看到ToolLLaMA在不同场景下与ChatGPT的性能相同或更好。

工具学习

在清华大学、人民大学、北京邮电大学等个国内外知名高校和大学联合发布的一篇论文中,对工具学习进行了系统的研究,介绍了工具学习的背景,包括认知起源、基础模型的范式转变,以及工具和模型的互补作用。

论文链接:https://arxiv.org/pdf/2304.08354.pdf

文中还回顾了现有的工具学习研究,包括工具增强型和工具导向型学习,并制定了一个通用的工具学习框架:从理解用户指令开始,模型应该学会把一个复杂的任务分解成几个子任务,通过推理动态地调整计划,并通过选择合适的工具有效地征服每个子任务。

文中还讨论了如何训练模型以提高工具使用能力并促进工具学习的普及。

考虑到之前的工作中缺乏系统的工具学习评估,研究人员用17种有代表性的工具进行了实验,并展示了当前基础模型在熟练利用工具方面的潜力。

论文最后讨论了几个需要进一步研究的工具学习的开放性问题,例如确保安全和可信赖的工具使用、用基础模型实现工具创建,以及解决个性化的难题。

参考资料:

https://github.com/OpenBMB/ToolBench

上一篇 : 世界速递!刑事悔过书(集锦5篇)

下一篇 : 最后一页

x 广告
高层声音

清华等开源「工具学习基准」ToolBench,微调模型ToolLLaMA性能超越ChatGPT_焦点滚动

2023-06-06

世界速递!刑事悔过书(集锦5篇)

2023-06-06

拉加德:欧元区通胀压力仍很大 欧洲央行将进一步加息|全球观焦点

2023-06-06

u盘exfat转fat32_u盘exfat转fat32工具-世界快资讯

2023-06-06

聚焦棚改 | “房票”政策助棚改户圆安居梦 世界聚焦

2023-06-06

成本费用利润率降低的原因_成本费用利润率 时快讯

2023-06-06

远东商圈某餐饮店被罚……“制止餐饮浪费”贺州是认真的

2023-06-06

长沙法拍_长沙法语培训

2023-06-06

全球快资讯:电视剧烽火四姐妹演员_烽火姐妹中武田的扮演者

2023-06-06

环球聚焦:世界环境日迎环保大考!这家深圳科技企业交出“高分”成绩单

2023-06-06

恒大物业2022年盈利14.79亿元,在管物业5亿平方米

2023-06-06

高规编号是多少_高规全称 天天快讯

2023-06-05

最新资讯:鹰瞳科技-B午盘涨超16% 中金给予目标价17.40港元

2023-06-05

世界热讯:中辉期货聚酯日报20230605:TA震荡运行

2023-06-05

援外培训架起中非友谊的桥梁 非洲法语国家个体农户能力建设研修班纪实 天天视讯

2023-06-05

美国芝加哥周末枪击案频发 至少50人中枪10人死亡 环球即时看

2023-06-05

全球观热点:泰山区:加大生态环境治理投入 培育更多环保优秀企业

2023-06-05

网贷延期对征信有影响吗?网贷办理延期还款是真的吗?

2023-06-05

【环球报资讯】理想汽车旗下心电互动销售服务公司增资至38亿

2023-06-05

【当前热闻】鲲鹏超性能电混C-DM下线 奇瑞三大品牌全面混动化

2023-06-05

太短了怎么变长_头发怎么长的快

2023-06-05

夏日乌梁素海

2023-06-05

焦点快看:汕头四中,整体搬迁!

2023-06-05

世界通讯!国网聊城供电公司带电消除隐患保障高考用电

2023-06-05

地铁设计:将适时推动开展“二次混改”等再融资_环球速讯

2023-06-05

*ST红相6月5日盘中涨幅达5%

2023-06-05

苜蓿怎么读_苜蓿草图片

2023-06-05

入股葡萄牙同业 汉莎航空称言之尚早 焦点速看

2023-06-05

【速看料】降费求生存 迷你基金“保壳”花样频出

2023-06-05

宜城电厂500千伏送出工程送电 鄂西北新添电力“动脉”迎夏峰

2023-06-05

长城证券:A股基本面底部有望逐季改善|当前速递

2023-06-05

当前焦点!意甲-基耶萨抽射建功 尤文图斯1-0乌迪内斯收获联赛第七

2023-06-05

【天天快播报】各地就业政策频出 “花式”引才聚才

2023-06-05

解禁股票当天一般涨还是跌_解禁股票是什么意思

2023-06-05

每日短讯:严把儿童用品质量关,夯实质量安全保障线

2023-06-05

富贵竹水养生根要多久_富贵竹水养生根方法 今日热闻

2023-06-04

最资讯丨最美的天使女孩_对于最美的天使女孩简单介绍

2023-06-04

芯片设备巨头,178亿解禁!_环球聚看点

2023-06-04

环球精选!葱炒什么好吃?

2023-06-04

法国足球盘点首届科帕奖排名:姆巴佩第一,普利西奇第二

2023-06-04

福布斯首次首发,4外援比拼!青岛海牛对南通支云首发出炉,王哲执法 动态焦点

2023-06-04

微资讯!金时科技: 关于召开公司2023年第一次临时股东大会的通知

2023-06-04

世界焦点!1个最简单的方法,让你夏天再也不怕蚊子咬了!

2023-06-04

环球新消息丨北斗导航系统无人驾驶插秧机、收割机提升夏收夏种效率

2023-06-04

中国星辰 | 神十五“像流星一样回到祖国怀抱”

2023-06-04

斗罗大陆:看到宁荣荣的第八魂技,宁风致:你来,宗主你当吧-世界今头条

2023-06-04

精灵梦叶罗丽与哆啦A梦五对相似人物,静香类似富二代陈思思?-世界观察

2023-06-04

神速!这类品种再迎新成员 两大公募巨头助阵 对应ETF规模超870亿元

2023-06-04

听说主播能赚钱的是谁_听说主播能赚钱|今头条

2023-06-04

世界快看点丨崔东树:1-4月中国占世界新能源车份额60%

2023-06-04

喜讯|新人新风采

2023-06-04

每日消息![华晨宇水仙文]《我真没想穿书啊》第四章

2023-06-04

精彩看点:丫鬟家法挨打鞭子_丫鬟家法挨打的故事

2023-06-04

罚没利得计入什么科目_罚没利得包括哪些

2023-06-04

itf14条码生成(itf14条码在线生成器)-世界百事通

2023-06-04

世界速看:北京动物园回应“丫丫”抵京展。(北京动物园将护送丫丫回国)

2023-06-04

烈火中这个身影太震撼!南京休假辅警徒手翻墙奋勇灭火_快资讯

2023-06-03

坐飞机行李怎么办理托运_坐飞机行李怎么办_讯息

2023-06-03

全球热门:儋州高考生 注意!云上踩点看考场操作方法来了

2023-06-03

【视频】优化证券执法司法机制 保护投资者合法权益 世界今热点

2023-06-03

回南天是什么意思网络用语(回南天是什么意思)_今头条

2023-06-03

“露营经济”在菏泽鲁西新区悄然兴起 天天微头条

2023-06-03

【全球速看料】麦克奥迪董秘回复:您可以通过投资者热线,互动易,指定邮箱和我们沟通,如有其他沟通渠道,公司会及时公示

2023-06-03

江苏牵手中国商飞,航空航天产业蓄势待飞_天天微速讯

2023-06-03

美国总统拜登:他将于周六签署债务上限法案 环球快讯

2023-06-03

播报:《星球大战:旧共和国武士II》恢复内容DLC取消发布

2023-06-03

他们常年一脚湿地一脚沼泽 只为守护“鸟中大熊猫”

2023-06-03

全球热点评!竹笋炒肉的做法超小厨?

2023-06-03

秘鲁发生5.3级地震 天天热文

2023-06-03

牛黄清心丸的功效与作用价格_牛黄清心丸的功效 世界今日报

2023-06-03

热感冒和冷感冒的区别吃什么药_热感冒和冷感冒的区别

2023-06-03

焦点短讯!RCEP进入全面实施新阶段

2023-06-03

《街霸6》全角色胜利造型合集 KO后就要狠狠上脸!|世界通讯

2023-06-03

难民团是什么意思_难民代表团什么意思

2023-06-03

零陵机场_零陵机场

2023-06-03

热议:汝阳县:托幼服务再聚力 童心向党庆“六一”

2023-06-03

《股东来了》浙江片区精彩进行时丨走进长兴琪康餐饮、杭州物产天地中心园区、遂昌艾巴黎烘焙坊、绍兴荣安观江园、嘉兴经开运河社区

2023-06-03

中行纸黄金交易时间是什么时候?纸黄金交易规定及特点

2023-06-03

6月2日基金净值:国金量化多策略A最新净值1.1916,涨1.06%

2023-06-03

金选简报|山石网科上市首亏!现金流持续下滑,业绩颓势背后隐患颇多

2023-06-03

2023泰晤士高等教育大学影响力:中国院校排名_天天播报

2023-06-03

奥泰生物(688606.SH)2022年度权益分派:每股转0.48股派10元 6月8日股权登记 每日消息

2023-06-02

23/24榨季新疆甜菜种植面积预计为90万亩,同比增加10%左右金十期货6月2日讯,据了解,23/24制糖期新疆甜菜收购价预计高位持稳,到厂价在600元/吨左右_当前快看

2023-06-02

微信怎么完善个人信息(如何完善微信个人信息)_环球最资讯

2023-06-02

每日快讯!红华农场公司计划打造1530亩青柚基地

2023-06-02

1小时等于多少秒_1小时3分59秒24如何写

2023-06-02

折叠屏的价格,被联想moto打下来了 天天聚看点

2023-06-02

【原】一个科学界头疼了很久的问题:为什么电子不会掉进原子核中? 前沿热点

2023-06-02

全球首次!海上风电无淡化海水原位直接电解制氢海上中试成功 环球快资讯

2023-06-02

天天观速讯丨太保长相伴(精英版)终身寿险保什么?有什么亮点?

2023-06-02

6月8日容汇锂业、壹连科技将接受创业板审核|快讯

2023-06-02

世界热推荐:李立群新冠后肺部感染,住高档病房输液,网友担忧其身体状况

2023-06-02

市建设局开展市区保障性租赁住房建设筹集质量排查工作_聚看点

2023-06-02

【独家】书法导报网络版_书法导报

2023-06-02

传苹果(AAPL.US)储蓄账户取钱困难 高盛:淡定,只为保护账户安全 每日头条

2023-06-02

每日信息:成渝经济圈供应链金融1-10号20亿元ABS项目获受理

2023-06-02

人民银行今日开展20亿元逆回购操作 公开市场实现净回笼30亿元_世界热闻

2023-06-02

今年全国快递业务量已达500亿件-即时焦点

2023-06-02

每日热点:王欣瑜晋级法网32强

2023-06-02

全球时讯:微信推出视频号直播推广广告6·18大促助力计划

2023-06-02

安徽合力:6月1日融资买入604.49万元,融资融券余额2.28亿元

2023-06-02

麻婆豆腐为什么叫麻婆豆腐(麻婆豆腐为什么放盐水中煮)

2023-06-02

剪纸的由来简介_剪纸的由来介绍|当前播报

2023-06-02

通车进入倒计时 重庆轨道交通五号线全线“电通”

2023-06-02

滴滴货运开启毕业搬家季 60多城同步上线优惠活动

2023-06-02

郑板桥的诗疑是民间疾苦声_郑板桥的诗 天天速讯

2023-06-02

欧冶半导体和星宇股份合作开发智能车灯及自动驾驶解决方案

2023-06-02

天龙八部之天山童姥完整版_天龙八部之天山童姥国语免费-焦点要闻

2023-06-02

天天最新:多字的繁体字怎么写的(多字的繁体字怎么写)

2023-06-02

天天观热点:渭南妇科医院咨询(渭南妇科医院)

2023-06-02

每日热点:霍里:湖人时期的奥尼尔脚步更好了 我们队都知道科比能接管比赛

2023-06-02

《北京市未成年人保护条例》6月1日正式实施 有利于行业进一步走向规范

2023-06-02

天天热议:倒闭、收购轮番上演,快递行业争端再起

2023-06-01

每日观点:鹤壁经济技术开发区:开展“童心飞扬 放飞梦想”六一儿童节文艺汇演活动

2023-06-01

肚子胀痛怎么快速消除

2023-06-01

李宇嘉:双边1.5%,福州中介费新政给存量时代房产交易提供了新思路

2023-06-01

劳务派遣公司怎么赚钱合法 劳务派遣公司怎么赚钱 当前热文

2023-06-01

望江亭谜底是什么_望江亭打一成语 每日热闻

2023-06-01

谭雅玲:黄金与石油涨跌趋势或取决于美元策略

2023-06-01

湖南裕能:预计今年磷酸铁锂产能将进一步增加,规划在云南基地建设二期项目 世界看热讯

2023-06-01

环球今热点:复旦微电:目前预计全年研发投入占比还是在营收的25%-30%之间

2023-06-01

电影《别叫我“赌神”》:为追求真实效果 周润发被扇62个耳光

2023-06-01

老陈边走边吃_老陈

2023-06-01

头条焦点:耗子尾汁到底是什么意思_耗子尾汁到底解释

2023-06-01

奇精机械(603677.SH):公司今年整体收入和去年基本持平 世界热点

2023-06-01

世界今日报丨鹿泉区 加强麦田管理 筑牢夏粮丰收根基

2023-06-01

铁路部门:全力做好粮食、煤炭等重点物资运输通畅-环球聚焦

2023-06-01

外媒:PS应该将《瑞奇和叮当》全系列上架PC

2023-06-01

神舟有新知丨增强现实技术+陆空多机位 神十六发射精彩画面是这样拍摄出来的

2023-06-01

世界新动态:塞尔达传说王国之泪白鬃人马位置大全一览

2023-06-01

SMM铝晨会纪要:宏观情绪压力较大 基本面支撑力度不足-天天快播报

2023-06-01

公安部:加强打击防范证券犯罪工作 全力保障全面实行股票发行注册制顺利实施

2023-06-01

乌克兰官员说乌今年粮食出口量预计减少40% 热点在线

2023-06-01

严把儿童用品质量安全关

2023-06-01

天天观速讯丨写人文章的开头结尾(名家写人的文章有哪些)

2023-06-01

礼萨·巴列维(关于礼萨·巴列维介绍)-当前消息

2023-06-01

世界消息!这个儿童节,“蓝朋友”伴你“童”行

2023-06-01

世界热点评!天津市东丽区邮编是多少(天津市东丽区邮编)

2023-06-01

libor是什么意思+260bps_libor是什么意思 天天头条

2023-05-31

广州:打造一批可复制的数字人民币广州特色场景|环球播资讯

2023-05-31

每日看点!宋城演艺回复深交所:联营企业花房集团参股公司被警方调查 影响尚无法判断

2023-05-31

中超第10轮最佳阵容,上海海港5人上榜,顾操郑铮入围

2023-05-31

快讯:黄金与石油上涨趋势取决于美元贬值

2023-05-31

《玛法降魔传》6月1日上古4服火爆开启-每日热门

2023-05-31

lol卸载不干净_lol卸载_全球观察

2023-05-31

动态:巴塞罗那客场球衣谍照(巴塞罗那球衣专卖店)

2023-05-31

深圳市发布《深圳市加快推动人工智能高质量发展高水平应用行动方案(2023—2024年)》-环球聚看点

2023-05-31

外媒热议神十六成功发射:中国加速推进“航天强国梦”|世界观 热资讯

2023-05-31

【天天速看料】《女子推理社》戚薇机智救场 田曦薇张艺凡爆笑模仿直播砍价

2023-05-31

2023年湖北宜昌养老金上调方案公布在即 宜昌2023退休工资金每月涨多少钱|世界热头条

2023-05-31

5月31日 板材午间行情分析

2023-05-31

荔枝美股涨14.29%

2023-05-31

多部门发布预警信号!甘肃未来几天降水频繁_每日速讯

2023-05-31

天天日报丨鸿达兴业:5月30日融券卖出51.95万股,融资融券余额4.55亿元

2023-05-31

万通发展:嘉华控股拟5.06亿元转让5.12%公司股份予鼎耘投资 天天快讯

2023-05-31

天天视讯!url不合法解决办法-url不合法怎么解决

2023-05-31

当前通讯!礼盒包装空隙率超80%

2023-05-31

山东省委主题教育第十一巡回指导组召开工作调度会-焦点快报

2023-05-31

多地积极采取各种措施保障麦收|环球速递

2023-05-31

今天起,杭州人坐地铁有新变化!_世界最新

2023-05-31

永远的“六一”

2023-05-31

5月30日基金净值:银华远景债券最新净值1.136,涨0.18%

2023-05-31

联黎部队举行仪式纪念联合国维和人员国际日_世界观天下

2023-05-31

开发者提交头显应用,提示错误显示苹果首款头显系统取名“xrOS”

2023-05-31

天亮了,尿在床上,有多丢人?津门虎1比0绝杀大连人,十轮不败 焦点速递

2023-05-31

全球观点:生态泰顺_关于生态泰顺介绍

2023-05-31

长期用借呗会影响个人征信吗,不会

2023-05-31

河西都会里的汉唐雄风 "凉州七里十万家"的繁华盛世 全球快看

2023-05-31

371批《道路机动车辆生产企业及产品公告》新品之消防车统计分析

2023-05-31

【速看料】巴西、委内瑞拉两国总统谴责美国对委非法制裁

2023-05-31

动态:西安铁警进校园 儿童节安全“童”行

2023-05-31

宝钢股份与中国电气装备签署战略合作协议

2023-05-31

打乱美联储步伐!达成债务上限协议的杀伤力惊人|当前热议

2023-05-30

省政府召开会议研究经济运行工作 环球即时看

2023-05-30

环球关注:大奇迹日?三大股指集体翻红!乘AI之东风,大数据产业ETF(516700)放量大涨近4%!

2023-05-30

三亚天涯区持续精细整治居民楼间“飞线” 世界看热讯

2023-05-30

多家银行存款利率集体下调!你“挪储”了吗?钱放在哪比较好?-天天关注

2023-05-30

手机流量1g等于多少mb流量_手机流量1G等于多少MB_焦点消息

2023-05-30

西双版纳傣族歌曲抖音最火_西双版纳傣族歌曲

2023-05-30

环球今日讯!钱江水利3涨停

2023-05-30

双脚是全身健康的“放大镜”!你的双脚是发出了疾病信号还是长寿信号? 环球热文

2023-05-30

晋江中小学生美术、书法大比拼-焦点热讯

2023-05-30

加速“奔跑”助力行业绿色健康发展—东方雨虹受邀参与首届北京勘察设计行业乐跑活动 天天即时

2023-05-30

家庭相册名称简单大方(相册名称简单大方)

2023-05-30

幻影星空vr体验馆_vr体验馆赚钱吗_天天热议

2023-05-30

天天新消息丨播报:2023年法网:中国男单选手集体亮相正赛 张之臻取得历史性突破

2023-05-30

罗一舟《后浪》热度破万 哭戏引共情好评不断

2023-05-30

10w左右的车,10w左右的车女性

2023-05-30

法拉第未来美股盘前涨近8%

2023-05-30

阴字组词组_需组词组|每日热闻

2023-05-30

动态:许锦波:AI+生物已成为科技创新新领域

2023-05-30

tiktok艾薇儿现场版(tiktok艾薇儿)

2023-05-30

新凤鸣: 第五届董事会第四十三次会议决议公告

2023-05-30

不给糖就捣乱的由来_不给糖就杀人 世界观速讯

2023-05-30

环球时讯:将6月21日首发 全新丰田埃尔法谍照曝光

2023-05-30

践行科普责任 高精尖实验室带孩子走近爆炸科学

2023-05-30

费雷罗:阿尔卡拉斯最有希望夺冠,他正处于陡峭的上升曲线

2023-05-30

成都精神科医院

2023-05-30

【世界快播报】今日159素食全餐骗局大揭穿有副作用吗_159素食全餐骗局央视

2023-05-30

中国基金会支持的尼泊尔可持续发展项目示范村启动|天天微速讯

2023-05-30

返回顶部