清华等开源「工具学习基准」ToolBench，微调模型ToolLLaMA性能超越ChatGPT_焦点滚动

来源：新智元公众号 2023-06-06 09:56:53

声明:本文来自于微信公众号新智元（ID:AI_era），作者:新智元，授权站长之家转载发布。

(资料图)

人类具有创造和利用工具的能力，使得我们可以突破身体的限制，探索更广阔的世界。

人工智能基础模型也类似，如果仅靠训练阶段得到的权重，使用场景就会非常受限，而最近提出的工具学习（tool learning），将特定领域的专用工具与大规模基础模型相结合，可以实现更高的效率、性能。

不过目前工具学习的相关研究还不够深入，也缺乏相关的开源数据和代码。

最近，清华大学自然语言处理实验室等支持的开源社区OpenBMB （Open Lab for Big Model Base）发布了ToolBench项目，可以帮助开发者构建开源、大规模、高质量的指令调优数据，促进构建具有通用工具使用能力的大型语言模型。

仓库链接:https://github.com/OpenBMB/ToolBench

ToolBench仓库中提供了相关数据集、训练和评估脚本，以及在ToolBench上微调的功能模型ToolLLaMA，具体特点为:

1. 支持单工具和多工具方案

其中单工具设置遵循LangChain提示风格，多工具设置遵循AutoGPT的提示风格。

2. 模型回复不仅包括最终答案，还包含模型的思维链过程、工具执行和工具执行结果

3. 支持真实世界级别的复杂性，支持多步工具调用

4. 丰富的API，可用于现实世界中的场景，如天气信息、搜索、股票更新和PowerPoint自动化

5. 所有的数据都是由OpenAI API自动生成并由开发团队进行过滤，数据的创建过程很容易扩展

不过需要注意的是，目前发布的数据还不是最终版本，研究人员仍然在对数据进行后处理来提高数据质量，并增加真实世界工具的覆盖范围。

ToolBench

ToolBench的总体思路是基于BMTools，在有监督数据中训练大型语言模型。

仓库中包含31.2万次真实API调用得到的9800条数据，涵盖单工具场景和多工具场景，下面是单工具的统计信息。

其中每行数据都是一个json dict，包含数据创建的提示模板、工具使用的人工指令（查询）、中间思维/工具执行循环和最终答案。

ToolDescrition:BMToolsTool_name:translationToolaction:get_translationaction_input:{"text":targettexts，"tgt_lang":targetlanguage}

Generated Data:{"prompt": "Answer the following questions as best you can. Specifically， you have access to the following APIs:\n\nget_translation: . Your input should be a json （args json schema）: {{\"text\" : string， \"tgt_lang\" : string， }} The Action to trigger this API should be get_translation and the input parameters should be a json dict string. Pay attention to the type of parameters.\n\nUse the following format:\n\nQuestion: the input question you must answer\nThought: you should always think about what to do\nAction: the action to take， should be one of [get_translation]\nAction Input: the input to the action\nObservation: the result of the action\n... (this Thought/Action/Action Input/Observation can repeat N times， max7times)\nThought: I now know the final answer\nFinal Answer: the final answer to the original input question\n\nBegin! Remember: (1) Follow the format， i.e，\nThought:\nAction:\nAction Input:\nObservation:\nFinal Answer:\n (2) Provide as much as useful information in your Final Answer. (3) Do not make up anything， and if your Observation has no link， DO NOT hallucihate one. (4) If you have enough information and want to stop the process， please use \nThought: I have got enough information\nFinal Answer: **your response. \n The Action: MUST be one of the following:get_translation\nQuestion: {input}\n Agent scratchpad (history actions):\n {agent_scratchpad}"，"query": "My intention is to convert the data provided in ما هي الأقسام الثلاثة للقوات المسلحة؟ into Arabic(ara).\n"，"chains": [{"thought": "I need to use the get_translation API to convert the text into Arabic."，"action": "get_translation"，"action_input": "{\"text\": \"What are the three branches of the military?\"， \"tgt_lang\": \"ara\"}"，"observation": "\"ما هي الفروع الثلاثة للجيش ؟\""}]，"answer": "The translation of \"What are the three branches of the military?\" into Arabic is \"ما هي الفروع الثلاثة للجيش ؟\"."}

模型实验

机器评估:研究人员对每个工具随机抽取100个链步（chain steps）来构建机器评估测试平台，平均27个最终步骤和73个中间工具调用步骤，其中最终步骤的评估使用Rouge-L指标，中间步骤的评估使用ExactMatch指标进行评估。

人工评估:在天气、地图、股票、翻译、化学和WolframAlpha工具中随机抽取10个query，然后评估工具调用过程的通过率、最终答案以及和ChatGPT最终答案的比较。

ChatGPT评估:通过ChatGPT对LLaMA和ChatGPT的答案和工具使用链进行自动评估。

评估结果如下（分数越高越好），可以看到ToolLLaMA在不同场景下与ChatGPT的性能相同或更好。

工具学习

在清华大学、人民大学、北京邮电大学等个国内外知名高校和大学联合发布的一篇论文中，对工具学习进行了系统的研究，介绍了工具学习的背景，包括认知起源、基础模型的范式转变，以及工具和模型的互补作用。

论文链接:https://arxiv.org/pdf/2304.08354.pdf

文中还回顾了现有的工具学习研究，包括工具增强型和工具导向型学习，并制定了一个通用的工具学习框架:从理解用户指令开始，模型应该学会把一个复杂的任务分解成几个子任务，通过推理动态地调整计划，并通过选择合适的工具有效地征服每个子任务。

文中还讨论了如何训练模型以提高工具使用能力并促进工具学习的普及。

考虑到之前的工作中缺乏系统的工具学习评估，研究人员用17种有代表性的工具进行了实验，并展示了当前基础模型在熟练利用工具方面的潜力。

论文最后讨论了几个需要进一步研究的工具学习的开放性问题，例如确保安全和可信赖的工具使用、用基础模型实现工具创建，以及解决个性化的难题。

参考资料:

https://github.com/OpenBMB/ToolBench

清华等开源「工具学习基准」ToolBench，微调模型ToolLLaMA性能超越ChatGPT_焦点滚动

来源：​新智元公众号 2023-06-06 09:56:53

ToolBench

工具学习

清华等开源「工具学习基准」ToolBench，微调模型ToolLLaMA性能超越ChatGPT_焦点滚动

世界速递！刑事悔过书(集锦5篇)

拉加德：欧元区通胀压力仍很大 欧洲央行将进一步加息|全球观焦点

u盘exfat转fat32_u盘exfat转fat32工具-世界快资讯

聚焦棚改 | “房票”政策助棚改户圆安居梦 世界聚焦

成本费用利润率降低的原因_成本费用利润率 时快讯

远东商圈某餐饮店被罚……“制止餐饮浪费”贺州是认真的

长沙法拍_长沙法语培训

全球快资讯：电视剧烽火四姐妹演员_烽火姐妹中武田的扮演者

环球聚焦：世界环境日迎环保大考！这家深圳科技企业交出“高分”成绩单

恒大物业2022年盈利14.79亿元，在管物业5亿平方米

高规编号是多少_高规全称 天天快讯

最新资讯：鹰瞳科技-B午盘涨超16% 中金给予目标价17.40港元

世界热讯:中辉期货聚酯日报20230605：TA震荡运行

援外培训架起中非友谊的桥梁 非洲法语国家个体农户能力建设研修班纪实 天天视讯

美国芝加哥周末枪击案频发 至少50人中枪10人死亡 环球即时看

全球观热点：泰山区：加大生态环境治理投入 培育更多环保优秀企业

网贷延期对征信有影响吗？网贷办理延期还款是真的吗？

【环球报资讯】理想汽车旗下心电互动销售服务公司增资至38亿

【当前热闻】鲲鹏超性能电混C-DM下线 奇瑞三大品牌全面混动化

太短了怎么变长_头发怎么长的快

夏日乌梁素海

焦点快看：汕头四中，整体搬迁！

世界通讯！国网聊城供电公司带电消除隐患保障高考用电

地铁设计：将适时推动开展“二次混改”等再融资_环球速讯

*ST红相6月5日盘中涨幅达5%

苜蓿怎么读_苜蓿草图片

入股葡萄牙同业 汉莎航空称言之尚早 焦点速看

【速看料】降费求生存 迷你基金“保壳”花样频出

宜城电厂500千伏送出工程送电 鄂西北新添电力“动脉”迎夏峰

长城证券：A股基本面底部有望逐季改善|当前速递

当前焦点!意甲-基耶萨抽射建功 尤文图斯1-0乌迪内斯收获联赛第七

【天天快播报】各地就业政策频出 “花式”引才聚才

解禁股票当天一般涨还是跌_解禁股票是什么意思

每日短讯：严把儿童用品质量关，夯实质量安全保障线

富贵竹水养生根要多久_富贵竹水养生根方法 今日热闻

最资讯丨最美的天使女孩_对于最美的天使女孩简单介绍

芯片设备巨头，178亿解禁！_环球聚看点

环球精选！葱炒什么好吃?

法国足球盘点首届科帕奖排名：姆巴佩第一，普利西奇第二

福布斯首次首发，4外援比拼！青岛海牛对南通支云首发出炉，王哲执法 动态焦点

微资讯！金时科技: 关于召开公司2023年第一次临时股东大会的通知

世界焦点！1个最简单的方法，让你夏天再也不怕蚊子咬了！

环球新消息丨北斗导航系统无人驾驶插秧机、收割机提升夏收夏种效率

中国星辰 | 神十五“像流星一样回到祖国怀抱”

斗罗大陆：看到宁荣荣的第八魂技，宁风致：你来，宗主你当吧-世界今头条

精灵梦叶罗丽与哆啦A梦五对相似人物，静香类似富二代陈思思？-世界观察

神速！这类品种再迎新成员 两大公募巨头助阵 对应ETF规模超870亿元

听说主播能赚钱的是谁_听说主播能赚钱|今头条

世界快看点丨崔东树：1-4月中国占世界新能源车份额60%

喜讯｜新人新风采

每日消息!［华晨宇水仙文］《我真没想穿书啊》第四章

精彩看点：丫鬟家法挨打鞭子_丫鬟家法挨打的故事

罚没利得计入什么科目_罚没利得包括哪些

itf14条码生成（itf14条码在线生成器）-世界百事通

世界速看：北京动物园回应“丫丫”抵京展。（北京动物园将护送丫丫回国）

烈火中这个身影太震撼！南京休假辅警徒手翻墙奋勇灭火_快资讯

坐飞机行李怎么办理托运_坐飞机行李怎么办_讯息

全球热门:儋州高考生 注意！云上踩点看考场操作方法来了

【视频】优化证券执法司法机制 保护投资者合法权益 世界今热点

回南天是什么意思网络用语（回南天是什么意思）_今头条

“露营经济”在菏泽鲁西新区悄然兴起 天天微头条

【全球速看料】麦克奥迪董秘回复：您可以通过投资者热线，互动易，指定邮箱和我们沟通，如有其他沟通渠道，公司会及时公示

江苏牵手中国商飞，航空航天产业蓄势待飞_天天微速讯

美国总统拜登：他将于周六签署债务上限法案 环球快讯

播报：《星球大战：旧共和国武士II》恢复内容DLC取消发布

他们常年一脚湿地一脚沼泽 只为守护“鸟中大熊猫”

全球热点评！竹笋炒肉的做法超小厨?

秘鲁发生5.3级地震 天天热文

牛黄清心丸的功效与作用价格_牛黄清心丸的功效 世界今日报

热感冒和冷感冒的区别吃什么药_热感冒和冷感冒的区别

焦点短讯！RCEP进入全面实施新阶段

《街霸6》全角色胜利造型合集 KO后就要狠狠上脸！|世界通讯

难民团是什么意思_难民代表团什么意思

零陵机场_零陵机场

热议：汝阳县：托幼服务再聚力 童心向党庆“六一”

来源：新智元公众号 2023-06-06 09:56:53

拉加德：欧元区通胀压力仍很大欧洲央行将进一步加息|全球观焦点

聚焦棚改 | “房票”政策助棚改户圆安居梦世界聚焦

成本费用利润率降低的原因_成本费用利润率时快讯

高规编号是多少_高规全称天天快讯

援外培训架起中非友谊的桥梁非洲法语国家个体农户能力建设研修班纪实天天视讯

美国芝加哥周末枪击案频发至少50人中枪10人死亡环球即时看

全球观热点：泰山区：加大生态环境治理投入培育更多环保优秀企业

【当前热闻】鲲鹏超性能电混C-DM下线奇瑞三大品牌全面混动化

入股葡萄牙同业汉莎航空称言之尚早焦点速看

【速看料】降费求生存迷你基金“保壳”花样频出

宜城电厂500千伏送出工程送电鄂西北新添电力“动脉”迎夏峰

当前焦点!意甲-基耶萨抽射建功尤文图斯1-0乌迪内斯收获联赛第七

富贵竹水养生根要多久_富贵竹水养生根方法今日热闻

福布斯首次首发，4外援比拼！青岛海牛对南通支云首发出炉，王哲执法动态焦点

神速！这类品种再迎新成员两大公募巨头助阵对应ETF规模超870亿元

全球热门:儋州高考生注意！云上踩点看考场操作方法来了

【视频】优化证券执法司法机制保护投资者合法权益世界今热点

“露营经济”在菏泽鲁西新区悄然兴起天天微头条

美国总统拜登：他将于周六签署债务上限法案环球快讯

他们常年一脚湿地一脚沼泽只为守护“鸟中大熊猫”

秘鲁发生5.3级地震天天热文

牛黄清心丸的功效与作用价格_牛黄清心丸的功效世界今日报

热议：汝阳县：托幼服务再聚力童心向党庆“六一”

奥泰生物(688606.SH)2022年度权益分派：每股转0.48股派10元 6月8日股权登记每日消息

折叠屏的价格，被联想moto打下来了天天聚看点

【原】一个科学界头疼了很久的问题：为什么电子不会掉进原子核中？前沿热点

全球首次！海上风电无淡化海水原位直接电解制氢海上中试成功环球快资讯

传苹果(AAPL.US)储蓄账户取钱困难高盛：淡定，只为保护账户安全每日头条

人民银行今日开展20亿元逆回购操作公开市场实现净回笼30亿元_世界热闻

通车进入倒计时重庆轨道交通五号线全线“电通”

郑板桥的诗疑是民间疾苦声_郑板桥的诗天天速讯

每日热点：霍里：湖人时期的奥尼尔脚步更好了我们队都知道科比能接管比赛

《北京市未成年人保护条例》6月1日正式实施有利于行业进一步走向规范

每日观点：鹤壁经济技术开发区：开展“童心飞扬放飞梦想”六一儿童节文艺汇演活动

劳务派遣公司怎么赚钱合法劳务派遣公司怎么赚钱当前热文

望江亭谜底是什么_望江亭打一成语每日热闻

湖南裕能：预计今年磷酸铁锂产能将进一步增加，规划在云南基地建设二期项目世界看热讯

电影《别叫我“赌神”》：为追求真实效果周润发被扇62个耳光

奇精机械(603677.SH)：公司今年整体收入和去年基本持平世界热点

世界今日报丨鹿泉区加强麦田管理筑牢夏粮丰收根基

神舟有新知丨增强现实技术+陆空多机位神十六发射精彩画面是这样拍摄出来的

SMM铝晨会纪要：宏观情绪压力较大基本面支撑力度不足-天天快播报

公安部：加强打击防范证券犯罪工作全力保障全面实行股票发行注册制顺利实施

libor是什么意思+260bps_libor是什么意思天天头条

每日看点！宋城演艺回复深交所：联营企业花房集团参股公司被警方调查影响尚无法判断