深圳南财多媒体有限公司介绍

您當前的位置 :環球傳媒網>科技 > 正文
新工具可以在運行的語言模型影響用戶之前發現并修復其有害行為
2022-02-18 09:48:30 來源:DeepTech深科技 編輯:

語言賦予人類表達思想、交流概念、創造記憶和相互理解的能力,開發和研究強大的語言模型有助于構建安全高效的高級人工智能系統。

此前,研究人員通過使用人工注釋器手寫測試用例來識別語言模型部署前的有害行為。這種方法是有效的,但由于人工注釋成本高昂,測試用例的數量和多樣性被大大限制。

近日,谷歌 DeepMind 團隊發表了一項新研究,他們提供了一種名為“紅隊”(Red Teaming)的工具,可以在運行的語言模型影響用戶之前發現并修復其有害行為。

在這項研究中,DeepMind 使用經過訓練的分類器來評估目標語言模型對生成測試用例的回復情況,并檢測其中的冒犯性內容。最終,該團隊在參數達 280B 的語言模型聊天機器人中發現上萬條冒犯性回復。

據悉,DeepMind 通過即時工程來檢測語言模型生成的測試用例,以發現各種其他危害,包括自動查找聊天機器人的攻擊性回復、被聊天機器人濫用的私人電話號碼、以及在生成文本中泄露的私人訓練數據等。

生成式語言模型有時會以意料不到的方式危害到用戶,其可能會輸出不良的文本內容。而在實際應用程序中,哪怕只有極小的可能性會對用戶造成傷害,也是不被允許的。

2016 年,微軟推出了能夠自動發布推文給用戶的 Tay 機器人。但在上線的 16 小時內,有幾名用戶利用 Tay 機器人的漏洞,讓其將帶有種族主義和性意味的推文發送給了超過 5 萬名用戶,之后微軟將該機器人關閉。

然而,這并不是因為微軟的疏忽。微軟副總裁彼得·李(Peter Lee)表示,“我們已經做好了應對許多類系統濫用行為的準備,而且我們對這一特定攻擊進行了關鍵監督。”

癥結在于,會致使語言模型輸出有害文本的場景數不勝數,研究人員無法在語言模型被部署到現實中之前找出一切可能發生的情況。

正如大家所熟知的強大語言模型 GPT-3,盡管其能夠輸出高質量的文本內容,但卻不容易在真實世界中完成部署。

圖 | GPT-3 模型用于法語語法更正(來源:OpenAI)

據了解,DeepMind 的目標是通過自動查找故障案例來對手寫測試用例進行補充,從而減少關鍵疏忽的數量。

為此,DeepMind 使用語言模型本身生成測試用例,從零觸發生成到監督微調和強化學習,DeepMind 探索了多種方法來生成具有不同多樣性和難度的測試用例,這將有助于獲得高測試覆蓋率及模擬對抗性案例。

此外,DeepMind 使用分類器檢測測試用例上的以下各種有害行為:

首先是冒犯性語言,模型有時會發表具有歧視、仇恨、色情等意味的內容;其次是數據外泄行為,模型濫用訓練時給到的數據庫,包括私人的身份信息;再次是聯系信息的濫用,模型會發送無意義的電子郵件或通過電話打擾到其他真實用戶;然后是群體認知偏差,即在輸出的文本內容中包含對某些人群不公正的偏見類言論;最后,模型還會在與用戶對話時,作出有攻擊性等不良意味的回復。

在明確哪些行為會給用戶造成傷害后,如何去修復這些行為就不是難事了,DeepMind 主要采取了以下幾種方式:

例如,通過禁止語言模型使用在不良內容中高頻率出現的詞組,來盡量避免模型輸出有害文本;在迭代階段,篩選并刪除語言模型在訓練時使用過的攻擊性對話數據;強化語言模型的意識,訓練時嵌入特定類型輸入所需的行為案例;在標準測試中對模型進行最初輸出文本的訓練,最大化避免輸出有害文本的情況。

總的來說,基于語言模型的“紅隊”是一種具有發展前景的工具,可以發現語言模型何時在以各種不良方式運行,應該與其他許多用于發現并緩解語言模型中危害的技術工具一起使用。

值得一提的是,DeepMind 的這項研究還可用于先發制人地發現來自高級機器學習系統的其他假設危害,如由內部失調或客觀穩健性失效而引發的故障。

圖 | Gopher 模型進行對話交互(來源:DeepMind)

前不久,DeepMind 對外公布了具有 2800 億參數的全新語言模型 Gopher,其在參數量上超越了 OpenAI 的 GPT-3。

在性能方面,研究人員測試了 152 個任務后得出,Gopher 在絕大多數的任務中遠勝 SOTA 模型,特別是在需使用大量知識來應對的方面。

這些成就為 DeepMind 未來的語言研究奠定了基礎,進一步推動了其解決智能問題以推進科學并造福人類的使命實現。

關鍵詞: 語言模型 修復其有害行為 影響用戶 新型工具

相關閱讀
分享到:
版權和免責申明

凡注有"環球傳媒網"或電頭為"環球傳媒網"的稿件,均為環球傳媒網獨家版權所有,未經許可不得轉載或鏡像;授權轉載必須注明來源為"環球傳媒網",并保留"環球傳媒網"的電頭。

Copyright ? 1999-2017 cqtimes.cn All Rights Reserved 環球傳媒網-重新發現生活版權所有 聯系郵箱:8553 591@qq.com
主站蜘蛛池模板: 广东泵阀展|阀门展-广东国际泵管阀展览会 | 剪刃_纵剪机刀片_分条机刀片-南京雷德机械有限公司 | 北京银联移动POS机办理_收银POS机_智能pos机_刷卡机_收银系统_个人POS机-谷骐科技【官网】 | 洛阳网站建设_洛阳网站优化_网站建设平台_洛阳香河网络科技有限公司 | 碳化硅,氮化硅,冰晶石,绢云母,氟化铝,白刚玉,棕刚玉,石墨,铝粉,铁粉,金属硅粉,金属铝粉,氧化铝粉,硅微粉,蓝晶石,红柱石,莫来石,粉煤灰,三聚磷酸钠,六偏磷酸钠,硫酸镁-皓泉新材料 | 全自动端子机|刺破式端子压接机|全自动双头沾锡机|全自动插胶壳端子机-东莞市傅氏兄弟机械设备有限公司 | 车间除尘设备,VOCs废气处理,工业涂装流水线,伸缩式喷漆房,自动喷砂房,沸石转轮浓缩吸附,机器人喷粉线-山东创杰智慧 | 中央空调温控器_风机盘管温控器_智能_液晶_三速开关面板-中央空调温控器厂家 | 全国冰箱|空调|洗衣机|热水器|燃气灶维修服务平台-百修家电 | 洛阳防爆合格证办理-洛阳防爆认证机构-洛阳申请国家防爆合格证-洛阳本安防爆认证代办-洛阳沪南抚防爆电气技术服务有限公司 | 玉米深加工机械,玉米加工设备,玉米加工机械等玉米深加工设备制造商-河南成立粮油机械有限公司 | 北京遮阳网-防尘盖土网-盖土草坪-迷彩网-防尘网生产厂家-京兴科技 | 短信营销平台_短信群发平台_106短信发送平台-河南路尚 | 哲力实业_专注汽车涂料汽车漆研发生产_汽车漆|修补油漆品牌厂家 长沙一级消防工程公司_智能化弱电_机电安装_亮化工程专业施工承包_湖南公共安全工程有限公司 | 阴离子聚丙烯酰胺价格_PAM_高分子聚丙烯酰胺厂家-河南泰航净水材料有限公司 | 高铝矾土熟料_细粉_骨料_消失模_铸造用铝矾土_铝酸钙粉—嵩峰厂家 | 武汉天安盾电子设备有限公司 - 安盾安检,武汉安检门,武汉安检机,武汉金属探测器,武汉测温安检门,武汉X光行李安检机,武汉防爆罐,武汉车底安全检查,武汉液体探测仪,武汉安检防爆设备 | 扒渣机厂家_扒渣机价格_矿用扒渣机_铣挖机_撬毛台车_襄阳永力通扒渣机公司 | 818手游网_提供当下热门APP手游_最新手机游戏下载 | 武汉高温老化房,恒温恒湿试验箱,冷热冲击试验箱-武汉安德信检测设备有限公司 | 知网论文检测系统入口_论文查重免费查重_中国知网论文查询_学术不端检测系统 | 小港信息港-鹤壁信息港 鹤壁老百姓便民生活信息网站 | 安规电容|薄膜电容|陶瓷电容|智旭JEC安规电容厂家 | 辐射色度计-字符亮度测试-反射式膜厚仪-苏州瑞格谱光电科技有限公司 | 设计圈 - 让设计更有价值!| 聚氨酯保温钢管_聚氨酯直埋保温管道_聚氨酯发泡保温管厂家-沧州万荣防腐保温管道有限公司 | 早报网| 深圳APP开发公司_软件APP定制开发/外包制作-红匣子科技 | 水环真空泵厂家,2bv真空泵,2be真空泵-淄博真空设备厂 | 路面机械厂家 | 隆众资讯-首页_大宗商品资讯_价格走势_市场行情 | 药品冷藏箱厂家_低温冰箱_洁净工作台-济南欧莱博电子商务有限公司官网 | 防渗土工膜|污水处理防渗膜|垃圾填埋场防渗膜-泰安佳路通工程材料有限公司 | 盛源真空泵|空压机-浙江盛源空压机制造有限公司-【盛源官网】 | 天津电机维修|水泵维修-天津晟佳机电设备有限公司 | 排烟防火阀-消防排烟风机-正压送风口-厂家-价格-哪家好-德州鑫港旺通风设备有限公司 | 硬齿面减速机[型号全],ZQ减速机-淄博久增机械 | 圣才学习网-考研考证学习平台,提供万种考研考证电子书、题库、视频课程等考试资料 | 电主轴-高速精密电主轴-高速电机厂家-瑞德沃斯品牌有限公司 | 玄米影院| 全自动包装秤_全自动上袋机_全自动套袋机_高位码垛机_全自动包装码垛系统生产线-三维汉界机器(山东)股份有限公司 |