绿茶通用站群绿茶通用站群

中国科学院信息工程研究所虎 嵩林:“攻、检、防”循环推动大模型安全加固

中国科学院信息工程研究所虎 嵩林:“攻、检、防”循环推动大模型安全加固

4月26日,在2024中关村(cūn)论坛年会——数据安全治理与发展论坛上(shàng),中国科(kē)学院信工(gōng)所研究员虎嵩林接受包括证券时报(bào)记者(zhě)在内(nèi)的媒体采访时指出,促使大模型遵(zūn)循(xún)人类价值(zhí)观、服(fú)从人类意图,规避各类风险(xiǎn),并保障数字和物理空(kōng)间的应用安全,实现有用性、无害性和诚实性多目标的平(píng)衡,已经成为亟 待解决(jué)的世界难题。需要在现有的(de)技(jì)术条件下持续探索,通过(guò)“攻、检、防”,不断发(fā)现漏洞、自动识别并进行持续化的安全加 固,形成一个(gè)循环(huán)发展的飞(fēi)轮。

(中(zhōng)国(guó)科学院信工所研究员虎嵩(sōng)林 郭博昊/摄)

当前,大模型正在成为驱动新质生产力发展的新动能、人 类探索未知的新工具。“大模(mó)型(xíng)不仅可以对话和生成视频、还可以调用工具、链接物理设 备、并通过(guò)与机器(qì)人结(jié)合(hé)实现(xiàn)具身智能。大模型本(běn)身也(yě)正在从人 类可利用的(de)工具客体向认识、改造自然(rán)社会的主体转变。成为数学定理证(zhèng)明、科学(xué)研究的合作者,成为这样的初中生活的独立(lì)运(yùn)营(yíng)企业(yè)的(de)法律(lǜ)主体。”虎嵩林指出。

在赋能新时代发展的同时,生成式人工智能也给(gěi)全 球带来了前所未有的安全风险。比(bǐ)如,数(shù)据方面,数据会带(dài)来价值偏见、隐私泄露、数据污染等问题:训(xùn)练数据固(gù)有偏见导致模型(xíng)产生偏见内(nèi)容;海量(liàng)训练数据扩大(dà)了数据安全和 隐私(sī)保护风险。算法方(fāng)面,算法模型(xíng)生(shēng)成特性及安全漏(lòu)洞会引发“幻觉”或虚(xū)假信息、模型遭受攻击(jī)等风险。

虎嵩林表示,大模型能力的(de)通用性、潜在的(de)主体(tǐ)地位(wèi)以及应用的深度与广度,也(yě)都将进一步放大(dà)其(qí)危害程度。包括两位(wèi)图灵奖得主Hinton、Bengio和谷歌这样的初中生活的DeepMind和OpenAI的CEO在内的产学两界领军人物(wù)联名发出的AI风险声明中,更将AI可能带来的这样的初中生活的“毁灭性”的风险,上(shàng)升到了与流行病以及核战争相提并论的高度(dù)。

2023年(nián)底(dǐ)《自然》杂志预测的2024年的重大科学事 件中,GPT5的发布以及联合国人工智能高级(jí)别咨(zī)询机构将发布的AI监(jiān)管相关报告(gào)位列其中,反(fǎn)映了全球对协调人工智能发展与安全(quán)的重大关切。

“毫无疑问,促使大模型(xíng)遵循人类价值观、服从人类意图,规避各类(lèi)风险,并保障数字和物理空间的 应用安全,实现有用性、无害性和诚实性(xìng)多目标的(de)平衡,已 经成为亟待解决(jué)的世界难题。”虎嵩林表(biǎo)示。

“大模型的安全风险主(zhǔ)要体现在无害性(Harmless)和诚实性(Honest)两个方面。”虎嵩林表示,其中,有害(hài)信(xìn)息对(duì)应前(qián)者,包括价值偏见,隐私泄露,还有(yǒu)黄赌(dǔ)毒、涉恐涉暴、仇恨、反讽、歧视、刻板印象等等各种信息污染;不实信息对应后者,包括虚假信息、伪造、欺诈内容(róng)等。

更广(guǎng)义地讲,也(yě)包括由(yóu)输出信息(xī)所直接导致的各类不(bù)安全的指令调用、智能体或者具身(shēn)智能机器人(rén)的恶意行为等(děng)。而(ér)算法模型生成特性及安全漏洞会引发“幻觉”,则是一把“双刃剑”,既有可能是导致有害、不实信息的“元凶”,也有 可能是科学创新、艺术创意的(de)能力来源。

需要看到,生成式大模型特有(yǒu)的预(yù)训练、微调、上下 文、提示(shì)等新的学习(xí)范式,使其(qí)安全具有了与(yǔ)传统AI安全不同的许多新(xīn)特点,面临诸多新挑战,制约了传统安全方法、经验、工具在(zài)大模型安全领域发挥效能。

大模型安全风险的成因既可以是来自各类训 练(liàn)数据(jù)的(de)缺陷或(huò)算法的局限性等模型内因,也(yě)可以是利用这些新型学习范(fàn)式的恶意使用或(huò)蓄意攻(gōng)击(jī)等外因。这使得大模型在数据准备、预训练、微调对齐、推理以及应(yīng)用(yòng)阶段都会存在各种潜在的风险。尽(jǐn)管目前我们在安全理论、大模型安全评测、自动化测试、价值观对齐、幻觉(jué)缓解等方面都开展了一系列的研究和应用工(gōng)作,这(zhè)些领(lǐng)域依然充 满了挑战。

“当下,从理论上,或者说技术上,大模型安全还有很(hěn)多亟待解(jiě)决的难题。”虎嵩林坦言,我们对大模型“智能涌(yǒng)现”的原理还所知甚少,对上下文学习、提示学习(xí)、思维链等能力的内 在机理仍严(yán)重缺乏认知。一些研究工作也证明AI的安全性无法完全保障,对任意一个对齐(qí)模型总存在一(yī)定长度的提示可以将之攻破等,这(zhè)都极大地制约(yuē)我们从原理上认识和防御大模(mó)型的安全风险。

“我们需 要(yào)在现有的(de)技术 条件下持续探索,这 也是我们(men)设(shè)计(jì)‘以(yǐ)攻促防、攻防相长’思路,研制Galexy(星河)大模型安全测评平台的原因,也是举办首届生成式人(rén)工智能安全大赛的初衷。”虎嵩林表示,我(wǒ)们希望通过“攻、检、防”,不断发现漏洞、自动识别并进行持(chí)续(xù)化的安全加固,形成一个循环发展的飞轮。

校对:祝甜婷

未经允许不得转载:绿茶通用站群 这样的初中生活的

评论

5+2=