中国科学院信息工程研究所虎嵩林：“攻、检、防”循环推动大模型安全加固

4月26日，在2024中关村(cūn)论坛年会——数据安全治理与发展论坛上(shàng)，中国科(kē)学院信工(gōng)所研究员虎嵩林接受包括证券时报(bào)记者(zhě)在内(nèi)的媒体采访时指出，促使大模型遵(zūn)循(xún)人类价值(zhí)观、服(fú)从人类意图，规避各类风险(xiǎn)，并保障数字和物理空(kōng)间的应用安全，实现有用性、无害性和诚实性多目标的平(píng)衡，已经成为亟待解决(jué)的世界难题。需要在现有的(de)技(jì)术条件下持续探索，通过(guò)“攻、检、防”，不断发(fā)现漏洞、自动识别并进行持续化的安全加固，形成一个(gè)循环(huán)发展的飞(fēi)轮。

（中(zhōng)国(guó)科学院信工所研究员虎嵩(sōng)林郭博昊/摄）

当前，大模型正在成为驱动新质生产力发展的新动能、人类探索未知的新工具。“大模(mó)型(xíng)不仅可以对话和生成视频、还可以调用工具、链接物理设备、并通过(guò)与机器(qì)人结(jié)合(hé)实现(xiàn)具身智能。大模型本(běn)身也(yě)正在从人类可利用的(de)工具客体向认识、改造自然(rán)社会的主体转变。成为数学定理证(zhèng)明、科学(xué)研究的合作者，成为这样的初中生活的独立(lì)运(yùn)营(yíng)企业(yè)的(de)法律(lǜ)主体。”虎嵩林指出。

在赋能新时代发展的同时，生成式人工智能也给(gěi)全球带来了前所未有的安全风险。比(bǐ)如，数(shù)据方面，数据会带(dài)来价值偏见、隐私泄露、数据污染等问题：训(xùn)练数据固(gù)有偏见导致模型(xíng)产生偏见内(nèi)容；海量(liàng)训练数据扩大(dà)了数据安全和隐私(sī)保护风险。算法方(fāng)面，算法模型(xíng)生(shēng)成特性及安全漏(lòu)洞会引发“幻觉”或虚(xū)假信息、模型遭受攻击(jī)等风险。

虎嵩林表示，大模型能力的(de)通用性、潜在的(de)主体(tǐ)地位(wèi)以及应用的深度与广度，也(yě)都将进一步放大(dà)其(qí)危害程度。包括两位(wèi)图灵奖得主Hinton、Bengio和谷歌这样的初中生活的DeepMind和OpenAI的CEO在内的产学两界领军人物(wù)联名发出的AI风险声明中，更将AI可能带来的这样的初中生活的“毁灭性”的风险，上(shàng)升到了与流行病以及核战争相提并论的高度(dù)。

2023年(nián)底(dǐ)《自然》杂志预测的2024年的重大科学事件中，GPT5的发布以及联合国人工智能高级(jí)别咨(zī)询机构将发布的AI监(jiān)管相关报告(gào)位列其中，反(fǎn)映了全球对协调人工智能发展与安全(quán)的重大关切。

“毫无疑问，促使大模型(xíng)遵循人类价值观、服从人类意图，规避各类(lèi)风险，并保障数字和物理空间的应用安全，实现有用性、无害性和诚实性(xìng)多目标的(de)平衡，已经成为亟待解决(jué)的世界难题。”虎嵩林表(biǎo)示。

“大模型的安全风险主(zhǔ)要体现在无害性（Harmless）和诚实性（Honest）两个方面。”虎嵩林表示，其中，有害(hài)信(xìn)息对(duì)应前(qián)者，包括价值偏见，隐私泄露，还有(yǒu)黄赌(dǔ)毒、涉恐涉暴、仇恨、反讽、歧视、刻板印象等等各种信息污染；不实信息对应后者，包括虚假信息、伪造、欺诈内容(róng)等。

更广(guǎng)义地讲，也(yě)包括由(yóu)输出信息(xī)所直接导致的各类不(bù)安全的指令调用、智能体或者具身(shēn)智能机器人(rén)的恶意行为等(děng)。而(ér)算法模型生成特性及安全漏洞会引发“幻觉”，则是一把“双刃剑”，既有可能是导致有害、不实信息的“元凶”，也有可能是科学创新、艺术创意的(de)能力来源。

需要看到，生成式大模型特有(yǒu)的预(yù)训练、微调、上下文、提示(shì)等新的学习(xí)范式，使其(qí)安全具有了与(yǔ)传统AI安全不同的许多新(xīn)特点，面临诸多新挑战，制约了传统安全方法、经验、工具在(zài)大模型安全领域发挥效能。

大模型安全风险的成因既可以是来自各类训练(liàn)数据(jù)的(de)缺陷或(huò)算法的局限性等模型内因，也(yě)可以是利用这些新型学习范(fàn)式的恶意使用或(huò)蓄意攻(gōng)击(jī)等外因。这使得大模型在数据准备、预训练、微调对齐、推理以及应(yīng)用(yòng)阶段都会存在各种潜在的风险。尽(jǐn)管目前我们在安全理论、大模型安全评测、自动化测试、价值观对齐、幻觉(jué)缓解等方面都开展了一系列的研究和应用工(gōng)作，这(zhè)些领(lǐng)域依然充满了挑战。

“当下，从理论上，或者说技术上，大模型安全还有很(hěn)多亟待解(jiě)决的难题。”虎嵩林坦言，我们对大模型“智能涌(yǒng)现”的原理还所知甚少，对上下文学习、提示学习(xí)、思维链等能力的内在机理仍严(yán)重缺乏认知。一些研究工作也证明AI的安全性无法完全保障，对任意一个对齐(qí)模型总存在一(yī)定长度的提示可以将之攻破等，这(zhè)都极大地制约(yuē)我们从原理上认识和防御大模(mó)型的安全风险。

“我们需要(yào)在现有的(de)技术条件下持续探索，这也是我们(men)设(shè)计(jì)‘以(yǐ)攻促防、攻防相长’思路，研制Galexy(星河)大模型安全测评平台的原因，也是举办首届生成式人(rén)工智能安全大赛的初衷。”虎嵩林表示，我(wǒ)们希望通过“攻、检、防”，不断发现漏洞、自动识别并进行持(chí)续(xù)化的安全加固，形成一个循环发展的飞轮。

校对：祝甜婷

未经允许不得转载：绿茶通用站群这样的初中生活的