2026年,全球发生多起AI安全恶性事件:谷歌聊天机器人被诉诱导用户自杀,ChatGPT则被用于策划大规模枪击案。AI安全事件频发,监管已刻不容缓。
政策先行:七部门联合构建AI“安全阀”
2026年,五部门明确禁止向未成年人提供虚拟伴侣服务,严禁生成诱导自残、自杀的内容。
2025年,《人工智能生成合成内容标识办法》要求AI内容必须添加显式和隐式标识。
2023年,国家网信办等七部门发布《生成式人工智能服务管理暂行办法》,确立发展和安全并重原则,实行安全评估、算法备案。
政策划了红线,应如何执行?目前国家正在逐步落实AI相关大模型的第三方软件检测规则。
AI“体检”到底查什么?两类检测关
第一类:模型算法层检测
这是针对AI模型本身的“体检”,主要解决三个问题:
数据安全:训练语料来源是否合法、是否含违法信息、标注质量是否达标,防止AI“学坏”。
内容安全:一般会模拟近万种风险场景,从政治敏感、暴力恐怖等31个维度测试AI是否会生成假新闻、诈骗话术、侵犯隐私等内容。
模型安全:检测模型是否存在后门、能否抵御对抗攻击、是否泄露隐私、是否存在偏见等。
这类检测通常由算法备案方或专业AI安全实验室完成,是AI获得备案的前置条件。
第二类:系统与应用层检测
AI模型再聪明,如果调用它的系统存在漏洞,整个应用依然不堪一击。这类检测聚焦于AI落地的“最后一公里”,具体包括:
代码审计:对AI系统的源代码进行安全审查,查找编码缺陷和逻辑漏洞,从根源上减少风险。
漏洞扫描:利用自动化工具扫描系统组件、第三方库、容器镜像等,识别已知高危漏洞,并给出修复建议。
渗透测试:模拟真实攻击者的思路,对AI应用及其服务器、数据库、API接口进行渗透,验证防御能力和应急响应水平。
系统性能测试:评估AI服务在高并发下的响应时间、吞吐量、资源占用率等指标,确保系统“跑得稳、扛得住”,同时针对分类、回归等任务验证准确性、精确率、召回率等核心指标。
从“告知承诺”到“实测验证”
随着监管不断完善,AI安全的评估模式正在从企业自评转向第三方实测验证。截至目前,我国已完成近800款生成式AI服务备案,每一款背后都至少经过一轮完整的安全检测。这不仅是一项政策制度的创设,更是一场涉及模型算法、系统应用全链条的技术检测革命。
网新检测:中国合格评定国家认可委员会(CNAS)认可机构,拥有中国国家认证认可监督管理委员会计量认可证书(CMA),依托浙大网新深厚的技术底蕴和丰富的测试经验,致力于为客户提供高质量的软件评测服务。