上海计算机软件技术开发中心主任蔡立志:AI要避免数据投毒(上海市计算机软件技术开发中心)
11月9日,长三角一体化数字文明共建共享——数字长三角发展大会在浙江嘉兴举行。本次大会是2023年世界互联网大会乌镇峰会的3个永久举办地特色活动之一,主题为“共建数字长三角新格局 共创数字文明新生态”。
在大会上,上海计算机软件技术开发中心主任蔡立志就“迈向人工智能时代——打造共建共享共治的数字长三角”这一话题,通过“乌镇对话”高峰论坛分享了其观点,“人工智能除了在实体经济里去延伸和拓展外,还可以用于自动设计芯片,人工智能的发展会影响到我们生活的方方面面”。
在接受南都记者采访时蔡立志表示,人工智能带来的风险包括数据泄露、个人隐私、数据滥用等。除此之外,大模型本身也会带来巨大的风险,“人工智能如果要有生命力,必须是开放的、不断学习的,如果是封闭的,它就不会演化。开放就带来一个问题,学习的资料要不断进来。有个词语叫‘数据投毒’,用好的数据训练AI,它就变成一个好学生,用一个糟糕的数据训练,它就会变成一个坏学生,其伦理道德各方面都会被改变。”
“乌镇对话”高峰论坛。
对于企业在使用大模型时应如何规避风险,蔡立志认为,要么就不拿数据去训练,要么就数据脱敏后再训练,“但问题是数据处理以后有可能让数据本身蕴含的规律和信息也丢失掉了。所以保护隐私和数据价值的挖掘永远存在矛盾,功能的应用性便利性和它的安全性永远是一对矛盾体,这个没有办法解决。但无论在什么样的阶段,都不能只兼顾一头而放弃另外一头。所以我们国家现在出来了很多法律法规,一方面你提供数据的时候需要注重隐私,另一方面在训练大模型的厂家应该遵循一定的伦理道德和社会约束。”
蔡立志还提到,随着人工智能的发展,也有可能让原本的数据脱敏技术无效,“以前脱敏是给名字中间打上星号,中间若干个字段给它去掉一个字段。现在这种脱敏技术在大模型面前化为乌有。大模型一计算,你在这个地方错了,在另外一个地方没错,很容易把脱敏的数据还原好。这种数据隐私泄露的表现形式,是传统的信息安全领域里,根本顾及不到的,到目前为止还没有特别好的办法来解决这个问题。”
蔡立志告诉南都记者,今年上海计算机软件技术开发中心还推进建成了上海市生成式人工智能质量检验检测中心(质检中心),“以前做检测就是先有标准再做落地。现在不行了,新的技术、新的东西我们必须是先探索、先做检测,然后再去完善标准。”
采写:南都记者 汪陈晨 发自乌镇