【希贤大讲堂】孙伟平：生成式人工智能价值观对齐的理论与实践

发布者：姚春平发布时间：2025-06-18

（通讯员：杨诗涵摄影：祝婧瑞）6月17日下午，中国社会科学院马克思主义学院教授、博士生导师孙伟平教授受邀来到我院，进行了一场主题为“生成式人工智能价值观对齐的理论与实践”的精彩讲座。讲座由王雨辰院长主持，学院部分研究生和博士生参加了此次会议。

讲座伊始，孙伟平教授先结合当今生成式人工智能（大模型）飞速发展的时代背景，提出了一个关键问题：这些大模型的价值观是否与人类社会的基本价值观相一致？孙教授深入探讨了这一问题，围绕大模型在价值观对齐方面的必要性、风险来源、对齐策略以及当前面临的困难展开。孙教授指出，大模型的广泛应用使其输出内容是否符合政策、法律、社会道德和公序良俗变得尤为重要。

在探讨大模型价值观风险的来源时，孙教授称，这些风险可能来自多个方面。首先是宗教信仰方面，大模型可能因输出内容与宗教价值观冲突而引发问题。其次是政治与意识形态方面，不同国家和地区有各自的政治正确和意识形态要求，大模型需要符合当地规定。此外，政策与法律、道德与公序良俗等也是大模型需要对齐的重要方面。

那么，如何实现大模型的价值观对齐呢？孙教授提出了两种主要策略：内部对齐和外部对齐。内部对齐是指通过深度学习算法和大量标注数据，让大模型自我学习和提升价值观；外部对齐则是通过设计各种问题情景，测试大模型的价值观表现，并进行矫正。然而，大模型价值观对齐并非易事。

孙教授指出，当前面临诸多困难和挑战。首先是价值观的多元化。人类价值观本身多元化，缺乏共识，难以确定对齐目标。其次，价值观的形成与变化规律不明。人类价值观的形成和变化难以总结规律，难以教会机器。此外，价值观的模糊性与难以量化、多模态内容的价值观识别困难、大模型的引导能力不足以及全面对齐的难度等都是当前亟待解决的问题。

尽管如此，孙教授对大模型价值观对齐的未来充满信心。他指出，目前大模型的价值观对齐工作刚刚起步，类似于教育婴幼儿，需要逐步引导。未来需要跨学科合作，包括人文科学和工程技术领域的共同努力，以实现大模型的价值观对齐。

这场讲座为我们提供了一个全新的视角，让我们认识到生成式人工智能价值观对齐的重要性和紧迫性。在享受大模型带来的便利的同时，我们也要警惕其可能带来的风险。通过内部学习和外部测试相结合的方式，逐步实现价值观对齐，是当前我们能够采取的有效策略。同时，跨学科合作的必要性也愈发凸显。只有这样，我们才能确保大模型在未来的应用中更好地服务于人类社会，真正成为人类的得力助手。最后陈食霖教授进行总结发言，讲座在一片掌声中圆满结束。

【希贤大讲堂】孙伟平：生成式人工智能价值观对齐的理论与实践

科学研究