如何让AI“识破”AI？这项研究给出答案

发布时间：2025-08-25 11:51 文章来源：中新网点击量：5587

随着大模型逐渐变成学习、工作中不可或缺的生产力工具，其伴生的问题也日益凸显。AI经常会“一本正经地胡说八道”，生成看似合理的虚假信息；一些人利用AI工具代写作业甚至毕业论文，极大冲击着学术诚信和规范；AI生成内容的流畅性和逻辑性越来越强，人类识别困难，但论文AI率检测系统有待完善，论文被误判的问题时有发生……如何精准识别AI生成内容，成为亟待解决的问题。
-->

南开大学计算机学院媒体计算实验室近日取得的一项研究成果，或为解决这些难题提供可行方案。该成果创新性地提出直接差异学习优化策略，教会AI用“火眼金睛”辨别人机不同，实现AI检测性能的巨大突破。相关成果论文已被ACM MM 2025(第33届ACM国际多媒体会议)接收。

目前AI生成内容检测主要有两种路线。一种是基于训练的检测方法，使用特定数据训练一个专用的分类模型；另一种是零样本检测方法，直接使用一个预训练的语言模型并设计某种分类标准进行分类。多项研究表明，现有检测方法在应对复杂的现实场景时面临困境。

为何现有的AI检测工具会“误判”？“如果把AI文本检测看作一场考试，那么现有检测方法就好比机械刷题、死记硬背答案的固定套路，难以学会答题逻辑，一旦遇到全新难题，准确率就会显著下降。”论文第一作者、南开大学计算机学院计算机科学卓越班2023级本科生付嘉晨解释道，“要想实现通用检测，理论上需收集所有大模型的数据进行训练，但这在大模型迭代飞速的今天几乎不可能。”

让检测器学会“举一反三”，提升其泛化性能，是增强AI文本检测能力的关键。为此，研究团队另辟蹊径，提出DDL方法，通过直接优化模型预测的文本条件概率差异与人为设定的目标值之间的差距，帮助模型学习AI文本检测的内在知识。这种方法可精准捕捉人机文本间的深层语义差异，从而大幅提升检测器的泛化能力与鲁棒性。

“使用DDL训练得到的检测器如同有了‘火眼金睛’，即便只‘学习’过DeepSeek-R1的文本，也能精准识别像GPT-5这样最新大模型生成的内容。”付嘉晨说。

团队还提出了一个全面的测试基准数据集MIRAGE，该数据集使用13种主流的商用大模型以及4种先进的开源大模型，生成了接近10万条“人类—AI”文本对。

“MIRAGE是目前唯一聚焦商用大语言模型检测的基准数据集。如果说之前的基准数据集是由少且能力简单的大模型命题出卷，那么MIRAGE则是由17个能力强大的大模型联合命题，形成一套高难度、又有代表性的检测试卷。”论文通讯作者、南开大学计算机学院副教授郭春乐说。

在MIRAGE的测试结果显示，现有检测器的准确率从在简单数据集上的90%骤降至约60%；而使用DDL训练的检测器仍保持85%以上的准确率。与斯坦福大学提出的AI生成文本检测工具DetectGPT相比，使用DDL方法训练的检测器性能提升71.62%；与马里兰大学、卡内基梅隆大学等共同提出的AI生成文本检测方法Binoculars相比，性能提升68.03%。

“AIGC发展日新月异，我们将持续迭代升级评估基准和技术，致力于实现更快、更准、更低成本的AI生成文本检测。”研究团队负责人、南开大学计算机学院教授李重仪说。

免责声明：此文内容为本网站转载企业宣传资讯，仅代表作者个人观点，与本网无关。仅供读者参考，并请自行核实相关内容。