? 中新网天津8月14日电(记者 孙玲玲)记者13日从南开大学获悉,克日,南开大学盘算机学院媒体盘算实验室取得最新研究效果,不但从评估的角度展现了现有AI检测要领的性能缺乏,并立异性地提出了“直接差别学习”(Direct Discrepancy Learning,DDL)优化战略,教会AI用“火眼金睛”区分人机差别,实现AI检测性能的重大突破。相关效果论文已被盘算机多媒体领域国际顶级聚会ACM MM2025(ACM International Conference on Multimedia)吸收。 克日,OpenAI宣布新一代人工智能模子GPT-5,再次引发全球关注。随着DeepSeek、ChatGPT、通义千问、豆包等AIGC大模子逐渐从“新颖玩具”酿成学习、事情中不可或缺的“生产力工具”,其伴生问题也日益凸显:AI经;帷耙槐菊芈宜蛋说馈,天生看似合理的虚伪信息,造成“AI幻觉”;依赖AI工具代写作业甚至结业论文,极大攻击着学术诚信和规范;论文AI率检测系统有待完善,论文被误判的问题时有爆发……怎样精准识别AI天生内容,成为亟待解决的热门问题。 据相识,现在AI天生内容检测主要有两种蹊径,一种是“基于训练的检测要领”,使用特定命据训练一个专用的分类模子;另一种是“零样本检测要领”,直接使用一个预训练的语言模子并设计某种分类标准举行分类。 多项研究批注,现有检测要领在应对重大的现实场景时常显缺乏。此前也曾有权威媒体报道,《荷塘月色》《流离地球》等经典作品被某常用论文AI率检测系统检出高AI率。 为何现有的AI检测工具会“误判”?论文第一作者、南开大学盘算机学院盘算机科学卓越班2023级本科生付嘉晨诠释道:“若是把AI文本检测比作一场考试,检测器的训练数据等同于一样平常训练题,现有检测要领是机械刷题、死记硬背答题的牢靠套路,难以学会答题逻辑,一旦遇到全新难题,准确率就会显著下降。” “要想实现通用检测,理论上需网络所有大模子的数据举行训练,但在大模子迭代飞速的今天险些不可能。”付嘉晨说,让检测器真正学会闻一知十,即提升检测器的泛化性能,是提升AI文本检测性能的要害。 为此,研究团队提出了DDL要领另辟蹊径,通过直接优化模子展望的文本条件概率差别与人为设定的目的值之间的差别,资助模子学习AI文本检测的内在知识,可以精准捕获人机文本间的深层语义差别,从而大幅提升检测器的泛化能力与鲁棒性。 “使用DDL训练获得的检测器犹若有了‘火眼金睛’,即便只‘学习’过DeepSeek-R1的文本,也能精准识别像GPT-5这样最新大模子天生的内容。”付嘉晨说。 团队还提出了一个周全的测试基准数据集MIRAGE,使用13种主流的商用大模子(如豆包、DeepSeek、Kimi等)以及4种先进的开源大模子(如Qwen等),从AI天生、润色、重写三个角度结构了靠近十万条人类-AI文本对。 “MIRAGE是现在唯一聚焦于对商用大语言模子检测的基准数据集。直观地说,之前的基准数据集是由少并且能力简朴的大模子命题出卷,而MIRAGE是17个能力强盛的大模子联合命题,形成一套高难度、又有代表性的检测试卷。”论文通讯作者、南开大学盘算机学院副教授郭春乐说。 在MIRAGE的测试效果显示,现有检测器的准确率从在简朴数据集上的90%骤降至约60%;而使用DDL训练的检测器仍坚持85%以上的准确率。与斯坦福大学提出的DetectGPT相比,性能相对提升71.62%;与马里兰大学、卡内基梅隆大学等配合提出的Binoculars要领相比,性能相对提升68.03%。 “AIGC生长日新月异,我们将一连迭代升级评估基准和手艺,致力于实现更快、更准、更低本钱的AI天生文本检测,以AI之力,让每一篇效果更出彩。”研究团队认真人、南开大学盘算机学院教授李重仪说。(完)