2024年AI测试技术与工具发展综述
创始人
2025-03-01 10:25:22
0

2024年,伴随大语言模型(LLM)的强势崛起,AI测试技术正进入加速度发展的新阶段。除了代码自动修复、测试用例生成等成熟功能外,研究者们对测试工作全生命周期的深度改造开启了新的篇章。之前,本公众号也发表了相关文章:

一、LLM在软件测试上应用进展

总体上看,大模型已不再只是“锦上添花”的辅助工具,而正在演变为软件测试团队的“成员”:能够理解需求与上下文生成测试用例、测试脚本,提出测试方案并尝试解决测试过程的多种疑难问题等。这一趋势主要体现在:

  • 单元测试用例生成:大模型能够合理理解代码的语义与上下文,针对Corner Case给出更全面的用例。

  • 模糊测试:Fuzz4All、ChatFuzz等框架将LLM与传统模糊测试技术结合,可针对更复杂的输入模式进行针对性探测。

  • 测试预言(Oracle)生成:部分任务采用LLM进行预言推导,或结合蜕变测试原理(Metamorphic Testing)辅助断言的判定

  • 以智能体为核心的全栈智能测试框架,包括 知识库建设和知识检索

  • 基于多模态大模型的用户界面交互和测试,而且应用到智能体;

  • 支持从系统级测试输入、缺陷修复、测试报告生成的全流程自动化。

  • 部分企业已探索在人机协同模式下,实现测试用例自生成、自执行、自修复的闭环。

下面给出一些真实案例,帮助你更好地理解上面的内容。

1)以智能体为核心的全栈智能测试框架(百度资深测试工程师王哲在2024年AiDD峰会深圳站的)通过 AI Agents 深度参与测试流程,利用大模型提升测试效率与覆盖率,推动测试流程的智能化和自动化。除了通常意义的数据存储和检索层、标准工具层(如知识问答、脚本提交、API检索等)之外,还有和AI密切相关的基础能力层、知识管理层和智能体应用层。

  • 知识管理层:是测试智能化的核心支柱,提供知识的构建、存储、更新,以及搜索功能。先完成全局知识和项目特地需求知识的构建和同步更新,再通过统的API服务提供不同资源(如文档、代码、API等)的知识检索

  • 基础能力层:是为 Agent 提供支撑的能力模块,如利用大模型生成基于需求文档的思维导图、优化或细化测试用例文字和风格等,旨在满足测试用例生成、优化、以及用户需求挖掘等基础需求。这些功能通过强化文档解析能力和用例生成的智能化程度,进一步降 降低了人工干预的必要性。

  • 用例设计 Agent:实现了从需求文档到测试用例的端到端生成,并优化了生成用例的规范性和风格,满足了业务线的实际需求。

  • 接口测试 Agent实现了接口测试任务的全流程自动化,涵盖用例生成、合并、执行和修复,并提供了灵活的模块化设计,支持业务场景的自定义扩展。

  • WEB UI 测试 Agent通过智能化元素定位和自动化测试代码生成,显著降低了 WEB UI 测试的编写和维护成本。引入自动修复能力,解决了传统录制回放方案中维护成本高的问题。

(来源:https://www.aidd.vip/dhrc-sz2024)

2)基于多模态大模型的用户界面交互和测试(中科院软件所研究员王俊杰老师在2024年AiDD峰会北京站的分享):通过视觉驱动的测试方法,VisionDroid 能够有效覆盖更多的应用功能,并检测出传统方法难以发现的复杂逻辑缺陷,其中:

  • 视觉与文本对齐模块:显著提升了MLLM对GUI页面的理解能力,使活动覆盖率提高39%,代码覆盖率提高57%。

  • 功能感知探索模块:通过记录测试历史和规划探索路径,提升了测试的深度和广度,包括两个智能体 Explorer agent、Monitor agent。

  • 逻辑感知缺陷检测模块:通过逻辑驱动的序列分割算法,检测到更多跨页面的功能性缺陷,包括 Detector Agent。

  • 上下文学习与示例检索:提供类似缺陷示例后,缺陷检测的精确率和召回率分别提升262%和256%。

(来源:https://www.aidd.vip/dhrc-bj2024)

3)从系统级测试输入到测试脚本输出的全过程的智能化来自 中兴通讯有线研究院测试域AI应用负责人刘鑫在2024年AiDD峰会北京站的分享) :展示了端到端AI解决方案,如下图所示:

  1. 以需求为源头,基于需求实例化活动的产出为输入,通过GWT(Given-When-Then)生成测试点进行复用用例检索,降低冗余用例的产生;

  2. 同时结合要素因子和测试环境推荐生成文本用例;

背后依赖大模型和知识工程建设,知识库包括要素因子库、环境模型库、测试用例库、DSL库、关键字库。 并通过规则检索和问答增强,提升对需求的理解和用例生成的准确性。构建统一检索服务,打通全局知识与需求级知识,支持测试场景中的智能问答和用例生成。

(来源:https://www.aidd.vip/dhrc-bj2024)

二、2024年新的或有更新的智能测试工具

1. Tester.ai是一个专注于自动化和智能化测试的工具平台,结合了多位专家的专业知识和 AI 技术,构建不同的智能体(如Automation Engineer、Testing Specialist、Accessibility Specialist、API Testing Expert、Bug Hunter等等),提供全面的测试功能,涵盖多个关键领域。在2024年,非常具有代表性,放在第一位置,当之无愧。

2. Diffblue Cover 2024基于强化学习的单元测试生成,Java用例覆盖率显著提高。最新版本开始支持Python、Go语言。

3. 其他功能测试的AI工具

  • Accelq:借助 AI 实现测试用例创建、执行和维护的自动化,测试脚本可根据应用程序变化自动调整,其 NLP 功能方便测试人员用普通英语创建测试场景。

  • Applitools Ultrafast集成计算机视觉的UI自动化测试工具,可跨平台检测细微UI差异。国内移动场景中也开始探索结合OCR与深度学习的视觉测试方案(如百度MTC的AutoCrash)。 这款工具算是比较经典的AI测试工具,2018年(6-7年前)就介绍了这款工具:。3年以后(即2021年)又回顾了这款工具: 。看起来没有明显进步,本想删掉它,算了,暂时保留着。

  • Mabl:能依据应用程序变化自动调整测试脚本,聚焦关键功能进行预测性测试,根据测试结果给出可行建议,减轻了测试维护工作量。 这款工具也比较经典,6-7年前也做了介绍,见:

(也号称世界第一的AI-native测试自动化工具

  • Katalon Studio:作为综合性测试自动化平台,支持多种测试类型,提供低代码和脚本两种操作模式,其 AI 助力测试用例生成,智能等待功能使测试更稳定可靠。

  • Roost.ai:借助生成式 AI 和 LLM,如 Vertex AI、GPT-4 等,将源代码、用户故事等转化为测试用例,实现 100% 测试覆盖率,能快速适应代码变化自动更新测试库。

  • 后面会加强对它的研究。

(这是第3个号称世界第一的AIGC测试自动化工具

  • Testsigma:基于自然语言处理实现低代码测试开发,基于云平台,支持多种类型软件的测试自动化,具备智能直观和自动修复功能,可与常见的 CI/CD 工具无缝集成。

(10倍效能提升不是梦!)

4. Fuzz4All、ChatFuzz:基于LLM的模糊测试框架,可自动生成更广谱的无效或异常测试输入,用于编译器、深度学习库、移动应用等领域。比起传统随机或进化式模糊测试,融合大模型的方案能更好理解上下文与潜在边界。

5. 漏洞修复建议 Snyk (DeepCode) 通过海量漏洞知识库与语义分析,对代码中的潜在问题进行预测并给出自动修复建议。应用范围涵盖15+编程语言,计划2024年强化AI推理能力。

6.代码缺陷预测CodeScene Pro结合代码变更历史和热点分布,预测缺陷高发模块精度可达92%。实际研究表明,引入大模型后能进一步缩小预测范围,减少人工评估负担。

7. AI性能测试工具

  • LoadRunner AI 2.0新增AI负载模型自动生成能力,可模拟真实用户行为与复杂业务场景。结合时序数据分析,提高了异常检测的实时性。

  • Gatling Neuro:采用神经网络预测性能瓶颈,提前15分钟发出告警。与传统脚本驱动压力测试相比,对于高并发微服务的适配性更强。

  • 阿里云PTS:借助通义大模型,自动生成高并发测试脚本,支持在真实流量基础上做智能变异。双11核心场景的实时压测能力成为一大亮点。

三、未来机遇与趋势展望

1. 朝测试前期任务延伸:大模型对自然语言需求文档的理解能力,为需求分析和测试计划自动化奠定了基础。未来或将出现:

  • 需求文档→自动生成测试大纲

  • 需求变化→自动更新测试矩阵

  • 设计模型→自动产出初步测试用例

2. 多模态大模型赋能新场景GPT-4o等具备图像处理能力的大模型,可在移动端UI、VR/AR、人机交互界面等测试场景大显身手。如:

  • 视觉差异自动检测

  • UI缺陷定位与可用性分析

  • 结合图像输入的复杂场景模拟

3. 适配更多软件类型和测试需求当前研究已扩展到移动应用、自动驾驶系统、深度学习库、信息物理系统等不同领域。未来还可继续探索:

  • 物联网设备固件测试、边缘计算场景

  • 大型分布式系统的可用性和性能测试

  • 敏捷与DevOps场景下持续自动化测试

4. 与提示工程和传统测试技术深度结合在LLM之上的提示工程可让模型理解更复杂的测试指令,并用对话式方式动态调整测试策略;而与蜕变测试、差分测试、静态分析等传统技术的结合,也能进一步提升测试覆盖率与缺陷发现率。

总的来说,在软件测试各项关键任务(测试用例生成、模糊测试、缺陷修复、缺陷定位、性能测试等)中,AI已展现出前所未有的潜力。虽然仍存在数据泄漏、覆盖率不足、评估不完善等挑战,但随着多模态大模型的到来,软件测试正迎来新一轮范式革新。相信随着工业界和学术界的通力合作,2024年之后的几年内,AI测试领域会继续向更高水平迭代,为软件质量与开发效率带来革命性提升。

相关内容

清华率先开源AI制药智能体...
LG 衡宇 发自 凹非寺 量子位 | 公众号 QbitAI AI智...
2025-03-14 08:40:41
AI产业热潮不减
【深圳商报讯】(首席记者 谢惠茜)虽然算力以及人工智能板块迎来回调...
2025-03-14 08:13:13
警惕“AI推荐”沦为忽悠消...
杨玉龙 “DeepSeek,请推荐一款今年的中端手机。”“Kimi...
2025-03-14 08:12:16
如何应对被AI造谣的无妄之...
胡宇齐 近期,天坛“网红”徐大爷因被AI造谣而苦不堪言。有人盗用此...
2025-03-14 06:11:31
Manus爆火,AI手机的...
21世纪经济报道记者 欧雪 深圳报道 近日,AI初创公司蝴蝶效应推...
2025-03-13 20:10:28
AI+短剧:不完美是情感的...
2025 年,可能是短剧脱胎换骨的一年。一方面是,短剧行业遇到一定...
2025-03-13 17:11:23

热门资讯

原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
支持 AI 扩图,华为 Pur... 2024-07-28 09:05:02作者:姚立伟 华为Pura 70 Pro手机今日推出鸿蒙Ha...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
吞噬星空维妮娜美图/高清壁纸/... 国漫女神|《吞噬星空》维妮娜美图/高清壁纸/AI手机壁纸/无水印 国漫女神|《吞噬星空》维妮娜美图...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 商... 最近,各家的AI 9笔记本开始陆续登场,其实大家并不一定非选AI 9 HX 370,主要是这颗CPU...
AI智能+高效清洁!萤石RS2... 目前扫拖机器人市场的竞争非常激烈,在上下水扫拖一体机市场也出现了很多所谓的创新产品。但是对于这些产品...
2024年度中国银行业发展报告... 21世纪经济报道 记者李愿 北京报道 10月19日,中国银行业协会在2024金融街论坛年会·金融街之...