基于大语言模型的HTTP/HTTPS网络资产设备类型识别方法
网络安全与数据治理
陈倩怡1,苏马婧1,2,陈紫璇1,2,张永奇1,2,马琰1,2
1.华北计算机系统工程研究所; 2.中国信息安全研究院有限公司
摘要: 针对传统基于静态指纹规则和判别式模型在复杂开放环境下泛化能力不足的现状,提出了一种基于大语言模型指令微调的 HTTP/HTTPS 网络资产设备类型识别方法。通过多源采集与多平台标签聚合的数据收集方案构造原始网络资产数据集,对该数据集进行关键特征优先保留的数据预处理,有效降低冗余噪声对模型输入的影响,然后通过融合HTTP/HTTPS 响应体、响应头、SSL 证书、端口及协议等多源异构特征,构建统一的序列化表示;在此基础上,利用 LoRA 技术对 LLaMA38BInstruct 模型进行参数高效微调,引导模型学习网络资产特征与设备类型之间的语义关联关系。实验结果表明,在包含 38 万条真实网络资产的测试集中,该方法在样本高度不均衡和长尾设备场景下仍能保持稳定性能,Weighted F1score 达到 0959 1,相比未微调模型效果显著提升。同时,模型推理吞吐量提高 6281%,验证了所提方法在大规模网络资产自动识别任务中的有效性与实用性。
中图分类号:TP393文献标志码:ADOI:10.19358/j.issn.2097-1788.2026.05.001
中文引用格式:陈倩怡,苏马婧,陈紫璇,等. 基于大语言模型的HTTP/HTTPS网络资产设备类型识别方法[J].网络安全与数据治理,2026,45(5):1-10.
英文引用格式:Chen Qianyi, Su Majing, Chen Zixuan, et al. Device type identification of HTTP/HTTPS network asset based on large language models[J].Cyber Security and Data Governance,2026,45(5):1-10.
Device type identification of HTTP/HTTPS network asset based on large language models
Chen Qianyi1, Su Majing1,2, Chen Zixuan1,2, Zhang Yongqi1,2, Ma Yan1,2
1.National Computer System Engineering Research Institute of China; 2.China Information Security Research Institute Co., Ltd.
Abstract: To address the limited generalization ability of traditional network asset identification methods based on static fingerprint rules and discriminative models in complex and open environments, this paper proposes an HTTP/HTTPS network asset device type identification method based on instruction fine-tuning of a large language model. A multi-source data collection scheme with multi-platform label aggregation is designed to construct the original network asset dataset. A data preprocessing strategy that prioritizes key feature retention is applied to reduce redundant noise in model inputs. Multiple heterogeneous features, including HTTP/HTTPS response bodies, response headers, SSL certificates, ports, and protocols, are further integrated to construct a unified serialized representation. Based on this representation, the LoRA technique is employed to perform parameter-efficient fine-tuning on the LLaMA.3.8B.Instruct model, enabling the model to learn the semantic associations between network asset characteristics and device types. Experimental results on a test dataset containing 380 000 real-world network assets demonstrate that the proposed method maintains stable performance under highly imbalanced samples and long-tail device scenarios, achieving a Weighted F1.score of 0.959 1, which significantly outperforms the unfine-tuned base model. In addition, the model inference throughput is improved by 62.81%. These results verify the effectiveness and practicality of the proposed method for large-scale automated network asset device identification.
Key words : network asset identification; large language models; instruction tuning; multi-source heterogeneous features

引言

路由器、防火墙、网络摄像头、负载均衡设备等网络设备类资产广泛部署于公共网络和专用网络环境中,承担着网络转发、边界防护、数据采集与控制等关键功能,其安全性和运行状态直接关系到网络空间的整体安全态势。因此,对网络资产中设备类型及其厂商属性进行准确、自动化的识别,对网络空间测绘、安全风险评估以及漏洞关联分析等工作具有重要意义。目前,网络设备识别方法主要是基于静态指纹库规则匹配的方法,该方法在已知类型资产的识别中表现良好,但其依赖专家人工编写的正则表达式指纹库,维护成本高,泛化能力不足,在实际的开放网络环境中,准确识别多厂商、多类型的设备面临着严峻挑战。首先,不同厂商、甚至同一厂商的不同产品线,其HTTP/HTTPS响应头、HTML页面结构及SSL证书均可能存在差异,导致指纹特征梳理工作量巨大;其次,特征的隐蔽与混淆日益普遍,现代网络设备倾向于使用最小化的登录页面,或通过 JavaScript 动态加载内容,导致传统的基于静态关键词匹配的方法难以提取有效识别信息;第三,新设备类型或型号出现速度快,基于人工指纹分析速度慢,难以快速发现新品种;此外,单一维度的特征往往不可靠,如端口可能被修改,Favicon可能缺失,Banner信息可能被管理员自定义掩盖等,导致基于规则特征的方法识别准确性低。

针对上述问题,本文提出了一种基于大语言模型指令微调[1-2]的网络资产设备类型识别方法,以实现HTTP/HTTPS协议网络资产中的设备类型智能化识别。利用大语言模型强大的语义理解与上下文推理能力,将设备识别任务重构为语义理解与生成任务。具体而言,本文主要工作如下:

(1)提出了一种多源采集与多平台聚合相结合的网络资产数据收集方案:通过将主动探测[3]与被动监听[4]相结合,并融合多种主流网络资产测绘平台的结果,构建了一个覆盖范围广、标签可靠性高的网络资产数据集。

(2)设计了一种面向大语言模型的多维异构特征融合与Prompt[5]构建策略:针对网络资产数据在结构形式和语义层次上的高度异构性,本文提出将非结构化的HTTP/HTTPS Body与结构化的SSL证书、Header键值对、端口及协议等特征进行统一序列化表达,并通过任务驱动的Prompt设计,将多源特征映射为大语言模型可理解的上下文输入形式。

(3)探索并验证了基于大语言模型的网络设备识别新范式。本文将LLaMA[6]系列等通用大语言模型引入网络资产设备识别任务,在少量高质量指令样本的条件下,通过指令微调引导模型学习网络资产特征与设备类型之间的语义关联关系。实验结果表明,该方法不仅能够有效识别已知厂商与设备类型,在面对未知厂商或新型设备时也展现出良好的泛化能力,验证了大语言模型在网络资产识别场景中的有效性。


本文详细内容请下载:

https://www.chinaaet.com/resource/share/2000007085


作者信息:

陈倩怡1,苏马婧1,2,陈紫璇1,2,张永奇1,2,马琰1,2

(1.华北计算机系统工程研究所,北京100083;

2.中国信息安全研究院有限公司,北京102200)

通知公告
编辑观点
理事会
参考资料
版权声明

凡《网络安全与数据治理》(原《信息技术与网络安全》)录用的文章,如作者没有关于汇编权、翻译权、印刷权及电子版的复制权、信息网络传播权与发行权等版权的特殊声明,即视作该文章署名作者同意将该文章的汇编权、翻译权、印刷权及电子版的复制权、信息网络传播权与发行权授予本刊,本刊有权授权本刊合作数据库、合作媒体等合作伙伴使用。同时,本刊支付的稿酬已包含上述使用的费用,特此声明。

《网络安全与数据治理》(原《信息技术与网络安全》)编辑部