freeBuf
主站

分类

漏洞 工具 极客 Web安全 系统安全 网络安全 无线安全 设备/客户端安全 数据安全 安全管理 企业安全 工控安全

特色

头条 人物志 活动 视频 观点 招聘 报告 资讯 区块链安全 标准与合规 容器安全 公开课

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户,每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序

FreeBuf+小程序

tcpdump能进行丢包分析吗?
2022-03-19 16:02:28
所属地 北京

前言

流量安全分析设备首先需要经过协议解析,解析后形成不同的业务日志。某次在排场现场设备的过程中发现:某业务流量在某个方向无日志。由于现场设备背景流量比较多,又不能中断流量进行调试,因此只能通过tcpdump抓包分析。

分析过程中踩了不少坑,故作此总结。

总体思路

1、分析pcap包中的流量是否丢失

2、分析流量是否是设备已兼容的协议格式

3、分析是否是设备丢包

分析过程

tcpdump分别抓小文件(little.pcap)和批量大文件(big.pcap)上传时的流量, 通过wireshark分析big.pcap存在大量包的丢失,而little.pcap包正常。实验室设备回放结果表明:现场设备解析异常与流量的方向无关,与协议格式无关,可能是设备丢包。

那接下来的思路,从设备丢包为线索来分析。

丢包可能的原因如下:

1、网卡丢包

2、系统内存不足

3、TCP/IP协议栈丢包

那么问题来了,所有的这些丢包行为都能被tcpdump捕获到吗?要想知道tcpdump的抓包位置,就得从Linux网络数据包的收发过程开始,这里以数据包接收为例。


3.1 Linux网络数据包的接收过程

NIC :网络适配器

DMA:直接存储访问

NIC Interrupt Handler:网络适配器中断句柄

Poll_quenue :Poll队列

SoftIrq:软中断

接收过程如图所示:

1647439880_6231f00896b804ff90cd0.png!small

图1-Linux网络数据包接收过程

  • 1、在系统启动后,系统会分配Ring Buffer和专门的内核内存区域给NIC用于存放传输上来的数据包。当有数据时,DMA负责从NIC取数据存入内核内存,并在Ring Buffer上寻找下一个可用数据。

  • 2、当DMA读取完数据之后,NIC会触发IRQ硬中断让CPU去处理收到的数据。

  • 3、为了能够集中处理IRQ,这里会通过poll队列批量拉取数据。

  • 4、通过某种机制触发softirq软中断,获取数据包并执行基本的检查

  • 5、最后对数据包进行基本的统计和其他处理,交由上层协议栈处理。


从Linux网络数据包大致接收过程可以知道,tcpdump能不能分析”丢包“还得看情况,取决于tcpdump到底在网络数据包传输的哪个过程中抓包的。

那接下来进一步深入到收包的细节当中去,看看tcpdump到底工作在哪个环节?


3.1 Linux网络数据包的接收流程细节描述

如图所示(星号所在位置就是tcpdump的抓包位置):1647659194_623548ba2f3201b9f3b7f.png!small

__netif_receive_skb_core是协议栈处理数据包的入口函数,在 __netif_receive_skb_core 这个函数里会遍历 ptype_all 上的协议,然后遍历 ptype_all,并使用 deliver_skb 来调用协议中的回调函数。


而tcpdump是ptype_all中的一个伪协议,通过这种方式获得数据包的处理权。即通过deliver_skb来进入 packet_rcv阶段 ,packet_rcv 把收到的skb放到当前的packet socket的接收队列中,应用层调用recvfrom就可以将接收队列中的数据包拷贝到应用层,从而实现tcpdump的收包。


那从tcpdump的抓包位置来看,tcudmp确实能分析丢包,但是却不能覆盖所有的场景,对于一个旁路的流量分析设备莱索,只能分析下面场景的丢包:

1、网卡丢包

2、RingBuffer溢出

对于网络协议栈的丢包,tcpdump也无能为力。


接下来就针对上面的两个丢包的场景,进一步确定在哪个地方丢包,从而找到合适的解决方案。

我们可以通过ifconfig进一步诊断:

1647662472_6235558853bf393c0fd8a.png!small

这里只关注接收方向(RX)的dropped和overruns:

dropped

数据已经进入Ring Buffer,但是由于系统原因(内存不够等),导致在拷贝到内存的过程中被丢弃。

overruns

数据还未进入Ring Buffer,此时的FIFO队列溢出,数据会被丢掉。

是由于数据包发送过快,导致系统繁忙,来不及响应网卡中断,导致网卡里的数据包没有及时拷贝到系统内存。

若overruns≠0,应该检查CPU负载和中断情况。

errors

errors指的是收到错误数据包的总数,可能包括以下原因:过长的数据帧、Ring Buffer溢出、CRC校验错误、数据帧对齐错误、FIFO队列超出极限等原因。

frame

未对齐的数据帧


举个例子,如图所示:

1647671769_623579d9b23c141be0311.png!small

这张表里总结了当前设备可能丢包的情况,因此应对此时丢包的方案:

1、优化per CPU的中断分配方案

2、升级网卡

dropped 82085998(可能是内核内存不够导致的)
overruns82085998(可能是由于各个CPU中断分配不均导致的,总之是这时的流量来得太快太大,超过了CPU中断的能力)
errors52(frame=52,表示这52全部都是未对齐的数据帧)
frame52


总结

对于旁路的流量分析设备来说,只关注接收方向,tcpdump只能分析由网卡、系统内存等系统原因产生的丢包,不能判断网络协议栈的丢包行为。


参考资料

1、用户态 tcpdump 如何实现抓到内核网络包的

2、数据包如何从物理网卡到达云主机的应用程序?

3、参考linux-5.16.15内核源码

4、《深入理解Linux网络技术内幕》

# 网络安全技术 # tcpdump
本文为 独立观点,未经允许不得转载,授权请联系FreeBuf客服小蜜蜂,微信:freebee2022
被以下专辑收录,发现更多精彩内容
+ 收入我的专辑
+ 加入我的收藏
相关推荐
  • 0 文章数
  • 0 关注者
文章目录