在技術研發崗位的面試中,網絡故障排查能力往往是衡量候選人實踐功底與思維邏輯的重要標尺。一位應聘阿里HarmonyOS(鴻蒙)網絡技術研發崗的工程師,在二面中遇到了一道經典的網絡內網故障場景題。本文將結合這道面試題的思路,還原并深入剖析一次完整的、經典的內網故障排障全過程,這不僅是一次面試復盤,更是對網絡排障方法論的系統性梳理。
面試官描述的場景通常簡潔而典型:“公司內部一臺部署了關鍵服務的服務器(假設IP為192.168.1.100)突然無法被同網段(192.168.1.0/24)的其他主機訪問,但該服務器自身可以ping通網關(192.168.1.1)。請描述你的排查思路和步驟。”
第一步:明確故障邊界與現象
這是排障的基石。需要立即澄清和確認:
基于OSI模型或TCP/IP模型,采用從底層到高層、從自身到網絡的排查順序,是嚴謹且高效的。
第二步:檢查服務器自身(物理層、數據鏈路層、網絡層)
1. 本地網絡接口狀態: ip link show 或 ifconfig 查看網卡(如eth0)是否為 UP 狀態,有無錯誤包(errors, dropped)。
2. IP地址與路由配置: ip addr show 確認IP(192.168.1.100)和子網掩碼配置正確。執行 ip route show 或 route -n,確保有正確的直連網絡路由(如 192.168.1.0/24 dev eth0)和默認路由(指向192.168.1.1)。題目中能ping通網關,說明L1-L3層基礎通信和本地出站路由基本正常。
3. ARP表項: arp -an 查看ARP緩存。能否看到同網段其他主機的MAC地址?如果看不到,可能是ARP請求/回復出了問題。也可以嘗試 ping 一下同網段另一臺主機,同時用 tcpdump -i eth0 arp 抓包,看ARP請求是否發出、是否有回應。
第三步:檢查服務器自身(傳輸層、應用層)
這是本題的重點嫌疑區域,因為ping(ICMP)通但業務不通。
netstat -tlnp 或 ss -tlnp 確認關鍵服務進程是否在運行,并且是否在正確的IP和端口上監聽(例如,是監聽在 0.0.0.0:80 還是 127.0.0.1:80?后者會導致外部無法訪問)。iptables -L -n)、firewalld(firewall-cmd --list-all)或nftables規則。是否有規則丟棄(DROP)了來自內部網段的入站(INPUT)連接?特別是近期是否有誤操作添加了限制策略。一個常見的陷阱是,防火墻可能只允許網關或特定IP,錯誤地阻止了同網段流量。journalctl -u nginx 或應用日志文件)獲取錯誤信息。第四步:檢查網絡路徑(聚焦于二層)
由于是同網段通信,不經過網關(路由器),數據交換在二層完成,因此交換機是關鍵。
第五步:模擬與測試(驗證假設)
1. 從服務器向外測試: 在服務器上嘗試 telnet 或 curl 同網段其他主機的服務端口,測試出站連接是否正常。
2. 從其他主機向服務器測試: 在另一臺正常主機上,使用 telnet 192.168.1.100 端口號、nmap -p 端口號 192.168.1.100 或 tcping 工具,精確測試TCP/UDP端口連通性。同時用 tcpdump 或 Wireshark 在服務器端抓包,看請求包是否到達服務器網卡。如果抓不到包,問題更可能出現在網絡側(交換機);如果抓到了包但沒有回復,問題則集中在服務器自身(防火墻、服務未響應)。
3. 臨時性排除: 在測試環境中,可嘗試臨時禁用服務器防火墻(iptables -F 或 systemctl stop firewalld),觀察問題是否解決。(注意:生產環境需謹慎,面試中需強調此操作的風險和回滾計劃)。
假設通過上述排查,最終定位到原因:服務器上的防火墻近期新增了一條規則,錯誤地將所有來自192.168.1.0/24網段的入站TCP連接都DROP了,但允許ICMP(ping)和從本機發起的出站連接。
解決方案:
1. 立即修正防火墻規則,放行內部業務所需端口。例如:iptables -I INPUT -s 192.168.1.0/24 -p tcp --dport 80 -j ACCEPT。
2. 將修正后的規則保存到防火墻永久配置中。
3. 進行全面的業務連通性測試。
4. 復盤與改進: 分析規則誤添加的原因(人為失誤?自動化腳本漏洞?),完善變更管理制度、實施前peer review、并考慮在網絡監控中增加關鍵服務端口的主動探測告警。
這道面試題絕不僅僅是考察幾條Linux命令。它深刻考察了候選人:
ip, ss, tcpdump, iptables 等核心診斷工具。對于鴻蒙這樣的分布式操作系統,其網絡技術研發更是深入到設備互聯、自發現、低時延通信等復雜場景,扎實的基礎網絡排障能力是構建和運維這些高級特性的基石。一次成功的故障排查,就是一次對系統認知深度的完美展現。
如若轉載,請注明出處:http://m.zuoa.com.cn/product/73.html
更新時間:2026-04-27 07:24:25