Log File Analysis สำหรับ Enterprise SEO คือการอ่าน access logs เพื่อพิสูจน์ Googlebot, ติดตาม crawl ต่อไดเรกทอรี/สเตตัสโค้ด, คุม Crawl Budget, หา 404/500/รีไดเรกต์วน, ตรวจ LCP payload และบอทปลอม แล้วเชื่อมกับ Crawl Stats/GA4 เพื่อจัดลำดับงานที่กระทบอันดับมากสุด
Enterprise SEO Log File Analysis: คู่มือทำจริงตั้งแต่เก็บล็อกถึงแดชบอร์ด KPI
เหมาะกับ เว็บองค์กร/อีคอมเมิร์ซขนาดใหญ่ที่มีหลายหมื่น–ล้าน URL ต้องการควบคุมการคลานของบอท (crawl), ลดงบเซิร์ฟเวอร์, และเร่งดัชนี/อันดับให้สอดคล้องกับรายได้
แหล่งข้อมูลล็อกที่ต้องมี
พิสูจน์ว่าเป็น Googlebot จริง (กันบอทปลอม)
- ทำ reverse DNS จาก IP → ต้องลงท้าย
googlebot.com
/google.com
/googleusercontent.com
แล้วทำ forward DNS กลับมาเป็น IP เดิม
(Verify Googlebot,
Google crawlers)
รูปแบบบรรทัดล็อก (ตัวอย่าง)
# Apache Combined
%h %l %u %t "%r" %>s %b "%{Referer}i" "%{User-agent}i"
# NGINX (โครงพื้นฐาน)
log_format main '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" "$http_user_agent"';
เมตริกที่ต้องดึงจากล็อก
เมตริก | จากฟิลด์ล็อก | ใช้ทำอะไร | เครื่องมือ/ที่ตั้ง |
Crawl hits / path |
request, user-agent (เฉพาะ Googlebot ที่พิสูจน์แล้ว) |
ดูว่าบอทเน้นไดเรกทอรีไหนเกิน/ขาด |
BigQuery / ELK / SF Log File Analyser |
สถานะ 4xx/5xx |
status |
แก้ 404/410, error 5xx, ลูปรีไดเรกต์ |
BigQuery / Grafana |
น้ำหนักเพจ (Bytes) |
bytes sent / download size |
ลด LCP payload ของเพจที่บอท/ผู้ใช้เข้าเยอะ |
BigQuery / CWV dashboard |
บอทปลอม |
user-agent + IP |
บล็อก UA ปลอม, ปรับ rate limit |
WAF/CDN rules |
Crawl rate vs Crawl Stats |
hits จากล็อก + Crawl Stats |
เทียบการคลานจริงกับ Search Console |
Crawl Stats |
เพลย์บุ๊กแก้ปัญหาจากล็อก (ตัวอย่าง)
อาการ | หลักฐานในล็อก | สาเหตุที่พบบ่อย | วิธีแก้ |
บอทวนหน้า parameter |
hits สูงที่ URL มี ?sort= , ?page= |
ไม่มี canonical/robots คุมพารามิเตอร์ |
ตั้ง canonical/robots, รวมหน้า, ปรับ internal link |
404 กระจุกตัว |
status 404 สูงในไดเรกทอรีเดียว |
ลิงก์ภายใน/แคมเปญเก่า, sitemap ไม่อัปเดต |
301 ชี้, อัปเดตลิงก์/ไซต์แมป, ลบจาก index |
5xx ช่วงเวลาเร่งด่วน |
status 5xx พุ่งเป็นช่วง |
ทราฟฟิกบอท/แคมเปญ, เซิร์ฟเวอร์ไม่พอ |
เพิ่ม capacity, cache/CDN, ตัดสคริปต์หนัก |
บอทปลอมดูดทรัพยากร |
UA อ้าง Googlebot แต่ IP ไม่ผ่าน DNS |
สแครปเปอร์ปลอม UA |
ยืนยัน DNS, บล็อก IP/WAF, ปรับ rate limit |
สคริปต์ตัวอย่าง: filter Googlebot + พิสูจน์ DNS
# 1) กรองบรรทัดที่อ้าง Googlebot จาก NGINX access log
grep -i "Googlebot" /var/log/nginx/access.log > /tmp/googlebot_hits.log
# 2) หาค่า IP ยอดฮิต
awk '{print $1}' /tmp/googlebot_hits.log | sort | uniq -c | sort -nr | head
# 3) ตรวจสอบ reverse/forward DNS (ตัวอย่างบน Linux/macOS)
host 66.249.66.1
host crawl-66-249-66-1.googlebot.com
# ต้องชี้กลับไป IP เดิมจึงจะถือว่าเป็น Googlebot ของจริง
เวิร์กโฟลว์ 7 ขั้น (Enterprise Log Analysis)
- เปิด Logpush/CDN และ access log (Apache/NGINX) → ส่งไป S3/BigQuery/ELK
- กำหนดสคีมาฟิลด์ (IP, time, request, status, bytes, UA, referer)
- พิสูจน์ Googlebot (reverse/forward DNS)
- รวมกับ Crawl Stats เพื่อดูภาพรวมการคลาน
- สร้างแดชบอร์ด KPI: crawl hits, 4xx/5xx, bytes/page, fake bot
- ออก playbook แก้: canonical, robots, redirects, perf
- รีวิวทุกสัปดาห์ ปรับ IA/ลิงก์ภายใน/งบคลาน
บริการที่เกี่ยวข้อง (Internal Links)
อ่านต่อ (บทความที่เกี่ยวข้อง)
อ้างอิงภายนอก (มาตรฐาน/เอกสารทางการ)
เกี่ยวกับผู้เขียน
Vision X Brain Team — ทีม Website/SEO/CRO & Webflow สำหรับองค์กรไทย เราเชื่อมล็อกจากเซิร์ฟเวอร์/CDN/Edge มาวิเคราะห์ SEO ที่วัดผลได้จริง พร้อมเพลย์บุ๊กจัดการ Crawl Budget และลดต้นทุนโครงสร้างพื้นฐาน
อัปเดตล่าสุด: 14 Aug 2025