ต้องเก็บล็อกกี่วันจึงวิเคราะห์ได้มีนัย?

แนะนำอย่างน้อย 30 วันเพื่อเห็น pattern การคลานรายสัปดาห์–รายเดือน สำหรับอีคอมเมิร์ซ/สื่อขนาดใหญ่ 60–90 วันจะช่วยให้เห็นฤดูกาลและสแตตัสผิดปกติชัดขึ้น

ทำไมต้องพิสูจน์ Googlebot?

เพื่อแยกบอทปลอมที่แอบอ้าง UA ออกไป ไม่เช่นนั้นตัวเลข crawl hits จะบิดเบือนและทำให้ตัดสินใจผิด เช่น บล็อก IP ดี ๆ หรือปรับ robots ผิดหน้า

ต่างจากข้อมูล GA4 ยังไง?

ล็อกฝั่งเซิร์ฟเวอร์คือ 100% ของคำร้องขอ ทำให้เห็นบอท/ผู้ใช้ทุกเคส ในขณะที่ GA4 เป็นสคริปต์ฝั่งไคลเอนต์และอาจมีการบล็อก ทำให้ไม่เห็นบางทราฟฟิก โดยเฉพาะบอทและผู้ใช้ที่ปิดสคริปต์ติดตาม

🔥 แค่ 5 นาที เปลี่ยนมุมมองได้เลย

Log File Analysis สำหรับเว็บองค์กร: ค้นหาปัญหา SEO ที่ Google Search Console มองไม่เห็น

By Tanakit Chaithip

July 21, 2025

ยาวไป อยากเลือกอ่าน?

Log File

Log File Analysis สำหรับ Enterprise SEO คือการอ่าน access logs เพื่อพิสูจน์ Googlebot, ติดตาม crawl ต่อไดเรกทอรี/สเตตัสโค้ด, คุม Crawl Budget, หา 404/500/รีไดเรกต์วน, ตรวจ LCP payload และบอทปลอม แล้วเชื่อมกับ Crawl Stats/GA4 เพื่อจัดลำดับงานที่กระทบอันดับมากสุด

Enterprise SEO Log File Analysis: คู่มือทำจริงตั้งแต่เก็บล็อกถึงแดชบอร์ด KPI

เหมาะกับ เว็บองค์กร/อีคอมเมิร์ซขนาดใหญ่ที่มีหลายหมื่น–ล้าน URL ต้องการควบคุมการคลานของบอท (crawl), ลดงบเซิร์ฟเวอร์, และเร่งดัชนี/อันดับให้สอดคล้องกับรายได้

แหล่งข้อมูลล็อกที่ต้องมี

Server access logs (Apache Combined Log Format, NGINX access log) — เก็บวิถี URL, สเตตัส, ไบต์ส่ง, ยูสเซอร์เอเจนต์ (Apache Combined, NGINX log module, NGINX logging guide)
CDN/Edge logs — เช่น Cloudflare Logpush สตรีมไป S3/BigQuery/SIEM (Cloudflare Logpush)
Search Console Crawl Stats — ภาพรวมการคลานของ Google (Crawl Stats, Crawl Budget (Large sites))

พิสูจน์ว่าเป็น Googlebot จริง (กันบอทปลอม)

ทำ reverse DNS จาก IP → ต้องลงท้าย googlebot.com/google.com/googleusercontent.com แล้วทำ forward DNS กลับมาเป็น IP เดิม (Verify Googlebot, Google crawlers)

รูปแบบบรรทัดล็อก (ตัวอย่าง)

# Apache Combined
%h %l %u %t "%r" %>s %b "%{Referer}i" "%{User-agent}i"
# NGINX (โครงพื้นฐาน)
log_format main '$remote_addr - $remote_user [$time_local] "$request" '
                '$status $body_bytes_sent "$http_referer" "$http_user_agent"';

เมตริกที่ต้องดึงจากล็อก

เมตริก	จากฟิลด์ล็อก	ใช้ทำอะไร	เครื่องมือ/ที่ตั้ง
Crawl hits / path	request, user-agent (เฉพาะ Googlebot ที่พิสูจน์แล้ว)	ดูว่าบอทเน้นไดเรกทอรีไหนเกิน/ขาด	BigQuery / ELK / SF Log File Analyser
สถานะ 4xx/5xx	status	แก้ 404/410, error 5xx, ลูปรีไดเรกต์	BigQuery / Grafana
น้ำหนักเพจ (Bytes)	bytes sent / download size	ลด LCP payload ของเพจที่บอท/ผู้ใช้เข้าเยอะ	BigQuery / CWV dashboard
บอทปลอม	user-agent + IP	บล็อก UA ปลอม, ปรับ rate limit	WAF/CDN rules
Crawl rate vs Crawl Stats	hits จากล็อก + Crawl Stats	เทียบการคลานจริงกับ Search Console	Crawl Stats

เพลย์บุ๊กแก้ปัญหาจากล็อก (ตัวอย่าง)

อาการ	หลักฐานในล็อก	สาเหตุที่พบบ่อย	วิธีแก้
บอทวนหน้า parameter	hits สูงที่ URL มี `?sort=`, `?page=`	ไม่มี canonical/robots คุมพารามิเตอร์	ตั้ง canonical/robots, รวมหน้า, ปรับ internal link
404 กระจุกตัว	status 404 สูงในไดเรกทอรีเดียว	ลิงก์ภายใน/แคมเปญเก่า, sitemap ไม่อัปเดต	301 ชี้, อัปเดตลิงก์/ไซต์แมป, ลบจาก index
5xx ช่วงเวลาเร่งด่วน	status 5xx พุ่งเป็นช่วง	ทราฟฟิกบอท/แคมเปญ, เซิร์ฟเวอร์ไม่พอ	เพิ่ม capacity, cache/CDN, ตัดสคริปต์หนัก
บอทปลอมดูดทรัพยากร	UA อ้าง Googlebot แต่ IP ไม่ผ่าน DNS	สแครปเปอร์ปลอม UA	ยืนยัน DNS, บล็อก IP/WAF, ปรับ rate limit

สคริปต์ตัวอย่าง: filter Googlebot + พิสูจน์ DNS

# 1) กรองบรรทัดที่อ้าง Googlebot จาก NGINX access log
grep -i "Googlebot" /var/log/nginx/access.log > /tmp/googlebot_hits.log

# 2) หาค่า IP ยอดฮิต
awk '{print $1}' /tmp/googlebot_hits.log | sort | uniq -c | sort -nr | head

# 3) ตรวจสอบ reverse/forward DNS (ตัวอย่างบน Linux/macOS)
host 66.249.66.1
host crawl-66-249-66-1.googlebot.com
# ต้องชี้กลับไป IP เดิมจึงจะถือว่าเป็น Googlebot ของจริง

เวิร์กโฟลว์ 7 ขั้น (Enterprise Log Analysis)

เปิด Logpush/CDN และ access log (Apache/NGINX) → ส่งไป S3/BigQuery/ELK
กำหนดสคีมาฟิลด์ (IP, time, request, status, bytes, UA, referer)
พิสูจน์ Googlebot (reverse/forward DNS)
รวมกับ Crawl Stats เพื่อดูภาพรวมการคลาน
สร้างแดชบอร์ด KPI: crawl hits, 4xx/5xx, bytes/page, fake bot
ออก playbook แก้: canonical, robots, redirects, perf
รีวิวทุกสัปดาห์ ปรับ IA/ลิงก์ภายใน/งบคลาน

บริการที่เกี่ยวข้อง (Internal Links)

อ่านต่อ (บทความที่เกี่ยวข้อง)

อ้างอิงภายนอก (มาตรฐาน/เอกสารทางการ)

Google — Crawl Stats, Verify Googlebot, Common crawlers, Crawl Budget
Apache — Combined Log Format, mod_log_config
NGINX — ngx_http_log_module, Configuring logging
Cloudflare — Logpush, Logs overview
Tools — Screaming Frog Log File Analyser, Oncrawl: Upload logs

เกี่ยวกับผู้เขียน

Vision X Brain Team — ทีม Website/SEO/CRO & Webflow สำหรับองค์กรไทย เราเชื่อมล็อกจากเซิร์ฟเวอร์/CDN/Edge มาวิเคราะห์ SEO ที่วัดผลได้จริง พร้อมเพลย์บุ๊กจัดการ Crawl Budget และลดต้นทุนโครงสร้างพื้นฐาน

อัปเดตล่าสุด: 14 Aug 2025