ทำไม Google Search Console อย่างเดียวไม่เพียงพอสำหรับ SEO?

GSC ให้ข้อมูลจากฝั่ง Google ซึ่งมีข้อจำกัด เช่น ไม่แสดง URL ที่ถูกครอว์ลทั้งหมด ไม่แสดง Parameter URLs ที่สร้าง Crawl Waste ไม่แสดง Error แบบ Real-time และไม่มีข้อมูลบอทอื่น เช่น Bingbot หรือ AI Crawlers Log File Analysis ให้ข้อมูลตรงจากเซิร์ฟเวอร์ ไม่มี Sampling ไม่มี Delay ข้อมูลทั้งสองเสริมกัน

ใช้เครื่องมืออะไรทำ Log File Analysis ได้บ้าง?

เครื่องมือยอดนิยมสำหรับ Log File Analysis ได้แก่ Screaming Frog Log Analyzer (ใช้ง่าย เหมาะกับทุกขนาดทีม), Google BigQuery + SQL (เหมาะกับเว็บใหญ่), Python + Pandas (ยืดหยุ่นที่สุด ฟรี), Splunk/Elasticsearch (Enterprise), OnCrawl และ Botify (SaaS All-in-one) เลือกตามขนาดเว็บ งบประมาณ และทักษะของทีม

Crawl Budget คืออะไร เว็บขนาดไหนต้องกังวล?

Crawl Budget คือจำนวนหน้าที่ Googlebot จะครอว์ลบนเว็บในช่วงเวลาหนึ่ง ประกอบด้วย Crawl Rate Limit (ความเร็วสูงสุด) และ Crawl Demand (ความต้องการของ Google) สำหรับเว็บน้อยกว่า 10,000 หน้า Crawl Budget ไม่ค่อยเป็นปัญหา แต่เว็บ 10,000+ หน้าขึ้นไป โดยเฉพาะ E-commerce ที่มี Faceted Navigation ต้องให้ความสำคัญเรื่องนี้

จะรู้ได้อย่างไรว่า Googlebot ที่เข้ามาเป็นตัวจริง ไม่ใช่ปลอม?

ใช้ Reverse DNS Lookup ตามที่ Google แนะนำ: 1) ใช้คำสั่ง host กับ IP ที่พบใน Log เพื่อดู Hostname 2) ตรวจว่า Hostname ลงท้ายด้วย .googlebot.com หรือ .google.com 3) ทำ Forward DNS กลับเพื่อยืนยันว่าตรง IP เดิม Bot ปลอมอาจคิดเป็น 10-30% ของ Request ที่ใช้ Googlebot User-Agent ถ้าไม่กรอง ข้อมูลจะผิดพลาด

🔥 แค่ 5 นาที เปลี่ยนมุมมองได้เลย

Log File Analysis: ค้นหาโอกาส SEO ด้วยการวิเคราะห์ Googlebot

Q: Log File Analysis คืออะไร?

Log File Analysis คือการวิเคราะห์ไฟล์บันทึก (Access Log) ของเว็บเซิร์ฟเวอร์เพื่อดูพฤติกรรมการครอว์ลจริงของ Googlebot และบอทค้นหาอื่น ข้อมูลที่ได้รวมถึง URL ที่ถูกครอว์ล จำนวนครั้งการครอว์ล Status Code วันเวลา และ Response Time ช่วยให้ทีม SEO เห็นปัญหาที่ Google Search Console ไม่แสดง เช่น Crawl Waste จาก Parameter URLs, Error ที่เกิดเฉพาะกับบอท และ Orphan Pages

By Tanakit Chaithip

June 30, 2025

ยาวไป อยากเลือกอ่าน?

Log File Analysis

Log File Analysis คือการวิเคราะห์ไฟล์บันทึก (Access Log) ของเว็บเซิร์ฟเวอร์เพื่อดูพฤติกรรมการครอว์ลจริงของ Googlebot และบอทค้นหาอื่น ช่วยให้ทีม SEO เห็นข้อมูลที่ Google Search Console ไม่แสดง เช่น URL ที่ถูกครอว์ลแต่ไม่ถูก Index, งบครอว์ล (Crawl Budget) ที่สูญเปล่ากับ Parameter Traps, หน้าสำคัญที่ถูกครอว์ลน้อยเกินไป และ Error 5xx ที่เกิดเฉพาะกับบอท ข้อมูลเหล่านี้นำไปสู่การปรับปรุงที่มีผลต่ออันดับโดยตรง

Log File Analysis คืออะไร ทำไมทีม SEO ต้องทำ

ทุกครั้งที่มีคนหรือบอทเข้าถึงหน้าใดหน้าหนึ่งบนเว็บไซต์ เว็บเซิร์ฟเวอร์จะบันทึกข้อมูลการเข้าถึงนั้นลงในไฟล์ที่เรียกว่า Access Log ข้อมูลแต่ละบรรทัดประกอบด้วย IP Address, วันเวลา, URL ที่เข้าถึง, HTTP Method (GET/POST), Status Code (200, 301, 404, 500 ฯลฯ), User-Agent (ระบุว่าเป็น Googlebot, Bingbot หรือเบราว์เซอร์ของผู้ใช้จริง), ขนาดไฟล์ที่ส่งกลับ และ Referrer

Log File Analysis สำหรับ SEO คือการกรองเฉพาะ Request จากบอทค้นหา (โดยเฉพาะ Googlebot) แล้ววิเคราะห์ว่าบอทเข้าชมหน้าไหนบ่อย หน้าไหนไม่เคยมา หน้าไหนเจอ Error และพฤติกรรมการครอว์ลเป็นอย่างไร

ทำไม Google Search Console อย่างเดียวไม่พอ

Google Search Console (GSC) ให้ข้อมูลจากฝั่ง Google ซึ่งมีประโยชน์มาก แต่มีข้อจำกัดที่สำคัญ:

ข้อมูล	Google Search Console	Log File Analysis
จำนวนครั้งที่ Googlebot ครอว์ลแต่ละ URL	แสดงภาพรวม ไม่ระบุ URL ทั้งหมด	เห็นทุก URL ที่ถูกครอว์ล พร้อมจำนวนครั้ง
URL ที่ถูกครอว์ลแต่ไม่ถูก Index	แสดงบางส่วนใน Index Coverage	เห็นทั้งหมด สามารถเทียบกับ Sitemap/Index ได้
Error 5xx ที่เกิดเฉพาะกับบอท	แสดงแบบหน่วง (Delay หลายวัน)	เห็นแบบ Real-time หรือรายชั่วโมง
Parameter URLs ที่สร้าง Crawl Waste	ไม่แสดงรายละเอียด	เห็นทุก URL รวม Parameter ที่บอทเข้า
Redirect Chains ที่บอทเจอ	แสดงเฉพาะบาง Redirect	เห็นทุก Chain ตั้งแต่ต้นจนจบ
ช่วงเวลาที่บอทครอว์ล (Time Pattern)	ไม่แสดง	เห็นรูปแบบรายชั่วโมง/วัน ช่วยวางแผน Deploy
Bot อื่น (Bing, Yandex, AI Crawlers)	ไม่มี (เฉพาะ Google)	เห็นทุก Bot ที่เข้าถึงเว็บ

กล่าวง่ายๆ: GSC บอกว่า Google "คิดอย่างไร" กับเว็บคุณ แต่ Log File Analysis บอกว่า Google "ทำอะไร" กับเว็บคุณจริง ข้อมูลทั้งสองเสริมกัน ไม่ทดแทนกัน

วิธีเข้าถึงไฟล์ Log ของเว็บเซิร์ฟเวอร์

ก่อนวิเคราะห์ได้ ต้องได้ไฟล์ Log มาก่อน วิธีการขึ้นอยู่กับ Infrastructure ของเว็บไซต์:

Apache Web Server

Apache เก็บ Log ไว้ที่ตำแหน่ง Default:

/var/log/apache2/access.log      # Debian/Ubuntu

/var/log/httpd/access_log         # CentOS/RHEL

/etc/apache2/apache2.conf         # ตรวจสอบ CustomLog directive

Format ทั่วไปคือ Combined Log Format:

127.0.0.1 - - [08/Feb/2026:10:15:32 +0700] "GET /services/ HTTP/1.1" 200 15234 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Nginx Web Server

Nginx เก็บ Log ไว้ที่:

/var/log/nginx/access.log

# ตรวจสอบ access_log directive ใน nginx.conf

CDN / Cloud Platform

แพลตฟอร์ม	วิธีเข้าถึง Log	หมายเหตุ
Cloudflare	Enterprise Plan: Logpush to S3/R2/BigQuery Free/Pro: ไม่มี Raw Log	ใช้ Worker ดักจับ Request ได้ แต่มีข้อจำกัด
AWS CloudFront	Enable Standard/Real-time Logs ส่งไป S3 Bucket	ต้องเปิดใช้งานเอง ไม่ได้เปิดค่า Default
Vercel	Log Drains (Pro/Enterprise) ส่งไป Datadog/Syslog/HTTP Endpoint	Hobby Plan ไม่มี Raw Access Log
Google Cloud Load Balancer	Cloud Logging (เปิดใช้งานที่ Backend Service)	Query ผ่าน Log Explorer หรือส่งเข้า BigQuery
Webflow	ไม่มี Raw Log จากเซิร์ฟเวอร์โดยตรง	ใช้ Reverse Proxy หรือ Third-party (เช่น Logflare) คั่นหน้า

คำแนะนำ: หากใช้ CDN หน้าเว็บ ต้องตั้งค่าให้ CDN ส่ง Log หรือเปิด Access Log ที่ Origin Server ด้วย เพราะ CDN อาจ Cache Response และ Origin ไม่เห็น Request จาก Bot

วิธียืนยัน Googlebot ตัวจริง (ไม่ใช่ Bot ปลอม)

ก่อนวิเคราะห์ ต้องแน่ใจว่า Request มาจาก Googlebot จริง ไม่ใช่ Bot ที่ปลอม User-Agent วิธีการมี 2 แบบ:

วิธีที่ 1: Reverse DNS Lookup (แนะนำโดย Google)

# ขั้นที่ 1: Reverse DNS เพื่อดู Hostname

host 66.249.66.1

# ผลลัพธ์: 1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com

# ขั้นที่ 2: Forward DNS เพื่อยืนยัน

host crawl-66-249-66-1.googlebot.com

# ผลลัพธ์: crawl-66-249-66-1.googlebot.com has address 66.249.66.1

ถ้า Hostname ลงท้ายด้วย .googlebot.com หรือ .google.com และ Forward DNS กลับมาตรง IP เดิม แสดงว่าเป็น Googlebot ตัวจริง

วิธีที่ 2: ตรวจสอบจาก IP Range

Google เผยแพร่รายการ IP Range ของ Googlebot ที่ Verifying Googlebot สามารถดาวน์โหลด JSON มากรอง Log ได้

เมตริกสำคัญที่ต้องวิเคราะห์จาก Log File

เมตริก	วิธีอ่านจาก Log	สัญญาณ/ปัญหา	แนวทางแก้
Bot Hits ต่อ URL	นับจำนวน Request ของ Googlebot ต่อ URL ในช่วงเวลาที่กำหนด (เช่น 30 วัน)	หน้าสำคัญที่มี Revenue สูง แต่ถูกครอว์ลน้อย = Googlebot ไม่ให้ความสำคัญ	เพิ่ม Internal Links จากหน้าที่ถูกครอว์ลบ่อย, อัปเดต Sitemap, ปรับ IA (ดู Internal Link Strategy)
Crawl Frequency Distribution	จัดกลุ่ม URL ตามจำนวนครั้งที่ถูกครอว์ล (1x, 2-5x, 6-20x, 20x+)	กระจายไม่สมดุล เช่น หน้า Tag/Filter ถูกครอว์ล 80% แต่หน้า Product/Service ถูกครอว์ลแค่ 5%	ใช้ robots.txt / noindex / canonical เพื่อลดครอว์ลหน้าไม่สำคัญ
Status Code Distribution	สรุปสัดส่วน 200, 301, 302, 304, 404, 410, 500, 503	อัตรา 4xx/5xx สูง = บอทเจอปัญหาเยอะ สิ้นเปลืองงบครอว์ล	แก้ 404 เป็น 301 ไปหน้าที่เหมาะสม, แก้ 5xx ที่ต้นเหตุ, ลบลิงก์ภายในที่ชี้ไป 404
Redirect Chains	ตรวจ URL ที่ตอบ 301/302 แล้วติดตาม Destination ว่า Redirect ต่อหรือไม่	Chain 3+ ชั้น = บอทสิ้นเปลืองงบ, หน่วงเวลา, อาจหลุด PageRank	บีบ Chain ให้เหลือ 1 Hop (A --> C แทน A --> B --> C)
Parameter URLs / Crawl Waste	กรอง URL ที่มี Query String (? หรือ &) นับจำนวนและสัดส่วน	Faceted Navigation, UTM, Session ID สร้าง URL ซ้ำนับพัน	ตั้ง Canonical, ใช้ robots.txt บล็อก Parameter ที่ไม่จำเป็น, ลบ Internal Links ไปหน้า Parameter
Orphan Pages	เทียบ URL ที่อยู่ใน Log กับ URL ที่อยู่ใน Sitemap และ Internal Link Graph	URL ที่มีใน Sitemap แต่ไม่ถูกครอว์ล หรือถูกครอว์ลน้อยมาก = Orphan	เพิ่ม Internal Links, ผูกกับ Hub/Category Page
Crawl Time / Response Time	วัดเวลาตอบกลับของเซิร์ฟเวอร์ต่อ Request ของบอท	Response Time สูง (> 500ms) = บอทครอว์ลได้น้อยหน้าต่อวัน	ปรับ Server Performance, ใช้ Caching, ลด TTFB (ดู Speed Optimization)
Crawl Pattern (เวลา)	ดูจำนวน Bot Hits ต่อชั่วโมง/วัน	รู้ช่วงที่บอทมาเยอะที่สุด = วางแผน Deploy/Maintenance ได้	หลีกเลี่ยง Deployment ในช่วงที่บอทครอว์ลหนัก

วิธีทำ Log File Analysis ใน 8 ขั้นตอน (ลงมือได้ทันที)

ขั้นตอนที่ 1: เก็บ Log อย่างน้อย 30 วัน

ข้อมูลที่น้อยเกินไปให้ภาพไม่สมบูรณ์ 30 วันคือ Minimum ที่แนะนำ สำหรับเว็บใหญ่ (100,000+ URL) ควรเก็บ 90 วันเพื่อเห็น Pattern ของการครอว์ลที่เปลี่ยนแปลง ตั้ง Log Rotation ให้เก็บแยกรายวัน เช่น access-2026-02-08.log เพื่อง่ายต่อการจัดการ

ขั้นตอนที่ 2: ยืนยัน Googlebot ตัวจริง

ใช้ Reverse DNS Lookup ตามที่อธิบายไว้ด้านบน กรองเฉพาะ IP ที่ผ่านการยืนยัน Bot ปลอมอาจคิดเป็น 10-30% ของ Request ที่ใช้ User-Agent เป็น Googlebot ถ้าไม่กรอง ข้อมูลจะเบี้ยวหมด

ขั้นตอนที่ 3: แปลง Log เป็นรูปแบบที่วิเคราะห์ได้

แยกแต่ละบรรทัดออกเป็นฟิลด์ที่ใช้งานได้:

# ตัวอย่าง Python Script แปลง Log

import re

import csv

log_pattern = re.compile(

  r'(\S+) \S+ \S+ \[(.+?)\] "(\S+) (\S+) \S+" (\d{3}) (\d+|-) "(.+?)" "(.+?)"'

)

with open('access.log') as f, open('parsed.csv', 'w', newline='') as out:

  writer = csv.writer(out)

  writer.writerow(['ip', 'time', 'method', 'url', 'status', 'size', 'referer', 'user_agent'])

  for line in f:

    match = log_pattern.match(line)

    if match:

      writer.writerow(match.groups())

สำหรับ Log ขนาดใหญ่ (GB+) ให้โหลดเข้า BigQuery, ClickHouse หรือ Elasticsearch แทนการอ่านใน Spreadsheet

ขั้นตอนที่ 4: กรองเฉพาะ Bot Traffic

กรองด้วย User-Agent ที่มีคำว่า Googlebot, Googlebot-Image, Googlebot-News, Googlebot-Video, Bingbot, AhrefsBot ฯลฯ ตามที่ต้องการวิเคราะห์ แยก Googlebot Mobile (Smartphone) กับ Desktop ด้วย เพราะ Google ใช้ Mobile-first Indexing

ขั้นตอนที่ 5: วิเคราะห์เมตริกหลัก

สร้าง Dashboard หรือ Report ที่ตอบคำถามเหล่านี้:

Top 50 URL ที่ถูกครอว์ลมากที่สุด -- ตรงกับหน้าสำคัญของธุรกิจหรือไม่? ถ้าหน้า /tag/ หรือ /filter/ อยู่อันดับต้น แสดงว่ามี Crawl Waste
หน้าสำคัญที่ถูกครอว์ลน้อย -- หน้า Product, Service, Landing Page ที่สร้างรายได้ ถูกครอว์ลกี่ครั้งต่อเดือน? ถ้าน้อยกว่า 5 ครั้ง ต้องแก้ไข
สัดส่วน Status Code -- เป้า: 200 มากกว่า 90%, 3xx น้อยกว่า 5%, 4xx น้อยกว่า 3%, 5xx น้อยกว่า 1%
Parameter URL Count -- URL ที่มี ? ควรน้อยกว่า 10% ของ Total Bot Hits ถ้ามากกว่า = Crawl Waste
Orphan Pages -- URL ที่อยู่ใน Sitemap แต่ไม่เคยถูกครอว์ลใน 30 วัน

ขั้นตอนที่ 6: แมปกับ Sitemap และ Internal Link Graph

เทียบข้อมูล 3 ชุด:

URL อยู่ใน Sitemap?	URL มี Internal Link ชี้มา?	URL ถูก Googlebot ครอว์ล?	สถานะ	แนวทาง
ใช่	ใช่	ใช่ (บ่อย)	ดี	ไม่ต้องทำอะไร
ใช่	ใช่	ไม่ / น้อยมาก	ปัญหา	ตรวจ robots.txt, noindex, server error
ใช่	ไม่	ไม่ / น้อยมาก	Orphan	เพิ่ม Internal Links จากหน้าที่เกี่ยวข้อง
ไม่	ไม่	ใช่	ไม่คาดคิด	ตรวจว่า URL นี้คืออะไร ถ้าไม่ต้องการให้ Index ให้ noindex/block
ไม่	ใช่	ใช่ (มาก)	พลาด	เพิ่มเข้า Sitemap ถ้าเป็นหน้าสำคัญ

ขั้นตอนที่ 7: จัดลำดับความสำคัญของการแก้ไข

ใช้ Impact vs Effort Matrix จัดลำดับ:

ปัญหา	Impact	Effort	ลำดับ
5xx Error บนหน้า Revenue สูง	สูงมาก	ต่ำ-กลาง	1 (ทำก่อน)
Redirect Chain 3+ ชั้น	สูง	ต่ำ	2
Parameter Crawl Waste > 30%	สูง	กลาง	3
Orphan Pages ที่มี Revenue Potential	กลาง-สูง	ต่ำ	4
หน้าสำคัญถูกครอว์ลน้อย	กลาง	กลาง	5
404 จาก Internal Links	กลาง	ต่ำ	6

ขั้นตอนที่ 8: ดำเนินการแก้ไข และติดตามผล

หลังจากแก้ไขแล้ว ต้องติดตามว่าการครอว์ลเปลี่ยนแปลงไปในทิศทางที่ดีขึ้น ตรวจสอบด้วย:

Log File Analysis รอบถัดไป: เปรียบเทียบสัดส่วน Status Code, Crawl Distribution หลังแก้ไข
Google Search Console Crawl Stats: ดู Crawl Requests, Download Size, Average Response Time
GSC URL Inspection: ตรวจสอบหน้าสำคัญว่าถูก Crawl/Index หลังแก้ไข
Ranking Changes: ติดตามอันดับของหน้าที่ได้รับการแก้ไข ภายใน 2-4 สัปดาห์

เครื่องมือสำหรับ Log File Analysis

เครื่องมือ	ประเภท	จุดเด่น	ราคา	เหมาะกับ
Screaming Frog Log Analyzer	Desktop App	ใช้ง่าย, UI สวย, แยก Bot/User, เทียบกับ Crawl/GA/GSC ได้	ฟรี (จำกัด), 199 GBP/ปี	ทีม SEO ทุกขนาด, เริ่มต้นง่าย
Google BigQuery + SQL	Cloud Data Warehouse	รองรับ Log ขนาดมหาศาล, Query ยืดหยุ่น, เชื่อม Data Studio	Pay-per-query (ถูกมากสำหรับข้อมูลขนาดกลาง)	เว็บใหญ่ 100K+ URL, ทีมที่มี SQL Skill
Python + Pandas	Custom Script	ยืดหยุ่นที่สุด, Automate ได้, สร้าง Custom Report ได้ทุกแบบ	ฟรี	Technical SEO ที่เขียน Code ได้
Splunk	Enterprise Log Platform	Real-time Analysis, Alert, Dashboard สวย, Search Query ทรงพลัง	Enterprise Pricing	องค์กรใหญ่ที่มี IT Team
Elasticsearch + Kibana	Open Source Stack	Real-time, Scalable, Visualization ดี, Self-hosted ได้	ฟรี (Self-hosted) หรือ Elastic Cloud	ทีม DevOps/SRE ที่อยากผสาน SEO Monitoring
OnCrawl	SaaS SEO Platform	รวม Log Analysis + Crawl + Analytics, คำนวณ Crawl Ratio	จาก $69/เดือน	Agency ที่ต้องการ All-in-one
Botify	Enterprise SaaS	Log Analysis + Crawl + Rendering + Action Board	Enterprise Pricing	เว็บ Enterprise ขนาดใหญ่มาก

Crawl Budget คืออะไร ทำไมจึงสำคัญ

Crawl Budget คือจำนวนหน้าที่ Googlebot จะครอว์ลบนเว็บไซต์ของคุณในช่วงเวลาหนึ่ง ประกอบด้วย 2 ส่วน:

Crawl Rate Limit: จำนวนครั้งสูงสุดต่อวินาทีที่ Googlebot ครอว์ลได้โดยไม่ทำให้เซิร์ฟเวอร์ช้า
Crawl Demand: ความต้องการของ Google ที่จะครอว์ลหน้านั้น ขึ้นกับ Popularity, Freshness, Authority

สำหรับเว็บขนาดเล็ก (น้อยกว่า 10,000 หน้า) Crawl Budget ไม่ค่อยเป็นปัญหา แต่สำหรับเว็บขนาดกลาง-ใหญ่ (10,000+ หน้า) การที่งบครอว์ลถูกใช้ไปกับหน้า Parameter, หน้า 404, หน้าซ้ำ หมายความว่าหน้าสำคัญถูกครอว์ลน้อยลง

สัญญาณว่า Crawl Budget เป็นปัญหา

หน้าใหม่ใช้เวลาหลายสัปดาห์กว่าจะถูก Index
หน้าที่อัปเดตเนื้อหาไม่เห็นการเปลี่ยนแปลงใน SERP
GSC Crawl Stats แสดง Crawl Request ลดลง
Log File แสดงว่า Googlebot ครอว์ลหน้า Parameter มากกว่าหน้า Content

วิธีเพิ่มประสิทธิภาพ Crawl Budget ด้วย Log Analysis

ปัญหา (จาก Log)	วิธีแก้	ผลที่คาดหวัง
Parameter URLs คิดเป็น 40%+ ของ Bot Hits	robots.txt Disallow, Canonical ไปหน้าหลัก, ลบ Internal Links ไปหน้า Parameter	ลด Crawl Waste, เพิ่ม Crawl ให้หน้าสำคัญ
Redirect Chain 3+ Hop	แก้ให้ Redirect ตรงไปปลายทาง (1 Hop), อัปเดต Internal Links ไปปลายทางตรง	ลด Wasted Crawl, เร็วขึ้นสำหรับบอท
404/410 จาก Internal Links	แก้ Internal Links ให้ชี้ไป URL ที่ถูก, ตั้ง 301 สำหรับ External Links ที่ชี้มา	ลด Dead-end Crawl
Soft 404 (200 แต่ไม่มีเนื้อหา)	ตอบ 404 จริง หรือ 301 ไปหน้าที่มีเนื้อหา	บอทไม่ต้องเสียเวลากับหน้าเปล่า
Response Time สูง (> 1s)	ปรับ Server, ใช้ Cache, ลด TTFB	บอทครอว์ลได้มากขึ้นในเวลาเท่าเดิม

Python Script ตัวอย่างสำหรับ Log Analysis เบื้องต้น

สำหรับทีมที่ต้องการเริ่มต้นโดยไม่ต้องใช้เครื่องมือเสียเงิน:

import pandas as pd

import re

from collections import Counter

# Parse log file

pattern = re.compile(

  r'(\S+) \S+ \S+ \[(.+?)\] "(\S+) (\S+) \S+" (\d{3}) (\d+|-) "(.+?)" "(.+?)"'

)

records = []

with open('access.log') as f:

  for line in f:

    m = pattern.match(line)

    if m:

      records.append({

        'ip': m.group(1),

        'time': m.group(2),

        'method': m.group(3),

        'url': m.group(4),

        'status': int(m.group(5)),

        'size': m.group(6),

        'user_agent': m.group(8)

      })

df = pd.DataFrame(records)

# Filter Googlebot

googlebot = df[df['user_agent'].str.contains('Googlebot', case=False)]

# Top 20 most crawled URLs

print("=== TOP 20 CRAWLED URLs ===")

print(googlebot['url'].value_counts().head(20))

# Status code distribution

print("\n=== STATUS CODE DISTRIBUTION ===")

print(googlebot['status'].value_counts())

# Parameter URL ratio

param_urls = googlebot[googlebot['url'].str.contains(r'\?')]

param_ratio = len(param_urls) / len(googlebot) * 100

print(f"\n=== PARAMETER URL RATIO: {param_ratio:.1f}% ===")

Case Study: Log File Analysis ที่เปลี่ยนผลลัพธ์ SEO

Case 1: E-commerce ลด Crawl Waste 60% เพิ่ม Index 35%

ปัญหา: เว็บ E-commerce 200,000+ URL พบว่า 65% ของ Bot Hits ไปที่หน้า Filter/Sort (เช่น /products?color=red&size=xl&sort=price) ซึ่งเป็นเนื้อหาซ้ำทั้งหมด หน้า Product จริงถูกครอว์ลเฉลี่ยเพียง 2 ครั้งต่อเดือน

แนวทางแก้:

ตั้ง robots.txt Disallow /products?* (บล็อก Parameter URLs ทั้งหมด)
เพิ่ม Canonical Tag ไปหน้า Product หลัก
ลบ Internal Links ไป Parameter URLs จาก Navigation
อัปเดต Sitemap ให้มีเฉพาะ URL สะอาด

ผลลัพธ์ (8 สัปดาห์หลังแก้ไข):

Parameter Bot Hits ลดจาก 65% เหลือ 8%
Product Page Crawl Frequency เพิ่ม 4.2x
Indexed Pages เพิ่ม 35% (จาก 80,000 เป็น 108,000)
Organic Traffic เพิ่ม 22%

Case 2: SaaS ค้นพบ 5xx Error ที่ซ่อนอยู่

ปัญหา: เว็บ SaaS เห็นอันดับลดลง 15-20 อันดับสำหรับ 30+ Keywords ภายใน 2 สัปดาห์ GSC ไม่แสดง Error ที่ชัดเจน แต่ Log Analysis พบว่า API Endpoint ที่ SSR (Server-Side Rendering) ใช้ มี 503 Error Rate 40% ในช่วง 06:00-10:00 ซึ่งตรงกับช่วงที่ Googlebot ครอว์ลหนักที่สุด

แนวทางแก้: เพิ่ม Auto-scaling สำหรับ API, ตั้ง Cache Layer สำหรับ SSR

ผลลัพธ์: 5xx Rate ลดเหลือ 0.1%, อันดับกลับมาภายใน 3 สัปดาห์

Log File Analysis สำหรับ AI Crawlers (GPTBot, ClaudeBot)

ในปี 2025-2026 นอกจาก Googlebot ยังมี AI Crawlers ที่มาครอว์ลเว็บเพื่อเทรนโมเดลหรือให้ผลลัพธ์ใน AI Search:

Bot	User-Agent	เจ้าของ	จุดประสงค์
GPTBot	GPTBot/1.0	OpenAI	ครอว์ลเพื่อเทรน/ให้ข้อมูลใน ChatGPT
ClaudeBot	ClaudeBot	Anthropic	ครอว์ลเพื่อเทรน/ให้ข้อมูลใน Claude
Google-Extended	Google-Extended	Google	ครอว์ลเพื่อเทรน Gemini (แยกจาก Googlebot)
Bytespider	Bytespider	ByteDance	ครอว์ลเพื่อ TikTok Search / AI
PerplexityBot	PerplexityBot	Perplexity AI	ครอว์ลเพื่อ AI Search

Log File Analysis ช่วยให้คุณรู้ว่า AI Crawlers ครอว์ลเว็บคุณมากแค่ไหน ใช้ Bandwidth เท่าไร และคุณจะอนุญาตหรือบล็อกพวกเขาผ่าน robots.txt ข้อมูลนี้ GSC ไม่มีให้แน่นอน

วิธีตั้ง Automated Log Monitoring

การวิเคราะห์ Log ครั้งเดียวแล้วจบไม่พอ ต้องตั้งระบบ Monitor ต่อเนื่อง:

ระบบ Alert ที่ควรตั้ง

เงื่อนไข Alert	ความรุนแรง	แนวทางตอบสนอง
5xx Rate สำหรับ Googlebot > 5%	วิกฤต	ตรวจ Server/App ทันที อาจส่งผลต่ออันดับใน 24-48 ชม.
Googlebot Crawl Rate ลดลง > 50% เทียบสัปดาห์ก่อน	สูง	ตรวจ robots.txt, Server Response Time, DNS
4xx Rate เพิ่มขึ้น > 10% ในวันเดียว	กลาง	ตรวจ Deployment ล่าสุด, URL Structure Change
Parameter URL Ratio > 30%	กลาง	ตรวจ Internal Link ที่ชี้ไป Parameter, Faceted Nav
New AI Bot ปรากฏในสัดส่วนสูง	ต่ำ	พิจารณานโยบาย Allow/Disallow ใน robots.txt

Log File Analysis Dashboard: ตัวอย่างข้อมูลที่ควรมี

ไม่ว่าจะใช้เครื่องมืออะไร Dashboard ที่ดีสำหรับ SEO Log Analysis ควรมีส่วนเหล่านี้:

Overview: Total Bot Hits, Unique URLs Crawled, Status Code Pie Chart, Crawl Trend Line (รายวัน)
Crawl Distribution: URL ที่ถูกครอว์ลมากสุด/น้อยสุด, Crawl vs Revenue/Traffic (ถ้ามีข้อมูล GA)
Error Report: 4xx URLs + จำนวน Hits, 5xx URLs + Time Pattern, Redirect Chains
Crawl Waste: Parameter URLs, Pagination, Faceted Nav URLs + สัดส่วน
Orphan Detection: URLs ใน Sitemap ที่ไม่ถูกครอว์ล
AI Bot Tracking: GPTBot, ClaudeBot, Google-Extended Hits + Trend

ข้อผิดพลาดที่พบบ่อยในการทำ Log File Analysis

ไม่ยืนยัน Bot ตัวจริง -- ใช้ User-Agent อย่างเดียวไม่พอ ต้อง Reverse DNS 10-30% ของ Googlebot Hits อาจเป็น Bot ปลอม
วิเคราะห์ข้อมูลน้อยเกินไป -- 1-7 วัน ให้ภาพไม่สมบูรณ์ ต้องอย่างน้อย 30 วัน
ไม่แยก Googlebot Mobile กับ Desktop -- Google ใช้ Mobile-first Indexing ดังนั้น Googlebot Smartphone สำคัญกว่า
ดูเฉพาะ 404 ไม่ดู 5xx -- 5xx อาจส่งผลรุนแรงกว่า เพราะบอทอาจลดอัตราครอว์ลทั้งเว็บ
ไม่เทียบกับ Business Data -- รู้ว่า URL ถูกครอว์ลน้อยไม่พอ ต้องรู้ด้วยว่า URL นั้นสำคัญทาง Revenue หรือไม่
แก้แล้วไม่ติดตาม -- ต้อง Monitor หลังแก้ไขเพื่อดูว่าได้ผลจริงหรือไม่

Checklist สำหรับ Log File Analysis ครั้งแรก

ขั้นตอน	รายการ	เสร็จ?
1. เตรียมข้อมูล	เก็บ Access Log อย่างน้อย 30 วัน
1. เตรียมข้อมูล	ตรวจสอบว่า Log Format มีครบ (IP, Time, URL, Status, UA)
2. ยืนยัน Bot	Reverse DNS Lookup กรอง Googlebot ตัวจริง
3. แปลงข้อมูล	Parse Log เป็น CSV/DB ที่ Query ได้
4. วิเคราะห์หลัก	Top Crawled URLs, Status Code Distribution
4. วิเคราะห์หลัก	Parameter URL Ratio, Crawl Frequency Distribution
4. วิเคราะห์หลัก	Redirect Chains, Response Time
5. แมปข้อมูล	เทียบกับ Sitemap (หา Orphans)
5. แมปข้อมูล	เทียบกับ Internal Link Graph
6. จัดลำดับ	Impact vs Effort Matrix
7. แก้ไข	ดำเนินการตามลำดับ
8. ติดตาม	ตั้ง Automated Monitoring / Alert

สรุป: Log File Analysis คือข้อมูลจริงจากสนามรบ

Log File Analysis เป็นหนึ่งในเทคนิค Technical SEO ที่ให้ข้อมูลตรงจากเว็บเซิร์ฟเวอร์ ไม่ผ่านตัวกลาง ไม่มี Sampling ไม่มี Delay ข้อมูลเหล่านี้ช่วยให้ทีม SEO เห็นปัญหาที่ GSC มองไม่เห็น ตั้งแต่ Crawl Budget ที่สูญเปล่ากับ Parameter URLs, Error ที่เกิดเฉพาะกับบอท, Orphan Pages ที่ไม่ถูกค้นพบ จนถึงพฤติกรรมของ AI Crawlers รุ่นใหม่

เริ่มต้นด้วยการเก็บ Log 30 วัน ใช้ Screaming Frog Log Analyzer หรือ Python Script ง่ายๆ วิเคราะห์ตามขั้นตอน 8 ข้อที่อธิบาย จัดลำดับปัญหาตาม Impact แล้วแก้ไข ข้อมูลจริงจาก Log จะพิสูจน์ตัวเองด้วยอันดับที่ดีขึ้นภายใน 2-8 สัปดาห์

บทความแนะนำ

ลูกค้าตัดสินใจเร็วขึ้นในไม่กี่วินาที — แค่เปลี่ยน UX ให้ถูกจุด

ก่อนปรับ UX คนเข้าเว็บแล้วออกเลยค่ะ แต่พอรีดีไซน์ใหม่ กลายเป็นจุดที่ปิดการขายได้ดีที่สุดแทน!

คุณสุภาวดี

Marketing Executive, Digital Business

🔥 ปรึกษาฟรี

ลูกค้าบอกเลยว่าเว็บใหม่ ทำให้น่าเชื่อถือขึ้นแบบก้าวกระโดด

หลังรีแบรนด์กับ Vision X Brain ยอดขายพุ่ง x3 ภายใน 2 เดือน!

คุณพลอย

Brand Owner | Beauty Industry

🔥 ปรึกษาฟรี

210% คืออัตราผู้ใช้ใหม่ที่เพิ่มขึ้นหลังรีดีไซน์ในเดือนแรก

เปลี่ยนเว็บกับ Vision X Brain แค่ไม่กี่วัน ลูกค้าใหม่เริ่มเข้าใจธุรกิจเราทันที

คุณศุภัสรา

Marketing Executive, B2B Tech

🔥 ปรึกษาฟรี

ลูกค้าใหม่เพิ่มขึ้น 3X ภาพลักษณ์ดูโปรขึ้นทันที

หลังรีดีไซน์กับ Vision X Brain ลูกค้าระดับองค์กรเริ่มเข้ามาจองงานผ่านเว็บไซต์เอง — ไม่ต้องพึ่งคอนเนคชั่นเหมือนก่อน

คุณณิชาภัทร

Brand Manager | Hospitality & Service

🔥 ปรึกษาฟรี

ผู้ใช้งานทดลองเพิ่มขึ้น 210% ภายใน 30 วันแรก

หลังจากเปลี่ยนเว็บไซต์กับ Vision X Brain ผู้ใช้งานกล้ากดทดลองระบบตั้งแต่หน้าแรก — ไม่ต้องตาม โทร หรืออธิบายซ้ำอีก

คุณอลิษา

Business Founder | Tech & Innovation

🔥 ปรึกษาฟรี

แชร์

Recent Blog

ทำไมการปรับปรุงเว็บไซต์ E-commerce ถึงช่วยเพิ่มยอดขายได้ทันที

เว็บของคุณไม่สามารถสร้างยอดขาย? ปรับปรุงเว็บไซต์เพื่อแก้ปัญหานี้ และเรียนรู้วิธีที่ช่วยเพิ่มประสิทธิภาพทันที...

ดูเพิ่มเติม

5 เทคนิคการออกแบบเว็บไซต์สำหรับธุรกิจ Startups ที่ช่วยเพิ่มอัตราการแปลงลูกค้า

5 เทคนิคออกแบบเว็บไซต์ Startup ที่เพิ่มยอดขาย 2026

เคยรู้สึกไหมว่าเว็บไซต์ของคุณไม่สามารถดึงดูดลูกค้าได้? ลองศึกษา 5 เทคนิคที่ช่วยให้คุณสามารถปรับปรุงเว็บไซต์ให้ดียิ่งขึ้นและเพิ่มอัตราการแปลงลูกค้าได้อย่างแท้จริง อ่านต่อ...

ดูเพิ่มเติม

ทำไมเลือก Webflow Design Development เพื่อเว็บไซต์ที่ใช้งานง่าย?

เคยรู้สึกหงุดหงิดเมื่อเว็บไซต์โหลดช้าใช่ไหม? ปัญหานี้สามารถแก้ไขได้ด้วยการออกแบบที่ถูกต้อง อ่านต่อเพื่อค้นหาวิธีที่คุณจะเปลี่ยนประสบการณ์ผู้ใช้!

ดูเพิ่มเติม