SEO กับ ajax # กับ ? จะมีปัญหาไหมครับเพราะเนื้อหาจะ duplicate

Question

อาจารย์ครับ ฝากถามนิดนึงครับ เกี่ยวกับการเก็บ content ของ google กับเว็บ goragod

ผมเองก็มีปัญหาเรื่อง duplicate content เพราะเว็บแต่ละหน้าเข้าได้หลายแบบของ ลิงค์

อย่างเว็บนี้เอง จะได้ทั้ www.goragod.com/?module=forum หรือ www.goragod.com/#module=forum หรือ www.goragod.com/forum.html

เปิดแล้ว google หน่าจะเห็นเนื้อหาเดียวกัน แล้ว google จะแปล #module=forum เป็น /?module=forum ไหมครับ หรือแปลเฉพาะกรณี #! ครับ พอดีผมเห็น page rank ได้ 4 มันดูเหมือนจะไม่มีปัญหาเรื่องนี้เท่าไร่

กรกฎ วิริยะ · Answer

555++

ที่ GCMS ไม่มีปัญหานี้ เพราะ GCMS ใช้เทคนิคการจัดการแบบอื่นครับ...

1. URL ที่ประกอบไปด้วย # เป็น URL ที่ human เห็นครับ ไม่ใช่ที่ bot เห็น ถ้าอยากเห็นว่า bot เห็น GCMS อย่างไร ลองเปิดเว็บด้วย Browser ที่ไม่ใช้ Javascript หรือ ปิดการใช้งาน Javascript ดูครับ

2. GCMS มีการจัการ URL ที่ถูกต้องเพื่อส่งให้กับ bot โดยตรง ซึ่งจะมีผลทำให้ bot สามารถรับรู้ได้ว่า หน้าที่กำลังแสดงผลอยู่ มี URL จริงๆว่าอะไร (URL ที่ต้องการให้ bot รู้) ดังนั้นถึงแม้ว่าเว็บจะเข้าได้หลายทาง แต่ URL ที่ bot เห็นมันจะมีแค่ 1 เดียวครับ

3. GCMS มี RSS, มี Sitemap ทำให้ bot สามารถรับรู้ URL จริงๆได้อยู่แล้วครับ

โดยปกติแล้ว ปัญหา duplicate content ที่จะมีผลกับ PR ไม่ได้หมายถึง content ที่อยู่ในหน้าเว็บเดียวกันครับ ถึงแม้ว่า URL ของเว็บจะต่างกันสุดขั่ว (ภายใต้ subdomain เดียวกัน) เพราะ ถึงยังไงมันก็มาจากที่เดียวกัน แต่สิ่งที่ bot ต้องตัดสินใจ ก็คือ bot จะเลือกเก็บ content จาก URL ใดเก็บไว้ต่างหาก ซึ่งผลเสียที่ตามมาคือ bot อาจเลือกเก็บ URL ซึ่งอาจไม่ใช่ URL ที่เราต้องการ ก้เป็นได้

แต่ปัญหา duplicate content ที่ bot สนใจ และมีปัญหากับ PR คือ duplicate content ที่ต่างโดเมนต่างหาก เพราะการต่างโดเมน อาจหมายถึงการ copy เนือหา หรือการทำ content farm ซึ่งไม่ใช่สิ่งพึงประสงค์ครับ

Zen Onnet · Answer

ขอบคุณอย่างยิ่งครับ อาจารย์ ผมเห็นแล้วทึ่งมาก ผมทำผิดพลาดหลายอย่างเรื่องนี้ และค่อยๆ แก้มาเรื่อง งมเรื่อยแบบอ่านบ้างไม่อ่านบ้าง เดาบ้าง ทดลองบ้างเจอปัญหาแล้วค่อยแก้ เรียกว่าไม่ค่อยมีครูสักเท่าไร เลยผิดพลาดและใช้เวลานานมากในการทำด้วยตนเอง
อันนึงที่ผมยัง งงและยังทำไม่เป็นก็คือที่ ใน <a href="http://www.goragod.com/about.html" class="about"> แล้วเว็บไม่โหลดตรงไปที่ about.html แต่ใช้ ajax โหลดcontent มาใส่ div โดยไม่ refresh หน้าทั้งหมด ทำให้โหลดเร็ว แต่ bot มองเห็นลิงค์ เป็น http://www.goragod.com/about.html เต็มๆ  สุดยอดจริงๆ ครับ  .. ผมก็ยังไม่ได้อ่านโค๊ต GAJAX จริงๆ จังๆ ปกติจะใช้ jquery อยู่ครับ ผมเดาว่าน่าจะเป็น โค็ตแนวนี้เพื่อรอดู event     
 jQuery(document).ready(function($) &#x007B;

	       $('a[class*=about]').click(&#x007B;

	         loadpage('divname','aboutconten.php');

	      &#x007D;);

	 &#x007D;);
	แต่ผมก็ยังไม่เข้าใจอยู่ดีว่า ajax มันเรียงลำดับทำงานอย่างไร มัน ไม่โหลด url ที่ a link ก่อน รัน ajax หรือ ถ้ามันโหลดลิงค์ก่อน ajax ก็จะไม่มีผลอะไร อาจารย์ช่วยชี้แนะหลักนี้หน่อยครับ
	อีกข้อครับ กรณี subdomain.mydomain.com ถ้าเรา rewrite ที่ .htaccess ให้มันมาเป็น www.mydomain.com/?mysub=subdomain มันจะแก้ปัญหา duplicate content ที่มีผลต่อ PR ไหมครับ  ตอนนี้ผมถึงกับทำ ใน php อีกครั้ง โดยเก็บ session mysub เอาไว้ แล้วก็ redirect 301 ไปที่ http://www.mydomain.com ไม่รู้ว่ามีแนวทางที่ดีกว่านี้ไหมครับ เพราะผมแจก subdomain ให้สมาชิกเพื่อให้ลิงค์จำง่ายเวลานำไปบอกคนอื่น แต่ผมก็ไม่อยากให้ google มองว่า spam ครับ และอยากให้เก็บแค่ www.mydomain.com อันเดียวไว้ที่ google index

กรกฎ วิริยะ · Answer

1.คำตอบของเรื่องนี้ดูที่ http://gcms.goragod.com/develop.html ครับ หรือ หาอ่านบทความบนเว็บ จริงๆแล้วมันก็ใช้หลายเทคนิคประกอบกันครับ

2.ผมไม่ค่อยเข้าใจคำถามเท่าไรนะ แต่เท่าที่ทราบ www กับที่ไม่ใช่ www google มองว่าเป้นคนละที่กันนะครับ

จริงๆแล้ว ปัญหา duplicate content เกิดจากการที่ google มองว่า ขยะบนอินเตอร์เน็ตมีมากเกินไป เช่น เนื้อหาเดียวกัน แต่มีสัก สิบ ร้อย หรือพันหน้า ที่ google เก็บไว้ (เพราะอาจมาจาก สิบ ร้อย หรือ พันเว็บ) ซึ่งมันเปลืองพื้นที่เก็บครับ และอาจทำให้ผลลัพท์การค้นหาไม่น่าประทับใจเท่าไร เพราะมนอาจแสดงเนื่ิอหาหน้าเดียวกันซ้ำกันแต่ต่าง URL เป็นจำนวนมาก ดังนั้น Google จึงเลือกที่จะเก็บเพียง URL เดียวที่เห็นว่าเป้นเจ้าของเรื่องนั้นๆ

ประเด็นคือ Google ต้องพิจารณาให้ได้ว่า เจ้าของบทความที่แท้จริงคือใคร ซึ่งแน่นอน ไม่มีใครรู้วิธีคิดนี้ นอกจาก Google เอง แต่สิ่งที่เราควรทำคือการพยายามบอก Google ว่า หน้านี้คือบทความของเรานะ (และคนที่แอบเอาเอาบทความของเราไปเผยแพร่ก็อาจจะทำอยู่เช่นกัน)

จริงๆแล้วถ้าได้อ่านคำแนะนำของ Google ซึ่งเขาบอกว่ามีหลายวิธีด้วยกันในการที่จะบอกว่าหน้าใดเป็นหน้าที่ถูกต้องหรือเป็นหน้าที่ต้องการให้ Google เก็บ เช่นการกำหนด <link rel=canonical href="http://www.goragod.com"> หรือวิธีอื่นๆ รวมถึง อาจใช้วิธีปิดกันหน้าที่ไม่ต้องการให้ Google เก็บ เช่นการใส่ noindex เป็นต้น ก็จะช่วยทำให้ Google พิจารณาหน้าหลักได้ง่ายขึ้น หรือ อาจมีการทำ Link เชื่อโยงไปยังหน้า URL จริงๆ (เช่นการให้เครดิตที่มาของบทความ) สิ่งเหล่านี้จะช่วยให้ Google มีข้อมูลมากพอที่จะแยกแยะว่า URL ใดควรเก็บได้ครับ

โดยส่วนตัวผมคิดว่า Google ไม่ได้ตัด duplicate content ออกไปจริงๆ แต่พยายามจะหาหน้าที่เป็นเจ้าของมากกว่า ซึ่งก็เป็นวิธีการที่ถูกต้องสำหรับคนที่เป็นเจ้าของต้นฉบับแหละครับ ดังนั้นถึงแม้ว่า หน้าที่เรา rewrite ไม่ได้ถูก index แต่ หน้าที่เป็นต้นฉบับของเราก็ยังถูก index อยู่ดี ซึ่งถ้าจะพิจารณากันจริงๆ มันก็ถูกต้องอยู่แล้ว ดังนั้น ไม่ว่าการทำ short URL หรือ การ redirect มาจากที่อื่น หรือแม้แต่การ นำบทความไปเผยแพร่ยัง URL อื่นก็ตาม ถ้าเราได้ทำอย่างถูกต้อง โดยการระบุถึงแหล่งที่มาของของต้นฉบับแล้ว ย่อมไม่มีผลกับ PR ของต้นฉบับแต่อย่างไร (เช่นกัน ก้ไม่ทำให้ PR ของหน้าเว็บ copy ได้รับ PR เพิ่มขึ้น)