5/8/09

ไคว์สแคว์ ใช้อย่างไร หรือ ทำไมต้องใช้ไคว์สแคว์ หรือ Chi-Square หรือ Pearson Chi-Square


วันที่ 5 พฤษภาคม 2552: ประทับใจการวิเคราะห์ข้อมูลด้วยสถิติไคว์สแคว์ คุณ Mitochondria
วันนี้วันหยุด มีเวลาได้ งิเคราะห์ข้อมูล รายงานการวิจัยที่ทำค้างเอาไว้หลายเดือนแล้ว
ประทับใจการวิเคราะห์ข้อมูลด้วยสถิติไคว์สแคว์ คุณ Mitochondria การวิเคราะห์ข้อมูลด้วยสถิติไคว์สแคว์ หรือ การเลือกใช้ ไคว์สแคว์ หรือ ไคว์สแคว์ ใช้อย่างไร หรือ ทำไมต้องใช้ไคว์สแคว์ หรือ Chi-Square หรือ Pearson Chi-Square คำเหล่านี้สามารถสืบค้น การ วิเคราะห์ข้อมูลด้วยสถิติไคว์สแคว์ ได้...อย่างที่นี่ ดีมากเลย ต้องขอขอบพระคุณ webนี้มากๆเลย อ่านง่าย เข้าใจง่าย ใครเขียนไม่ทราบ เขียนว่า Mitochondria ภาควิชาพยาธิวิทยา คณะแพทย์ มหาวิทยาลัยสงขลานครินทร์ แต่รู้ว่าดี ลองเข้าไปดูนะครับ ที่นี่ http://gotoknow.org/blog/karn/53767 ตัวอย่าง เช่น ท่านสรุปไว้ว่า ...
ว่าด้วยเรื่องสถิติ 6 : ไคว์สแคว์ ภาคสมบูรณ์
จากบันทึกก่อนหน้านี้ เราได้ทำความรู้จักกับเจ้าไคว์สแคว์ไปแล้วพอสมควร ในฐานะที่เป็นยอดฝีมือในการจัดการกับตัวแปรที่เป็นนามบัญญัติ ที่ผมชอบเรียกติดปากว่าเก็บเป็นตัวอักษร แต่ที่ได้แนะนำไปนั้นเป็นเพียงการวิเคราะห์ข้อมูลในตาราง 2 x 2 ก็คือตารางที่มีเพียงสองคอลัมม์ กับสองแถว รวมกันเป็นสี่ช่อง ซึ่งจริงๆ แล้วเจ้าไคว์สแคว์นี่ใช้วิเคราะห์ข้อมูลในตารางที่มีขนาดใหญ่กว่า 2 x 2 ได้ไม่จำกัด เดี๋ยวกำลังจะงง ในที่นี้คือวิเคราะห์ข้อมูลเพียงสองตัวแปร ยกตัวอย่างเช่น เราสนใจว่าเพศหญิงกับเพศชายนี่เขาอยากมีบ้านในฝันแบบไหนกันนะ อย่างนี้เราก็เก็บตัวแปรสองตัว ตัวแปรที่หนึ่ง คือ เพศ ก็มีเพียงแค่สองตัวเลือก คือ เพศชายกับเพศหญิง กับอีกตัวแปรคือ แบบบ้านในฝัน ซึ่งเป็นตัวแปรที่มี 5 ตัวเลือก ได้แก่ บ้านเดี่ยว ทาวน์เฮาส์ ตึกแถว คอนโด และอื่นๆ เมื่อ Crosstab ข้อมูลจะได้ออกมาเป็นตาราง 5x2 ครับ ภายในก็จะบรรจุ ข้อมูลอยู่ อยากรู้ก็ดูข้อมูลดิบที่อยู่ข้างในได้ครับ

แต่ก่อนที่จะไปดูค่าไคว์สแคว์ให้เหลือบดูที่หมายเหตุใต้ตารางสักนิดดูว่า ค่าในตารางมีอยู่กี่ช่องที่มีค่าคาดหวังน้อยกว่า 5 ซึ่งในที่นี้ไม่มีสักช่อง สิ่งที่ต้องระวังคือการคำนวณไคว์สแคว์จะยอมรับให้มีจำนวนช่องที่มีค่าคาดหวังน้อยกว่า 5 ได้ไม่เกินร้อยละ 20 หมายถึงเรามีตาราง 5x2 ช่อง ก็คือ รวมเป็น 10 ช่อง ใน 10 ช่องนี้ให้มีค่าคาดหวังน้อยกว่า 5 ได้ไม่เกิน 2 ช่อง คำว่าค่าคาดหวังในที่นี้เป็นค่าที่เครื่องคำนวนให้ ไม่ใช่ค่าข้อมูลดิบที่เราเห็นในตารางนะครับ อย่าเข้าใจผิดล่ะ เมื่อผ่านเกณฑ์ข้อนี้แล้วถึงค่อยมาดูค่า ปัวซองไคว์สแคว์ ที่เป็น p value ในที่นี้ก็คือค่า asym sig 2 side ได้ออกมาเป็น 0.358 ค่านี้มากกว่า 0.05 แสดงว่า เพศหญิงกับเพศชายมีแบบบ้านในฝันไม่ต่างกัน เห็นมั้ยว่าไม่ใช่เรื่องยากในการคำนวณค่าไคว์สแคว์

ผมสรุปวิธีใช้ ไคว์สแคว์อีกครั้งนะครับ
1. ใช้กับข้อมูลที่เก็บเป็นนามบัญญัติ ก็คือเก็บเป็นตัวอักษร
2. ตัวแปรเป็นอิสระไม่ขึ้นต่อกัน
3. เวลาใช้ก็ให้ดูว่ามีอยู่กี่ช่องที่มีค่าคาดหวังน้อยกว่า 5 ถ้ามีน้อยกว่าร้อยละ 20 ของจำนวนช่องทั้งหมด ก็ถือว่าผ่านครับไปข้อต่อไป
4. ดูค่า p value เทียบกับ 0.05 ถ้ามากกว่า 0.05 แสดงว่าตัวแปรที่ 1 กับตัวแปรที่ 2 ไม่มีความแตกต่างอย่างมีนัยสำคัญครับ แต่ถ้าหากได้ค่าน้อยกว่า 0.05 แสดงว่าตัวแปรที่ 1 กับตัวแปรที่ 2 มีความแตกต่างอย่างมีนัยสำคัญครับ

นั่นเป็นขั้นตอนการวิเคราะห์ค่าไคว์สแคว์ แล้วมีคำถามตามมาตอนนี้คือ
• แล้วถ้าเวลาเราเหลือบไปดูค่าคาดหวังแล้วพบว่ามันมีค่าน้อยกว่า 5 อยู่มากกว่าร้อยละ 20 ของจำนวนช่องทั้งหมดล่ะต้องทำอย่างไร
ถ้าเกิดปัญหานี้นะครับ อย่างแรกที่ต้องทำคือดูว่าค่าตัวแปรในตารางนั้นพอจะยุบช่องรวมกันได้มั้ย การยุบช่องรวมกันในที่นี้หมายถึงจัดกลุ่มข้อมูลใหม่ให้มีจำนวนช่องลดลง อย่างเช่นถ้าตัวแปรเราเป็นช่วงอายุที่จัดออกเป็น 8 กลุ่ม ก็ลองดูครับ ว่าถ้าจัดชั้นใหม่ ให้มีช่วงอายุกว้างขี้น ก็จะมีจำนวนช่องลดลง แล้วค่อยมาวิเคราะห์กันใหม่ให้ทำอย่างนี้ไปเรื่อยๆ จนกว่าจะมีค่าคาดหวังที่น้อยกว่า 5 ไม่เกินร้อยละ 20 ของจำนวนช่องทั้งหมด ก็จะคำนวณค่าไคว์สแคว์ได้ครับ การยุบช่องนี้สามารถทำได้ทั้งสองตัวแปรนะครับ ขอให้เป็นตัวแปรที่จัดกลุ่มใหม่ได้ แต่โดยปกติเขาจะเลือกทำตัวแปรใดตัวแปรหนึ่งก่อนครับ
• แล้วถ้ายุบตารางลงไปต่ำสุดแล้วเหลืออยู่ 2 x 2 แล้วยังมีช่องที่มีค่าคาดหวังน้อยกว่า 5 อยู่อีกละครับต้องทำอย่างไร
เมื่อถึงตอนนั้นก็ให้ใช้ค่าแก้ไข คือคำนวน Yates’ chi square หรือ Adjust chi square ค่าแก้ไขนี้ใช้ได้ตั้งแต่ตัวอย่างตรวจน้อยไปถึงมาก ขอเพียงให้เป็นตาราง 2x2 และไม่ผ่านข้อกำหนดเรื่องที่มีค่าคาดหวังน้อยกว่า 5 อยู่อย่างน้อย 1 ช่อง (ก็เงื่อนไขร้อยละ 20 นั่นแหละครับ) ถ้าจำเป็นต้องใช้เมื่อไหร่ ไปคำนวณได้บน web เลยครับ สนใจอ่านเรื่อง การแก้ไขค่า Yates’s chi square ได้เพิ่มเติมที่นี่ครับ

แต่ถ้าตัวอย่างเราไม่มากนักคือ ไม่มากขนาดไหนไม่มีใครเขาระบุไว้ชัดเจน แต่เท่าที่ผมค้นดูตัวอย่างจากหลายๆที่ ก็เอาเป็นว่า น้อยกว่า 30 ลงมาก็แล้วกัน ก็ให้คำนวนด้วยค่า Fisher’s Exact Test ซึ่งก็จะใช้กับเฉพาะตาราง 2x2 เท่านั้นเหมือนกัน อย่างในรูปข้างบนเป็นการคำนวณจากตาราง 5x2 ค่าตัวนี้ก็เลยไม่ขึ้นมาครับ ค่า Fisher's Exact Test นี้ จริงๆ แล้วมันก็ใช้ได้เหมือนไคว์สแคว์แหละครับ แต่สูตรการคำนวณนี้สุดแสนจะเจ็บปวดครับ มันต้องทำ factorial ซะปวดหัวเลย ก็เลยไม่มีใครอยากใช้เวลาตัวอย่างมากๆ หนีไปใช้ค่า chi square ง่ายกว่าเยอะ แต่พอในรายที่ไม่ผ่านข้อกำหนดของไคว์สแคว์ ก็แล้วตัวอย่างไม่มากนัก ก็เลยถูกบังคับให้ใช้ค่า Fisher's Exact Test นี้ สนใจอ่านเพิ่มเติมค่า Fisher’s Exact Test ได้ที่นี่ครับ
[หมายเหตุ ค่าตัวเลข 30 เป็นค่าประมาณจากประสบการณ์ส่วนตัวครับ เพราะตัวเลขยิ่งเยอะยิ่งคำนวณยากครับ]
ในทางปฏิบัติเท่าที่สังเกตุเห็นนะครับ ในกรณีที่ไม่ผ่านเกณฑ์ร้อยละ 20 ของไคว์สแคว์ ถ้าจำนวนตัวอย่างมาก เขานิยมจะใช้ค่า Yates' chi square แต่ถ้าจำนวนตัวอย่างน้อยเขามักจะใช้ค่า Fisher's Exact Test ครับ
• แล้วถ้าเป็นตัวแปรแบบตัวอย่างข้างบน คือดูแล้วมันยุบช่องไม่ได้ล่ะ ต้องทำอย่างไร
ถ้าการวิเคราะห์ตัวแปรนี้เป็นสิ่งสำคัญที่จะต้องหาคำตอบให้ได้ ก็อาจจะต้องใช้การเพิ่มจำนวนตัวอย่างเข้ามา อย่างเช่นเก็บตัวอย่างเพิ่มขึ้น แล้วเอามาวิเคราะห์ใหม่ จนกว่าจะผ่านข้อกำหนดเรื่องร้อยละ 20 นั้น แต่ถ้าคำถามวิจัยข้อนี้ ไม่สลักสำคัญเท่าไร ก็ผ่านมันไปเถอะครับ หมายถึงไม่ต้องนำเสนอว่ามันแตกต่างกันหรือไม่
• คำถามสุดท้าย ไม่ว่าจะคำนวณค่า ไคว์สแคว์ , Yates’ chi square หรือว่า Fisher’s Exact test ไม่เห็นมันจะมีค่าเท่ากันเลยสักอัน อย่าว่าแต่ค่าเท่ากันเลยนะครับ แม้แต่ค่า p value ของแต่ละตัวยังไม่เห็นจะเท่ากันเลย
ค่าพวกนี้ถูกคำนวณด้วยสูตรที่แตกต่างกันครับ วิธีการนำไปใช้ก็ต่างกัน จึงไม่แปลกที่จะมีค่าไม่เท่ากัน สิ่งสำคัญคือเราต้องรู้ว่าเมื่อไหร่จะใช้ค่าไหน ก็ใช้เกณฑ์ตามข้างบนนั่นแหละครับ เพียงเท่านี้คุณก็เริ่มต้นจัดการกับข้อมูลที่เป็นตัวอักษรได้แล้ว ไปลุยกันเลยพวก !

ผมคิดว่าเรื่องไคว์สแคว์นี้ ผมคงเขียนจบแล้วโดยสมบูรณ์ หรือท่านคิดว่าอย่างไรครับ กลับไปนั่งอ่านดูอีกรอบ เอ! ทำไมเรายิ่งเขียนยิ่งหนักขึ้นหนอ เฮ้อ! ก็อย่างนี้แหละครับ สถิติ มีหนักมีเบา เป็นธรรมดาของโลก
วันที่ 5 พฤษภาคม 2552 วันนี้ นำรถเข้าอู่ ขัดสี หลังจากที่ ลูกชายภูมิพันธุ์ จันทร์สว่าง ฝากรอยเอาไว้ท้ายรถ เมื่อ 2 สัปดาห์ก่อน ใช้บริการช่างเลิศชาย ทำทอง หรือ ช่างเลิศ หรือพี่เลิส ที่พวกเราคุ้นเคย ที่อู่ซ่อมสีรถ อู่วัฒนชัยยนต์ บ้านบกน้อย หมู่ที่ 7 ตำบลดงแคนใหญ่ อำเภอ คำเขื่อนแก้ว จังหวัดยโสธร

1 comment:

  1. ขอบคุณมากเลยคร้า :) ถ้าหากว่า ค่าความคาดหวังที่น้อยกว่า 5 นั้นมีจำนวนมากกว่า 20% จะทำการแก้ไขโดยรวมรวบโค้ดใช่ไหมค่ะ

    ReplyDelete