Tourism Logistics - โลจิสติกส์สำหรับการท่องเที่ยว

Welcome


Tourism
Logistics



CMSE
Conference



Journal EEQEL




คลังหนังสือ
Komsan
Suriya



















Bootstrap Print E-mail
คมสัน  สุริยะ
11 สิงหาคม 2552


ตั้งแต่ต้นเดือนสิงหาคมมานี้ www.tourismlogistics.com  มีแต่อัพเพลงขึ้นเว็ปอย่างเดียวเลยนะครับ เพราะเจ้าของเว็ปกำลังง่วนอยู่กับการซ้อมคณะร้องเพลงประสานเสียงที่มหาวิทยาลัยเพื่อเตรียมสำหรับการแสดงในงานบาร์บีคิวปาร์ตี้วันพฤหัสนี้   เอ๊ย ไม่ใช่  เพราะเจ้าของเว็ปกำลังง่วนอยู่กับการทำแบบจำลองอันซับซ้อนต่างหากจึงต้องมีเพลงเปิดฟังเพื่อให้สมองแจ่มใส   มาวันนี้นึกขึ้นมาได้ว่าน่าจะบันทึกเรื่อง Bootstrap ที่ใช้กันมากในทางสถิติ  เป็นมนต์วิเศษทางสถิติอย่างหนึ่ง  ผมเคยเรียนครั้งแรกเมื่อไปอบรมที่ World BanK ตอนเมื่อสัก  8 - 9 ปีที่แล้ว ตอนนั้นไม่รู้เรื่องเลย  โทษครูที่สอนซึ่งพูดอังกฤษสำเนียงฝรั่งเศสว่าฟังไม่รู้เรื่อง  (ไม่เคยโทษตัวเอง)   ต่อมาได้มาเรียนอีกครั้งกับกีโด้ที่เยอรมันเมื่อสองปีที่แล้ว  ตอนนี้ลืมไปแล้ว (โทษว่ากีโด้สอนยังไงให้นักเรียนลืม)  ก็เลยต้องแบกกลับไปถามกีโด้อีกทีว่ามันคืออะไรนะ  กีโด้ก็ดีใจหาย   เล่าให้ฟังใหม่  คิดว่าคราวนี้จะจดบันทึกเอาไว้จะได้ไม่ลืมละ


Bootstrap คืออะไร  ใช้ทำอะไร


Bootstrap  คืออะไรก็ไม่รู้  รู้แต่เขาว่ามันวิเศษ  สมมติว่ามีตัวเลขอยู่  20 ตัว (น้อยกว่านี้ไม่ได้นะ กีโด้บอกมา)  เช่น  

1,  1,  1,  2, 2,    3,  4, 4, 5, 5,     5,  5, 6, 6, 7,    7, 8, 8, 8, 9

  
ครบยี่สิบตัวหรือยัง  อ้า...ครบแล้ว OK

ตัวเลขพวกนี้เรียงกันจากน้อยไปหามากแล้ว ถ้าลองเอามาพล็อตเป็นกราฟความถี่จะได้รูปประหลาดดังนี้





คำถามก็คือ  นี่มันคือการกระจายแบบไหนกันหล่ะเนี่ย


เมื่อมันกระจายไม่เป็นระเบียบอย่างนี้แล้วค่า Mean และ Variance จะหาอย่างไร  มันไม่รู้จะใช้สูตรไหน


Bootstrap ช่วยท่านได้




กลไกการทำงานของ Bootstrap


ขั้นที่ 1:   สุ่มตัวเลขใดก็ได้จากเลขทั้ง 20 ตัวนั้นมาจำนวน 20 ตัว  (ถ้าโจทย์มี 100 ตัว ก็สุ่มมาให้เท่ากันคือ 100 ตัว)  และเป็นการสุ่มแบบใส่คืนที่เดิมด้วย  หมายความว่าเราอาจจะได้เลขอะไรอย่างนี้ เช่น

9, 9, 9, 9, 9,   9, 9, 9, 9, 9,   9, 9, 9, 9, 9,   9, 9, 9, 9, 9

ก็ไม่เป็นไร

ให้คำนวณ  Mean  ของตัวเลขชุดนี้  เรียกว่า  X bar 1 


ขั้นที่ 2:   ทำแบบขั้นที่ 1  อีก  10,000 รอบ  (หมื่นรอบ)  ไม่เว่อร์นะ  กีโด้บอกมาเท่านี้จริง ๆ

เราจะได้  X bar ออกมา หนึ่งหมื่นค่า 


ขั้นที่ 3:   คำนวณ Mean ของ X bar ทั้งหนึ่งหมื่นค่านั้น  ใช้เป็นคำตอบว่า Mean  ของเลขชุดนี้เท่ากับเท่าใด
แล้วจาก X bar ทั้งหมื่นค่านี้ให้คำนวณ Variance ออกมา  ได้เป็นคำตอบว่า Variance ของเลขชุดนี้เท่ากับเท่าใด
จากนั้นใช้ Variance ที่คำนวณได้นี้มาคำนวณ  Confidence Interval  ของ Mean


ขั้นที่ 4:  จริง ๆ มันก็จบที่ขั้นที่ 3 นั้นแล้ว  ขั้นที่ 4 นี้แถมให้ว่าเราสามารถคำนวณหาตัวเลขที่เป็น
Percentile  ลำดับที่เท่าไรก็ได้  ออกมาได้ด้วย



ถ้าไม่เชื่อจะทำยังไง


เป็นเรื่องปกติที่เราจะไม่เชื่อเรื่องที่เหลือเชื่อ   เราก็ทดลองดูกับข้อมูลที่เราแน่ใจว่าเป็น Normal distribution
ซึ่งสร้างจากการ Simulation เช่น กำหนดให้ค่า Mean เท่ากับ 0  และ Variance เท่ากับ 1
สร้างค่าออกมาสัก  100 ค่า
แล้วเอาไปทดลองกับ  Bootstrap  ว่ามันจะให้คำตอบว่า
Mean =  0
Variance = 1
หรือเปล่า

กีโด้:  การันตีว่ามันต้องได้ตรงเป๊ะ
คมซ่าน (สำเนียงคนเยอรมันเรียกชื่อผม):  จริงเหรอกีโด้
กีโด้:  100% ชัวร์
คมซ่าน:  ถ้าไม่ได้ตามนั้นหล่ะ
กีโด้:  ก็เอามาคืนได้เลย 


น่าสนใจดีเหมือนกัน
ใครเอาไปทดลองแล้วได้คำตอบออกมายังไงช่วยบอกกันด้วย
ถ้า Bootstrap ใช้ไม่ได้คมซ่านจะได้เอาไปคืนกีโด้




เมื่อไรถึงควรจะใช้ Bootstrap


1.  เมื่อได้ข้อมูลมาจาก Field
2.  และข้อมูลนั้นกระจายแบบประหลาด ๆ ซึ่งบอกไม่ได้ว่ามันคือการกระจายแบบไหน
3.  และเมื่อเราต้องการรู้ Mean, Variance  และ Confidence Interval ของข้อมูลชุดนั้น
4.  เมื่อเราต้องการนำค่า Confidence Interval ไปใช้งานในการ Simulation ต่อ

ยกตัวอย่าง

ถ้าอาจารย์ให้ไปหาค่าใช้จ่ายของชาวเยอรมันที่มาเทื่ยวเชียงใหม่สัก 300  คน
แล้วถามว่าตกลงค่าเฉลี่ยของค่าใช้จ่ายอยู่ในกรอบเท่าไร
นี่คือข้อแรก

จากนั้นถ้าอาจารย์บอกว่าให้ลอง Simulate ดูซิว่า  ถ้านักท่องเที่ยวเยอรมันมีค่าใช้จ่ายในกรอบของ Confidence Interval แล้ว
จะเกิด Multiplier ของรายจ่ายนั้นไปทั่วทั้งเศรษฐกิจของเชียงใหม่เป็นเงินเท่าไร
นี่คือข้อสอง  ซึ่งนำค่า Confidence Interval ไปใช้งานในการ Simulation ต่อ
เคล็ดลับของเรื่องนี้คือ  เราจะมีค่าที่เห็น ๆ อยู่สามค่า คือ Mean, ขอบเขตล่าง  และขอบเขตบน
แล้วเราจะเอาค่าอื่น ๆ มาจากไหนเพื่อใส่ใน Simulation 
คำตอบคือ ให้หา Percentile ออกมา เช่น  P10,   P20,   P30,   P40, ..., P90  เป็นต้น  ก็จะได้จำนวนตัวเลขมากขึ้น




เมื่อไรถึงไม่ควรจะใช้ Bootstrap


1. เมื่อรู้ว่ารูปแบบการกระจายของข้อมูลเป็นแบบไหนอยู่แล้ว ใช้สูตรคำนวณเอาเลย
2. เมื่อไม่ได้อยากรู้ว่า Mean กับ Confidence Interval เท่ากับเท่าไร





ใช้โปรแกรมอะไร

Stata





ใครอยากรู้จัก กีโด้ และกระเป๋าวิเศษของเขา เข้าไปดูกันเองได้เลย 
www.guidoluechters.de

ป.ล.  กีโด้เป็นคนน่ารัก ใจดี  ถามอย่างแกตอบมาสักร้อยอย่าง  เคยมาอยู่เชียงใหม่ 2 ปี อยู่เมืองไทย 5 ปี ที่อื่นเช่นเชียงราย กรุงเทพฯ  ปากช่อง  มีภรรยาคนไทยชื่อคุณดา  มีบ้านอยู่ติดริมน้ำปิง  ทำงานเป็นนักสถิติให้หน่วยงานอาสาสมัครทางสาธารณสุข เช่น มูลนิธิแมคเคน   พูดไทยได้นิดหน่อย สวัสดีครับ ขอบคุณครับ   สนใจการเมืองไทยมาก ไล่ชื่อนายกรัฐมนตรีไทยได้ครบทุกคน  พักหลังไม่ค่อยมาเมืองไทยเพราะดันไปคุยกับกัปตันเครื่องบินที่ไปบวชเป็นพระที่ปากช่องแล้วถูกอำมาว่าบนฟ้ามาลมกรรโชกที่สามารถฉีกเครื่องบินออกมาเป็นเสี่ยง ๆ ได้   และลมนี้มองไม่เห็นและไม่สามารถคาดการได้  แกเลยกลัวมาก  สงสัยกัปตันคนที่เล่านั้นก็คงจะกลัวเรื่องนี้ขึ้นสมองจนถึงกับต้องเลิกเป็นกัปตันแล้วออกบวชอย่างนั้น 


น่าสนใจว่าถ้าเอาเรื่องลมกรรโชกนี้ไปเล่าให้อาจารย์มิ่งสรรพ์ฟัง แล้วอาจารย์จะกลัวจนเลิกบินไม๊  ลองดู ๆ  ถ้าอาจารย์มิ่งสรรพ์ไม่กลัว            
คมซ่านก็จะได้เอาเรื่องโม้นี้ไปคืนกีโด้ กีโด้จะได้เลิกกลัวสักที 











ขอขอบคุณภาพประกอบ

1. กีโด้  เลิชเตอร์ส
http://131.220.109.9/index.php?id=people&rid=945&view=contact&let=L&search=&startList=0





กลับไปสู่สารบัญ



 

เกี่ยวกับลิขสิทธิ์เนื้อหาในเว็บไซต์ิ์

ผู้เขียนไม่หวงห้ามที่ท่านจะคัดลอกบทความ บนเว็บไซต์นี้ไปใช้ในรายงานของท่าน  

แต่ขอความกรุณาเพื่อนนักวิชาการ เพื่อนผู้ทำเว็ปไซต์ 
น้อง ๆ นักเรียน นักศึกษา ทุกท่าน 
ได้โปรดเขียนอ้างอิงในรายงานของท่านตามหลักสากล

การไม่เขียนอ้างอิงดังกล่าวถือว่าละเมิดลิขสิทธิ์
และมีความผิดตามกฎหมาย  
 
 ขอขอบคุณทุกท่านมากครับ