สรุป course.fast.ai (part1 v4) คาบที่ 5
Deep Learning เป็นเครื่องมือที่ทรงพลัง ดังนั้นเราจำเป็นต้องคำนึงถึงผลกระทบจากโมเดลที่เราสร้างด้วย เรามีความตระหนักในฐานะนักพัฒนาเพียงพอแล้วหรือยังว่า สิ่งที่เราพัฒนาสามารถส่งผลกระทบต่อสังคมได้?
จริยธรรม (Ethics) คือ อะไร
- หลัก หรือ มาตรฐาน ของการกระทำที่ถูกต้อง และ ไม่ถูกต้อง เป็นหลักการที่ชี้แนะว่าเราควรจะทำอะไร ไม่ควรทำอะไร
- การศึกษา และ พัฒนาหลักจริยธรรมในแต่ละบุคคล
ปัญหาเชิงจริยธรรมด้านต่างๆ
กระบวนการแก้ปัญหา และความรับผิดชอบ
- เป็นเรื่องปกติที่จะมีความผิดพลาด (error) ในข้อมูล
- Algorithm หรือ Software ก็สามารถมี bug ได้เช่นกัน (ความผิดพลาดในเชิง software)
- กรณีศึกษา: ในประเทศสหรัฐอเมริกา มีการใช้ software เพื่อพิจารณางบประมาณในส่วนของประกันสุขภาพ จากการตรวจสอบของ The Verge พบว่าในเมือง Arkansas มีผู้ได้รับผลกระทบถูกตัดงบประมาณประกันสุขภาพโดยเฉพาะในกลุ่มผู้ป่วย เบาหวาน (diabetes) และ ภาวะพิการทางสมอง (celebral palsy) สาเหตุมาจากความผิดพลาดในการนำ algorithm มาใช้ “What Happens When an Algorithm Cuts Your Healthcare”
- เราควรจะมีกระบวนการสำหรับตรวจสอบ software และ การแก้ไขข้อผิดพลาดหรือไม่
Feedback loops
- จะเกิดอะไรขึ้น เมื่อโมเดลกำหนดข้อมูลที่จะถูกนำมาใช้ฝึกโมเดลในรอบถัดไป จากผลลัพธ์การทำนายในรอบปัจจุบัน?
- ทิศทางที่โมเดลทำนาย หรือแนะนำ จะยิ่งส่งผลต่อการทำนาย หรือแนะนำในอนาคต ให้มาในทิศทางเดิมเรื่อยๆ จากข้อจำกัดในตัวเลือก หรือผลลัพธ์ในการทำนาย หรือแนะนำในแต่ละครั้ง เช่น บน Facebook ยิ่งเราดู หรือ กด like กับเนื้อหาประเภทไหนเยอะๆ ก็จะยิ่งได้เนื้อหาลักษณะนั้นมาบน news feed จะเกิดอะไรขึ้นหากเราเริ่มเข้าไปบริโภคข้อมูลที่เป็นเพียงการคาดเดา และถูกจงใจสร้างมาเพื่อชวนเชื่อ และ สร้างความแตกแยก?
- กรณีศึกษา: ระบบแนะนำวิดีโอของ Youtube ถูกออกแบบมาให้ผู้ใช้งานดูวิดีโอ และใช้งานอยู่บน platform นานๆ ยิ่งผู้ใช่้งานมีประวัติการดูวิดีโอประเภทใดประเภทหนึ่งมากเท่าไหร่ ก็จะยิ่งได้รับวิดีโอแนะนำประเภทนั้นมากเท่านั้น สามารถทำให้เกิดพฤติกรรมติดได้ นอกเหนือจากนี้ วิดีโอที่ได้รับความนิยม และถูกแนะนำมากๆ ก็จะยิ่งได้รับความนิยม เนื่องจาก YouTube ไม่สามารถควบคุมเนื้อหาของวิดีโอทั้งหมดได้ ในบางครั้งวิดีโอเหล่านี้อาจจะเป็นข้อมูลที่ยังไม่ได้รับการพิสูจน์ การคาดเดา หรือ ทฤษฎีสมคบคิด ก็เป็นได้ ซึ่งก็มีโอกาสที่ระบบแนะนำวิดีโอจะแนะนำวิดีโอเหล่านี้กับคนจำนวนมาก เกิดการบริโภคข้อมูลผิดๆ และนำไปสู่ความขัดแย้งได้ “YouTube Unleashed a Conspiracy Theory Boom. Can It Be Contained?”
- กรณีศึกษา: เด็กผุ้หญิง 10 ขวบ และเพื่อนของเธออัพโหลดวิดีโอที่พวกเขาเล่นกันที่สระน้ำในสวนหลังบ้านลง YouTube และ ไม่กี่วันถัดมา ยอด view ของวิดีโอดังกล่าวก็ขึ้นไปถึง 400,000 ทำให้ผู้ปครองของเด็กตกใจ และ แปลกใจเป็นอย่างมาก หลังจากการตรวจสอบจึงพบว่า วิดีโิดังกล่าวถูกแนะนำให้กับกลุ่มที่มีรสนิยามทางเพศกับเด็ก (paedophile) “On YouTube’s Digital Playground, an Open Gate for Pedophiles”
- กรณีศึกษา: Evan Estola lead machine learning engineer บริษัท Meetup ตัดสินใจไม่ใช้ เพศ ของผู้ใช้งานมาเป็นตัวแปรในระบบแนะนำ tech meetup ให้กับผู้ใช้งาน เนื่องจากโดยปกติแล้วผู้ชายมักจะให้ความสนใจกับ meetup ประเภทนี้มากกว่าผู้หญิงอยู่แล้ว หากมีการนำ เพศ มาเป็นตัวแปรในโมเดลสำหรับแนะนำ tech meetup ก็จะยิ่งทำให้โมเดลแนะนำ tech meetup ให้ผู้หญิงน้อย และส่งผลให้ผู้หญิงเข้าร่วม tech meetup น้อยลงไปอีก และ เกิดเป็น feedback loops ส่งผลให้ผู้หญิงเข้าร่วม tech meetup น้อยลงไปเรื่อยๆ
Bias
- กรณีศึกษา: Dr. Latanya Sweeney พบว่าโฆษณาใน Google ที่แสดงขึ้นมาเวลาค้นหาด้วยชื่อของคนผิวดำ จะมีลักษณะเอนเอียงไปในทางเสนอแนะว่าบุคคลนั้นมีประวัติอาชญากรรม ในขณะที่ถ้าค้นหาด้วยชื่อคนผิวขาว โฆษณาจะค่อนข้างเป็นกลางมากกว่า “Discrimination in Online Ad Delivery”
- Historical bias: ความเอนเอียงที่ฝังรากอยู่ในประวัติศาสตร์ เช่น การแบ่งแยกเชื้อชาติ และ สีผิว ที่ส่งผลให้เกิดการปฏิบัติที่ไม่เท่าเทียม หากเรานำเอาข้อมูลที่มีความไม่เท่าเทียมนี้อยู่มาใช้ ก็เป็นการสนับสนุนให้เกิดความไม่เท่าเทียมกันต่อไป
- กรณีศึกษา: COMPAS Algorithm ที่ถูกใช้ในสหรัฐอเมริกา สำหรับตัดสินจำคุก หรือประกันตัวจำเลย ถูกตรวจสอบโดย Propulica และพบว่ามีแนวโน้มในการตัดสินจำคุกคนผิวดำมากกว่าคนผิวขาว อย่างมีนัยสำคัญ “Machine Bias-Risk Assessments in Criminal Sentencing
- กรณีศึกษา: กลุ่มนักวิจัยจาก MIT ทำการศึกษาความแม่นยำของระบบจำแนกเพศผ่านการตรวจสอบใบหน้า ในกลุ่มสีผิวต่างๆ พบว่าความแม่นยำในการจำแนกเพศของผู้หญิงที่มีผิวสีอยู่ในระดับต่ำ เมืื่อเทียบกับความแม่นยำในการจำแนกเพศในกลุ่มอื่นๆ หรือตัวเลขความแม่นยำโดยรวมที่ถูกใช้ในการรายงานประสิทธิภาพของระบบ
- Measurement bias: สิ่งที่เราวัดมีความเอนเอียง หรือไม่ หรือข้อมูลที่เราเก็บมามีความเอนเอียงไปยังประชากรเพียงบางกลุ่มจากทั้งหมดหรือไม่
- กรณีศึกษา: จากการศึกษาโมเดลทำนายการเกิดโรคหลอดเลือดสมอง (stroke) จากประวัติการตรวจโรคของคนไข้ ของ Sendhil Mullainathan และ Ziad Obermeyer โดยอ้างอิงจากโมเดล ปัจจัยหลักที่ส่งผลต่อการทำนายว่าจะเกิดโรคหลอดเลือดสมองได้แก่
- Prior stroke
- Cardiovascular disease
- Accidental injury
- Benign breast lump
- Colonoscopy
- Sinusitis อย่างไรก็ตาม มีเพียงสองปัจจัยแรกเท่านั้นที่ส่งผลต่อการเกิดโรคหลอดเลือดสมองจริงๆ ในขณะที่ปัจจัยอื่นๆ เป็นเพียง correlation กับการมาตรวจโรคของอาการอื่นๆ ที่ไม่เกี่ยวข้อง ของคนไข้ที่มีสิทธิ์ หรือมีความสามารถเข้าถึงการรักษาเท่านั้น ไม่ได้เป็นสาเหตุของการเกิดโรคแต่อย่างใด (“Does Machine Learning Automate Moral Hazard and Error”)[https://scholar.harvard.edu/files/sendhil/files/aer.p20171084.pdf]
- Aggregation bias: ข้อมูลสามารถถูกนำมาสรุปเชิงสถิติจนสูญเสียความสัมพันธ์ หรือข้อมูลที่สำคัฐระหว่างตัวแปรไปได้
- Representation bias: ในกรณีที่ไม่มีความ balance ระหว่าง class ในข้อมูล ML โมเดลจะยิ่งขยายความไม่ balance ระหว่าง class นี้ ในผลการทำนายมากขึ้นไป
Disinformation
- Disinformation ไม่ได้จำกัดอยู่แค่การให้ข้อมูลที่ไม่เป็นความจริง หรือ ข่าวปลอม (fake news) เท่านั้น แต่รวมไปถึงการใช้ข้อมูลที่มีความจริงบางส่วน ที่ถูกนำมาวางในบริบทผิดๆ หรือปะปนกับข้อมูลเท็จ หรือข้อมูลเกินจริง เพื่อให้เกิดความสับสน และขัดขวางการแสวงหาข้อเท็จจริงของผู้รับสาร ก็ได้ เช่น การใช้ account ปลอมเพื่อพยามสร้างอิทธิพล หรือกระแสในการแสดงความคิดเห็น ให้เกิดการเห็นตาม เพราะความคิดเห็นของเราสามารถถูกชักจูงโดยพฤติกรรมหมู่ได้เสมอ
- นอกเหนือจากนี้ เรายังสามารถใช้ Deep Learning ในการสร้างข้อความ หรือรูปภาพ ที่เสมือนจริงขึ้นมาได้ ทำให้เราต้องระมัดระวังรูปแบบการนำไปใช้ที่ผิดๆ หรือหวังผลประโยชน์แฝง
- แนวทางแก้ปัญหาทางหนึ่งที่ถูกเสนอ ได้แก่ การสร้าง Digital Signature สำหรับยืนยัน และรับร้องเนื้อหา จากแหล่งข้อมูลที่ได้รับการรับรองแล้วเท่านั้น “How Will We Prevent AI-Based Forgery?”
ทำไมเราต้องสนใจปัญหาเชิงจริยธรรม
- ในฐานะ data scientist เราจะสนใจเพียงแค่การ optimize โมเดลให้ได้ค่า metric ที่ดีเท่านั้นหรือไม่? หรือเราควรสนใจด้วยว่าโมเดลจะถูกนำไปใช้เพื่อใคร อย่างไร และจะส่งผลกระทบอะไรหรือไม่?
- กรณีศึกษา: ในช่วงสงครามโลกครั้งที่ 2 IBM พัฒนาผลิตภัณฑ์สำหรับติดตามจำนวนคนยิว และ กลุ่มอื่นๆ ที่ถูกฆ่าในค่ายกักกัน ให้กับกลุ่ม Nazi รวมถึงจัดสรรการดูแลอุปกรณ์ (maintenance) และ สอนการใช้งาน (training) ในกรณีดังกล่าวนักวิทยาศาสตร์ผู้สร้างเทคโนโลยี หรืออุปกรณ์เหล่านี้ ควรมีส่วนรับผิดชอบกับการนำไปใช้งานในลักษณะนี้หรือไม่? จะมีความแตกต่างอะไรหรือไม่ ถ้านักวิทยาศาสตร์ที่เป็นผู้สร้างเทคโนโลยี ตั้งคำถามเกี่ยวกับการนำไปใช้ และปฏิเสธการพัฒนาที่นำไปสู่การนำไปใช้ที่ผิดๆ
การระบุ และจัดการปัญหาเชิงจริยธรรม
ขั้นตอนการจัดการกับปัญหาเชิงจริยธรรม
วิเคราะห์ project ที่ทำอยู่
ตั้งคำถามเหล่านี้กับ project ที่ทำอยู่
- เราทำสิ่งที่ควรทำอยู่ จริงหรือไม่?
- ข้อมูลมี bias อะไรอยู่บ้าง?
- สามารถตรวจสอบ code และ ข้อมูล เพื่อป้องกัน หรือแก้ไข bug/ error ได้ไหม?
- metric เช่น accuracy/ error rate มีความแตกต่างกันใน target กลุ่มต่างๆ หรือไม่?
- accuracy ของ baseline เป็นอย่างไร?
- กระบวนการแก้ปัญหาเมื่อมีการร้องเรียน หรือเกิด bug/ error หลังจากโมเดลถูกใช้งานแล้ว มีขั้นตอนอย่างไร?
- ทีมผู้สร้างมีความหลากหลายมากน้อยแค่ไหน? ## วางขั้นตอนจัดการกับปัญหาเชิงจริยธรรม - Markkula Center ได้จัดทำหลักปฏิบัติเพื่อจัดการกับปัญหาเชิงจริยธรรม ซึ่งครอบคลุมไปถึง การตรวจสอบหาปัญหา และความเสี่ยง, การขยายวงผู้รับผิดชอบกับปัญหาเชิงจริยธรรมให้ครอบคลุม, และการพิจารณาความเสี่ยงจากกลุ่มบุคคลที่มีจุดประสงค์มุ่งร้าย หรือสามารถใช้ประโยชน์จาก project ในทางที่ไม่ถูกต้อง ["An Ethical Toolkit for Engineering/Design Practice"](https://www.scu.edu/ethics-in-technology-practice/ethical-toolkit/) ## สร้างทีมที่มีความหลากหลาย - โดยปกติเรามักจะหาคนที่มี background คล้ายๆ กับเรามาร่วมทีม หรือทำ project ร่วมกัน ด้วยความเข้ากันได้ และ การมี bias กับลักษณะนิสัย หรือพื้นฐาน ที่คล้ายกับเรา อย่างไรก็ตามการที่ทีมขาดความหลากหลาย มักจะทำให้เกิดความเสี่ยงจากการมองข้ามจริยธรรมในรูปแบบคล้ายๆกัน ทำให้ความคิดเห็นและการตัดสินใจเป็นไปในทิศทางเดียว ## การใช้นโยบาย และการควบคุม หรือ กฏเข้าช่วย - นอกเหนือจากขั้นตอนการจัดการปัญหาเชิงจริยธรรมที่ยกมาก่อนหน้านี้แล้ว การวางนโยบาย และข้อบังคับ ก็มีส่วนสำคัญในการจัดการกับปัญหาเชิงจริยธรรมอย่างครอบคลุม โดยเฉพาะเมื่อมีการกำหนดโทษ หรือค่าปรับ (financial penalty) ก็สามารถเป็นปัจจัยกระตุ้นให้เกิดการวางนโยบาย หรือการแก้ไขปัญหาเชิงจริยธรรมได้ ["Facebook hiring hundreds to comply with hate speech law"](https://thehill.com/policy/technology/361722-facebook-opens-second-german-office-to-comply-with-hate-speech-law)
ตอบคำถามท้ายบทได้ที่ aiquizzes
เขียนวันที่: February 25, 2021