การทำนายดัชนีคุณภาพอากาศด้วยวิธีการเรียนรู้ของเครื่องแบบรวมกลุ่ม
การทำนายดัชนีคุณภาพอากาศด้วยวิธีการเรียนรู้ของเครื่องแบบรวมกลุ่ม
Environmental Technologies
Accepted

ข้อมูลโครงงาน

ชื่อ (ภาษาไทย)
การทำนายดัชนีคุณภาพอากาศด้วยวิธีการเรียนรู้ของเครื่องแบบรวมกลุ่ม
ชื่อ (ภาษาอังกฤษ)
Air Quality Index Prediction Using Ensemble Machine Learning Methods
หน่วยงานที่ร่วมมือ / แหล่งทุนที่ได้รับมาสนับสนุน
ไม่มี
สิ่งที่ต้องการได้รับการสนับสนุนจาก อ.ที่ปรึกษา/คณะ/สถาบัน
การสนับสนุนแหล่งข้อมูลที่ใช้ในโครงงาน และเครื่องมืออย่างเช่น ซอฟท์แวร์ คอมพิวเตอร์ เป็นต้น รวมทั้งแหล่งความรู้เพิ่มเติมเพื่อใช้ประกอบโครงงาน
สิ่งที่ได้จากโครงงาน
บทความวิชาการ/งานวิจัย
บทคัดย่อภาษาไทย
ปัญหาพิเศษนี้มีวัตถุประสงค์เพื่อศึกษาและเปรียบเทียบประสิทธิภาพการทำนายดัชนีคุณภาพอากาศ (AQI) ด้วยวิธีการเรียนรู้ของเครื่องแบบรวมกลุ่ม 5 วิธี ได้แก่ วิธีป่าสุ่ม วิธี XGBoost วิธี CatBoost วิธีรวมกลุ่มป่าสุ่มและ XGBoost และวิธีรวมกลุ่มป่าสุ่ม SVR และ MLP โดยใช้ชุดข้อมูลจากกรมควบคุมมลพิษกลางของประเทศอินเดีย (CPCB) ซึ่งชุดข้อมูลประกอบด้วยตัวแปรด้านมลพิษ 15 ตัวแปร และข้อมูลด้านสภาพอากาศ 9 ตัวแปร เก็บรวบรวมตั้งแต่มกราคม ค.ศ. 2021 ถึงธันวาคม ค.ศ. 2023 มีจำนวนข้อมูล 1,024,920 ค่า และวิธีการที่ใช้วัดประสิทธิภาพ 3 วิธี ได้แก่ รากของค่าคลาดเคลื่อนกำลังสองเฉลี่ย (Root Mean Square Error : RMSE) ค่าคลาดเคลื่อนสัมบูรณ์เฉลี่ย (Mean Absolute Error : MAE) และสัมประสิทธิ์การกำหนด (Coefficient of Determination) ผลการศึกษาพบว่าวิธีรวมกลุ่มป่าสุ่มและ XGBoost มีค่าวัดประสิทธิภาพทั้ง 3 วิธีดีที่สุด โดยมีค่า RMSE น้อยที่สุดเท่ากับ 0.1040 ค่า MAE น้อยที่สุดเท่ากับ 0.0675 และค่า มากที่สุดเท่ากับ 0.8128 แล้วทำการอธิบายผลลัพธ์จากการเรียนรู้ของเครื่องสำหรับสร้างแผนภาพด้วย SHAP ของวิธีการเรียนรู้ของเครื่องทั้ง 5 วิธี ทุกวิธีได้ข้อสรุปในทำนองเดียวกันคือตัวแปรที่มีผลกระทบต่อ ค่าทำนายโดยรวมมากที่สุด 2 อันดับแรกคือตัวแปร PM2.5 และ PM10 ตามลำดับ
คำสำคัญภาษาไทย
การเรียนรู้ของเครื่องแบบรวมกลุ่ม
ดัชนีคุณภาพอากาศ
บทคัดย่อภาษาอังกฤษ
This special problem aims to study and compare the performance of predicting the air quality index (AQI) using five ensemble machine learning methods: random forest, XGBoost, CatBoost, stacking ensemble of random forest and XGBoost, and stacking ensemble of random forest, SVR, and MLP. The study uses a dataset from the Central Pollution Control Board of India (CPCB), which includes fifteen pollutants and nine meteorological variables collected between January, 2021 and December, 2023. In this study, there were 1,024,920 records. The performance is measured using three methods: root mean square error (RMSE), mean absolute error (MAE), and coefficient of determination. The study found that the random forest and XGBoost stacking ensemble had the best performance measures among the three methods, with the minimum RMSE of 0.1040, the minimum MAE of 0.0675, and the maximum of 0.8128. SHAP-based model interpretation method for five machine learning methods. All methods reached the same conclusion: the two variables that most significantly impacted the global prediction were PM2.5 and PM10, respectively.
คำสำคัญภาษาอังกฤษ
Ensemble machine learning
Air quality index
วัตถุประสงค์ของโครงงาน
เพื่อศึกษาและเปรียบเทียบประสิทธิภาพการทำนายดัชนีคุณภาพอากาศด้วยวิธีการเรียนรู้ของเครื่องแบบรวมกลุ่ม 5 วิธี ได้แก่ วิธีป่าสุ่ม วิธี XGBoost วิธี CatBoost วิธีรวมกลุ่มป่าสุ่มและ XGBoost และวิธีรวมกลุ่มป่าสุ่ม, SVR และ MLP
ที่มาและความสำคัญ หรือ เหตุผลที่ทำโครงงานนี้
ทั่วโลกกำลังเผชิญกับวิกฤตมลพิษทางอากาศที่รุนแรงที่สุดในประวัติศาสตร์ การเพิ่มขึ้นของสารมลพิษในอากาศ เช่น ฝุ่นละอองขนาดเล็ก PM2.5 PM10 ก๊าซโอโซน ก๊าซคาร์บอนมอนอกไซด์ ไนโตรเจนไดออกไซด์ และซัลเฟอร์ไดออกไซด์ ซึ่งส่งผลกระทบต่อระบบทางเดินหายใจและระบบไหลเวียนโลหิตของมนุษย์ นอกจากนี้ยังมีผลกระทบทางลบต่อพืชและสัตว์ในระบบนิเวศอีกด้วย หลายพื้นที่ทั่วโลกเผชิญกับค่า PM2.5 เกินมาตรฐานอย่างต่อเนื่อง องค์การอนามัยโลก (World Health Organization : WHO) ประกาศเตือนว่า PM2.5 เป็นสารก่อมะเร็ง ส่งผลให้เกิดโรคทางเดินหายใจ โรคหัวใจ และโรคหลอดเลือดสมอง PM2.5 เป็นมลพิษทางอากาศที่อันตรายที่สุด ส่งผลต่อระบบทางเดินหายใจและเพิ่มความเสี่ยงต่อมะเร็งปอด สถิติปี 2020 มีผู้เสียชีวิตจากมะเร็งปอด 1.79 ล้านคน และคาดว่าจำนวนผู้เสียชีวิตจะเพิ่มมากขึ้นทุกปีอย่างต่อเนื่อง ดัชนีคุณภาพอากาศ (Air Quality Index : AQI) เป็นตัวชี้วัดสำคัญในการประเมินคุณภาพอากาศและบ่งชี้ถึงระดับของมลพิษ โดยใช้ข้อมูลความเข้มข้นของมลพิษในอากาศคำนวณเป็นค่าดัชนีคุณภาพอากาศที่ช่วยให้ประชาชนทราบถึงระดับความปลอดภัยของอากาศ ดังนั้นหากในชีวิตประจำวันสามารถทำนายดัชนีคุณภาพอากาศได้ ประชาชนจะสามารถวางแผนการเดินทางหรือการทำกิจกรรมกลางแจ้ง โดยหลีกเลี่ยงบริเวณที่มีมลพิษสูงได้ โดยเฉพาะกลุ่มเสี่ยง เช่น ผู้สูงอายุ เด็กเล็ก และผู้ป่วยเรื้อรัง ในช่วงหลายปีที่ผ่านมา มีงานวิจัยที่ได้พัฒนาวิธีการทำนายดัชนีคุณภาพอากาศโดยนักวิจัยได้ประยุกต์ใช้วิธีการเรียนรู้ของเครื่อง (Machine Learning) เพื่อการทำนายคุณภาพอากาศให้ดียิ่งขึ้น ในงานวิจัยนี้ คณะผู้วิจัยจึงมีความสนใจนำวิธีการเรียนรู้ของเครื่องแบบรวมกลุ่มมาใช้ในการทำนายดัชนีคุณภาพอากาศ จากการทบทวนวรรณกรรมเกี่ยวกับงานวิจัยที่เกี่ยวข้อง คณะผู้วิจัยพบว่าในงานวิจัยของ Zhang et al. (2023) ที่ศึกษาในกลุ่มเมืองของจีน 6 แห่ง ด้วยข้อมูลมลพิษและสภาพอากาศ พบได้ว่าวิธีป่าสุ่มมีประสิทธิภาพดีที่สุดเมื่อวัดด้วย MAE ต่อมาในงานวิจัยของ Dao et al. (2022) ที่ได้ใช้ข้อมูลมลพิษในอินเดีย พบว่าวิธี XGBoost มีประสิทธิภาพดีที่สุด เช่นเดียวกับงานวิจัยของ Kumar and Pande (2023) ในขณะที่ Ravindiran et al. (2023) ได้ศึกษาด้วยข้อมูลมลพิษและสภาพอากาศในรัฐอานธรประเทศ พบว่าวิธี CatBoost มีประสิทธิภาพดีที่สุด และอีก 2 งานวิจัยที่ได้อาศัยแนวทางการรวมกลุ่มแบบ Stacking ได้แก่ งานวิจัยของ Sharma et al. (2024) ที่ศึกษาในหลายเมืองของอินเดียโดยได้ใช้วิธีการรวมกลุ่มของต้นไม้ตัดสินใจหลายวิธี หนึ่งในนั้นคือวิธีการรวมกลุ่มป่าสุ่มและ XGBoost ซึ่งก็พบว่าวิธีดังกล่าวมีประสิทธิภาพดีที่สุด และ Emeç and Yurtsever (2024) ได้ศึกษาการทำนายความเข้มข้นของ PM2.5 ซึ่งเป็นหนึ่งในมลพิษสำคัญที่ส่งผลต่อดัชนีคุณภาพอากาศของเมืองอิสตันบลูและปักกิ่งโดยใช้วิธีการเรียนรู้ของเครื่อง 3 วิธีมารวมกันเป็นวิธีรวมกลุ่มป่าสุ่ม, SVR และ MLP พบว่าวิธีนี้มีประสิทธิภาพดีกว่าการใช้ทั้ง 3 วิธีแยกกัน ดังนั้นคณะผู้วิจัยจึงสนใจนำวิธีการเรียนรู้ของเครื่องแบบรวมกลุ่มทั้ง 5 วิธี ได้แก่ วิธีป่าสุ่ม วิธี XGBoost วิธี CatBoost วิธีรวมกลุ่มป่าสุ่มและ XGBoost และวิธีรวมกลุ่มป่าสุ่ม, SVR และ MLP โดยใช้ข้อมูลเกี่ยวกับค่ามลพิษและสภาพอากาศจากสถานีตรวจวัดในรัฐเดลี ประเทศอินเดีย ซึ่งเป็นพื้นที่ที่มีปัญหาด้านคุณภาพอากาศเป็นอันดับต้น ๆ ของโลก โดยใช้ข้อมูลตั้งแต่วันที่ 1 มกราคม 2021 ถึง 31 ธันวาคม 2023 และวิธีการวัดประสิทธิภาพ 3 วิธี ได้แก่ รากของค่าคลาดเคลื่อนกำลังสองเฉลี่ย ค่าคลาดเคลื่อนสัมบูรณ์เฉลี่ย และสัมประสิทธิ์การกำหนด (Coefficient of Determination) เปรียบเทียบประสิทธิภาพของวิธีการต่าง ๆ และระบุแนวทางที่เหมาะสมที่สุดในการทำนายดัชนีคุณภาพอากาศ
ประโยชน์ที่คาดว่าจะได้รับจากการทำโครงงานนี้
จากการศึกษาเปรียบเทียบประสิทธิภาพของการทำนายดัชนีคุณภาพอากาศด้วยวิธีการเรียนรู้ของเครื่องแบบรวมกลุ่ม 5 วิธี ได้แก่ วิธีป่าสุ่ม วิธี XGBoost วิธี CatBoost วิธีรวมกลุ่มป่าสุ่มและ XGBoost และวิธีรวมกลุ่มป่าสุ่ม, SVR และ MLP สามารถนำไปใช้ในการพัฒนาและปรับปรุงระบบการทำนายคุณภาพอากาศ
Information
ประเภทโครงงาน
Environmental Technologies
Tags
ป. ตรี โครงงานพิเศษ
KMITL Expo 2025
Cluster 2025
โปสเตอร์
ปีการศึกษา
2567
วันที่สร้าง
8 กุมภาพันธ์ 2568, 15:29
วันที่แก้ไขล่าสุด
10 กุมภาพันธ์ 2568, 15:59
สร้างโดย
ธนดล ปิ่ณฑศิริ (64050103@kmitl.ac.th)
รูปภาพที่เกี่ยวข้อง
ไม่มีรูปภาพ
สมาชิกโครงงาน
T
นายธนดล ปิ่ณฑศิริ
เจ้าของโครงงาน
S
รศ.สายชล สินสมบูรณ์ทอง
ที่ปรึกษาหลัก
P
นางสาวพิชญ์สินี บุญรอด
สมาชิกโครงงาน
S
นางสาวสุธาสินี พงษ์สนาม
สมาชิกโครงงาน

หากพบปัญหาในการใช้งานสามารถติดต่อได้ที่ Line Official: @acadkmitl

2023 KMITL Innovation Project. | Version: 2.2.2