نوع مقاله : مقاله پژوهشی
نویسندگان
1
دانشجوی دکتری گروه مدیریت صنعتی، واحد تهران شمال، دانشگاه آزاد اسلامی، تهران، ایران.
2
دانشیار گروه ریاضی کاربردی، واحد تهران جنوب، دانشگاه آزاد اسلامی، تهران، ایران.
3
استادیار گروه مدیریت صنعتی، واحد تهران جنوب، دانشگاه آزاد اسلامی، تهران، ایران.
4
استادیار گروه مدیریت صنعتی، واحد تهران شمال، دانشگاه آزاد اسلامی، تهران، ایران.
10.48308/jimp.15.3.170
چکیده
مقدمه و اهداف. فرآیند ﺧﻄﻮط تولید و توالی آن ﯾﮑﯽ از روﯾﮑﺮد ﻫﺎی اساسی در برنامه ریزی ﻣﺤﺼﻮﻻت ﺻﻨﻌﺘﯽ به صورت انبوه است. ﻋﺪم برنامهریزی در ﺧﻄﻮط و راه کار مناسب برای بهینهسازی سیستمهای موثر در فرآیند تولید و مونتاژ، ﺑﺎﻋﺚ اﻓﺰاﯾﺶ زمان تخصیصی به امر تولید و افزایش زمانهای توقف ماشینآلات و در ﻧﺘﯿﺠﻪ ﮐﺎﻫﺶ تعداد محصولات تولید از لحاظ تعدادی و نرخ تولید عدم ﮐﺎراﯾﯽ منابع تخصیصی و در اختیار و در نتیجه اﻓﺰاﯾﺶ ﻫﺰﯾﻨﻪﻫﺎی ﺳﯿﺴﺘﻢ میشود ﮐﻪ همه این ﻋﻮاﻣﻞ در ﻧﻬﺎﯾﺖ ﺑﺎﻋﺚ ﺑﻬﺮه وری ﭘﺎﯾﯿﻦ و از دست دادن منابع موجود است. از این رو در این پژوهش هدف اصلی شناسایی ناهنجاریها در فرآیند تولید ویفرهای نیمه هادی با استفاده از روشهای یادگیری ماشین است. دادههای مورد استفاده شامل ویژگیهای مختلفی از ویفرهای تولیدی است که از یک تولید کننده بزرگ در صنعت نیمه هادی جمعآوری شده و حاوی اطلاعاتی از وضعیت ویفرها در فرآیند تولید است. به منظور بهبود عملکرد مدل و کاهش اثرات منفی دادههای پرت، از روش وینزوریزه کردن برای تعدیل مقادیر بسیار دور از میانگین در برخی از ویژگیها استفاده شد. همچنین، برای آمادهسازی بهتر دادهها، ویژگیها استانداردسازی شدند تا مدل نسبت به تفاوت مقیاس بین ویژگیها حساس نباشد.
روشها. در این پژوهش، با استفاده از روشهای پیش پردازش داده و همچنین شبیهسازی در نرمافزار پایتون، سعی شد تا دقت مدل در شناسایی ناهنجاریها افزایش یابد. اولین گام، آمادهسازی دادهها و حذف یا تعدیل دادههای پرت بود. به دلیل اینکه برخی از ویژگیها شامل مقادیر بسیار و تعداد زیاد دور از میانگین بودند که میتوانستند مدل را دچار انحراف کنند، از روش "وینزوریزه کردن" استفاده شد. وینزوریزه کردن به این معناست که مقادیر بسیار بزرگ و بسیار کوچک هر ویژگی به آستانههای معینی محدود میشوند تا تأثیر آنها بر عملکرد مدل کاهش یابد. یکی دیگر از گامهای کلیدی در این پروژه، کاهش ابعاد دادهها بود. با توجه به اینکه این مجموعه داده شامل ۱۵۵۸ ویژگی است، پردازش و تحلیل تمامی این ویژگیها نیازمند منابع محاسباتی قابل توجهی است و ممکن است مدل را پیچیدهتر از حد لازم کند. از این رو، با بهرهگیری از روش "تحلیل تفکیک خطی (LDA) ، ابعاد دادهها به فضای بُعد پایینتری کاهش یافت تا جدایی بهتری بین کلاسهای نرمال و ناهنجار ایجاد شود. این کاهش ابعاد به مدل کمک میکند تا طبقه بندی دادهها را با دقت بیشتری انجام دهد و همچنین پردازش محاسباتی سادهتر شود.
یافتهها. پس از آمادهسازی دادهها، برای استانداردسازی دادهها ازجدول استاندارد آرایههای متعامد در روش تاگوچی استفاده میشود آرایههای متعامد L9(34) به عنوان مناسبترین طرح برای مدلهای سه تا شش انتخاب میشوند. سپس دادهها مربوط به پژوهش با استفاده از مدل XGBoost و الگوریتم ژنتیک برای شناسایی ناهنجاریها و مقایسه دو مدل استفاده شده است . عملکرد مدل با استفاده از ماتریس در هم ریختگی و منحنی ROC و کارائی الگوریتم ژنتیک مورد ارزیابی قرار گرفت. نتایج نشان داد که مدل توانایی بالایی در شناسایی ناهنجاریها دارد و مقدار زیر منحنی AUC برابر با ۰.۹۷ به دست آمد. در ادامه، بهمنظور بهینهسازی بیشتر و مدیریت چالش عدم توازن داده-ها، از الگوریتم ژنتیک (GA) بهعنوان یک رویکرد تکاملی برای تنظیم وزن ویژگیها و آستانه طبقهبندی استفاده شد این نتایجنشاندهنده توانایی مدل در تفکیک نمونههای سالم و معیوب با دقت بالا است. این پژوهش نشان میدهد که با استفاده از تکنیکهای مناسب پیش پردازش داده و مدلهای یادگیری ماشین، میتوان در شناسایی ناهنجاریهای تولید و شناسایی قطعات معیوب به نتایج موفقیت آمیزی دست یافت و از ورود محصولات معیوب به بازار جلوگیری کرد.
نتیجهگیری. نتایج به دست آمده از این تحقیق نشان داد که روش XGBoost توانایی بالایی در تشخیص ناهنجاریها دارد.و همچنین الگوریتم ژنتیک توانسته است معیارهای عملکردی مانند دقت (92.4%)، ، فراخوانی (0.924) و امتیاز (0.913) را بهبود دهد و همگرایی پایداری در طول نسلهای مختلف ارائه کند. ترکیب XGBoost و الگوریتم ژنتیک (GA) امکان شناسایی دقیقتر ناهنجاریها را فراهم کرده و نشان میدهد که این رویکرد میتواند بهعنوان یک چارچوب عملی در بهبود کنترل کیفیت، کاهش ضایعات و افزایش بهرهوری خطوط تولید مورد استفاده قرار گیرد.
کلیدواژهها
موضوعات
عنوان مقاله [English]
Intelligent Anomaly Detection in Unbalanced Industrial Data Using the Xgboost Model and Genetic Algorithm (GA) To Optimize Performance in Identifying Defective Products in the Production Line
نویسندگان [English]
-
Rasoul Nematnia
1
-
Maryam Khademi
2
-
Kiamars Fathi
3
-
Soheila Sardar
4
1
Ph.D. Student, Department of Industrial Management, North Tehran Branch, Islamic Azad University, Tehran, Iran.
2
Associate Professor, Department of Applied Mathematics, South Tehran Branch, Islamic Azad University, Tehran, Iran.
3
Assistant Professor, Department of Industrial Management, South Tehran Branch, Islamic Azad University, Tehran, Iran.
4
Assistant Professor, Department of Industrial Management, North Tehran Branch, Islamic Azad University, Tehran, Iran.
چکیده [English]
Introduction and Objectives: The process of production lines and their sequence is one of the fundamental approaches in planning industrial products in bulk. Lack of proper planning in lines and suitable solutions for optimizing effective systems in the production and assembly process leads to increased time allocated to production, increased machine downtime, and consequently a decrease in the number of products produced in terms of quantity and production rate. Inefficiency of allocated resources results in increased system costs, all of which ultimately lead to low productivity and loss of available resources. Therefore, the main objective of this research is to identify anomalies in the semiconductor wafer production process using machine learning methods. The data used includes various features from produced wafers collected from a major manufacturer in the semiconductor industry, containing information about the status of wafers during the production process. To improve model performance and reduce the negative effects of outlier data, a winsorizing method was used to adjust extreme values in some features. Additionally, to better prepare the data, features were standardized so that the model would not be sensitive to scale differences between features.
Method: In this research, through data preprocessing methods and simulation in Python software, efforts were made to increase the model's accuracy in identifying anomalies. The first step was data preparation and removal or adjustment of outlier data. Since some features contained extreme values that could skew the model, a "winsorizing" method was employed. Winsorizing means limiting very large and very small values of each feature to certain thresholds to reduce their impact on model performance. Another key step in this project was dimensionality reduction; given that this dataset includes 1,558 features, processing and analyzing all these features requires significant computational resources and may complicate the model unnecessarily. Therefore, using Linear Discriminant Analysis (LDA), the dimensionality of the data was reduced to a lower-dimensional space to create better separation between normal and anomalous classes. This dimensionality reduction helps the model classify data more accurately while simplifying computational processing.
Findings: After data preparation, the standard table of orthogonal arrays in Taguchi method is used to standardize the data. L9(34) orthogonal arrays are selected as the most suitable design for models three to six. Then, the research data is used to identify anomalies using XGBoost model and genetic algorithm and compare the two models. The performance of the model was evaluated using confusion matrix and ROC curve and the efficiency of the algorithm. The results showed that the model has a high ability to identify anomalies and the value under the curve AUC was obtained equal to 0.97.Next, in order to further optimize and manage the challenge of data imbalance, Genetic Algorithm (GA) was used as an evolutionary approach to adjust the feature weights and classification threshold. These results indicate the ability of the model to distinguish healthy and defective samples with high accuracy. This research shows that by using appropriate data preprocessing techniques and machine learning models, successful results can be achieved in identifying production anomalies and identifying defective parts and preventing defective products from entering the market
Conclusion: The results of this study showed that the XGBoost method has a high ability to detect anomalies. Also, the genetic algorithm has been able to improve performance metrics such as precision (92.4%), recall (0.924), and score (0.913) and provide stable convergence over different generations. The combination of XGBoost and genetic algorithm (GA) allows for more accurate detection of anomalies and shows that this approach can be used as a practical framework in improving quality control, reducing waste, and increasing the efficiency of production lines.
کلیدواژهها [English]
-
Intelligent anomaly
-
XGBoost model
-
unbalanced industry
-
production line
-
defective products
-
genetic algorithm