banner
Hogar / Noticias / Modelado de aprendizaje automático de tasas de corrosión externa predictivas de recipientes de acero al carbono de combustible nuclear gastado en el suelo
Noticias

Modelado de aprendizaje automático de tasas de corrosión externa predictivas de recipientes de acero al carbono de combustible nuclear gastado en el suelo

Aug 30, 2023Aug 30, 2023

Scientific Reports volumen 12, Número de artículo: 20281 (2022) Citar este artículo

1017 Accesos

3 altmétrico

Detalles de métricas

La corrosión del suelo es siempre una preocupación crítica para la ingeniería de corrosión debido a la influencia económica de las infraestructuras del suelo, como ha sido y ha sido recientemente el foco de los botes de combustible nuclear gastado. Además de la protección contra la corrosión, también es importante la predicción de la corrosión del recipiente. El conocimiento avanzado de la velocidad de corrosión del material del recipiente de combustible nuclear gastado en un entorno particular puede ser extremadamente útil para elegir el mejor método de protección. La aplicación del aprendizaje automático (ML) a la predicción de la velocidad de corrosión resuelve todos los desafíos debido a la cantidad de variables que afectan la corrosión del suelo. En este estudio, se utilizaron varios algoritmos de ML, incluida la red neuronal artificial (ANN) de serie individual, de impulso y de embolsado, la red neuronal artificial (ANN) de serie individual, de impulso y de embolsado, árbol de decisión de detección automática de interacción de Chi-cuadrado (CHAID), regresión lineal (LR) y aprendizaje conjunto. (EL) fusiona la mejor opción que recopila los 3 métodos de algoritmo anteriores. A partir del rendimiento de cada modelo, encontrar el modelo con mayor precisión es el método de apilamiento de conjuntos. Las matrices de rendimiento del error absoluto medio se muestran en la Fig. 15. Además de aplicar ML, la importancia de las variables de entrada también se determinó mediante análisis de sensibilidad utilizando el criterio de importancia de la característica, y la velocidad de corrosión del acero al carbono es la más sensible a la temperatura y al cloruro.

La corrosión del suelo ha recibido mucha atención porque hay muchos casos de infraestructura subterránea, como contenedores de combustible nuclear gastado que contienen desechos nucleares1,2,3,4. Esta infraestructura es esencial y juega un papel importante en la vida moderna. La preservación a largo plazo de los desechos radiactivos sigue siendo un desafío importante en todo el mundo. Es posible que sea necesario almacenar el combustible en estos sistemas y en los que se descargarán durante períodos de hasta 100 años. Hay muchos tipos de contenedores utilizados para el almacenamiento subterráneo de desechos, como acero al carbono, acero inoxidable, aleaciones de níquel y aleaciones de titanio... si el contenedor está corroído, agrietado y no puede reemplazarse después de mucho tiempo, tendrá un impacto económico significativo5 . Conocer de antemano la velocidad de corrosión del metal y las propiedades del suelo es muy útil para que los ingenieros encuentren métodos de protección adecuados para las tuberías6,7,8,9. Sin embargo, predecir la velocidad de corrosión en entornos complejos como el suelo no es fácil porque el entorno del suelo tiene muchos factores que afectan la velocidad de corrosión, incluida la concentración química en el agua del suelo, la humedad del suelo y la estructura del suelo10. Matteo Stefanoni et al. han publicado un estudio muy exitoso que describe una ecuación que puede predecir la velocidad de corrosión en función de la porosidad en la que el agua llena los huecos en el suelo11,12. Mohamed El Amine Ben Seghier et al. predijo la tasa de corrosión interna de oleoductos y gasoductos13. Sin embargo, ningún investigador ha estudiado los factores que afectan la velocidad de corrosión externa de los metales subterráneos en función de la composición de la solución del suelo y su temperatura.

En el mundo moderno, casi todas las tareas manuales se pueden automatizar mediante algoritmos de aprendizaje automático14. El aprendizaje automático (ML) tiene una amplia gama de aplicaciones industriales potenciales15,16. El método de aprendizaje automático es adecuado para modelos predictivos con varias variables17. Recientemente, muchos campos científicos aplicaron el aprendizaje automático a la predicción multidisciplinaria17,18,19. Incluso en el campo de la corrosión, muchos científicos han aplicado el aprendizaje automático para predecir la velocidad de corrosión en la atmósfera, el rendimiento de los inhibidores de corrosión y el comportamiento de la corrosión20,21,22,23,24. Sin embargo, no hay muchos estudios que se centren en predecir la velocidad de corrosión de los recipientes de acero al carbono en el suelo. Nuestros estudios anteriores han implicado predecir la velocidad de corrosión del acero al carbono en función de la influencia del pH, el cloruro y la concentración de sulfato de la solución del suelo, utilizando un método de superficie de respuesta (RSM)10 y el pH, el cloruro y la temperatura de la solución del suelo con diferentes rangos investigados. valores utilizando RSM y una red neuronal artificial (ANN)25. La limitación de nuestros estudios anteriores es que solo hay tres factores corrosivos.

Por lo tanto, este estudio tiene como objetivo predecir la velocidad de corrosión del acero al carbono, un material utilizado como recipiente rentable en un entorno de suelo con una gama completa de factores que consideran la corrosión en condiciones reales del suelo utilizando varios algoritmos de aprendizaje automático. Específicamente, este trabajo finaliza la predicción de la corrosión del suelo en recipientes de acero al carbono y demuestra cómo aplicar el aprendizaje automático a la ciencia de la corrosión. Se emplearon tres algoritmos ML y métodos de aprendizaje conjunto para predecir la velocidad de corrosión centrándose en los componentes de la solución del suelo y su temperatura utilizando el software modelador IBM SPSS. Están optimizados para encontrar el modelo con los mejores parámetros para predecir la velocidad de corrosión. Los modeladores de IBM SPSS son un potente software de soporte para hacer que el aprendizaje automático sea más fácil y accesible para los científicos que no son científicos de datos. En este estudio se seleccionaron cinco factores que afectan la velocidad de corrosión, incluidos el pH, el cloruro, el bisulfuro, el sulfato y la temperatura. Este estudio también busca los factores más sensibles que afectan la corrosión externa del suelo.

El aprendizaje automático (ML) es un tipo de inteligencia artificial (IA) que permite que las aplicaciones de software predigan resultados con mayor precisión sin estar programadas explícitamente26,27. Los algoritmos de ML nos brindan datos históricos como entradas para predecir nuevos valores de salida. El aprendizaje automático es importante porque proporciona a las personas una visión de las tendencias de las cosas, los eventos e incluso el comportamiento humano28. Muchas de las empresas líderes de la actualidad están haciendo del ML una parte central de sus operaciones, y el ML se ha convertido en un importante diferenciador competitivo para muchas empresas29. El aprendizaje automático también tiene sus limitaciones, pero ya existen aplicaciones prácticas en las que el aprendizaje automático hace un gran trabajo, como el procesamiento de imágenes, el análisis de texto, la minería de datos (DM), los videojuegos y la robótica. El enfoque ML es esencial para el desarrollo de la ciencia de la corrosión. Este estudio determina el problema de predicción de la tasa de corrosión externa de recipientes de acero al carbono en el suelo y selecciona un algoritmo ML óptimo y adecuado.

La biblioteca de algoritmos de ML es muy diversa30,31. Por lo tanto, identificar un algoritmo adecuado es una cuestión clave en este estudio. La Figura 1 resume cómo elegimos el algoritmo para este estudio.

Varias categorías de algoritmos de aprendizaje automático.

Hay dos tipos de algoritmos de aprendizaje automático populares, incluido el aprendizaje supervisado y no supervisado32. El aprendizaje supervisado es un algoritmo que predice la salida de nuevos datos basándose en pares conocidos de entradas y resultados. Este par de datos también se conoce como datos y etiqueta. Además de crear modelos sólidos, recopilar y etiquetar datos razonables también desempeña un papel clave para resolver problemas en el aprendizaje supervisado. Mientras tanto, el aprendizaje no supervisado es un grupo de algoritmos que permiten a la máquina aprender por sí sola y encontrar un determinado patrón o configuración oculto en un conjunto de datos sin etiquetar. Esto significa que sólo tiene el conjunto de datos de entrada y no tiene idea de cuál es el resultado. En otras palabras, utilizar estos métodos se trata más bien de caracterizar los datos32. El aprendizaje supervisado tiene mayor precisión que el aprendizaje no supervisado, y los datos de este estudio están etiquetados ya que tienen un valor predictivo específico y una densidad de corriente de corrosión del suelo específica27. Por tanto, el algoritmo de aprendizaje supervisado es completamente factible para este estudio.

El algoritmo supervisado se subdivide en dos partes principales: clasificación y regresión. La diferencia más importante entre los algoritmos de regresión y de clasificación es que un algoritmo de clasificación se utiliza a menudo para predecir categorías y valores discretos, mientras que los algoritmos de regresión se utilizan a menudo para predecir valores continuos. En este estudio, la densidad de corriente de corrosión es una cantidad específica, por lo que se eligió el método de regresión.

Hay muchos otros algoritmos de aprendizaje supervisado por regresión. Entonces, ¿qué algoritmo será el más adecuado para hacer predicciones en este estudio? En el campo del ML, existe un teorema de no hay almuerzo gratis (NFL): "Todos los algoritmos de optimización funcionan igualmente bien cuando su rendimiento se promedia en todos los problemas posibles". En resumen, esto supone que no existe un único algoritmo de optimización óptimo para todos los problemas de modelado predictivo33. Por ejemplo, no se puede decir que una red neuronal artificial siempre es mejor que un árbol de decisión o viceversa porque hay muchos factores que influyen, como el tamaño y la ortogonalidad del conjunto de datos. Por lo tanto, en este estudio, se implementaron varios algoritmos populares de aprendizaje automático para la predicción de problemas de velocidad de corrosión del suelo, de modo que los científicos de la corrosión puedan comprender la implementación de cada tipo y saber cómo encontrar el algoritmo de predicción óptimo. En este estudio, nos centramos en los tres algoritmos de aprendizaje automático supervisado de regresión única: red neuronal artificial (ANN), árbol de decisión de detección de interacción automática de Chi-cuadrado (CHAID) y regresión lineal (LR). Además de los algoritmos individuales seleccionados, en este estudio se aplicó el método de aprendizaje conjunto (EL) para aumentar el rendimiento predictivo. El método EL es un algoritmo que combina varios algoritmos para obtener un mejor rendimiento predictivo que los algoritmos individuales. En la siguiente sección se describirá una descripción más detallada del algoritmo de conjunto.

El método de aprendizaje en conjunto es una idea de combinar diferentes modelos, que pueden realizar un mejor trabajo en diferentes tipos de trabajo. Los modelos combinados adecuadamente forman un potente modelo híbrido que puede mejorar el rendimiento general en comparación con el uso del modelo solo34. La Figura 2 simplemente muestra las metodologías EL.

Clasificación de metodologías de aprendizaje grupal.

Hay dos tipos de métodos EL: métodos EL homogéneos y métodos EL heterogéneos. El método de conjunto homogéneo es un método para construir un modelo de ML muchas veces con la misma cantidad de datos de entrenamiento. El segundo es el método de conjunto heterogéneo, que es un método para construir un modelo utilizando diferentes algoritmos de ML, y cada algoritmo utilizará la misma cantidad de datos de entrenamiento. Hay dos tipos de métodos homogéneos de conjunto, ensacado y potenciado. Se aplicarán ambos métodos (homogéneo y heterogéneo) para mejorar la precisión de la predicción en el estudio, y los dos tipos de métodos de conjunto se describirán en detalle en la siguiente sección.

Como se muestra en la Fig. 3, los métodos de conjuntos homogéneos se pueden dividir en dos tipos: métodos de conjuntos paralelos (ensacado) y conjuntos secuenciales (impulso). Un problema al ejecutar la predicción será el sobreajuste debido a una alta varianza o el desajuste por un sesgo excesivamente alto. Para resolver ese problema, consideramos la varianza decreciente y el sesgo decreciente. En el método de aprendizaje de conjuntos homogéneos, el embolsado ayudará a reducir la varianza y el impulso reducirá el sesgo. Si el método de algoritmo único utilizará el conjunto de datos de entrenamiento para ejecutarse y obtener el modelo de mejor ajuste, los métodos de conjunto homogéneo (ensacado y refuerzo) utilizarán un conjunto de datos de entrenamiento aleatorio para ejecutarse muchas veces para obtener un resultado con un número diferente de modelos. En el embolsado, los modelos débiles se entrenarán de forma independiente en paralelo, pero en el impulso, se entrenarán de forma secuencial. De este modo, se construye una secuencia de modelos y el peso de los datos que eran incorrectos en el modelo anterior aumenta con cada nuevo modelo repetido. Esta reasignación de peso ayuda al algoritmo a determinar los parámetros que necesita para mejorar su rendimiento. En este estudio, se utilizaron el aprendizaje estándar y el aprendizaje conjunto homogéneo (bagging, boosting) en redes neuronales artificiales. Se utilizaron diez modelos de componentes para impulsar o ensacar.

La arquitectura del aprendizaje estándar, aprendizaje conjunto homogéneo, aprendizaje conjunto heterogéneo.

Como se muestra en la Fig. 3, el método de conjunto heterogéneo utiliza diferentes algoritmos base para garantizar la diversidad del conjunto, en contraste con el conjunto homogéneo. En este estudio, después de ejecutar métodos estándar de aprendizaje, embolsado y refuerzo para cada algoritmo, se seleccionó el modelo con los mejores resultados de ANN, CHAID y regresión lineal para ejecutar el método de apilamiento para aumentar el rendimiento predictivo de los tres algoritmos anteriores. .

IBM SPSS Modeler es una solución líder de aprendizaje automático y ciencia de datos visuales. Esto permite a los usuarios extraer datos y aplicaciones modernas con algoritmos y modelos completos listos para usar de inmediato. La Figura 4 muestra los pasos realizados en los modeladores de IBM SPSS y cómo se realiza cada paso, y el resultado se explicará en las siguientes secciones.

Pasos realizados en modeladores IBM SPSS para la predicción de la velocidad de corrosión externa del acero al carbono en el suelo.

La preparación de datos consta de tres pasos que consisten en recopilar datos, clasificarlos y dividir el conjunto de datos para capacitación, prueba y validación. Para recoger los datos se debe definir el propósito del estudio. En este estudio, el objetivo es predecir la velocidad de corrosión, y los predictores serán los factores que afectan la corrosión subterránea. La Tabla 1 resume los predictores, los objetivos y el rango de predictores investigados en este estudio. Aunque muchos factores afectan la corrosión del suelo, es un desafío saber cuántos factores afectan la corrosión en el suelo. Se eligió una cantidad razonable de factores en este estudio parcial porque son de interés para afectar la corrosión y son fáciles de ajustar para ejecutar el experimento.

En IA, más datos siempre es mejor, porque más datos dan como resultado capacitación adicional y un modelo más inteligente. Si los datos están bien preparados de acuerdo con una lista de verificación de preparación de datos básica, estarán listos para el aprendizaje automático y se obtendrán resultados precisos. En este estudio, se recopilaron algunos datos de estudios anteriores y los complementamos realizando experimentos electroquímicos en la Fig. 5, que son suficientes para obtener un resultado preciso.

Configuración de tres electrodos para la recopilación de datos.

Se utilizó acero al carbono SPW400 como electrodo de trabajo con una composición de 0,04% en peso de S, 0,04% en peso de P, 0,25% en peso de C y el resto de Fe (estándar coreano). Este material se utiliza comúnmente en las industrias del suelo. El entorno de prueba es agua desionizada con variaciones en la composición química y el pH. Se usaron cloruro, bisulfuro y pH ajustado para NaOH, y borato ácido saturado, NaCl y Na2S como se enumera en la Tabla 1. Los cambios de temperatura se controlaron usando una placa calefactora. Utilizamos una celda que consta de acero al carbono SPW400 como electrodo de trabajo, un electrodo de calomelanos saturado como electrodo de referencia y dos grafitos puros como contraelectrodo. Las muestras se pulieron con SiC utilizando tamaños de grano de 200 a 600 y la superficie se cubrió con pasta de silicona para revelar 1 cm2 de acero al carbono. Después de que la muestra se secó, el experimento se realizó en OCP durante 3 h y luego se ejecutó potenciodinámicamente desde −0,25 frente a OCP a 1 frente a OCP con una velocidad de exploración de 0,166 mV/s. Después del experimento, la curva de polarización potenciodinámica se obtuvo en la Fig. 6 y se usó con el método Tafel para encontrar el valor de densidad de corriente de corrosión de cada experimento. Todos los datos recopilados se muestran en la Tabla 2, los experimentos 1 a 13 se realizaron en este estudio y los experimentos 14 a 43 se recopilaron de nuestros estudios anteriores10,25.

Curvas de polarización potenciodinámica del acero al carbono con variación de pH, cloruro y bisulfuro.

Después de recopilar y clasificar los factores, los conjuntos de datos se dividieron en conjunto de entrenamiento, conjunto de prueba y conjunto de validación en el paso de partición. El conjunto de entrenamiento es el conjunto de datos utilizado para entrenar el modelo. Los algoritmos aprenderán los modelos de este conjunto de entrenamiento. El conjunto de validación se creó para evaluar periódicamente el modelo entrenado. El modelo después del entrenamiento ajustará el parámetro en función de los resultados de la evaluación periódica del conjunto de validación. Para saber si un algoritmo o modelo es bueno o no, es necesario evaluar el modelo después de haber sido entrenado a través de un conjunto de datos de prueba, también conocido como conjunto de prueba. En general, los datos de validación suelen ayudar a ajustar los algoritmos y los datos de prueba proporcionan la evaluación final. En este estudio, el 70% del conjunto de datos se utilizó como conjunto de entrenamiento, el 15% del conjunto de datos como conjunto de prueba y el 15% del conjunto de datos como conjunto de validación.

Los algoritmos seleccionados (ANN, CHAID Tree Decision, Linear Regression, Stacking Ensemble) se llevaron a cabo después del paso de preparación de datos. A continuación se proporciona una descripción detallada de los resultados de cada método de aprendizaje de conjunto de algoritmos individuales.

Las RNA son modelos matemáticos construidos a través de neuronas biológicas. Las RNA constan de grupos de trabajos y neuronas artificiales que pueden conectarse y procesar información pasando las conexiones y luego calculando nuevos valores en los nodos. Muchas RNA también son herramientas para modelar datos estadísticos no lineales.

Los dos tipos principales de arquitecturas ANN son las redes de retroalimentación y de retroalimentación. En el feed-forward, las señales fluyen en la red neuronal solo en una dirección, mientras que en el back-forward se pueden repetir. Feedforward es menos complicado computacionalmente y se considera menos preciso que las redes de retroalimentación. La red de retroalimentación tradicional es adecuada para modelar relaciones de datos de entrada con una o más respuestas de salida, especialmente con el suelo35,36.

La arquitectura de red contiene las siguientes tres capas: la capa de entrada, la capa oculta y la capa de salida. Después de seleccionar el tipo de arquitectura de red, se debe determinar el número de capas ocultas y unidades en cada capa. En este estudio, la capa de entrada tiene cinco unidades de cinco factores (temperatura, cloruro, sulfato, bisulfuro, pH) y la capa de salida tiene una unidad para predecir la densidad de corriente de corrosión del acero al carbono. En este estudio, elegimos una capa oculta ya que es suficiente para la mayoría de los problemas. El número de unidades para la capa oculta puede variar, y existen algunas reglas basadas empíricamente, la habitual se basa en “el tamaño óptimo de la capa oculta suele estar entre el tamaño de la entrada y el tamaño de la salida”37. En este estudio, el tamaño de la entrada es cinco y la salida es uno; para determinar el mejor modelo, se probó el número de unidades de capa oculta de una a cinco.

Después de construir la arquitectura de red completa que se muestra en la Fig. 7, se deben determinar el peso y los umbrales de todas las neuronas. Cada nodo xi en la capa de entrada está conectado a cada nodo en la capa oculta Hj. A cada una de esas conexiones se le asignan algunos pesos, wij. En cada nodo de la capa oculta, los pesos totales de los nodos de la capa de entrada se calcularon como \({F}_{j}=\sum_{i}{w}_{ij}{x}_{i} \). El valor Fj se transformó mediante una función de activación, como una función sigmoidea. Este proceso se repitió en todas las capas y ajusta los pesos de conexión entre los nodos hasta que el error cuadrático medio fue mínimo y se alcanzó la capa de salida. La retropropagación, Levenberg-Marquarts y el método del gradiente conjugado fueron las tres formas de algoritmos de aprendizaje. Un buen ejemplo de algoritmo es la retropropagación (BP), que es el método utilizado en este estudio.

Arquitectura ANN para predecir la densidad de corriente de corrosión externa del acero al carbono en el suelo.

De los tres métodos del conjunto estándar y homogéneo (ensacado y refuerzo) del algoritmo ANN en los modeladores IBM SPSS con un cambio en el número de unidades en la capa oculta de una a cinco, el refuerzo de ANN con dos unidades en la capa oculta fue realizado con la mayor precisión. El error mínimo, el error máximo, el error medio, el error absoluto medio (MAE), la desviación estándar y el valor de correlación lineal se utilizaron para evaluar la precisión de los datos de validación en la Fig. 8a.

Evaluación y comparación del desempeño (a) datos de validación (b) modelo de predicción de los modelos único, de refuerzo y de ensacado de ANN para modelar icorr de acero al carbono en el suelo con variaciones en la unidad de capa oculta.

A partir del valor de la prueba de precisión de cada número de unidades, vemos que 2 unidades en el método de impulso del aprendizaje es el mejor valor en la prueba de validación de datos. Este es un buen resultado para la predicción. Por lo tanto, se eligieron dos unidades para la capa oculta y el método de aprendizaje de refuerzo para predecir la velocidad de corrosión. Sin embargo, en la Fig. 8b, al evaluar los valores ajustados de R, R2, R2, las 2 unidades de la capa oculta no son el valor más alto, sino 5 unidades de la capa oculta. Esto no es sorprendente porque tal vez en 5 unidades en la capa oculta los datos de entrenamiento del modelo con una aproximación cercana a las observaciones experimentales podrían ser mejores que en 2 unidades de la capa oculta. Al proporcionar datos de validación para comprobar la precisión del modelo, prevalecen las 2 unidades de la capa oculta. Y, por supuesto, las 2 unidades ocultas todavía se eligen como el mejor método porque los datos de validación son la cantidad de datos que no están en el proceso de capacitación. Y es lo que puede evaluar el desempeño del modelo.

Al analizar la sensibilidad de los factores en el estudio que afectan la velocidad de corrosión utilizando el modelo ANN con dos unidades en capa oculta, se puede observar que la velocidad de corrosión es la más sensible a la temperatura, cloruros y sulfatos los cuales tienen una alta influencia y el bisulfato y el pH parecen tener un efecto muy bajo, como se muestra en la figura 910,38,39,40.

Gráfico de los efectos estandarizados de la temperatura, cloruro, sulfato, bisulfuro y pH, según lo predicho por ANN con dos unidades en capa oculta sobre la densidad de corriente de corrosión del acero al carbono en el suelo.

El segundo algoritmo elegido en este estudio es el árbol de decisión. El aprendizaje de árboles de decisión es uno de los primeros y más destacados algoritmos de aprendizaje automático. Los árboles de decisión utilizan estructuras de árbol para predecir el valor de una variable de resultado. El resultado de un árbol de decisiones es extremadamente sencillo de entender, especialmente para las personas que carecen de experiencia analítica, ya que no requieren ningún conocimiento estadístico para leerlo e interpretarlo.

Como se ilustra en la Fig. 10, los componentes esenciales de un modelo de árbol de decisión son nodos y ramas, y los pasos más importantes en la construcción del modelo son dividir, detener y podar. Hay tres tipos básicos de nodos: nodos raíz, nodos internos y nodos hoja. El nodo raíz, también conocido como nodo de decisión, representa una elección que dará como resultado la división de datos en dos o más subconjuntos por ramas, a medida que surjan múltiples oportunidades. Los nodos internos, a menudo llamados nodos de oportunidad, reflejan las diversas opciones disponibles en la estructura de árbol. El resultado está representado por un nodo hoja, que también se conoce como nodo final. El árbol comienza con el nodo raíz, que contiene todos los datos, y luego divide los nodos en varias ramas mediante estrategias inteligentes.

Estructura de árbol de decisión simple para predecir la tasa de corrosión externa del acero al carbono en el suelo.

Además de la composición estructural del árbol, existen pasos para construir los modelos que incluyen dividir, detener y podar. Al crear un modelo, primero se deben definir las variables de entrada más esenciales y luego los registros en el nodo raíz y los nodos internos posteriores se deben dividir en dos o más categorías o depósitos según el estado de estas variables. Esta técnica de separación se repite hasta alcanzar las condiciones de parada u homogeneidad. En la mayoría de las circunstancias, no se utilizarán todas las variables de entrada posibles para construir el modelo de árbol de decisión. En algunos casos, una única variable de entrada se utilizará muchas veces en diferentes niveles del árbol de decisión. Se escribió un algoritmo diferente para armar un árbol de decisión, y este puede utilizarse en el problema. Algunos de los algoritmos de decisión de árboles comunes son los árboles de clasificación y regresión (CART), el dicotomizador iterativo 3 (ID3), C4.5 y el detector automático de interacción Chi-cuadrado (CHAID). En este estudio se utilizó CHAID.

El detector automático de interacción Chi-cuadrado (CHAID) es un algoritmo que genera un árbol de decisión utilizando estadísticas de Chi-cuadrado para determinar la descomposición óptima. Los predictores continuos se dividen en categorías con un número aproximadamente igual de observaciones, mientras que los predictores categóricos se dividen en categorías con un número aproximadamente igual de observaciones. Para cada predictor de categoría, CHAID realiza todas las tabulaciones cruzadas posibles hasta que se obtiene el mejor resultado y no es posible realizar más divisiones. El enfoque CHAID se puede utilizar para visualizar las relaciones entre las variables divididas y el factor relacionado que las acompaña dentro del árbol.

Se emplearon tres métodos de aprendizaje en conjunto estándar y homogéneo (ensacado, refuerzo) con diferentes números de profundidades de árbol. Desde la profundidad máxima del árbol hasta el valor 5 y en adelante, los valores predichos fueron idénticos y el número de profundidades del árbol no creció hasta el valor 5. La Tabla 4 resume los resultados de la evaluación de los 3 modelos anteriores con error mínimo, error máximo , error medio, error absoluto medio, desviación estándar y valor de correlación lineal. Los resultados de predicción del método de refuerzo con una profundidad de árbol de 3 tuvieron el valor MAE más bajo y todos los demás parámetros son los mejores del conjunto de datos de validación en la Fig. 11a. Incluso el modelo de decisión de árbol CHAID con una profundidad de árbol de 3 tiene la mayor cantidad de valores ajustados de R, R2, R2 en la Fig. 11b. Por lo tanto, se eligió el método de aprendizaje conjunto de refuerzo con una profundidad de árbol de 3 como modelo óptimo para la decisión del árbol CHAID.

Evaluación y comparación del desempeño (a) datos de validación (b) modelos de predicción de los modelos único, de refuerzo y de ensacado del árbol de decisión CHAID para modelar la icorr del acero al carbono en el suelo con variaciones en el número de profundidades de los árboles.

En cuanto a la evaluación de la sensibilidad del modelo de decisión del árbol CHAID a los factores, la temperatura sigue siendo el factor dominante que afecta la tasa de corrosión del suelo. El cloruro y el sulfato ocuparon el segundo lugar, mientras que el pH y el bisulfato siguieron siendo los dos factores de menor influencia, como se muestra en la Fig. 12.

Gráfico de los efectos estandarizados de la temperatura, cloruro, sulfato, bisulfuro y pH, según lo predicho por CHAID Tree Decision con tres profundidades de árbol sobre la densidad de corriente de corrosión del acero al carbono en el suelo.

El algoritmo final aplicado en este estudio es la regresión lineal (LR). La regresión lineal simple tiene una variable predictiva (X) que se utiliza para modelar la variable de respuesta (Y). Pero en este caso, la variable de respuesta de la densidad de corriente de corrosión del acero al carbono se vio afectada por más de una variable predictiva. Por tanto, se debe utilizar el algoritmo de regresión lineal múltiple. Los algoritmos de regresión lineal múltiple son un método para estudiar la relación entre muchas variables predictivas y una variable de respuesta. A menudo se utiliza para la predicción en el aprendizaje automático y se utiliza para el aprendizaje supervisado. Con base en los puntos de datos dados, intenta trazar una línea que modele los mejores puntos y su principal objetivo en este algoritmo es encontrar la línea que mejor se ajuste. La fórmula general del modelo de regresión lineal múltiple es:

En este estudio, Y (densidad de corriente de corrosión) = variable de salida/respuesta, \(\beta =\) coeficientes del modelo. X1 (temperatura), X2 (cloruro), X3 (pH), X4 (sulfato) y X5 (bisulfuro) son las variables independientes. Después de introducir los datos etiquetados en el software, se obtuvo una ecuación:

Debido a que los algoritmos de regresión lineal utilizan datos para ajustar la ecuación, una cantidad aleatoria del mismo conjunto de datos aún produce la misma ecuación y el aprendizaje de conjuntos homogéneos no es efectivo en este algoritmo. La precisión de la ecuación se enumera en la Tabla 3.

El valor R representa la correlación y fue del 92,8 %, lo que indica un grado muy alto de correlación. El valor R2 indica el porcentaje de la variación total de las variables de respuesta.

Como se muestra en la Tabla 4, ANOVA informa el ajuste de la ecuación de regresión a los datos y muestra que el modelo de regresión predice bien la variable de respuesta. La fila de regresión y la columna Sig muestran la significancia estadística del modelo de regresión ejecutado. Aquí, p < 0,05, indica que el modelo de regresión predice significancia estadística en las variables de respuesta (se ajusta a los datos). Para confirmar la significación estadística del ajuste del modelo de regresión general, el valor F obtenido se comparó con el valor F crítico. El valor crítico F en la distribución F se determinó mediante el límite entre los grados de libertad (df) de las columnas del numerador F y los df del denominador o error de F.

gl del numerador F = número de parámetros beta en el modelo de regresión: 1 = 6 − 1 = 5

gl del denominador F = n: número de parámetros beta en el modelo de regresión = 43 − 6 = 37.

Mirando hacia arriba en la distribución del 5%, el valor F crítico (gl del numerador F, gl del denominador F) fue de 2,534 a 2,450. El resultado del ANOVA del panel total de la prueba F fue 45,881, que es mucho más alto que el F crítico. Esto indica que el modelo de regresión general fue estadísticamente significativo, y las variables de pH, cloruro, bisulfato, sulfato y temperatura son predictores significativos de la variable de respuesta de la velocidad de corrosión.

La Tabla 5 proporciona la información necesaria para predecir la velocidad de corrosión a partir de los 5 factores, así como para determinar si estas 5 variables explicativas contribuyen de manera estadísticamente significativa al modelo al observar la Sig. columna. En la Tabla 5, los resultados muestran que existen 3 coeficientes de cloruro, temperatura y sulfato que son estadísticamente significativos (p < 0.05). Además, los valores de la columna B se pueden utilizar en la columna de coeficientes no estandarizados. Sin embargo, dado que los valores en este estudio tienen unidades diferentes, lo más apropiado es utilizar coeficientes estandarizados. El resultado importante MAE de la regresión lineal es 3,696, que es un valor bastante bueno.

Al evaluar la influencia de los factores de investigación en LR, la temperatura sigue siendo el factor al que la velocidad de corrosión del acero al carbono es más sensible. En la Fig. 13, el cloruro aumenta el grado de influencia sobre la velocidad de corrosión del acero al carbono más que los 2 algoritmos anteriores, y todavía se considera que los 3 factores restantes tienen una influencia menor sobre la velocidad de corrosión.

Gráfico de los efectos estandarizados de la temperatura, el cloruro, el sulfato, el bisulfuro y el pH, según lo predicho por LR, sobre la densidad de la corriente de corrosión del acero al carbono en el suelo.

Los tres algoritmos individuales y los algoritmos homogéneos de este estudio son simples y fáciles de implementar y los resultados de predicción son bastante precisos; sin embargo, en esta sección se aplicó el método de aprendizaje de conjuntos heterogéneos para mejorar la precisión tanto como sea posible.

Según la Fig. 14a, el método de refuerzo de ANN con 2 unidades en la capa oculta da el mejor resultado con un MAE de 3,797. Impulsar CHAID con una profundidad de árbol de 3 da los mejores resultados en el algoritmo del árbol de decisión CHAID con un MAE de 3,457, y los resultados de predicción de la regresión lineal mostraron un MAE de 3,696. Al comparar los tres algoritmos, parece que el árbol de decisión CHAID dio los mejores resultados de predicción. Sin embargo, se implementó el aprendizaje conjunto heterogéneo para obtener un mejor valor predictivo para mejorar el modelo. De hecho, los tres modelos mejor seleccionados anteriormente se combinaron para un modelo con el valor MAE de 3.259, que es el valor más pequeño de todos los modelos que se ejecutan en este estudio; todos los demás valores, el método de conjunto de apilamiento sigue siendo el modelo con mayor precisión. incluso en la Fig. 14b y las matrices resumidas de rendimiento MAE en la Fig. 15. Los valores ajustados de R, R2, R2 del método del conjunto de apilamiento siguen siendo el mejor modelo. Los resultados del entrenamiento de los cuatro modelos y la verificación de los resultados de la predicción con el conjunto de datos de validación se muestran en la Fig. 16.

Evaluación y comparación del desempeño (a) datos de validación (b) modelo de métodos.

Matrices de rendimiento de error absoluto medio para la predicción de la corrosión del acero al carbono en el suelo.

Valor previsto versus la tasa de corrosión externa medida (a) datos de entrenamiento (b) datos de prueba de acero al carbono en el suelo.

Finalmente, los dos factores principales que influyen en la velocidad de corrosión del acero al carbono en la temperatura del suelo y el cloruro se muestran en la superficie de respuesta y la superficie de contorno de acuerdo con el modelo del método de conjunto de apilamiento en la Fig. 17.

Influencia de dos factores principales (temperatura, cloruro) en la velocidad de corrosión del acero al carbono en el suelo.

El propósito de este artículo fue construir un modelo optimizado para predecir la tasa de corrosión externa de recipientes de acero al carbono en el suelo. Después de realizar una serie de modelos para encontrar el modelo más preciso, se identificó el método de apilamiento de aprendizaje conjunto como el método óptimo para predecir el comportamiento utilizando el conjunto de datos estudiado. Aunque el método mostró una precisión excelente en los valores predichos en este conjunto de datos para predecir la tasa de corrosión fuera de la tubería, eso no significa que este método sea el mejor en todos los casos. Por lo tanto, se deben evaluar varios modelos para cada conjunto de datos diferente para encontrar el modelo óptimo. Para mejorar la confiabilidad del modelo, es necesario proporcionar una gran cantidad de datos sobre la corrosión del suelo y proporcionar más predictores que afectan la corrosión del suelo, como la humedad y los poros. Además de aplicar el ML, también se determinó la importancia de las variables de entrada mediante análisis de sensibilidad, y la velocidad de corrosión del acero al carbono es la más sensible a la temperatura y al cloruro.

Los autores confirman que los datos que respaldan los hallazgos de este estudio están disponibles en el artículo. Los datos brutos que respaldan los hallazgos de este estudio están disponibles del autor correspondiente, previa solicitud razonable.

Zhou, Z. y col. Papel acelerador de la película microbiana en la corrosión del suelo de tuberías de acero. En t. J. Prensa. Buques Pip. 192, 104395 (2021).

Artículo CAS Google Scholar

Liu, H., Dai, Y. & Cheng, YF Corrosión de tuberías subterráneas en suelo arcilloso con variados espesores de capa de suelo y aireaciones. Árabe. J. química. 13(2), 3601–3614 (2020).

Artículo CAS Google Scholar

Zhang, Q. y col. Estimación de la corrosión a largo plazo del acero al carbono, titanio y su aleación en material de relleno de bentonita compactada para depósito de residuos nucleares. Ciencia. Rep. 9(1), 1-18 (2019).

Anuncios Google Scholar

King, F. Materiales de contenedores de desechos nucleares: comportamiento a la corrosión y desempeño a largo plazo en sistemas de depósitos geológicos. En Sistemas de depósito geológico para la eliminación segura de combustibles nucleares gastados y desechos radiactivos 365–408 (Elsevier, 2017).

Capítulo Google Scholar

Davis, J. Los efectos y el impacto económico de la corrosión. Corrosión: comprensión de los conceptos básicos, 1.ª ed., 1–21 (ASM International Press, 2000).

Reservar Google Académico

Cai, Y., Xu, Y., Zhao, Y. y Ma, X. Predicción de la corrosión atmosférica: una revisión. Corros. Rev. 38, 299–321 (2020).

Artículo CAS Google Scholar

El Maaddawy, T. & Soudki, K. Un modelo para la predicción del tiempo desde el inicio de la corrosión hasta el agrietamiento por corrosión. Cemento Concreto. Compos. 29(3), 168-175 (2007).

Artículo de Google Scholar

Otieno, M., Beushausen, H. y Alexander, M. Predicción de la velocidad de corrosión en estructuras de hormigón armado: una revisión crítica y resultados preliminares. Madre. Corros. 63(9), 777–790 (2012).

CAS Google Académico

Biezma, MV, Agudo, D. & Barron, G. Un método de lógica difusa: predicción de la tasa de corrosión externa de la tubería. En t. J. Prensa. Buques Pip. 163, 55–62 (2018).

Artículo de Google Scholar

Chung, NT, So, Y.-S. & Kim, J. Evaluación de la influencia de la combinación de pH, cloruro y sulfato en el comportamiento de la corrosión del acero de tuberías en el suelo utilizando la metodología de superficie de respuesta. Materiales 14(21), 6596 (2021).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Stefanoni, M., Angst, UM & Elsener, B. Cinética de disolución electroquímica de metales en medios porosos. Nat. Madre. 18(9), 942–947 (2019).

Artículo ADS CAS PubMed Google Scholar

Stefanoni, M., Angst, UM & Elsener, B. La electroquímica y la teoría de la condensación capilar revelan el mecanismo de corrosión en medios porosos densos. Ciencia. Rep. 8(1), 1-10 (2018).

Artículo CAS Google Scholar

Seghier, MEAB, Höche, D. & Zheludkevich, M. Predicción de la velocidad de corrosión interna de oleoductos y gasoductos: implementación de técnicas de aprendizaje conjunto. J. Nat. Ciencia del gas. Ing. 99, 104425 (2022).

Artículo de Google Scholar

Ray, S. Una revisión rápida de los algoritmos de aprendizaje automático. En 2019 Conferencia Internacional sobre Aprendizaje Automático, Big Data, Nube y Computación Paralela (COMITCon) (IEEE, 2019).

Google Académico

Gandhi, S., Mosleh, W., Shen, J. y Chow, C.-M. Automatización, aprendizaje automático e inteligencia artificial en ecocardiografía: un mundo feliz. Ecocardiografía 35(9), 1402–1418 (2018).

Artículo PubMed Google Scholar

Das, S., Dey, A., Pal, A. & Roy, N. Aplicaciones de la inteligencia artificial en el aprendizaje automático: revisión y perspectiva. En t. J. Computación. Aplica. 115(9), 31–41 (2015).

Google Académico

Idowu, S., Saguna, S., Christer, A. y Olov, S. Aprendizaje automático aplicado: previsión de la carga de calor en un sistema de calefacción urbana. Construcción de energía. 133, 478–488 (2016).

Artículo de Google Scholar

Marcelino, P., de LurdesAnTunes, M., Fortunato, E. & Castilho Gomes, M. Enfoque de aprendizaje automático para la predicción del rendimiento del pavimento. En t. J. Pavimento Ing. 22(3), 341–354 (2021).

Artículo de Google Scholar

Ahmed, AN et al. Métodos de aprendizaje automático para una mejor predicción de la calidad del agua. J. hidrol. 578, 124084 (2019).

Artículo de Google Scholar

Ceolho, LB et al. Revisión del aprendizaje automático de la predicción de la corrosión desde una perspectiva orientada a los datos. npj Mater. Degradar. 6(1), 1–16 (2022).

Google Académico

Yan, L., Diao, Y., Lang, Z. & Gao, K. Predicción de la tasa de corrosión y evaluación de los factores que influyen en aceros de baja aleación en una atmósfera marina mediante un enfoque de aprendizaje automático. Ciencia. Tecnología. Adv. Madre. 21(1), 359–370 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Diao, Y., Yan, L. & Gao, K. Mejora del modelo de predicción de la velocidad de corrosión basado en aprendizaje automático mediante la optimización de las características de entrada. Madre. Des. 198, 109326 (2021).

Artículo CAS Google Scholar

Winkler, DA Predicción del rendimiento de los inhibidores de corrosión orgánicos. Metales 7(12), 553 (2017).

Artículo de Google Scholar

Mythreyi, OV, Rohith Srinivaas, M., Kumar, TA y Jayaganthan, R. Predicción del comportamiento de la corrosión basada en aprendizaje automático en Inconel 718 fabricado aditivamente. Datos 6(8), 80 (2021).

Artículo de Google Scholar

Chung, NT, Choi, S. y Kim, J. Comparación de metodologías de superficie de respuesta y enfoques de redes neuronales artificiales para predecir la velocidad de corrosión del acero al carbono en el suelo. J. Electroquímica. Soc. 2022(169), 051503 (2022).

Artículo de Google Scholar

Goldenberg, SL, Nir, G. & Salcudean, SE Una nueva era: Inteligencia artificial y aprendizaje automático en el cáncer de próstata. Nat. Rev. Urol. 16(7), 391–403 (2019).

Artículo PubMed Google Scholar

Shahani, NM, Kamran, M., Zheng, X., Liu, C. y Guo, X. Aplicación de algoritmos de aprendizaje automático que aumentan el gradiente para predecir la resistencia a la compresión uniaxial de rocas sedimentarias blandas en Thar Coalfield. Adv. Civilización. Ing. 2021, 1-19 (2021).

Artículo de Google Scholar

Vellido, A. La importancia de la interpretabilidad y visualización en el aprendizaje automático para aplicaciones en medicina y atención médica. Computación neuronal. Aplica. 32(24), 18069–18083 (2020).

Artículo de Google Scholar

Weber, F. & Schütte, R. Un análisis orientado al dominio del impacto del aprendizaje automático: el caso del comercio minorista. Cogn de Big Data. Computadora. 3(1), 11 (2019).

Artículo de Google Scholar

Ullah, B., Kamran, M. & Rui, Y. Modelado predictivo de explosiones de rocas a corto plazo para la estabilidad de estructuras del subsuelo utilizando enfoques de aprendizaje automático: T-SNE, agrupación de K-Means y XGBoost. Matemáticas 10(3), 449 (2022).

Artículo de Google Scholar

Kamran, M. Una técnica de incrustación de vecinos estocásticos distribuidos en T basada en catboost de última generación para predecir la rotura de la espalda en la cantera de piedra caliza de cemento dewan. J. Min. Reinar. 12(3), 679–691 (2021).

Google Académico

Nasteski, V. Una descripción general de los métodos de aprendizaje automático supervisados. Horizontes 4, 51–62 (2017).

Artículo de Google Scholar

Adam, SP, Alexandropoulos, S.-AN, Pardalos, PM y Vrahatis, MN Teorema del no almuerzo gratis: una revisión. Aprox. Óptimo. 2019, 57–82 (2019).

Artículo MathSciNet MATEMÁTICAS Google Scholar

Kamran, M. Un enfoque probabilístico para la predicción del índice de tasa de perforación utilizando la técnica de aprendizaje conjunto. J. Min. Reinar. 12(2), 327–337 (2021).

Google Académico

Yang, Y. et al. Biosorción de negro ácido 172 y rojo Congo a partir de una solución acuosa por Penicillium YW 01 no viable: estudio cinético, isoterma de equilibrio y modelado de redes neuronales artificiales. Biorrecurso. Tecnología. 102(2), 828–834 (2011).

Artículo CAS PubMed Google Scholar

Farhana, M., Ahmad, M., Ansari, MA y Malik, A. Predicción de la biosorción de cromo total por Bacillus sp. utilizando redes neuronales artificiales. Toro. Reinar. Contaminar. Toxico. 88(4), 563–570 (2012).

Artículo de Google Scholar

Heaton, J. Introducción a las redes neuronales con Java (Heaton Research Inc, 2008).

Google Académico

Yarong, S., Jiang, G., Chen, Y., Zhao, P. y Tian, ​​Y. Efectos de los iones cloruro sobre la corrosión del hierro dúctil y el acero al carbono en ambientes del suelo. Ciencia. Rep. 7(1), 1-13 (2017).

Anuncios Google Scholar

Arzola, S., Palomar-Pardavé, M. & Genesca, J. Efecto de la resistividad sobre el mecanismo de corrosión del acero dulce en soluciones de sulfato de sodio. J. Aplica. Electroquímica. 33(12), 1233–1237 (2003).

Artículo de Google Scholar

Saupi, S., Sulaiman, MA y Masri, MN Efectos de las propiedades del suelo en la corrosión de tuberías subterráneas: una revisión. J. Trop. Recurso. Sostener. Ciencia. (JTRSS) 3(1), 14-18 (2015).

Artículo de Google Scholar

Descargar referencias

Este trabajo fue apoyado por el Programa de Investigación y Desarrollo Nuclear de la Fundación Nacional de Investigación de Corea (NRF) financiado por el Ministerio de Ciencia y TIC de Corea (MSIT) (NRF-2021M2E1A1085195).

Escuela de Ingeniería y Ciencia de Materiales Avanzados, Universidad Sungkyunkwan, 2066, Seobu-ro, Jangan-gu, Suwon, Gyeonggi-do, 440-746, República de Corea

Thuy Chung Nguyen, Yoon Sik So, Jin Soek Yoo y Jung Gu Kim

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

Conceptualización de NTP. TCN escribió el manuscrito principal. TCN y JSY experimentaron datos. TCN, YSS y JSY analizan e investigan datos. YSS y JGK revisaron y editaron el manuscrito. JSY, JGK es la administración de proyectos.

Correspondencia a Jung-Gu Kim.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado al autor(es) original(es) y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Nguyen, TC, So, YS., Yoo, JS. et al. Modelado de aprendizaje automático de tasas de corrosión externa predictivas de recipientes de acero al carbono de combustible nuclear gastado en el suelo. Representante científico 12, 20281 (2022). https://doi.org/10.1038/s41598-022-24783-5

Descargar cita

Recibido: 04 de agosto de 2022

Aceptado: 21 de noviembre de 2022

Publicado: 24 de noviembre de 2022

DOI: https://doi.org/10.1038/s41598-022-24783-5

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.