#LyX 2.3 created this file. For more info see http://www.lyx.org/ \lyxformat 544 \begin_document \begin_header \save_transient_properties true \origin unavailable \textclass book \begin_preamble \usepackage{amssymb} \end_preamble \use_default_options true \begin_modules algorithm2e \end_modules \maintain_unincluded_children false \language spanish \language_package default \inputencoding auto \fontencoding global \font_roman "default" "default" \font_sans "default" "default" \font_typewriter "default" "default" \font_math "auto" "auto" \font_default_family default \use_non_tex_fonts false \font_sc false \font_osf false \font_sf_scale 100 100 \font_tt_scale 100 100 \use_microtype false \use_dash_ligatures true \graphics default \default_output_format default \output_sync 0 \bibtex_command default \index_command default \paperfontsize default \spacing single \use_hyperref false \papersize default \use_geometry false \use_package amsmath 1 \use_package amssymb 1 \use_package cancel 1 \use_package esint 1 \use_package mathdots 1 \use_package mathtools 1 \use_package mhchem 1 \use_package stackrel 1 \use_package stmaryrd 1 \use_package undertilde 1 \cite_engine basic \cite_engine_type default \biblio_style plain \use_bibtopic false \use_indices false \paperorientation portrait \suppress_date false \justification true \use_refstyle 1 \use_minted 0 \index Index \shortcut idx \color #008000 \end_index \secnumdepth 3 \tocdepth 3 \paragraph_separation indent \paragraph_indentation default \is_math_indent 0 \math_numbering_side default \quotes_style french \dynamic_quotes 0 \papercolumns 1 \papersides 1 \paperpagestyle default \tracking_changes false \output_changes false \html_math_output 0 \html_css_as_file 0 \html_be_strict false \end_header \begin_body \begin_layout Standard El \series bold aprendizaje \series default es el cambio adaptativo del comportamiento de un organismo resultante de su interacción con el medio, y es un aspecto esencial de la inteligencia. Permite implementar tareas que solo podemos describir bien mediante ejemplos, hallar correlaciones entre grandes cantidades de datos, mejorar automáticamente el diseño de un sistema con el tiempo, usar grandes cantidades de conocimiento que sobrepasan la capacidad de codificación por un humano, adaptar el programa a cambios en el entorno y actualizar automáticamente el conocimiento del programa. \end_layout \begin_layout Standard El aprendizaje ocurre con una fase de entrenamiento, en la que el programa adquiere experiencia con ejemplos etiquetados si el aprendizaje es \series bold supervisado \series default o con observaciones del entorno si no lo es, y una fase de prueba, en la que se comprueba que el programa \series bold clasifica \series default los nuevos ejemplos o \series bold predice \series default su solución correctamente (da un resultado correcto). \end_layout \begin_layout Standard La \series bold precisión \series default es la fiabilidad del modelo aprendido, medida normalmente por la proporción de ejemplos clasificados correctamente, aunque a veces es preferible sacrificar precisión por velocidad de predicción, por ejemplo en detección de errores en cadenas de producción. \end_layout \begin_layout Standard Si el modelo lo usa un humano, el razonamiento debe ser fácil de entender para evitar errores. También es importante reducir el tiempo de aprendizaje y el número de observaci ones necesarias. \end_layout \begin_layout Section Estimación del error \end_layout \begin_layout Standard El \series bold estimador del error en los ejemplos \series default es la proporción de ejemplos de la prueba clasificados incorrectamente, y es un buen estimador si los ejemplos de prueba no se usaron en el entrenamien to. El \series bold error de resustitución \series default es el estimador del error poniendo como ejemplos los mismos datos que en el entrenamiento, y es una aproximación optimista al error real. \end_layout \begin_layout Standard La estimación del error por \series bold validación cruzada \series default mide el error de un método, no de un modelo concreto, y se aplica cuando los datos son escasos. El conjunto de ejemplos \begin_inset Formula $S$ \end_inset se particiona en trozos \begin_inset Formula $S_{1},\dots,S_{v}$ \end_inset de tamaño semejante, y para cada \begin_inset Formula $i\in\{1,\dots,v\}$ \end_inset , se construye un modelo sobre \begin_inset Formula $S\setminus S_{i}$ \end_inset y se calcula su error estimador de los ejemplos \begin_inset Formula $R_{i}$ \end_inset usando el conjunto de prueba \begin_inset Formula $S_{i}$ \end_inset . El error de validación cruzada es \begin_inset Formula $\sum_{i=1}^{v}\frac{|S_{i}|}{|S|}R_{i}$ \end_inset . Un buen valor de \begin_inset Formula $v$ \end_inset es 10, y entonces el método se llama \series bold \emph on \lang english 10-fold cross-validation \series default \emph default \lang spanish . Otro caso es el \series bold \emph on \lang english leave-one-out \series default \emph default \lang spanish , en el que \begin_inset Formula $S$ \end_inset se particiona en \begin_inset Formula $|S|$ \end_inset trozos de un elemento. Solo se usa cuando \begin_inset Formula $S$ \end_inset es pequeño, pues es computacionalmente costoso. \end_layout \begin_layout Standard A veces algunos errores son más costosos que otros; por ejemplo es más costoso un falso negativo de una enfermedad que un falso positivo. Si el problema es clasificar ejemplos en \begin_inset Formula $n$ \end_inset categorías, una \series bold matriz de confusión \series default es una matriz \begin_inset Formula $A\in{\cal M}_{n}(\mathbb{N})$ \end_inset en la que \begin_inset Formula $a_{ij}$ \end_inset es el número de ejemplos de clase \begin_inset Formula $i$ \end_inset que fueron clasificados como de clase \begin_inset Formula $j$ \end_inset , y una \series bold matriz de costos \series default es una matriz \begin_inset Formula $C\in{\cal M}_{n}(\mathbb{R})$ \end_inset en la que \begin_inset Formula $c_{ij}$ \end_inset es el coste de clasificar un ejemplo de clase \begin_inset Formula $i$ \end_inset como de clase \begin_inset Formula $j$ \end_inset , y que por tanto tiene diagonal nula. Entonces el estimador de coste de una mala clasificación es \begin_inset Formula \[ \sum_{i=1}^{n}\sum_{j=1}^{n}a_{ij}c_{ij}. \] \end_inset \end_layout \begin_layout Standard Cuando el rango de soluciones es numérico y continuo, un buen estimador es el \series bold error cuadrático medio \series default ( \series bold MSE \series default , \emph on \lang english Mean Squared Error \emph default \lang spanish ), que con \begin_inset Formula $n$ \end_inset ejemplos con soluciones \begin_inset Formula $x_{1},\dots,x_{n}$ \end_inset para los que el programa da soluciones respectivas \begin_inset Formula $y_{1},\dots,y_{n}$ \end_inset es \begin_inset Formula \[ \frac{1}{n}\sum_{i=1}^{n}(x_{i}-y_{i})^{2}. \] \end_inset \end_layout \begin_layout Section Aprendizaje memorístico \end_layout \begin_layout Standard Es una técnica consistente en almacenar todo es conocimiento nuevo para usarlo cuando se encuentre un caso similar, y puede estar integrada en un sistema de aprendizaje más complejo. \end_layout \begin_layout Standard Es adecuada cuando es más conveniente almacenar los datos que re-calcular. En particular el acceso debe ser rápido, lo que requiere indizado. No es adecuada cuando el entorno cambia rápidamente y lo almacenado puede quedar fácilmente desfasado. \end_layout \begin_layout Standard Se puede decidir si almacenar o no cada vez que llega nueva información o almacenar todo y después olvidar lo que se usa menos. \end_layout \begin_layout Section Resolución de problemas \end_layout \begin_layout Standard Un programa para resolver problemas puede recordar la estructura del problema que ha resuelto, los métodos usados para resolverlo y su solución, generalizar la experiencia y usarla para resolver problemas similares. \end_layout \begin_layout Standard El primer programa en hacer esto fue STRIPS, que tras cada episodio de planifica ción tomaba el plan calculado o una parte y lo transformaba en un \series bold macro-operador \series default , una secuencia de acciones abstracta encapsulada en un \series bold operador \series default o acción para su uso posterior como una acción normal. \end_layout \begin_layout Standard Como es raro que se de un mismo problema dos veces, el macro-operador debe generalizarse, cambiando constantes por variables siempre que se pueda. STRIPS sustituye todas las constantes por variables y después re-evalúa las precondiciones de cada operador usado para unificar y convertir variables en constantes si es necesario. Los buenos macro-operadores son muy útiles, y pueden producir un pequeño cambio local en el mundo aunque los operadores que lo forman produzcan muchos cambios locales. \end_layout \begin_layout Section Reglas de asociación \end_layout \begin_layout Standard Las \series bold reglas de asociación \series default relacionan los elementos que pueden aparecer en una base de datos, y son útiles para toma de decisiones, diagnóstico y predicción. \end_layout \begin_layout Standard Sea \begin_inset Formula $I$ \end_inset un conjunto de ítems que pueden aparecer en la descripción de un elemento de una base de datos, una regla de asociación tiene forma \begin_inset Quotes cld \end_inset Si \begin_inset Formula $X$ \end_inset entonces \begin_inset Formula $Y$ \end_inset \begin_inset Quotes crd \end_inset o \begin_inset Quotes cld \end_inset \begin_inset Formula $X\Rightarrow Y$ \end_inset \begin_inset Quotes crd \end_inset , donde \begin_inset Formula $X,Y\subseteq I$ \end_inset son disjuntos. Sea \begin_inset Formula $D\subseteq{\cal P}(I)$ \end_inset un conjunto finito de descripciones de elementos de la base de datos, el \series bold soporte \series default de un \begin_inset Formula $Z\subseteq I$ \end_inset es \begin_inset Formula $s(Z)\coloneqq \frac{|\{e\in D\mid Z\subseteq e\}|}{|D|}$ \end_inset ; la \series bold confianza \series default o \series bold precisión \series default de la regla \begin_inset Quotes cld \end_inset \begin_inset Formula $X\Rightarrow Y$ \end_inset \begin_inset Quotes crd \end_inset es \begin_inset Formula $c(X\Rightarrow Y)\coloneqq \frac{s(X\cup Y)}{s(X)}$ \end_inset , y su \series bold soporte \series default o \series bold cobertura \series default es \begin_inset Formula $s(X\Rightarrow Y)\coloneqq s(X\cup Y)$ \end_inset . Las diapositivas usan la notación de mierda \begin_inset Formula $|X|\coloneqq |\{e\in D\mid X\subseteq e\}|$ \end_inset . \end_layout \begin_layout Standard Para obtener reglas con buenos valores de soporte y confianza, primero ejecutamo s el algoritmo a priori (algoritmo \begin_inset CommandInset ref LatexCommand ref reference "alg:a-priori" plural "false" caps "false" noprefix "false" \end_inset ) para obtener un conjunto \begin_inset Formula ${\cal L}$ \end_inset de conjuntos de ítems frecuentes y luego tomamos las reglas \begin_inset Formula $r\in\bigcup_{L\in{\cal L}}\{X\Rightarrow L\setminus X\}_{X\subseteq L}$ \end_inset con \begin_inset Formula $c(r)\geq p$ \end_inset , donde \begin_inset Formula $p$ \end_inset es la precisión mínima. \end_layout \begin_layout Standard \begin_inset Float algorithm wide false sideways false status open \begin_layout Plain Layout \begin_inset ERT status open \begin_layout Plain Layout \backslash Entrada{Conjunto de ítems $I$ de tamaño $k \backslash in \backslash mathbb{N}$, conjunto de elementos $D \backslash subseteq{ \backslash cal P}(I)$ y soporte mínimo $f \backslash in[0,1]$.} \end_layout \begin_layout Plain Layout \backslash Salida{Conjunto ${ \backslash cal L} \backslash subseteq{ \backslash cal P}(I)$ de conjuntos de ítems con soporte al menos $f$.} \end_layout \begin_layout Plain Layout $L_1 \backslash gets \backslash { \backslash {i \backslash } \backslash }_{i \backslash in I,s( \backslash {i \backslash }) \backslash geq f}$ \backslash ; \end_layout \begin_layout Plain Layout $k \backslash gets1$ \backslash ; \end_layout \begin_layout Plain Layout \backslash Mientras{$L_k \backslash neq \backslash emptyset$}{ \end_layout \begin_layout Plain Layout $G \backslash gets \backslash {S \backslash cup \backslash {i \backslash } \backslash }_{S \backslash in L_k,i \backslash in I \backslash setminus S}$% \end_layout \begin_layout Plain Layout \backslash tcp*{{ \backslash rm Fase de formación.}} \end_layout \begin_layout Plain Layout $C \backslash gets \backslash {S \backslash in G: \backslash forall i \backslash in S,S \backslash setminus \backslash {i \backslash } \backslash in L_k \backslash }$% \end_layout \begin_layout Plain Layout \backslash tcp*{{ \backslash rm Fase de poda.}} \end_layout \begin_layout Plain Layout $L_{k+1} \backslash gets \backslash {S \backslash in C:s(S) \backslash geq f \backslash }$% \end_layout \begin_layout Plain Layout \backslash tcp*{{ \backslash rm Candidatos de tamaño $k$ frecuentes.}} \end_layout \begin_layout Plain Layout $k \backslash gets k+1$ \backslash ; \end_layout \begin_layout Plain Layout } \end_layout \begin_layout Plain Layout ${ \backslash cal L} \backslash gets \backslash bigcup_{i=1}^{k-1}L_i$ \backslash ; \end_layout \end_inset \end_layout \begin_layout Plain Layout \begin_inset Caption Standard \begin_layout Plain Layout \begin_inset CommandInset label LatexCommand label name "alg:a-priori" \end_inset Algoritmo a priori. \end_layout \end_inset \end_layout \end_inset \end_layout \end_body \end_document