Este trabajo presenta un nuevo algoritmo de optimizacion que utiliza modelos sustitutos de la funcion objetivo basados en Procesos Gaussianos. Sus principales caracter´ısticas se explican en detalle. El algoritmo es especialmente ´util en problemas de aprendizaje online formulados en terminos de optimizacion de una funcion de coste objetivo desconocida a priori pero que puede ser evaluada experimentalmente. La principal ventaja de esta tecnica es que requiere de una cantidad minima de evaluaciones de la funcion de coste objetivo. En cambio, es necesario un proceso de calculo computacionalmente costoso (tipicamente del orden de unos pocos segundos) para decidir que punto del espacio de busqueda se explorara en cada una de las iteraciones del algoritmo. Por tanto, es adecuado solo en problemas en los que es posible permitirse tal requisito. Estas condiciones se cumplen, en general, en varios tipos de problemas de aprendizaje de control motor en el campo de la automatica y la robotica. Con el objetivo de ilustrar la eficacia de esta tecnica en este tipo de aplicaciones, se muestra una evaluacion experimental en el problema de aprendizaje de los parametros optimos de un controlador de estabilizacion para un sistema de pendulo invertido.