Tecnologías de voz para operaciones logísticas

28 mar 2014

Una tecnología aplicada a la logística, que ha alcanzado un alto grado de madurez, es la gestión de la operativa a partir de sistemas que emplean el uso de la voz. Para entender la importancia que ésta representa en un centro de distribución o en un almacén, basta recordar que uno de los grandes obstáculos para la productividad en el sector es la interacción del usuario con el sistema. El manejo de la maquinaria (carretillas), el manipulado del producto (picking) o realizar cualquier otra actividad empleando las manos conlleva una gran atención visual por parte del operario. De este modo, solicitar datos al ordenador a través de un teclado supone una distracción que perjudica el rendimiento e incluso afecta a la seguridad.

La utilización de la radiofrecuencia ha supuesto un notable avance al evitar que el operario tenga que desplazarse a un lugar fijo para efectuar una transacción. En el caso de operar con una carretilla el terminal puede ir instalada en la misma. No obstante, sigue sin resolverse la dificultad que conlleva la interacción del sistema con el usuario.

El desarrollo de las tecnologías de voz permiten que hoy en día sea ya una realidad el reconocimiento eficiente del lenguaje hablado, especialmente en un entorno en el que los comandos y el número de personas que interactúan es delimitado y conocido. Estos sistemas redundan incluso en un incremento neto de la productividad cercano al 10%, según indican estudios especializados. De esta forma, la caída del rendimiento, que casi siempre se presenta asociada a la introducción de una nueva metodología durante el periodo inicial de aprendizaje, parece no existir o ser mínima, dada la simplicidad y naturalidad que presenta el manejo de las aplicaciones basadas en la voz.

La evolución de la tecnología de voz

El tratamiento computerizado de la voz comenzó a desarrollarse como una tecnología militar en Estados Unidos antes de la Segunda Guerra Mundial y durante la Guerra Fría, para posteriormente aplicarse a los sectores civiles. Tal es el caso de la telefonía, que lo emplea como un sistema de ayuda en la búsqueda de números de teléfono o en contestadores automáticos. De forma progresiva se ha extendido al sector bancario y financiero para la automatización de los procesos de relación con los clientes y, últimamente, se utiliza como interface con los dispositivos de navegación de los automóviles.

A partir de la década de los noventa, la industria empezó a fijarse en los sistemas de operaciones logísticas guiados por voz para aplicaciones de alto rendimiento, creciendo el mercado paulatinamente hasta alcanzar en 2000 los 153 millones de dólares. Se estima que llegará a los 1,5 billones de dólares en 2005, es decir, la tendencia apunta a que se multiplicará por diez en los próximos cinco años.

Ciertos factores han contribuido a este creciente atractivo. El primero es que estos sistemas son cada día más potentes, mientras que los precios han ido descendiendo y así se espera que siga ocurriendo en un futuro próximo. Asimismo, algunas de las barreras de esta tecnología han ido desapareciendo: ya no es tan sensible a los ambientes ruidosos y los terminales son cada vez más ligeros y confortables, a la vez que las baterías ofrecen una mayor duración.

Empresas como Wal-Mart, Safeway, Nabisco, 7-Eleven, UPS, Ford y Mitsubishi, por mencionar algunas de las más conocidas, ya utilizan tecnología de voz en sus centros de distribución, para una o varias de las siguientes funciones:

Picking de cajas completas.
Picking de unidades sueltas.
Aseguramiento de la calidad.
Recepción, separación y control de cantidad.
Reaprovisionamiento de zonas de picking.
Inventarios cíclicos y aleatorios.

Clasificación y utilidades

El mercado de tecnologías de voz se divide en tres categorías principales: autentificación, síntesis y reconocimiento de voz.

Respecto a la autentificación, es un parámetro tan fiable como las huellas dactilares o el iris, por lo que la voz se convierte en un perfecto sustituto de las típicas claves y contraseñas de las aplicaciones informáticas. Asimismo, no cabe tampoco minimizar la importancia de la síntesis; de hecho, gran parte de los posibles compradores de este tipo de tecnología se echan atrás cuando escuchan la todavía muy artificial entonación de estos dispositivos, que se humanizarán progresivamente, como ya es una realidad en los entornos en los que el número de palabras que el sistema debe dictar es limitado. No es el caso de aquellas aplicaciones que tienen que dictar la descripción de un producto, ya que la digitalización palabra por palabra sería muy costosa.

En cuanto a la categoría reina, el reconocimiento de voz, hay que poner de relieve que cuando se utiliza en servicios al consumidor debe funcionar bien, con independencia del acento y registro del hablante, lo cual complica extraordinariamente el algoritmo de procesamiento de la información. De esta forma, para la ejecución del reconocimiento se requiere una gran potencia de proceso, dando lugar a errores en muchos casos. Esto todavía está limitando su utilización masiva, por ejemplo, en los procesadores de textos para PC.

Cualquier persona que haya utilizado alguno de los programas existentes en el mercado como el Dragon Speaking o el Via Voice, habrá comprobado que para que funcionen correctamente es necesario llevar a cabo unas operaciones previas de adiestramiento del sistema no demasiado compatibles con su uso rutinario.

Sin embargo, en un entorno acotado, como los centros de distribución, se consiguen sustanciales mejoras de las prestaciones del sistema de reconocimiento de voz, gracias a que se trata con unos operarios o locutores específicos. Con cada uno se puede utilizar un perfil personalizado para su voz, lo que facilita extraordinariamente tal reconocimiento, además de hacerlo mucho más fiable y sencillo de procesar. En consecuencia, los algoritmos requeridos podrán residir en la propia terminal portátil y minimizar el tráfico en la red de radiofrecuencia.

Al mismo tiempo, la especificidad de los perfiles de cada operario proporciona la funcionalidad adicional necesaria para su alta o autentificación en el sistema, sin que sea necesario que se recuerde una clave o un password. Por tanto, y gracias a dicha especificidad con la que opera la aplicación, se consigue un alto grado de fiabilidad en el reconocimiento de la voz, incluso en ambientes industriales muy ruidosos.

El funcionamiento

Las tecnologías de voz aplicadas a las operaciones logísticas requieren que el operario lleve encima (generalmente en la muñeca) un pequeño terminal de radiofrecuencia con auriculares y micrófono, conectado al ordenador donde reside el sistema de gestión del almacén. Este sistema es el que prepara los ficheros de trabajo sobre la base, por ejemplo, de las órdenes de picking pendientes.

Según la potencia del software de gestión del almacén, la confirmación de las órdenes puede ser en bloque (batch) o mediante un intercambio de telegramas en tiempo real, lo que es una gran ventaja cuando existe una repentina falta de disponibilidad o un cambio de lote.

El funcionamiento es el siguiente:
Las órdenes de preparación de pedidos se cargan a través de radiofrecuencia en terminales portátiles que llevan los operarios, los cuales escuchan las indicaciones sobre la zona de picking a la que dirigirse y la cantidad que deberán recoger de la estantería. Después confirman las operaciones mediante códigos de control o mensajes en lenguaje hablado, que son reconocidos por el sistema para que pueda conocer la posición del usuario.

En beneficio de la productividad y para evitar errores, lo ideal es que la conversación entre el sistema y el operario sea lo más escueta y eficaz posible. Por ejemplo, es muy común que la aplicación indique a los pickers la cantidad a coger sólo si ésta es mayor que uno, siendo éste el valor por defecto, siempre y cuando en la ubicación exista un único tipo de presentación de producto (unidades o cajas completas).

Hay muchas otras combinaciones destinadas a minimizar el compromiso entre rendimiento y ratio de errores, pero cada caso debe ser estudiado por separado en función del tipo de producto y las instalaciones del almacén. En ocasiones, será adecuado establecer una cuenta atrás (...4, 3, 2, 1) para recoger, por ejemplo, cuatro unidades. El sistema primero dice cuatro, una vez confirmada esta primera recogida, dice tres, y así sucesivamente hasta que no quede ninguna, siempre de forma sincronizada con las operaciones del picker. Otra opción es trabajar con múltiplos (5, 5, 5, 5, para indicar 20). Si la orden es hacer el picking de 20 unidades de un artículo, la aplicación empezará diciendo cinco. Cuando el operario haga la confirmación hablada, el ordenador dirá nuevamente cinco hasta completar la recogida. Con estos métodos se minimizan extraordinariamente los errores.

En entornos complejos de trabajo, los sistemas de operaciones mediante voz también pueden configurarse para recoger la información del peso del pedido, que debe deletrear el usuario verbalmente o, en su caso, complementarse con otros dispositivos de captación de la información, como lectores de código de barras. No obstante, aquí surge, en mayor o menor medida, el inconveniente que supone el uso de las manos.

Conclusiones y recomendaciones sobre experiencias reales

La mayoría de las instalaciones actuales en todo el mundo que emplean tecnologías de voz son de picking de cajas completas a partir de productos de alta rotación, que suelen ubicarse directamente en extensas superficies a pie de planta. Los sistemas de Pick-to-Light no se adaptan muy bien y es necesario que los operarios tengan las manos libres, sin lectores ni papeles, para poder hacer una adecuada recogida de las referencias.

De esta forma, las aplicaciones de voz se presentan como una excelente alternativa si los artículos no están codificados mediante código de barras, ya que al decir los dígitos de la referencia en lenguaje hablado no existe la complicación de usar un teclado. También son de gran utilidad cuando es necesario informar del peso de cada unidad por separado, en los entornos de trabajo especiales o si el operario tiene que llevar guantes, como el interior de una cámara frigorífica, donde es muy difícil manejar el teclado e incluso un simple lápiz.

Otro criterio a tener en cuenta es el coste que suponen los errores de picking. En industrias donde los márgenes son muy bajos, pero el precio del producto muy alto (por ejemplo, productos farmacéuticos), un fallo en un pedido de una caja completa puede suponer una pérdida de la venta (se estima en torno a un 15% y un 20% del valor neto) o la inevitable reclasificación del artículo como caducado, por el plazo transcurrido hasta su devolución o las condiciones de ésta. Algunos estudios indican que el nivel de errores en un sistema de picking por voz bien diseñado puede ser de uno por 10.000 líneas preparadas y casi siempre referido a fallos de cantidad.

La integración con los sistemas de gestión de almacenes

Ya es posible encontrar en el mercado tecnologías de reconocimiento de voz integrables con los principales programas de gestión de almacenes. EXE, Catalyst y Provia son algunos de los líderes mundiales de software para las operaciones logísticas que permiten la integración con las aplicaciones por voz de los principales fabricantes: VoxWare, Vocollect, Vocognition y SyVox.

Una instalación representativa de este tipo de integración es la de drugstore.com. Esta empresa de comercio electrónico de especialidades de farmacia y parafarmacia dispone de una planta de 10.000 m2 desde donde distribuye 8.000 pedidos diarios a partir de 50.000 referencias, a todo los destinos del mundo, utilizando Pick-to-Light para el picking de unidades de venta y tecnología de voz para cajas completas.

Fuente: Carmelo Pérez

Principales tecnologías de voz:

A.- Autentificación del locutor: El registro de la voz es una característica biométrica unívoca e inimitable, de forma que el sistema puede garantizar que la persona que habla se corresponde con un perfil ya definido. Así se autentifica a un usuario con la misma fiabilidad que a partir de una huella digital o incluso del iris y, además, se evita el uso de claves y passwords.

B.- Síntesis de voz: Hoy es posible para un ordenador fabricar la voz humana para expresar verbalmente cualquier información escrita. Sin embargo, el estado actual de la tecnología sólo permite (a un coste razonable) generar una voz impersonal y metalizada, que muestra su origen sintético. En aplicaciones que utilizan un número limitado de expresiones, se puede digitalizar previamente la voz de una persona en base a palabras sueltas para luego unirlas en frases concretas. De esta forma se consigue un tono más natural y humano.

C.- Reconocimiento de voz: Es sin duda la tecnología más compleja y todavía costará muchos años dominarla en su totalidad. En este momento, es posible reconocer la voz humana, pero no sin ciertas limitaciones. Los resultados son óptimos si se ha realizado un reconocimiento previo del registro de la voz de la persona, lo cual es viable en un entorno limitado, como es un centro de distribución. Más complicado resulta averiguar la voz de personas anónimas, ya que sólo será posible con un esfuerzo, por su parte, por vocalizar y separar correctamente las palabras.

Sesión de operaciones de picking utilizando tecnologías de voz:

Éste es un ejemplo de un diálogo mantenido entre un operario y un sistema de voz. Previamente, las listas de picking se han descargado desde el software de gestión del almacén y se han puesto a disposición del picker (operario encargado de hacer picking), que las solicitará por medio de voz y a quien el sistema guiará, según se detalla a continuación:

Sistema: Por favor, diga su número de operario y tarea que realiza.
Operario: 316, preparador de pedidos.
Sistema: ¿Es usted Juan García, 316, preparador de pedidos?
Operario: Sí.
Sistema: Listo para operar. Diga la zona en la que está.
Operario: 006
Sistema: ¿Está usted en la zona 6?
Operario: Sí.
Sistema: Vaya a la ubicación 014532 y diga el dígito de control.
Operario: 12.
Sistema: Ha llegado a la zona 12. Diga ok para empezar el trabajo.
Operario: Ok.
Sistema: Extraiga 18 cajas.
Sistema: Vaya a la ubicación 031201 y diga el dígito de control.
Operario: 16.
<se repite tantas veces como líneas de pedido>
Sistema: Final del picking list. ¿Repetir último?
Operario: No.
Sistema: Llevar el pedido a expediciones, zona 3 y confirme con ok.
Operario: Ok.
Sistema: Pedido 1 terminado.

Fuente: diálogo extraído de la base de un ejemplo de Guardian Business Solutions Inc.