✒️ABAP HANA - La búsqueda de textos y el análisis de datos no estructurados

ABAP HANA La búsqueda de textos y el análisis de datos no estructurados

Busqueda de textos y analisis de datos no estructurados.

Introducción a la busqueda de textos y analisis de datos no estructurados.

Podemos mejorar considerablemente la facilidad de uso de los escenarios de busqueda dentro de las aplicaciones ABAP

Las ayudas de busqueda y la busqueda de textos

Las ayudas de busqueda representan un excelente escenario de uso para las busquedas de texto SAP HANA. Cuando se utilizan las ayudas de busqueda, los usuarios a veces buscan una entrada en un conjunto de datos grande sin conocer los detalles de la entrada, o al menos sin tener estos detalles a mano.

Las ayudas de busqueda y busqueda de textos en SAP HANA

Nos permite desarrollar ayudas de busqueda que funcionan de manera similiar a las busquedas modernas de internet. Proorcionan una cierta tolerancia a los errrores y pueden procesar terminos y sinonimos multilingues. Sin embargo, los usuarios no siempre pueden determinar facilmente si el resultado devuelto es el esperado en este tipo de busqueda tolerante a errores, tambien conocida como una busqueda difusa o fuzzy search.

Reconocimiento de patrones.

El reconocimiento de patrones en textos y documentos representa un tipo completamente diferente en función de analisis de texto.

Reconocimiento de patrones en SAP HANA

La función de analisis de texto en SAP HANA no solo nos permite realizar busquedas dentro de los textos, sino tambien extraer información adicional de los textos. El analsis de sentimientos es parte de la funcionalidad del motor de texto en SAP HANA y nos permite reconocer patrones en estos tipos de dato no estructurados.

Principios basicos de la busqueda de textos en SAP HANA

El objetivo principal de la función de busqueda de texto en SAP HANA es proporcionar a los usuarios una usabilidad optimizada de las interfaces de busqueda.

Caracteristicas de busqueda de texto de SAP HANA

  1. Busqueda de estilo libre: El usuario no necesita saber las columnas exactas de la base de datos en las que se supone que se realizará la busqueda.
  2. Busqueda tolerante a errores (busqueda difusa o fuzzy search): El usuario puede variar la ortografia ligeramente en sus solicitudes de busqueda.
  3. Busqueda linguistica y busqueda de sinonimos.
  4. Sugerencias de valor: Ei sistema identifica de manera eficiente los resultados de busqueda probables mientras el usuario escribe y los presenta al usuario en tiempo real.
  5. Ranking de resultados: La secuencia de los resultados de la busqueda se optimiza que los resultados con la tasa de probabilidad ma alta se presenten en la parte superior de la lista.
  6. Facetas de busqueda: Los resultados de la busqueda se cuentan y agrupan segun criterios especificos.
  7. Analisis de texto (particularmente analisis de sentimiento) Se extrae información adicional de los textos, lo que nos permite obtener información sobre aspectos semanticos.

Busqueda tolerante a errores

La busqueda difusa o tolerante a errores (fuzzy search), implica la busqueda de cadenas de caracteres (es decir, la solicitud de busqueda) en datos basados en texto, donde los datos no tienen que corresponder exactamente con la solicitud de busqueda. La función de busqueda de texto en SAP HANA determina un valor entre 0 y 1 que marca el grado de similitud. Ademas la funcionalidad difusa (fuzzy search) se puede adaptar para tipo de datos especificos (semanticos).

  1. Expresiones utilizadas en las busquedas: Cuando ejecutamos una busqueda difusa, podemos usar un conjunto de expresiones simples que permiten a un experto formular solicitudes de busqueda mas precisas.
  2. Busqueda linguistica: Para determinar el grado de similitud, tambien es util incluir aspectos gramaticales y otros aspectos linguisticos.
  3. Listas de sinonimos: La busqueda difusa tambien puede extenderse por listas de sinonimos.
  4. Stop words: Implementar una busqueda mas inteligente es familiarizar el sistema con las caracteristicas semanticas de terminos especificos, podemos ingresar una lista de las llamadas stop words (tambien denoninadas noise words) que se consideran menos importantes que otras palabras.

Tipos de datos de texto e indices de texto completo en SAP HANA.

La busqueda difusa en SAP HANA se basa en los tipos de datos del almacen de columnas. TEXT y SHORTTEXT representan dos tipos de datos especificos que se dedican a la busqueda de texto y analisis de texto.

El tipo de datos SHORTTEXT se usa para cadenas de caracteres de una longitud determinada, mientras que TEXT representa un objeto grande.

Soporte en ABAP.

Actualmente no hay soporte nativo disponible en ABAP para los tipos de teto TEXT y SHORTTEXT, lo que hace que sea imposiblecrear una tabla a traes del DDIC que usa estos tipos de datos.

Indice de texto completo (Full text Index)

Agregar la funcionalidad ofredicda por los tipos de texto a una cadena especifica mediante la creación de indices de texto completo, de esta manera, podemos habilitar las funciones de busqueda de texto y analisis de texto para la mayoria de los tipos DDIC de tipo de caracter (incluidos CHAR, STRING, DATS, etc).

Usando SQL para la creación

Podemos rear el indice de texto completo (Full Text Index) utilizando la sentencia SQL_CREATE FULLTEXT INDEX.

Uso de la busqueda de textos a traves de SQL

La pabra clave CONTAINS: Debemos usar una sentencia SELECT con la palabra clave CONTAINS, que nos permite llamar a las multiples variables de la busqueda de texto.

El parametro FUZZY: Define el valor de umbral, donde un valor entre 0.7 y 0.8 suele ser un buen valor estandard para obtener resultados que son relativamente similares a la solicitud de busqueda.

Busqueda exacta / Busqueda linguistica: A parte de utilizarla con el parametro FUZZY, podemos usar la sentencia CONTAINS en otras dos variantes EXACT y LINGUISTIC.

Busqueda difusa (fuzzy search)

Podemos usar la función de busqueda difusa para una busqueda simple en una o varias columnas de una tabla o vista. La clausula CONTAINS nos permite especificar varias columnas para que sean consideradas durante la ejecución de la busqueda.


Sobre el autor

Publicación académica de Marvin Raul Lopez Morales, en su ámbito de estudios para el MASTER ABAP for HANA.

SAP Expert

Marvin Raul Lopez Morales

Profesión: Consultor Senior Sap / Abap It - Guatemala - Legajo: WP66T

✒️Autor de: 155 Publicaciones Académicas

🎓Egresado de los módulos:

Disponibilidad Laboral: FullTime

Presentación:

Soy ingeniero en sistemas y cuento con mas de 20 años de experiencia en el área de informatica, tambien he participado en la implementación, migración y configuración de sap-erp para varias empresas.

Certificación Académica de Marvin Lopez

 

:: Al igual que Marvin ¿Usted está dispuesto a aprender ABAP?

El lunes 09 Agosto 2021 comenzamos la 🎓Carrera Consultor ABAP.
Juntos para realizar sus más grandes desafíos!

 Cargando presentación, aguarde unos instantes...

 

 

+Recursos Gratuitos en CVOSOFT:

¡Lo importante es aprender!, por eso en CVOSOFT la comunidad SAP más grande de habla hispana, ponemos a su alcance los siguientes recursos abiertos libres y gratuitos:

Buscador de Publicaciones:

 

 

Consultas y Soporte

👋Hola! Estamos listos para ayudarle con el soporte que su carrera merece.

Acceda sección contacto y seleccione canal de comunicación más cómodo para usted.

🤝Aguardamos su mensaje, ¡Éxitos!

 


 

👉Que las empresas tomen en serio sus estudios es muy importante para que su inversión educativa tenga sentido.
Las empresas líderes de United States y del Mundo confían a CVOSOFT su recurso más valioso, la formación de su gente.

¿Quieres conocerlas?