🚀PROMO #PLANCARRERA2024 - 🔥Bonificaciones, Precios Congelados y Cuotas

 X 

✒️ABAP HANA La búsqueda de textos y el análisis de datos no estructurados

ABAP HANA La búsqueda de textos y el análisis de datos no estructurados

ABAP HANA La búsqueda de textos y el análisis de datos no estructurados

LECCIÓN 4. BÚSQUEDA DE TEXTOS Y ANÁLISIS DE DATOS NO ESTRUCTURADOS

1. Introducción a la búsqueda de textos y anàlisis de datos no estructurados

SAP HANA ofrece una función para analizar datos no estructurados. Opciones proporcionades por SAP HANA para buscar y analizar textos:

1.1 Las ayudas de búsqueda y la búsqueda de textos

Cuando se utilizan las ayudas de búsqueda, los usuarios a veces buscan una entrada en un conjunto de datos grande sin conocer los detalles de la entrada, o al menos sin tener estos detalles a mano.

1.2 Las ayudas de búsqueda y la búsqueda de textos en SAP HANA

Proporcionan una cierta tolerancia a los errores y pueden procesar términos y sinónimos multilingües. Pero no se sabe si el resultado correcto es el esperado en este tipo de búsqueda tolerante a errores, también conocida como una Búsqueda difusa o Fuzzy search.

1.3 Reconocimiento de patrones en textos y documentos

Representa un tipo diferente de función de anàlisis de texto. Como pasa a menudo, los nombres y direcciones se ingresan con diferentes tipos de ortografia, una simple comprobación de entrades idénticas rara vez nos da resultados satisfactorios.

1.4 Reconocimiento de patrones en SAP HANA

El anàlisis de texto en SAP HANA permite también extraer información addicional de los textos. En el contexto de la tienda en línea, p.e., permite analizar si un producto especifico provoca comentarios más positivos o negativos (anàlisis de sentimientos).

2. Principios básicos de la búsqueda de textos en SAP HANA

Características de la búsqueda de textos:

- Búsqueda de estilo libre: no hace falta realitzar la búsqueda en la columna exacta en la que queremos la información

- Búsqueda tolerante a errores (búsqueda difusa o fuzzy search): se puede variar la ortografia ligeramente en la sol·licitud de búsqueda.

- Búsqueda lingüística y búsqueda de sinónimos: se incluyen variantes lingüísticas y términos sinónimos.

- Sugerencias de valor: el sistema presenta en tiempo real los resultados de búsqueda probables mientras el usuario escribe.

- Ranking de resultados: los resultados con la tasa de probabilidad más alta se presentan en la parte superior de la lista.

- Facetas de búsqueda: los resultados de la búsqueda se cuentan y agrupan según criterios específicos.

- Análisis de texto (particularment análisis de sentimento): se extrae información adicional de los textos, lo que permite obtenir información sobre aspectos semánticos.

2.1 Búsqueda tolerante a errores o búsqueda difusa (fuzzy search)

La función de búsqueda de texto en SAP HANA determina un valor entre 0 y 1 que marca el grado de similitud. Como programador, debemos definir un valor de umbral (p.e: 0,8 ) a partir del cual un valor del conjunto de datos que se ha buscado se clasifica de acuerdo con la sol·licitud de búsqueda.

Expresiones utilizadas en las búsquedas

Para hacer solicitudes de búsqueda más precises. Incluye la opción de imponer una búsqueda exacta para una parte específica de la sol·licitud de búsqueda o usar expresiones lógicas.

Búsqueda lingüística: para determinar el grado de similitud, también es útil influir aspectos gramaticales y otros aspectos lingüísticos.

Lista de sinónimos: podemos almacenar una lista de términos que son equivalentes a un termino especifico; la solicitud de búsqueda puede luego basarse en esta lista. Útil para abreviatures y conceptos específicos de la industria.

Stop words: también llamadas noise words. Palabras que se consideran menos importantes que otras. Por ejemplo, términos como “S.A.” o “Inc.” No son tan selectives como el nombre real de la empresa cuando se busca una companyia específica.

3. Tipos de datos de textos y índices de texto completo en SAP HANA

La búsqueda difusa en SAP HANA se basa en los tipos de datos del almacén de columnas. Dos tipos de datos específicos que se dedican a búsquedas de texto (y análisis de texto):

- TEXT: representa un objeto grande

- SHORTTEXT: para cadenes de caracteres de una longitud determinada

En este contexto, los textos se fragmentan internamente en tokens que forman la base para búsquedas y análisis.

Soporte en Abap

Desafortunadamente, actualment no hay soporte nativo disponible en ABAP para los tipos de datos anteriores TEXT y SHORTTEXT. Estos tipos de datos no se pueden usar. Sin la capacidad de dividir los textos en tokens de búsqueda, el sistema no puede reconocer una permutación de palabras, que es estándar en las aplicacions de búsqueda modernas.

Índice de texto completo (Full Text Index)

Si agregamos la funcionalidad ofrecida por los Tipos de datos de texto a una columna específica mediante la creación de un índice de texto completo, podemos habilitar las funciones de búsqueda de texto y anàlisis de texto para la mayoría de los tipos DDIC de tipo carácter (VARCHAR, NVARCHAR, CHAR, STRING, DATS, etc). El texto se fragmenta en tokens y se genera un diccionario adicional.

Usando SQL para la creación

Sintaxis (SQL) para la creación de un FULLTEXT INDEX: CREATE FULLTEXT INDEX

Help.sap.com/hana è información acerca de los índices

El nombre del índice (<index_name>) debe de ser único dentro de un esquema. Prefijamos el nombre del índice con el nombre de la BD para evitar conflictes de nombres.

Creación en el Diccionario de datos ABAP (DDIC)

A partir de la versión 7.4 de ABAP, también es posible crear un índice de texto completo a través del DDIC utilizando parámetros comunes. Para este propósito definimos un nuevo índice por la tx. SE11 o un índice de extensión. Esto contiene solo la columna requerida como una campo y se crea solamente en la BD SAP HANA.

Activamos el índice de texto completo por: Goto è Full Text Index , y lo podemos configurar con una gran variedad de parámetros.

4. Uso de la búsqueda de textos a través de SQL

La palabra clave CONTAINS

Usando una sentencia SELECT con la palabra clave CONTAINS llamamos a las múltiples variantes de la búsqueda de texto.

Aunque haya errores en la Búsqueda, el sistema devuelve el registro de datos esperado: “Lufthansa”.

El parámetro FUZZY

Define el valor del Umbral, donde un valor entre 0,7 y 0,8 suele ser un buen valor estándar para obtenir resultados que son relativamente similares a la solicitud de búsqueda. El parámetro FUZZY ofrece muchas otras opciones de configuración.

Búsqueda Exacta / Búsqueda Lingüística

Podemos usar la sentencia CONTAINS en otras dos variantes: EXACT y LINGUISTIC.

EXACT: el sistema busca coincidencias exactas para la solicitud de búsqueda con palabras completes. Es el valor por defecto. A diferencia de LIKE, CONTAINS permite realizar búsquedas en varias columnas. Pero, actualment hay un par de limitacions que son: solo podemos utilitzar COINTAINS en Tablas columnares y no podemos utilitzar la función de Busqueda de textos para los atributos calculados de una Vista.

Sin un Indice de texto completo para la columna carrname, los nombres no se dividiran en palabras (tokens); por lo que no habrá una coincidencia exacta entre la solicitud de búsqueda “Aerolineas” y una entrada como “United Airlines”.

4. Búsqueda difusa (Fuzzy search)

Podemos usar el Fuzzy search para una búsqueda simple en una o varias columnes de una Tabla o Vista.

Para ello, se definió un índice de texto completo para el campo CITYFROM y otro para el campo CITYTO utilizando el DDIC.


 

 

 


Sobre el autor

Publicación académica de Tania Raset Pere, en su ámbito de estudios para el Máster ABAP for HANA.

SAP SemiSenior

Tania Raset Pere

España - Legajo: QZ87K

✒️Autor de: 12 Publicaciones Académicas

🎓Egresado del módulo:

Certificación Académica de Tania Raset

✒️+Comunidad Académica CVOSOFT

Continúe aprendiendo sobre el tema "La búsqueda de textos y el análisis de datos no estructurados" de la mano de nuestros alumnos.

SAP SemiSenior

Unidad 2: Lección 4 Búsqueda de textos y el análisis de datos no estructurados 1. Introducción a la búsqueda de textos y análisis de datos no estructurados 1.1 Ayudas de búsqueda y búsqueda de textos Las ayudas de búsqueda representan un excelente escenario de uso para las búsquedas de texto en SAP HANA 1.2 Ayudas de búsqueda y búsqueda de textos en SAP HANA Nos permite desarrollar ayudas de búsqueda que funcionan de manera similar a las búsquedas modernas en internet Búsqueda tolerante a errores también conocida como Búsqueda difusa o Fuzzy search 1.3 Reconocimiento de patrones El reconocimiento de patrones en textos y...

Acceder a esta publicación

Creado y Compartido por: Alejandra Soto Guerrero

*** CVOSOFT - Nuestros Alumnos - Nuestro Mayor Orgullo como Academia ***

SAP Junior

Búsqueda textos y datos no estructurados Análisis de datos no estructurados Mejorar escenarios de búsqueda Reconocimiento de patrones Ayudas de Búsqueda Búsquedas sin conocer detalle exacto de los que se está buscando. Incluye variaciones ortográficas Búsqueda tolerante a errores. Fuzzy search Reconocimiento de patrones Análisis de texto. P ej: búsqueda de cliente ya existente. (concepto idéntico) Patrones en SAP Hana Reconocer las relaciones e incluso las intenciones o emociones dentro de los textos Principios básicos: Usabilidad optimizada de la búsqueda Estilo libre Tolerante a errores Lingüística y sinónimos Sugerencias de valor...

Acceder a esta publicación

Creado y Compartido por: Danilo Cortes

*** CVOSOFT - Nuestros Alumnos - Nuestro Mayor Orgullo como Academia ***

SAP Junior

BUSQUEDA DE TEXTOS Y ANALISIS DE DATOS NO ESTRUCTURADOS. *Ayudas de búsqueda / búsquedas de textos / reconocimientos de patrones Principios básicos de las búsquedas de texto: *Permite a los usuarios utilizar las interfaces de una forma optimizada.(características comunes a los motores de búsqueda de internet, incluye funciones con un significado especial para las aplicaciones empresariales). características: Búsquedas de estilo libre. Búsqueda tolerante a errores fuzzy search - se incluyen entradas similares en el conjunto de resultados.. Búsqueda lingúistica y de sinónimos Sugerencias de Valor Ranking de resultados Facetas de búsquedas...

Acceder a esta publicación

Creado y Compartido por: Susana Mora

*** CVOSOFT - Nuestros Alumnos - Nuestro Mayor Orgullo como Academia ***

SAP SemiSenior

Búsqueda de textos y Análisis de datos no estructurados Ayudas de búsqueda y la búsqueda de textos en SAP HANA que funcionan de manera similar a las búsquedas modernas en internet. Principios básicos de búsqueda de textos en SAP HANA proporciona una usabilidad optimizada de las interfaces de búsqueda. Algunas características son: Búsqueda de estilo libre donde el usuario no necesita saber la columna exacta en la BD se puede incluir todos los datos de una dirección como calle, código postal, ciudad, etc. Búsqueda tolerante a errores (búsqueda difusa o fuzzy search) donde el usuario puede variar de ortografía en su solicitud de búsqueda...

Acceder a esta publicación

Creado y Compartido por: Diego Fernando Delgado Ortiz / Disponibilidad Laboral: PartTime + Carta Presentación

*** CVOSOFT - Nuestros Alumnos - Nuestro Mayor Orgullo como Academia ***

SAP SemiSenior

SAP HANA ofrece unas funciones para analizar datos ABAP: - obtener mas información al reconocer patrones en los conjuntos de datos existentes - busca y analiza textos, mas formas de utilizar esta función en aplicaciones empresariales y hasta ahora no se utilizaban. Ayudas de búsqueda y búsqueda de textos en SAP HANA, permite desarrollar ayudas similar a las búsquedas de internet: 1. Búsqueda difusa o Fuzzy search de tolerancia a errores y procesar términos y sinónimos multilingües. 2. Reconocimiento de patrones: comprobar entradas idénticas. Objetivos de la búsqueda en SAP HANA es proporcionar a los usuarios uso optimizado del las interfases de búsqueda. Características...

Acceder a esta publicación

Creado y Compartido por: Maria Sanchez

*** CVOSOFT - Nuestros Alumnos - Nuestro Mayor Orgullo como Academia ***

SAP Junior

1.2 Las ayudas de búsqueda y la búsqueda de textos en SAP HANA Tiene una búsqueda difusa o Fuzzy Search. 1.3 Reconocimiento de patrones en SAP HANA Permite realizar búsquedas dentro de los textos, sino también extraer información adicional de los textos. 2. PRINCIPIOS BASICOS DE LA BUSQUEDA DE TEXTOS EN SAP HANA * Búsqueda de estilo libre * Búsqueda tolerante a errores (búsqueda difusa o fuzzy search) se puede variar la ortografia ligeramente en sus solicitudes de búsqueda. * Búsqueda linguistica y búsqueda de sinónimos. * Sugerencias de valor * Ranking de resultados se muestran los resultados con la tasa de probabilidad más alta se presenten...

Acceder a esta publicación

Creado y Compartido por: Maria Xiomara Rodriguez Panqueva / Disponibilidad Laboral: FullTime

*** CVOSOFT - Nuestros Alumnos - Nuestro Mayor Orgullo como Academia ***

SAP Expert


INTRODUCCIÓN A LA BÚSQUEDA DE TEXTOS Y ANÁLISIS DE DATOS NO ESTRUCTURADOS Características de búsqueda de textos en SAP HANA Búsqueda de texto libre Búsqueda tolerante a errores (búsqueda difusa o fuzzy search): implica la búsqueda de caenas de caracteres. Búsqueda lingüistica y búsqueda de sinónimos. Podemos almacenar una lista de términos equivalentes. Sugerencias de valor (identificacion de búsquedas probables) Ranking de resultados Facetas de búsqueda Análisis de texto Tipos de datos de texto e índices...

Acceder a esta publicación

Creado y Compartido por: Juan Ignacio De Tejada Santiago / Disponibilidad Laboral: FullTime

*** CVOSOFT - Nuestros Alumnos - Nuestro Mayor Orgullo como Academia ***

---- Audio 1 Podemos obtener documentación completa acerca de la sentencia de Creación de los FULLTEXT INDEX en help.sap.com/hana. Debemos tener en cuenta que el nombre del índice de texto completo (FULLTEXT INDEX) debe ser único dentro de un esquema por lo que tiene sentido prefijar el nombre del índice con el nombre de la tabla base de datos para evitar posibles conflictos de nombres. ---- Audio 2 Tal como mencionamos podemos utilizar SQL para búsqueda de textos en SAP HANA, sin embargo actualmente hay un par de limitaciones con respecto a las combinaciones que son compatibles, una de ellas es que solo podemos utilizar la clausula CONTAINS para la búsqueda de textos en tablas que sean columnares....

Acceder a esta publicación

Creado y Compartido por: Vanessa Yadira Mendoza Zelaya

*** CVOSOFT - Nuestros Alumnos - Nuestro Mayor Orgullo como Academia ***

SAP SemiSenior

Búsqueda de textos y análisis de datos no estructurados. SAP HANA nos ofrece una función para analizar datos no estructurados. Si aprovechamos esta capacidad, podemos mejorar considerablemente la facilidad de uso de los escenarios de búsqueda dentro de los programas ABAP. Podemos obtener más información al reconocer los patrones en los conjuntos de datos existentes. 1- Las ayudas de búsqueda y la búsqueda de textos Las ayudas de búsqueda son un excelente escenario para las búsquedas de texto en SAP HANA. Los usuarios en ocasiones buscan un conjunto de datos muy grande sin saber los detalles de entrada o sin tener estos datos a la mano al momento de usar una ayuda de búsqueda....

Acceder a esta publicación

Creado y Compartido por: Jesús Heriberto Quiñonez López / Disponibilidad Laboral: FullTime + Carta Presentación

*** CVOSOFT - Nuestros Alumnos - Nuestro Mayor Orgullo como Academia ***

SAP Senior

1. Las ayudas de búsqueda y la búsqueda de textos en SAP HANA La función de búsqueda de texto de SAP HANA nos permite desarrollar ayudas de búsqueda que proporcionan una cierta tolerancia a errores y pueden procesar términos y sinónimos multilingües. Por ejemplo, podemos ingresar "buenes eires tele" en una ayuda de búsqueda y se interpretara correctamente a pesar de la ortografía incorrecta. Sin embargo, los usuarios no siempre pueden determinar fácilmente si el resultado devuelto es el esperado en este tipo de búsqueda tolerante a errores (Fuzzy search). La función de análisis de texto en SAP HANA no solo nos permite realizar búsquedas...

Acceder a esta publicación

Creado y Compartido por: Ricardo Daniel Tovar Barrera

 


 

👌Genial!, estos fueron los últimos artículos sobre más de 79.000 publicaciones académicas abiertas, libres y gratuitas compartidas con la comunidad, para acceder a ellas le dejamos el enlace a CVOPEN ACADEMY.

Buscador de Publicaciones:

 


 

No sea Juan... Solo podrá llegar alto si realiza su formación con los mejores!