Inteligencia artificial usada en buscadores (2021)

La digitalización del mundo que nos rodea hizo posible acceder a información en cantidades imposibles de conseguir para generaciones anteriores. El autor de este estado de cosas no es solo el acceso universal a Internet, sino también los procesos que tienen lugar en instituciones como oficinas, corporaciones y centros de investigación. La enorme cantidad de datos que antes se guardaban como copias físicas ahora se almacenan en bases de datos y se accede a ellos desde una computadora personal sin moverse de su escritorio.

¿Cómo no ahogarse en un mar de datos?

Sin embargo, el acceso a la información por sí solo no es suficiente. Es físicamente imposible revisar manualmente cientos o miles de documentos potenciales que pueden contener la información que estamos buscando. Por tanto, los algoritmos de búsqueda van de la mano con los sistemas de almacenamiento de información, nos dicen los mayores expertos en IA.

El tipo de información más común es la información no procesada, por ejemplo, en forma de documentos de texto, como decisiones judiciales, facturas o contratos. Si bien es muy fácil buscar documentos creados o modificados dentro de fechas específicas, o tener un autor específico, la búsqueda en el contenido en sí será mucho más desafiante.


Necesidad de conocimiento

Imagine que tiene una base de datos de sentencias de los últimos doce años y un abogado llamado Harvey, a quien le gustaría saber cómo falló el tribunal en casos similares al que está llevando a cabo actualmente. Supongamos que se trata de impago de impuestos. Así que Harvey inicia sesión en nuestro sistema e ingresa la siguiente frase en un motor de búsqueda: "sentencias judiciales en casos de evasión fiscal". ¿Cómo funcionará el sistema de búsqueda?
Búsqueda léxica

La mayoría de los sistemas de búsqueda de texto completo actuales indexan documentos utilizando la frecuencia de palabras. Sin embargo, esto está relacionado con el problema de los sinónimos y las diferentes formas de expresión textual de la información. Si la consulta que utilizó Harvey fue "sentencias judiciales sobre evasión fiscal" y el documento incluye "evasión de impuestos", es poco probable que se encuentre dicho documento debido al diferente vocabulario utilizado en el documento, incluso si conceptualmente es exactamente el mismo.

El sistema de búsqueda descrito en el párrafo anterior se denomina sistema de búsqueda léxica. Se basa en un mecanismo simple y es incapaz de comprender la intención del buscador o el contexto en el que se presenta la información. Por ejemplo, si un documento utiliza la frase "la empresa ha pagado impuestos" y las "técnicas de evasión fiscal" en el mismo documento, el documento seguirá siendo la respuesta del sistema a la consulta de Kevin, ya que tanto las palabras "impuestos" como " "Aparecen allí los impuestos". "Evasión".

Posibilidades de búsqueda semántica no obvias

Las secciones anteriores describen los motores de búsqueda clásicos en los que aparecen posibles respuestas a una consulta determinada. Sin embargo, esto es solo un sustituto de las increíbles herramientas que se pueden construir a partir de un modelo de IA que comprende datos de texto.

Supongamos que nos gustaría determinar si nuestros documentos son correctos con respecto a determinadas normativas y si cumplen con todos los requisitos que se establecen para este tipo de documentos. Al tener una lista definida de regulaciones y requisitos, el modelo de IA puede aprenderlos y luego verificar la exactitud de los documentos del usuario. Además, también le permitirá comprobar la coherencia de un documento con un grupo de otros documentos, por ejemplo, en términos de la exactitud de las fechas, sumas de dinero o cualquier otro valor. Esto le permite reducir significativamente la cantidad de tiempo necesario para la verificación manual de la exactitud de los datos y evitar muchos errores potenciales que son difíciles de detectar para un humano.

Una solución de este tipo puede ser útil, por ejemplo, en la industria de la salud, donde a menudo se requiere verificar si un documento médico dado cumple con los estándares regulatorios para presentar información, o verificar la exactitud de dicho documento con otros documentos ya aprobados por El regulador. Un mecanismo similar se puede utilizar en otras áreas (como Servicios Públicos), donde existen muchas regulaciones, procedimientos y estándares legales, cuya aplicación es necesaria en el trabajo diario, y encontrarlos es bastante difícil.

Otro problema es la extracción de información clave de documentos como nombres, fechas, valores monetarios, leyes, etc. Esto es especialmente importante con una gran cantidad de documentos de texto extensos donde el usuario desea obtener información clave rápidamente sin tener que leerlo todo. . También en este caso estamos ante un problema similar a la búsqueda. Esto permite, por ejemplo, encontrar y ajustar rápidamente las ofertas que se pueden presentar a los clientes potenciales en forma de un extracto de la información más importante. Gracias a esto, los clientes no solo obtendrán la oferta que mejor se adapte, sino que también podrán conocerla más rápidamente y compararla con otras ofertas.

Fuentes:

Oriol Vinyals y Amparo Alonso

https://www.lavanguardia.com/ciencia/20210529/7489275/cientifico-ensena-maquinas-pensar-oriol-vinyals.html

https://es.wikipedia.org/wiki/Amparo_Alonso_Betanzos


Comentarios