¿Te imaginas un mundo donde el asistente personal de inteligencia artificial en tu teléfono inteligente pueda entender tanto como tú? ¿Qué pasa con un escenario en el que comunicarse con este asistente de IA es tan natural y simple como interactuar con otro humano? Eso es exactamente lo que el equipo del Centro de Información de Samsung en Toronto está buscando desarrollar.
Samsung Newsroom se reunió con Sven Dickinson, director del Centro de AI de Samsung, para obtener más información sobre estas áreas interesantes y lo que podrían significar para el futuro.
Visión por visión
El segundo centro de información más grande de América del Norte, el Samsung AI Center, está dirigido por el Dr. Sven Dickinson, un experto en visión por computadora y ex director del departamento de ciencias de la computación de la Universidad de Toronto.
En el epicentro de la investigación y el desarrollo de inteligencia artificial, el Centro de inteligencia artificial de Toronto de Samsung se centra en desarrollar las capacidades de comprensión visual de un dispositivo Samsung para comprender el mundo en el que se encuentra. Además, el equipo está trabajando en interacciones multimodales, que son interacciones usuario-máquina que encapsulan la visión, el lenguaje y el conocimiento.
"Permitir que los dispositivos Samsung" vean el mundo "a través de la visión por computadora les permite" visualizar "su diálogo con el usuario, ofreciendo una experiencia multimodal integrada mucho más natural que solo ver o ver. diálogo ", dice Dickinson, cuya experiencia incluye la exploración de problemas relacionados con la percepción de la forma y el reconocimiento de objetos.
Sobre los beneficios de la tecnología multimodal, Dickinson dice: "No debería tener que leer los manuales para determinar qué botones presionar en mi dispositivo y en qué orden". Prefiero poder mostrarle a mi dispositivo lo que quiero y decir, en un lenguaje natural comprensible y ubicado en el mundo en el que vivo. "
Extrapolando la interacción entre la visión por computadora y las entradas multimodales, agrega: "Para lograr este objetivo de comprender lo más amplio posible, el dispositivo debe tener un modelo de mi comprensión del mundo, la capacidad de comunicarse conmigo de manera robusta y natural, y la capacidad de ver y comprender el mismo mundo que yo veo. "
En cuanto a las aplicaciones de esta tecnología, Dickinson identifica a los más convincentes como "un asistente personal del que no solo habla, sino que ve el mundo de la manera en que lo hace". Dickinson enfatizó la importancia de las interacciones entre dispositivos multimodales. subraya cómo la cancelación de uno de los modos de comunicación (audio, voz, vista, etc.) dificultaría la comunicación entre dos personas, y esto también se aplica a los dispositivos personales.
Una experiencia de usuario verdaderamente mejorada es la clave
En el Consumer Electronics Show (CES) de 2019, Samsung dio a conocer su visión de Vida conectadalo que implica conectar los 500 millones de dispositivos vendidos cada año por la compañía y hacerlos inteligentes. Dickinson señaló que la amplia cartera de productos de Samsung contribuiría a esta visión. "Lo que diferencia a Samsung es que fabrica una multitud de electrodomésticos, incluidos dispositivos digitales, televisores y teléfonos móviles. Samsung tiene una oportunidad única de aprovechar estos dispositivos para crear una experiencia multidispositivo que sigue al usuario de un dispositivo a otro y de una habitación a otra . Esto ayudará a maximizar el potencial de cada dispositivo para comunicarse de manera efectiva, ayudará al usuario a realizar tareas específicas del dispositivo y conocer sus hábitos y preferencias, para que las comunicaciones posteriores no se vean interrumpidas. intrusivo pero "siempre útil". "
Hablando de lo que su centro tendrá que hacer para lograr realmente la visión por computadora y la interacción multimodal, Dickinson dijo: "La visión no se trata de comprender imágenes; La visión es entender el mundo. Los sistemas de IA realmente capaces deben comprender nuestro mundo, su física y causalidad, su geometría y su dinámica. También deben ser capaces de modelar y comprender el comportamiento humano. "Extrapola:" Si nuestros dispositivos pueden ver el mundo 3D en el que vivimos de la misma manera que nosotros, es decir, entender las formas, posiciones e identidades de los objetos en nuestro entorno compartido, nuestro los dispositivos pueden hacer la experiencia visual del mundo como lo hacemos nosotros. Tal contexto visual compartido será crucial para desarrollar asistentes personales plenamente realizados. "
Dickinson dijo que Samsung está tomando la delantera en la comprensión visual verdaderamente inteligente, y ha identificado la "base visual" como un requisito previo para las capacidades completas de comprensión visual. "Samsung está a la vanguardia cuando se trata de desarrollar una interacción humano-dispositivo que imite de cerca la interacción humano-humano", dice Dickinson. "Nuestro objetivo es proporcionar una base visual y un andamiaje para la representación del conocimiento para los servicios de interacción basados en el diálogo. Sin estos componentes, los usuarios están decepcionados con los servicios y no están de acuerdo rápidamente. "
Interacciones hombre-dispositivo basadas en el intercambio de información abierta
Dickinson continúa explicando que la inteligencia artificial también necesita poder explicarle al usuario. Señala que, después de no realizar una tarea o proporcionar una respuesta adecuada, "un dispositivo debería poder decirle al usuario con precisión cómo y por qué obtuvo esa respuesta (o la falta de ella). Idealmente, debería poder seguir al usuario haciendo una pregunta o pidiéndole que ajuste su cámara u otros modos de entrada para que pueda recopilar más información y formular una respuesta adecuada Dickinson dice que este tipo de apertura e intercambio de información será clave para la mayor sofisticación de las interacciones humano-dispositivo, y señala que "lo que llamamos" diálogo activo y visión activa "es donde el sistema puede construir un modelo mental de lo que el usuario entiende y puede girar, abrir su propio modelo mental para que el usuario pueda comprender el proceso de pensamiento del dispositivo ".
Los beneficios de estar basado en Toronto
Cuando se le preguntó sobre el impacto del centro de IA en el centro de IA, Dickinson señala que el centro disfruta de muchos beneficios debido a su proximidad a varias instituciones líderes relacionadas con IA. , incluyendo la Universidad de Toronto, la Universidad de York y la Universidad de Ryerson. "Estar en Toronto nos da una tremenda ventaja regional", dice Dickinson. "Estamos justo en frente de la Universidad de Toronto, donde se encuentra el Departamento de Informática (DCS), uno de los 10 principales departamentos internacionales de TI. . Más de la mitad de los miembros de nuestro centro de IA son profesores actuales, graduados o estudiantes de DCS. "
Dickinson explicó: "Los siete centros globales de IA están trabajando para crear soluciones de vanguardia en sus respectivas áreas de enfoque, mientras se coordinan para lograr el objetivo común de lograr la visión definitiva de Samsung de IA tema. Dickinson habló sobre el potencial del Centro de IA en Toronto para colaborar con otros centros de IA: "Estamos comenzando a explorar posibles colaboraciones de investigación con otros centros de investigación y desarrollo. IA en el mundo y espero converger hacia algunos casos de uso de interés para Samsung. y sus productos y servicios. "