Le projet IMAGE: Technologie

Aperçu général

Au niveau de l'utilisateur, IMAGE est une extension de navigateur qui ajoute un élément de menu contextuel qui enverra un graphique sélectionné au serveur IMAGE.

IMAGE utilisant l'audio spatial, nous recommandons l'utilisation d'un casque stéréo pour une meilleure expérience. Actuellement, IMAGE travaille à la prise en charge de deux dispositifs tactiles différents. Tout d'abord, sur les photos, nous prenons en charge le Haply 2diy, qui consiste en un bouton attaché à deux bras. Ces bras vous permettent de déplacer le bouton n'importe où sur une surface plane et horizontale, et vous permet de sentir les limites et les textures lorsque vous vous déplacez. Le second dispositif, appelé Dot Pad, est en cours d'intégration. Il s'agit d'une grille composée de milliers de picots individuels qui peuvent être soulevés et abaissés pour produire des formes et des contours en haute résolution. La vidéo ci-dessous explique un peu plus la technologie tactile que nous utilisons dans ce projet.

Nous avons quatre axes principaux de projet:

Apprentissage automatique : Les modèles d'apprentissage automatique extraient des informations utiles du graphique, qui peuvent être la texture, les couleurs, les objets, les personnes, les valeurs du graphique, etc.
Rendu audio : Les informations sont représentées par des rendus audio et haptiques riches. Nous utilisons parti les technologies de synthèse vocale (TTS), ainsi que les techniques de spatialisation audio et la génération d'effets audio, pour produire un paysage sonore.
Rendu haptique et multimodal : Lorsque les moteurs de vibration ou tout autre matériel haptique est disponibles, des informations tactiles sont également fournies pour améliorer les indices audio. Cela permet d'utiliser à la fois l'audition et le sens du toucher en même temps, avec des informations transmises simultanément par les deux canaux.
Architecture extensible : Un aspect clé du projet est de s'assurer que nos conceptions et notre code soient aussi librement accessibles que possible, et développé d'avantage par d'autres afin que de nouvelles approches et de nouveaux rendus puissent être facilement intégrés sans avoir à réinventer la roue.

Architecture

Lorsque l'extension du navigateur envoie le graphique choisi à notre serveur, les outils d'apprentissage automatique extraient d'abord le sens du graphique. Cela se traduit par un fichier volumineux dans un format appelé json, qui contient une représentation textuelle structurée de tout ce que les outils d'apprentissage automatique peuvent interpréter à partir du graphique. Ce fichier json est ensuite ingéré par des composants logiciels que nous appelons "gestionnaires" qui créent l'audio et l'haptique réels expériences. Les gestionnaires utilisent des outils de synthèse vocale et un environnement de rendu sonore appelé SuperCollider, pour créer les enregistrements riches qui sont ensuite renvoyés à l'extension afin que l'utilisateur puisse les lire.

Pour les développeurs de logiciels : téléchargez le code pour vos propres projets de développement de logiciels, et consultez également notre dépôt GitHub pour le code du serveur.

Voir un exposé expliquant le cadre IMAGE et l'article.

Nous avons une extension de navigateur Chrome fonctionnelle qui vous permet d'envoyer n'importe quelle image sur le Web à notre serveur pour traitement, reçoit ensuite les expériences rendues par le serveur et ouvre une fenêtre pour vous permettre de vous engager avec elles. Le code du navigateur peut être téléchargé ici sur notre dépôt GitHub du navigateur. Toutefois, pour vous donner une idée de l'état technique du serveur à l'heure actuelle, voici plusieurs enregistrements audio de la sortie automatisée de notre système sur des images réelles extraites du web. Ces enregistrements sont exactement ce que vous obtiendriez si vous utilisiez l'extension de navigateur IMAGE et notre serveur en direct le 2 mars 2022.

Photos

Intérieur, régions et objets

Une cuisine industrielle moderne avec un mur d'accent en briques et un îlot.

Les contours audio sont dessinés autour de régions telles que le sol et les murs. L'audio spatialisé indique où se trouvent les objets tels que les verres, les bouteilles et les chaises.

Rendu audio automatisé

présentation d'objets reconnus dans des lieux spatialisés

Outdoor, regions and things

Un bateau au milieu de montagnes, d'arbres et d'un lac.

Il s'agit d'une simple photo d'une scène de montagne, la spatialisation audio vous informant de l'emplacement des bateaux dans la photo par rapport à l'eau, au ciel et à la terre.

Rendu audio automatisé

Votre navigateur ne prend pas en charge l'élément audio.

Embedded maps

Point-of-interest

Sur la carte Google intégrée, vous pouvez faire l'expérience des points d'intérêt ; vous entendrez les points d'intérêt tourner autour de votre tête comme si vous étiez face au nord de la carte, centré sur une latitude et une longitude. Bientôt, nous espérons intégrer les données d'Open Street Map pour l'exploration des intersections.

Cartes intégrées

présentation de points d'intérêt centrés autour d'un lieu

Highcharts

Graphiques linéaires

Il s'agit d'un exemple de graphique linéaire extrait de etherscan.io. Pour l'instant, les graphiques linéaires suivent une seule variable, mais nous espérons pouvoir en ajouter d'autres. La prise en charge des diagrammes circulaires est également prévue.

Automated audio rendering

presentation of line charts

Haptiques

La vidéo ci-dessous donne un aperçu des rendus haptiques.

Comment ça marche?

Aperçu général

Nous avons quatre axes principaux de projet:

Architecture

Photos

Intérieur, régions et objets

Rendu audio automatisé

Outdoor, regions and things

Rendu audio automatisé

Embedded maps

Point-of-interest

Cartes intégrées

Highcharts

Graphiques linéaires

Automated audio rendering

Haptiques