Comment ça marche?

Domaines de recherche et de mise en œuvre

Nous avons quatre axes principaux de projet:

  1. Apprentissage automatique: Machine learning models extract useful information from the graphic, which could be the texture, colors, objects, people, chart values, etc.
  2. Rendu audio : les informations sont mappées sur des rendus audio et haptiques riches. Nous tirons parti les technologies de synthèse vocale (TTS), ainsi que les techniques de spatialisation audio et la génération d'effets audio, pour produire un paysage sonore.
  3. Rendu haptique et multimodal : lorsque les moteurs de vibration ou tout autre matériel haptique est disponibles, des informations tactiles sont également fournies pour améliorer les indices audio. Cela permet d'utiliser à la fois l'audition et ressenti en même temps, avec des informations véhiculées simultanément par les deux canaux.
  4. Architecture extensible : Dans l'année de ce projet, nous savons que nous ne serons pas capable de rendre justice à tous les types de contenu graphique possibles. Un aspect clé du projet est de s'assurer que nos conceptions et notre code sont aussi librement accessibles que possible, et extensible par d'autres afin que de nouvelles approches et de nouveaux rendus puissent être facilement intégrés sans avoir à réinventer le roue.

Architecture et état actuel

Lorsque l'extension du navigateur envoie le graphique choisi à notre serveur, les outils d'apprentissage automatique extraient d'abord le sens du graphique. Cela se traduit par un fichier volumineux dans un format appelé json, qui contient une représentation textuelle structurée de tout ce que les outils d'apprentissage automatique peuvent interpréter à partir du graphique. Ce fichier json est ensuite ingéré par des composants logiciels que nous appelons "gestionnaires" qui créent l'audio et l'haptique réels expériences. Les gestionnaires utilisent des outils de synthèse vocale et un environnement de rendu sonore appelé SuperCollider, pour créer les enregistrements riches qui sont ensuite renvoyés à l'extension afin que l'utilisateur puisse les lire.

Nous avons une extension de navigateur Chrome fonctionnelle qui vous permet d'envoyer n'importe quelle image sur le Web à notre serveur pour traitement, reçoit ensuite les expériences rendues par le serveur et ouvre une fenêtre pour vous permettre de vous engager avec elles. Nous prévoyons de publier cette extension plus tard cette année pour des tests plus généraux, mais vous devrez contacter nous si vous avez besoin d'accéder maintenant. Cependant, pour vous donner une idée de l'état technique du serveur en ce moment, voici plusieurs enregistrements audio de la sortie automatisée de notre système sur certaines images réelles prises sur le Web. Ceux-ci sont plus rugueux que les exemples sur notre page de démonstration, car nombre d'entre eux utilisent du code qui n'est pas encore entièrement intégré à notre serveur, ou nécessite un ajustement manuel de la sortie d'apprentissage automatique. Les exemples ci-dessous, d'autre part, n'utilisent que du code et des outils fonctionnant en direct sur notre serveur de test, sont donc un authentique représentation de l'état technique actuel d'IMAGE, environ trois mois après le début du projet. Ces enregistrements sont exactement ce que vous obtiendriez si vous utilisiez l'extension de navigateur IMAGE et notre serveur en direct le 5 juillet 2021.

Rénovation de cuisine

Reconnaissance d'objet

A modern industrial kitchen with a brick accent wall and an island.

Il s'agit de la même image de cuisine trouvée sur la page de démonstration, mais l'audio est créé en utilisant uniquement un code serveur entièrement implémenté et déployé.

Rendu audio automatisé

Présentation d'objets reconnus dans des lieux spatialisés


Scène en plein air

Reconnaissance d'objet

A black bear in a forest.

Il s'agit d'une simple image d'une scène de forêt, avec la spatialisation audio vous informant de l'emplacement de l'ours dans la photo

Rendu audio automatisé

Présentation d'objets reconnus dans des lieux spatialisés


Photographie de théâtre en direct

Reconnaissance d'objet

A black bear in a forest.

Bien que l'algorithme d'apprentissage automatique pense qu'il s'agit d'une salle de cinéma et non d'un étape, il identifie correctement les emplacements de toutes les personnes, de sorte que leurs emplacements peuvent être rendus aux bons emplacements.

Rendu audio automatisé

Présentation d'objets reconnus dans des lieux spatialisés


Produits livrables et calendrier

Le projet s'étend sur un an, d'avril 2021 à mars 2022. Les deux principaux livrables techniques sont une extension de navigateur Internet, plus un serveur exécutant gestionnaires qui prennent le graphique Web choisi par l'utilisateur et créent des rendus audio et haptiques appropriés, qui sont ensuite renvoyés au navigateur pour que l'utilisateur expérimente l'utilisation du matériel dont il dispose. Étapes majeures:

Fin de l'étape Livrables principaux
2021 Jun. Démonstration interne de l'extension du navigateur Chrome envoyant une requête au serveur et recevant un rendu audio pouvant être sélectionné et lu par l'utilisateur. Test avec le lecteur d'écran NVDA. Capacités de rendu très limitées, principalement pour démontrer l'architecture technique. Les gestionnaires se sont concentrés sur les images photographiques.
2021 Sep. Version alpha publique: l'extension est mise à la disposition du public sur une base limitée et se connecte au serveur McGill pour rendre une sélection limitée de graphiques Web. Code source et versions binaires de l'extension de navigateur et des composants de serveur publics sur GitHub. Gestionnaires supplémentaires axés sur les graphiques de la carte.
2021 Dec. Bêta publique: les utilisateurs externes sont encouragés à utiliser l'extension avec le serveur McGill sur une grande variété de sites et à signaler les problèmes. Test avec des lecteurs d'écran supplémentaires. Prise en charge précoce des extensions pour les navigateurs supplémentaires basés sur Chrome. Passez à une infrastructure de serveur plus fiable et sécurisée. Gestionnaires supplémentaires pour les graphiques graphiques.
2022 Mar. Version V1.0 : version stable de l'extension de navigateur basée sur Chrome (avec capacité haptique avancée), plus Firefox (sans capacité haptique avancée). Serveur maintenu pour une utilisation fiable.