Nous avons quatre axes principaux de projet:
Lorsque l'extension du navigateur envoie le graphique choisi à notre serveur, les outils d'apprentissage automatique extraient d'abord le sens du graphique. Cela se traduit par un fichier volumineux dans un format appelé json, qui contient une représentation textuelle structurée de tout ce que les outils d'apprentissage automatique peuvent interpréter à partir du graphique. Ce fichier json est ensuite ingéré par des composants logiciels que nous appelons "gestionnaires" qui créent l'audio et l'haptique réels expériences. Les gestionnaires utilisent des outils de synthèse vocale et un environnement de rendu sonore appelé SuperCollider, pour créer les enregistrements riches qui sont ensuite renvoyés à l'extension afin que l'utilisateur puisse les lire.
Nous avons une extension de navigateur Chrome fonctionnelle qui vous permet d'envoyer n'importe quelle image sur le Web à notre serveur pour traitement, reçoit ensuite les expériences rendues par le serveur et ouvre une fenêtre pour vous permettre de vous engager avec elles. Nous prévoyons de publier cette extension plus tard cette année pour des tests plus généraux, mais vous devrez contacter nous si vous avez besoin d'accéder maintenant. Cependant, pour vous donner une idée de l'état technique du serveur en ce moment, voici plusieurs enregistrements audio de la sortie automatisée de notre système sur certaines images réelles prises sur le Web. Ceux-ci sont plus rugueux que les exemples sur notre page de démonstration, car nombre d'entre eux utilisent du code qui n'est pas encore entièrement intégré à notre serveur, ou nécessite un ajustement manuel de la sortie d'apprentissage automatique. Les exemples ci-dessous, d'autre part, n'utilisent que du code et des outils fonctionnant en direct sur notre serveur de test, sont donc un authentique représentation de l'état technique actuel d'IMAGE, environ trois mois après le début du projet. Ces enregistrements sont exactement ce que vous obtiendriez si vous utilisiez l'extension de navigateur IMAGE et notre serveur en direct le 5 juillet 2021.
Il s'agit de la même image de cuisine trouvée sur la page de démonstration, mais l'audio est créé en utilisant uniquement un code serveur entièrement implémenté et déployé.
Présentation d'objets reconnus dans des lieux spatialisés
Il s'agit d'une simple image d'une scène de forêt, avec la spatialisation audio vous informant de l'emplacement de l'ours dans la photo
Présentation d'objets reconnus dans des lieux spatialisés
Bien que l'algorithme d'apprentissage automatique pense qu'il s'agit d'une salle de cinéma et non d'un étape, il identifie correctement les emplacements de toutes les personnes, de sorte que leurs emplacements peuvent être rendus aux bons emplacements.
Présentation d'objets reconnus dans des lieux spatialisés
Le projet s'étend sur un an, d'avril 2021 à mars 2022. Les deux principaux livrables techniques sont une extension de navigateur Internet, plus un serveur exécutant gestionnaires qui prennent le graphique Web choisi par l'utilisateur et créent des rendus audio et haptiques appropriés, qui sont ensuite renvoyés au navigateur pour que l'utilisateur expérimente l'utilisation du matériel dont il dispose. Étapes majeures:
Fin de l'étape | Livrables principaux |
---|---|
2021 Jun. | Démonstration interne de l'extension du navigateur Chrome envoyant une requête au serveur et recevant un rendu audio pouvant être sélectionné et lu par l'utilisateur. Test avec le lecteur d'écran NVDA. Capacités de rendu très limitées, principalement pour démontrer l'architecture technique. Les gestionnaires se sont concentrés sur les images photographiques. |
2021 Sep. | Version alpha publique: l'extension est mise à la disposition du public sur une base limitée et se connecte au serveur McGill pour rendre une sélection limitée de graphiques Web. Code source et versions binaires de l'extension de navigateur et des composants de serveur publics sur GitHub. Gestionnaires supplémentaires axés sur les graphiques de la carte. |
2021 Dec. | Bêta publique: les utilisateurs externes sont encouragés à utiliser l'extension avec le serveur McGill sur une grande variété de sites et à signaler les problèmes. Test avec des lecteurs d'écran supplémentaires. Prise en charge précoce des extensions pour les navigateurs supplémentaires basés sur Chrome. Passez à une infrastructure de serveur plus fiable et sécurisée. Gestionnaires supplémentaires pour les graphiques graphiques. |
2022 Mar. | Version V1.0 : version stable de l'extension de navigateur basée sur Chrome (avec capacité haptique avancée), plus Firefox (sans capacité haptique avancée). Serveur maintenu pour une utilisation fiable. |