[Assist] Communiquer avec Home Assistant

FillR2 · Décembre 18, 2023, 6:14

Merci, ça marche effectivement beaucoup mieux comme ça !

FillR2 · Décembre 20, 2023, 12:27

2 petites questions:

Quel modèle pour Vosk ? Pour l’instant, j’ai pris celui-ci: vosk-model-fr-0.22.zip mais il y a peut-être mieux ?
Piper me hurle assez souvent qu’il n’a pas compris, il y aurait un moyen quelque part de baisser le volume ? Mon micro/HP Anker S330 est connecté sur un NUC avec Proxmox.

WarC0zes · Décembre 20, 2023, 3:38

Salut @FillR2 ,
j’ai vu que tu parlais de modèle pour Vosk, mais ca sert a quoi ?

FillR2 · Décembre 20, 2023, 9:59

Le modèle, c’est le coeur du système IA, c’est ce qui a été entrainé à faire une tâche à partir de données existantes.

Dans le cas de Vosk, le modèle, c’est ce qui a été entrainé pour faire la détection de voix la plus fiable possible, il y a des modèles entraînés à faire de la reconnaissance en anglais, en espagnol, en français.

Et ici, plusieurs modèles sont proposés:

La question est de savoir lequel est le plus fiable entre:

French
vosk-model-small-fr-0.22	41M	23.95 (cv test) 19.30 (mtedx) 27.25 (podcast)	Lightweight wideband model for Android/iOS and RPi	Apache 2.0
vosk-model-fr-0.22	1.4G	14.72 (cv test) 11.64 (mls) 13.10 (mtedx) 21.61 (podcast) 13.22 (voxpopuli)	Big accurate model for servers	Apache 2.0
French Other
vosk-model-small-fr-pguyot-0.3	39M	37.04 (cv test) 28.72 (mtedx) 37.46 (podcast)	Lightweight wideband model for Android and RPi trained by Paul Guyot	CC-BY-NC-SA 4.0
vosk-model-fr-0.6-linto-2.2.0	1.5G	16.19 (cv test) 16.44 (mtedx) 23.77 (podcast) 0.4xRT	Model from LINTO project	AGPL

Le modèle doit être dézippé ici:

WarC0zes · Décembre 20, 2023, 2:19

Quand tu lit ca:
Small model typically is around 50Mb in size and requires about 300Mb of memory in runtime. Big models are for the high-accuracy transcription on the server. Big models require up to 16Gb in memory since they apply advanced AI algorithms.

Pour mon cas sur RPI, faut le petit modèle a 40-50mo , qui mange 300MB de RAM.

Krull56 · Décembre 20, 2023, 2:20

A mon avis, pas besoin de changer le modèle par défaut.
Je n’ai aucune erreur de reconnaissance avec ce modèle
Plus le modèle est large, plus le temps de traitement est long.

WarC0zes · Décembre 20, 2023, 2:22

Temps mieux, ca m’évitera d’essayer et de perdre du temps

olive · Décembre 24, 2023, 4:41

J’ai utiliser celui-ci
vosk-model-fr-0.6-linto-2.2.0 1.5G 16.19 (cv test) 16.44 (mtedx) 23.77 (podcast) 0.4xRT Model from LINTO project
pas de problèmes particulier avec.

WarC0zes · Décembre 24, 2023, 4:43

D’après la doc, faut un bonne machine ( pour un rpi4 faut oublier je pense ):

Citation
Big models require up to 16Gb in memory since they apply advanced AI algorithms.

olive · Décembre 24, 2023, 4:58

c’est passé de 20 a 45% d’utilisation de mémoire sur 10Go

hobbes · Février 16, 2024, 8:47

Bonjour à tous.
Alors j’ai installé aujourd’hui la suite Assist. Comme mon HA est sur un Raspberry Pi 4 et qu’il y restera parce que c’est idéal, et que de toutes façons ça l’aurait pas fait, j’ai essayé sur un Raspberry Pi 5 où il n’y avait que RaspOS. J’ai installé ça dans des conteneurs docker, les tutos sont faciles. Aucun problème pour installer le serveur Wyoming et les intégrations dans HA. Et ça « marche », c’est à dire que quand je parle à mon appli HA surr mon téléphone, elle transmet ça à Whisper et puis tente d’interpréter le texte obtenu.

Ma conclusion est que malgré ses défauts je suis pas près de ranger mon Google Assistant.

Pour un phrase simple comme « allume la prise onze » (il y a un appareil « Prise 11 »), le truc mouline 10-15s, puis ne comprend rien. Je dois m’y reprendre à 10 fois sur différents tons pour avoir cette phrase verbalisée.

Si je regarde ce que fait le Pi 5 pendant que HA attend, je vois que python3 tourne à fond la caisse (sur tous les cœurs) pendant le traitement de la parole. Hein, du traitement du signal vocal (IA ou pas) en python ??? Normal que ça rame.

Ensuite la compréhension par HA est ras les pâquerettes. Il FAUT qu’il y ait une entité « prise 11 » pour qu’il comprenne. S’il y a un appareil de type switch appelé « Prise 11 », il ne trouve pas, même si l’entité est « Prise 11 commutateur »…

Mon impression est que les vidéos You Tube sont des « démos » avec la phrase pré-programmée qui lance une automation pour chaque « test », avec Whisper tournant sur le dernier Intel ou Ryzen à x GHz.

C’est juste mon avis.

titoumimi · Février 16, 2024, 8:49

Installe Vosk a la place de whisper, ça va te changer la vie, même avec un gros modèle : GitHub - rhasspy/hassio-addons: Add-ons for Home Assistant's Hass.IO

WarC0zes · Février 17, 2024, 3:19

Bonjour,
regarde ma démo sur un RPI4 avec un atom echo. J’ai utiliser Vosk et Snowboy ( je suis passer a porcupine ) .
Ton avis est pas bon, j’ai pas le dernier intel ou ryzen
j’ai rien préprogrammer sur la phrase, c’est une commande par défaut et le nom de ma pièce.

sg72 · Février 17, 2024, 7:47

Bonjour
Voici ma configuration actuelle

## System Information

version | core-2024.2.0
-- | --
installation_type | Home Assistant OS
dev | false
hassio | true
docker | true
user | root
virtualenv | false
python_version | 3.12.1
os_name | Linux
os_version | 6.1.74-haos
arch | x86_64
timezone | Europe/Paris
config_dir | /config

<details><summary>Home Assistant Community Store</summary>

GitHub API | ok
-- | --
GitHub Content | ok
GitHub Web | ok
GitHub API Calls Remaining | 5000
Installed Version | 1.34.0
Stage | running
Available Repositories | 1391
Downloaded Repositories | 11

</details>

<details><summary>Home Assistant Cloud</summary>

logged_in | false
-- | --
can_reach_cert_server | ok
can_reach_cloud_auth | ok
can_reach_cloud | ok

</details>

<details><summary>Home Assistant Supervisor</summary>

host_os | Home Assistant OS 11.5
-- | --
update_channel | stable
supervisor_version | supervisor-2024.01.1
agent_version | 1.6.0
docker_version | 24.0.7
disk_total | 30.8 GB
disk_used | 6.5 GB
healthy | true
supported | true
board | ova
supervisor_api | ok
version_api | ok
installed_addons | Terminal & SSH (9.9.0), Studio Code Server (5.15.0)

</details>

<details><summary>Dashboards</summary>

dashboards | 1
-- | --
resources | 8
views | 11
mode | storage

</details>

<details><summary>Recorder</summary>

oldest_recorder_run | 7 février 2024 à 09:37
-- | --
current_recorder_run | 16 février 2024 à 15:46
estimated_db_size | 45.50 MiB
database_engine | sqlite
database_version | 3.44.2

</details>

Tous ca installé sur un Mac Mini (Fin 2014) 3 GHZ Core i7 - Memoire 8 GO 1600 MHz DDR3 + VirtualBox 6.1

Avec cette configuration est-ce qu’il est possible actuellement de pouvoir exécuter des commande vocal comme Ok google ? Mon objectif est de pouvoir commander ma domotique KNX à la voix
sans passer par Google

titoumimi · Février 17, 2024, 8:11

Mon ressenti pour l’instant :

Ça fonctionne, et c’est plutôt très réactif (en utilisant les bons modèles) .

Par contre, c’est débile, si tu ne dis pas la phrase pile poil comme il faut, il ne va pas comprendre.

La vraie différence, c’est qu’il n’y a pas d’IA derrière, donc ça transcrit littéralement ce que ça entend, et ça regarde si ça marche un des patterns connus.

De mon point de vue : pas utilisable en prod, je ne vais jamais réussir à éduquer femme et enfant à la rigueur nécessaire pour le faire fonctionner.

=> je conserve Alexa pour l’instant, mais les choses bougent vite, j’ai bon espoir

Kevin · Février 29, 2024, 5:48

Hello tout le monde,

Petite question, je suis un peu perdu, j’essaie de faire fonctionner vosk avec Docker vu que j’ai tout qui est dockérisé sur ma machine ( je n’utilise pas HASS IO, j’ai pas de addon directement dans HA mais juste tous mes containers a coté que je manage avec docker-compose / portainer.

Mais du coup je voulais tester ‹ vosk › au lieu de ‹ whisper › qui traine un peu la patte niveau rapidité. Cependant je ne comprends pas comment démarrer le truc.

j’ai ca actuellement ( je ne suis même pas sur pour le port et donc comment l’ajouter apres a HA avec ‹ Wyoming Protocol › si j’ai pas le bon port coté vosk :

  vosk:
    container_name: vosk
    image: rhasspy/wyoming-vosk:latest
    command: --language fr --model-for-language fr vosk-model-fr-0.22 --data-dir data
    volumes:
      - /home/server/projects/vosk/data:/data
    environment:
      - TZ=Europe/Paris
    ports:
      - 12101:12101
    restart: unless-stopped

Merci d’avance
je dois passer à coté de quelque chose meme en lisant la doc sur github à ce sujet.

Krull56 · Février 29, 2024, 6:52

Hello,

Pour l’addon HAOS, c’est le port 10300 qui est utilisé.

A mon avis, le commande doit ressembler à celle de whisper

rhasspy/wyoming-addons: Docker builds for Home Assistant add-ons using Wyoming protocol (github.com)

Et n’hésite pas à demander à Mike

Kevin · Février 29, 2024, 7:10

parfit merci, j’ai laissé que language fr qui m’a pris le small par defaut + config le port 10400 vers 10300 car j’ai deja whisper qui tourne sur le 10300 ca marche impec et dans les 2s qui suivent

Krull56 · Février 29, 2024, 7:15

Oui, vosk change la donne pour les Frenchy users
Rien à voir avec Whisper qui reste optimisé pour la langue de Shakespeare.

Le modèle de base est suffisant pour toutes les commandes de base

Kevin · Février 29, 2024, 7:18

yes

par contre j’arrive pas a choisir un autre modele, même en spécifiant « –model-for-language fr vosk-model-fr-0.22 » j’obtient une belle 404 dans les logs quand je sollicite l’assisant vocale

ERROR:asyncio:Task exception was never retrieved
vosk  | future: <Task finished name='wyoming event handler' coro=<AsyncEventHandler.run() done, defined at /usr/local/lib/python3.11/dist-packages/wyoming/server.py:28> exception=<HTTPError 404: 'Not Found'>>
vosk  | Traceback (most recent call last):
vosk  |   File "/usr/local/lib/python3.11/dist-packages/wyoming/server.py", line 35, in run
vosk  |     if not (await self.handle_event(event)):
vosk  |             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
vosk  |   File "/usr/local/lib/python3.11/dist-packages/wyoming_vosk/__main__.py", line 285, in handle_event

Mais si tu me dis que le small suffit pour le commun des mortelles ca me va

Edit: je voulais tester aussi ce small qui est proposé « vosk-model-small-fr-pguyot-0.3 » mais j’ai pas pu du coup ^^

Edit 2: Ah ok fallait le download a la mano dans le repertoire ou il y avait deja le small qui s’etait auto download. J’ai laissé celui de pguyot ca m’a l’air très rapide, l’action était instantanée

Entre les 2 small j’ai un léger soucis c’est que slon les verbes utilisés, il me les met en ‹ ez › et HA ne comprend pas x)

genre ‹ allumer le bureau › devient ‹ allumez le bureau › et HA ne fait rien du coup
Avec l’autre small 0.3 ca me le transforme en ‹ allumé › ^^, donc pareil il ne se passe rien
Doncje dis allume ou meme demarre car il comprend encore mieux ce verbe

Edit 3: Ah bah celui de 1.5go est aussi instantanée finalement. C’est une tuerie