Je viens de voir une intégration se nommant LLM Vision, elle permet sur le déclenchement mouvement d’une caméra d’envoyer l’image à un generator (chatgpt,gemini,etc) et d’avoir un descriptif.
J’ai l’impression que ça pourrait faire comme frigate mais avec moins besoin de matos car la motion reste détecté par reolink et l’analyse du snap par gemini.
Qu’en pensez vous ?
Sur la papier ça marcherai sans doute de façon unitaire, par contre sauf à payer un abonnement, la quantité de demandes est bloquée (sur 24 par chatgpt par ex), donc tu passes ta jour à detecter des oiseaux, et quand arrive le vilain voleur … plus de crédit cloud
Salut,
Il y a un module complémentaire dispo qui s’appelle doods et qui fait exactement ça en local basé sur des modèles de reconnaissance d’objets. LLM Vision semble faire avec un peu plus de plateformes d’IA. C’est cool mais cette dépendance au cloud est un problème je pense, ce qui est bien c’est que ça semble aussi marcher avec des modèles locaux mais du coup on revient au besoin d’avoir une mahcine locale.
Pour Doods, ça marchait plutôt bien sur une caméra que j’avais utilisé pour tester pendant quelques mois, ça tournait sur un Raspberry Pi 3.