LLM vision à la place de frigate?

KPI · Octobre 20, 2024, 7:09

Bonjour,

Je viens de voir une intégration se nommant LLM Vision, elle permet sur le déclenchement mouvement d’une caméra d’envoyer l’image à un generator (chatgpt,gemini,etc) et d’avoir un descriptif.
J’ai l’impression que ça pourrait faire comme frigate mais avec moins besoin de matos car la motion reste détecté par reolink et l’analyse du snap par gemini.
Qu’en pensez vous ?

bastgau · Octobre 20, 2024, 9:02

Il semble effectivement que c’est fait pour cela.

Par contre, ce n’est plus des serveurs d’occasion ou des mini-pc dont on va bientôt avoir besoin

Pulpy-Luke · Octobre 20, 2024, 9:31

Salut,

Sur la papier ça marcherai sans doute de façon unitaire, par contre sauf à payer un abonnement, la quantité de demandes est bloquée (sur 24 par chatgpt par ex), donc tu passes ta jour à detecter des oiseaux, et quand arrive le vilain voleur … plus de crédit cloud

AlexHass · Octobre 20, 2024, 9:48

Salut,
Il y a un module complémentaire dispo qui s’appelle doods et qui fait exactement ça en local basé sur des modèles de reconnaissance d’objets. LLM Vision semble faire avec un peu plus de plateformes d’IA. C’est cool mais cette dépendance au cloud est un problème je pense, ce qui est bien c’est que ça semble aussi marcher avec des modèles locaux mais du coup on revient au besoin d’avoir une mahcine locale.

Pour Doods, ça marchait plutôt bien sur une caméra que j’avais utilisé pour tester pendant quelques mois, ça tournait sur un Raspberry Pi 3.

KPI · Octobre 22, 2024, 11:20

Alors pas vraiment car tu peux utiliser gemini flash 1.5 qui est gratuit lui.

Krull56 · Octobre 22, 2024, 11:27

hello

L’api Gemini Flash 1.5 ne semble pas gratuite en France

Régions disponibles pour Google AI Studio et l’API Gemini | Gemini API | Google AI for Developers

« [1] Le niveau non payant de l’API Gemini n’est pas disponible dans cette région »