Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
Introduction à Multimodal AI
- Aperçu de l'IA multimodale et des applications du monde réel
- Défis liés à l'intégration des données texte, image et audio
- État de la recherche et avancées
Traitement des données et ingénierie des caractéristiques
- Traitement des ensembles de données texte, image et audio
- Techniques de prétraitement pour l'apprentissage multimodal
- Stratégies d'extraction de caractéristiques et de fusion de données
Construction de modèles multimodaux avec PyTorch et Hugging Face
- Introduction à PyTorch pour l'apprentissage multimodal
- Utilisation des transformateurs Hugging Face pour les tâches de NLP et de vision
- Combiner différentes modalités dans un modèle d'IA unifié
Mise en œuvre de la fusion de la parole, de la vision et du texte
- Intégration de OpenAI Whisper pour la reconnaissance vocale
- Application de DeepSeek-Vision pour le traitement d'images
- Techniques de fusion pour l'apprentissage multimodal
Formation et optimisation des modèles Multimodal AI
- Stratégies d'entraînement de modèles pour l'IA multimodale
- Techniques d'optimisation et réglage des hyperparamètres
- Traitement des biais et amélioration de la généralisation des modèles
Déploiement de Multimodal AI dans des applications réelles
- Exportation de modèles pour une utilisation en production
- Déploiement de modèles d'IA sur des plateformes en nuage
- Surveillance des performances et maintenance des modèles
Sujets avancés et tendances futures
- Apprentissage à partir de zéro et à partir de peu d'images dans l'IA multimodale
- Considérations éthiques et développement responsable de l'IA
- Tendances émergentes dans la recherche sur l'IA multimodale
Résumé et prochaines étapes
Pré requis
- Une forte compréhension des concepts d'apprentissage automatique et d'apprentissage profond
- Expérience avec des frameworks d'IA comme PyTorch ou TensorFlow
- Familiarité avec le traitement de texte, d'images et de données audio.
Audience
- Développeurs en IA
- Ingénieurs en apprentissage automatique
- Chercheurs
21 Heures