Testons ce que vous avez appris dans ce chapitre !
1. Laquelle des tâches suivantes peut être considérée comme un problème de classification de <i> tokens </i> ?
2. Quelle partie du prétraitement pour la classification de <i> tokens </i> diffère des autres pipelines de prétraitement ?
3. Quel problème se pose lorsque nous tokenisons les mots dans un problème de classification de <i> tokens </i> et que nous voulons étiqueter les <i> tokens </i> ?
4. Que signifie « adaptation au domaine » ?
5. Quelles sont les étiquettes dans un problème de modélisation du langage masqué ?
6. Laquelle de ces tâches peut être considérée comme un problème de séquence à séquence ?
7. Quelle est la bonne façon de prétraiter les données pour un problème de séquence à séquence ?
8. Pourquoi existe-t-il une sous-classe spécifique de <code> Trainer </code> pour les problèmes de séquence à séquence ?
10. Quand devez-vous pré-entraîner un nouveau modèle ?
11. Pourquoi est-il facile de prétraîner un modèle de langage sur des batchs de textes ?
12. Quels sont les principaux défis lors du prétraitement des données pour une tâche de réponse à des questions ?
13. Comment le post-traitement est-il généralement effectué dans les réponses aux questions ?