Ce projet a pour but de développer une preuve de concept. Il s'agira ici de trouver une nouvelle méthode afin de pouvoir suggérer des mots-clefs lors de la rédaction d'un message sur le forum StackOverflow
Deux approches ont été testées :
- Extraction de mots-clefs avec KeyBERT.
- Prédiction de mots-clefs avec le LLM Mistral 7B.
- 01 - Plan de travail prévisionnel.pdf : plan prévisionnel du travail réalisé, présentant le dataset qui sera utilisé, le modèle envisagé et des références bibliographiques.
- 02 - Comparaison des approches.ipynb : comparaisons de nouvelles approches avec une baseline.
- 03 - Note méthodologique.pdf : présentation de la preuve de concept et des résultats.
- 04 - Présentation.pptx : support de présentation.
- Dossier /app : fichiers de l'application Streamlit permettant une brève exploration des données et de montrer le modèle de prédiction en action, ainsi que les informations permettant son déploiement sur Azure.
- data_clean.zip : le jeu de données utilisé.
Note
Ce travail vise à améliorer les résultats d'un précédent projet sur cette thématique, que vous pouvez retrouver dans ce repository
Retrouvez l'article de présentation de ce projet ici.