Lire entre les lignes : le text mining en assurance

Makrem DJEBALI
12 sept. 2019
5 min de lecture

Dernière mise à jour : 10 févr. 2020

Dans la continuité de la digitalisation du secteur de l’assurance, les acteurs multiplient les initiatives pour faire de leurs données un vecteur d’innovation et un avantage concurrentiel. Les données non structurées sont à ce stade encore peu exploitées alors qu’elles présentent un fort potentiel et représentent une large part des données d’assurance. Plus particulièrement, les données textuelles (contrats, rapports d’expertise de sinistres, réclamations clients, etc.) peuvent être riches d’information… faut-il encore les valoriser !

Qu'est ce que le text mining ?

Le text mining, ou "fouille de textes", désigne l'ensemble des méthodes permettant d'explorer et d'analyser des données textes non structurées. L'objectif est d'identifier, entre autre, des occurrences , des thématiques plus ou moins pertinentes dans un texte donné, de réaliser des rapprochements entre différents textes, voire de desceller les émotions et les comportements des auteurs.

De telles méthodes sont basées sur des algorithmes de Machine Learning et de Deep Learning, ainsi que sur des études linguistiques.

Quelles applications des données textuelles ?

Que cela soit au travers d’utilisations de filtres automatiques des spams dans nos mails ou encore des traducteurs automatiques, l’exploitation automatique de données textuelles s’est discrètement ancrée dans les usages quotidiens de chacun.

En assurance, comme dans tout autre secteur, les exploitations de données textuelles sont multiples et diverses. Pour ne prendre que quelques exemples, nous citerons :

La détection de fraude :

La fraude constitue un poste de coût important en assurance et en finance, ce qui fait d'elle une préoccupation majeure . L’utilisation des données textuelles a d'ores et déjà fait ses preuves dans l’amélioration des algorithmes de détection de fraude (tant en approche a posteriori qu’a priori). Ainsi, en fournissant de nouvelles données, elle permet de renforcer les algorithmes et de détecter de nouvelles tendances.

L'amélioration de la gestion des sinistres :

De quelque manière que ce soit (prioriser les réclamations, accélérer les indemnisations, etc.), être en capacité d’analyser automatiquement les échanges avec les assurés semble être une nécessité pour répondre aux exigences de rapidité du marché.

L'analyse des sentiments :

En analysant automatiquement des données telles que les mails, les avis, ou commentaires sur réseaux sociaux, le text mining est un moyen de piloter et de suivre le risque d’image ainsi que la satisfaction des assurés.

La tarification et le provisionnement :

L’introduction des données textuelles internes ou externes offrent la possibilité d’affiner l’appréhension du risque et de répondre au critère de personnalisation attendu par les assurés : affinement de la segmentation, anticipation des besoins et des réactions, amélioration de l'estimation des coûts des sinistres... autant de sujets qui peuvent être perfectionnés par l'introduction du text mining.

Finalement, le text mining est un outil prometteur pour répondre aux enjeux des données qui forgeront l'assurance de demain.

L’exploitation de textes diffère néanmoins des données structurées classiques et peut s’avérer délicate. Sur la base de nos récents travaux d’analyse de sentiments (cf. l'article Intensité des émotions sur Twitter - Cas pratique), nous partageons ci-après un retour d’expérience sous la forme de 5 bonnes pratiques.

Retour d'expérience : 5 bonnes pratiques

1 - Etude préalable du contexte des données

Le text mining amène à utiliser des données qui n'ont pas ou peu été exploitées automatiquement jusqu'ici. Dès lors, il nous semble crucial de ne pas négliger la compréhension des données, notamment la manière dont celles-ci ont été « construites » et les potentiels biais par rapport à la tâche/problématique cible. Et ce, dès la phrase de définition de la problématique et répertoriage des données sous-jacentes.

2 - Traitement des données : quand le mieux est l'ennemi du bien

Les traitements des textes sont plus variés que les données actuarielles classiques : lemmatisation, racinisation, n-grammes, filtres (ponctuation, date, valeurs chiffrées, stop word, hapax...), etc. Il existe de nombreux traitements possibles pour conserver uniquement l'information essentielle. En termes de qualité des données, la pratique actuarielle courante est à l’épuration drastique des erreurs/bruits, tandis que dans les textes :

La notion d'erreur est subjective et les tests de qualité délicats voire impossibles à mettre en place ;
Certaines typographies peuvent être porteuses de sens : par exemple, en analyse d’intensité des émotions, les termes « Oui » et « Ouiiii » ne traduisent pas nécessaire le même message et dans le second cas, la répétition des lettres pourrait être un indicateur sur l’état d’esprit de l’auteur ;
Le traitement à appliquer sur les textes est plus qu’ailleurs dépendant de l’objectif visé.

De manière générale, les traitements complexes de données texte ne se révèlent pas toujours être la meilleure pratique. En effet, à partir d’un certain volume de données, des traitements simples peuvent s’avérer plus adaptés à la tâche et sont nettement plus rapides à mettre en place.

3 - Modélisation suivant le principe de parcimonie

Les possibilités de modélisation sont aussi nombreuses que le champ du Traitement Automatique du Langage Naturel (TALN) est divers et large. La palette des méthodes d’extractions de features[1] et d’algorithmes est riche et la tentation de construire des modèles avancés combinant des features et des méthodes complexes est forte, ne serait-ce que pour l’intérêt intellectuel du problème.

Pourtant, bien souvent, les features de comptages comme le TIDF[2] couplés à une méthode de Machine Learning adaptée s’avèrent donner des résultats suffisants et ont l’avantage de pouvoir être réalisés en des temps records. A l’inverse les approches Deep Learning nécessitent un temps et travail conséquent tant sur l’extraction des features et que sur les paramètres à déterminer, sans parler de la mobilisation des capacités de calculs. Ces dernières méthodes doivent alors être réservées aux situations particulière l’exigeant, telles que la détection de l’ironie ou la prise en compte du contexte...

Notre recommandation de bonne pratique en termes de modélisation pour le choix des features et de l’algorithme d’apprentissage serait de commencer par des modèles simples, puis monter en complexité si nécessaire seulement : cette approche permet de contrôler les contraintes de temps et de disponibilité des machines de calculs et permet mieux maîtriser les données par rapport à l’objectif fixé.

4 - Ne pas réinventer la roue

Les études en TALN sont nombreuses et couvrent tous les secteurs d’activités, il existe probablement assez d'algorithmes, lexiques, et études qui peuvent correspondre à la tâche que vous souhaitez réaliser. Si les travaux existants ne sont pas toujours utilisables pour des questions de politique de confidentialité, de coûts ou autres, un certain nombre de modèles pré-entraînés (par exemple pour le Word Embedding, des champs lexicaux) et d'outils en libre accès ou sous licence peuvent vous faire gagner en temps et en précision.

5 - Dilemme de la généralisation

Le TALN est intimement lié au langage étudié et, dès lors, la généralisation d’une étude (par exemple le déploiement sur différents pays couvert par un assureur) n’est pas évident. En effet, la complexité ou non d’une langue influence fortement la modélisation puisque les hyperparamètres des features comme les algorithmes optimaux varient d’une d’une langue à l’autre. Ainsi, des cas pratiques concluants en français ou anglais ne donneront probablement pas d’aussi bons résultats sur une langue plus complexe, comme le japonais par exemple. Néanmoins certains features et modèles sont plus facilement extensibles à d’autres langages. Aussi, selon les priorités et la problématique, la question de la généralisation des données doit être intégrée dans les contraintes en amont de l’étude afin d'orienter si nécessaire le choix des features et des algorithmes.

Rédactrice : Julie LAVENU

[1] Méthodes d’extraction d’information qui grossièrement consiste à passer d’un texte à une matrice (sparse ou pleine) compréhensible par des algorithmes de machine learning ou deep learning

[2] Term frequency–inverse document frequency

Les outils développés sur mesure par Périclès Actuarial pour ses clients permettent de concilier les visions suivantes :

Lire entre les lignes : le text mining en assurance

Qu'est ce que le text mining ?

Quelles applications des données textuelles ?

Retour d'expérience : 5 bonnes pratiques

Rédactrice : Julie LAVENU

Posts récents

Commentaires