Intelligence artificielle

John Samuel
CPE Lyon

Year: 2022-2023
Email: john(dot)samuel(at)cpe(dot)fr

Intelligence artificielle

Traitement automatique des langues

Analyser et comprendre le langage naturel (humain)
Interaction homme-machine
Syntaxe d'une langue
- Parsing
- L'étiquetage en parties du discours (PoS)
Sémantique d'une langue
- Traduction automatique
- Reconnaissance d'entités nommées
- Analyse des sentiments

Traitement automatique des langues

Analyse de systèmes

Racinisation
Étiquetage morpho-syntaxique
Lemmatisation
Morphologie

Traitement automatique des langues

Racinisation [Frakes 2003]

grouper les mots en fonction de leur similarité sémantique.
Algorithmes de suppression des affixes: supprimer les suffixes ou préfixes des mots produisant une racine
Exemples
- engineer: engineer, engineered, engineering

Traitement automatique des langues

Racinisation: mesures d'évaluation [Frakes 2003]

La mesure dans laquelle un algorithm modifie des mots qu'elle réduit à ses racines est appelée la force de l'algorithme
Une métrique de similarité des algorithmes met en correspondance les n-tuples d'algorithmes (n au moins 2), avec un nombre indiquant la similarité des algorithmes.

Traitement automatique des langues

Racinisation: distance de Hamming [Frakes 2003]

La distance de Hamming entre deux chaînes de longueur égale est définie comme le nombre de caractères des deux chaînes qui sont différents à la même position.
Pour les chaînes de longueur inégale, ajouter la différence de longueur à la distance de Hamming pour obtenir une fonction de distance de Hamming modifiée $d$
Exemples
- tri: try, tried, trying
- $d$(tri, try)= 1
- $d$(tri, tried)= 2
- $d$(tri, trying)= 4

Traitement automatique des langues

Racinisation: force [Frakes 2003]

Le nombre moyen de mots par classe
Facteur de compression de l'indice. Soit n est le nombre de mots dans le corpus et s est le nombre de racines. \[\frac{n - s}{n}\]
Le nombre de mots et de racines qui diffèrent
Le nombre moyen de caractères supprimés lors de la formation des racines
La médiane et la moyenne de la distance de Hamming modifiée entre les mots et leur racine

Traitement automatique des langues

Racinisation: similarité [Frakes 2003]

Soit $A1$ et $A2$ sont deux algorithmes
Soit $W$ une liste de mots et $n$ le nombre de mots dans $W$ \[ M(A1,A2,W) = \frac{n}{\Sigma d(x_i, y_i)}\]
pour tous les mots $w_i$ en W, $x_i$ est le résultat de l'application de $A1$ à $w_i$ et $y_i$ est le résultat de l'application de $A2$ à $w_i$
des algorithmes plus similaires auront des valeurs plus élevées de M

Traitement automatique des langues

Racinisation: ntlk

Porter [Porter 1980]
Snowball

Traitement automatique des langues

Racinisation: Porter

from nltk.stem.porter import PorterStemmer words = ["words", "eating", "went", "engineer", "tried"] porter = PorterStemmer() for word in words: print(porter.stem(word), end=' ')

Affichage

word eat went engin tri

Traitement automatique des langues

Racinisation: Snowball

from nltk.stem.snowball import SnowballStemmer words = ["words", "eating", "went", "engineer", "tried"] snowball = SnowballStemmer("english") for word in words: print(snowball.stem(word))

Affichage

word eat went engin tri

Traitement automatique des langues

Étiquetage morpho-syntaxique [Màrquez 2000]

Part of Speech (PoS) Tagging
attribution à chaque mot d'un texte de la balise morphosyntaxique appropriée dans son contexte d'apparition
Exemples des balises
- noms
- verbes
- adjectifs
- adverbes

Étiquetage morpho-syntaxique [Màrquez 2000]

Construction de modèles linguistiques

approche manuelle
- constuction des règles)
approche statistique
- collection de n-grammes (bi-grammes, tri-grammes, ...)
- ensemble de fréquences de cooccurrence
- l'estimation de la probabilité d'une séquence de longueur n est calculée en tenant compte de son occurrence dans le corpus d'entraînement
apprentissage machine

Étiquetage morpho-syntaxique

nltk: ngrams

from nltk import ngrams sentence="He went to school yesterday and attended the classes" for n in range(1,5): print("\n{}-grams".format(n)) n_grams = ngrams(sentence.split(), n) for ngram in n_grams: print(ngram, end=" ")

Étiquetage morpho-syntaxique

nltk: ngrams

Affichage

1-grams ('He',) ('went',) ('to',) ('school',) ('yesterday',) ('and',) ('attended',) ('the',) ('classes',) 2-grams ('He', 'went') ('went', 'to') ('to', 'school') ('school', 'yesterday') ('yesterday', 'and') ('and', 'attended') ('attended', 'the') ('the', 'classes') 3-grams ('He', 'went', 'to') ('went', 'to', 'school') ('to', 'school', 'yesterday') ('school', 'yesterday', 'and') ('yesterday', 'and', 'attended') ('and', 'attended', 'the') ('attended', 'the', 'classes') 4-grams ('He', 'went', 'to', 'school') ('went', 'to', 'school', 'yesterday') ('to', 'school', 'yesterday', 'and') ('school', 'yesterday', 'and', 'attended') ('yesterday', 'and', 'attended', 'the') ('and', 'attended', 'the', 'classes')

Étiquetage morpho-syntaxique

nltk: pos_tag

from nltk import pos_tag, word_tokenize sentence = "He goes to school daily" tokens = word_tokenize(sentence) print(pos_tag(tokens))

Affichage

[('He', 'PRP'), ('goes', 'VBZ'), ('to', 'TO'), ('school', 'NN'), ('daily', 'RB')]

nltk: pos_tag

[('He', 'PRP'), ('goes', 'VBZ'), ('to', 'TO'), ('school', 'NN'), ('daily', 'RB')]

Balise	Signification
PRP	pronoun, personal
VBZ	verb, present tense, 3rd person singular
TO	"to" as preposition
NN	"noun, common, singular or mass
RB	adverb

spaCy

Installation

$ pip3 install spacy $ python3 -m spacy download en_core_web_sm

Installation

import spacy nlp = spacy.load("en_core_web_sm")

Étiquetage morpho-syntaxique

spaCy

import spacy nlp = spacy.load("en_core_web_sm") doc = nlp("He goes to school daily") for token in doc: print(token.text, token.pos_, token.dep_)

He PRON nsubj goes VERB ROOT to ADP prep school NOUN pobj daily ADV advmod

Étiquetage morpho-syntaxique

spaCy: mots vides, forme, PoS, lemme

import spacy nlp = spacy.load("en_core_web_sm") doc = nlp("He goes to school daily") for token in doc: print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_, token.shape_, token.is_alpha, token.is_stop)

He -PRON- PRON PRP nsubj Xx True True goes go VERB VBZ ROOT xxxx True False to to ADP IN prep xx True True school school NOUN NN pobj xxxx True False daily daily ADV RB advmod xxxx True False

Traitement automatique des langues

Lemmatisation [Gesmundo 2012]

regrouper les formes de mots qui appartiennent au même paradigme morphologique flexionnel et attribuer à chaque paradigme son lemme correspondant.
Exemples
- go: go, goes, going, went, gone

Traitement automatique des langues

Lemmatisation [Chrupała 2006, Gesmundo 2012]

La lemmatisation comme une tâche d'étiquetage
Attribuer un label pour chaque transformation d'un label en lemme
4 étapes [Gesmundo 2012]
1. supprimer un suffixe de longueur $N_s$
2. ajouter un nouveau suffixe de lemme $L_s$
3. supprimer un préfixe de longueur $N_p$
4. ajouter un nouveau préfixe lemme, $L_p$
Transformation $\tau = \langle N_s, L_s, N_p, L_p \rangle$
(going, go) = $\langle 3, \emptyset, 0, \emptyset \rangle $

Lemmatisation

nltk: WordNetLemmatizer

WordNet [Miller 1995]

import nltk nltk.download('punkt') nltk.download('wordnet') nltk.download('averaged_perceptron_tagger')

Lemmatisation

nltk: WordNetLemmatizer (sans les balises PoS)

from nltk.stem import WordNetLemmatizer sentence = "He went to school yesterday and attended the classes" lemmatizer = WordNetLemmatizer() for word in sentence.split(): print(lemmatizer.lemmatize(word), end=' ')

Affichage

He went to school yesterday and attended the class

Lemmatisation

nltk: WordNetLemmatizer (avec les balises PoS)

from nltk.stem import WordNetLemmatizer from nltk import word_tokenize, pos_tag from nltk.corpus import wordnet as wn # Check the complete list of tags http://www.nltk.org/book/ch05.html def wntag(tag): if tag.startswith("J"): return wn.ADJ elif tag.startswith("R"): return wn.ADV elif tag.startswith("N"): return wn.NOUN elif tag.startswith("V"): return wn.VERB return None

Lemmatisation

nltk: WordNetLemmatizer (avec les balises PoS)

lemmatizer = WordNetLemmatizer() sentence = "I went to school today and he goes daily" tokens = word_tokenize(sentence) for token, tag in pos_tag(tokens): if wntag(tag): print(lemmatizer.lemmatize(token, wntag(tag)), end=' ') else: print(lemmatizer.lemmatize(token), end=' ')

Affichage

I go to school today and he go daily

Étiquetage morpho-syntaxique

spaCy: mots vides, forme, PoS, lemme

import spacy nlp = spacy.load("en_core_web_sm") doc = nlp("I went to school today and he goes daily") for token in doc: print(token.lemma_, end=' ')

-PRON- go to school today and -PRON- go daily

Traitement automatique des langues

Morphologie

l'étude des mots, de leurs les paradigmes et de l’organisation des catégories grammaticales
examine les parties du discours, l'intonation et l'accent, ainsi que la façon dont le contexte peut modifier la prononciation et le sens d'un mot

Morphologie

spaCy: mots vides, forme, PoS, lemme

import spacy from spacy import displacy nlp = spacy.load("en_core_web_sm") doc = nlp("He goes to school daily") displacy.serve(doc, style="dep")

Traitement automatique des langues

Word Embeddings

une technique d'apprentissage de caractéristiques où des mots ou des phrases du vocabulaire sont mis en correspondance avec des vecteurs de nombres réels
quantifier et catégoriser les similarités sémantiques entre les éléments linguistiques en fonction de leurs propriétés de distribution dans de grands échantillons de données linguistiques

Traitement automatique des langues

Word2Vec [Mikolov 2013]

publié en 2013 par une équipe de chercheurs dirigée par Tomas Mikolov chez Google.
représente chaque mot distinct avec un vecteur
utilise un modèle de réseau neuronal pour apprendre des associations de mots à partir d'un vaste corpus de texte
prend comme entrée un grand corpus de texte et produit un espace vectoriel, généralement de plusieurs centaines de dimensions

Traitement automatique des langues

Word2Vec

les vecteurs de mots sont positionnés dans l'espace vectoriel de telle sorte que les mots qui partagent des contextes communs dans le corpus soient situés à proximité les uns des autres dans l'espace
une simple fonction mathématique (par exemple, la similarité cosinus entre les vecteurs) indique le niveau de similarité sémantique entre les mots représentés par ces vecteurs \[\text{similarity} = \cos(\theta) = {\mathbf{A} \cdot \mathbf{B} \over \|\mathbf{A}\| \|\mathbf{B}\|} = \frac{ \sum\limits_{i=1}^{n}{A_i B_i} }{ \sqrt{\sum\limits_{i=1}^{n}{A_i^2}} \sqrt{\sum\limits_{i=1}^{n}{B_i^2}} },\]
les vecteurs de mots sont positionnés dans l'espace vectoriel de telle sorte que les mots qui partagent des contextes communs dans le corpus soient situés à proximité les uns des autres dans l'espace

Word2Vec

Context Bag of Words (CBOW)

le modèle prédit le mot courant à partir d'une fenêtre de mots contextuels voisins
L'ordre des mots de contexte n'influence pas la prédiction

Word2Vec

Skip grams

le modèle utilise le mot courant pour prédire la fenêtre voisine des mots de contexte.
l'architecture accorde plus de poids aux mots de contexte proches qu'aux mots de contexte plus éloignés

spaCy

Installation: modèle vectoriel plus large

$ python3 -m spacy download en_core_web_lg

Installation

import spacy nlp = spacy.load("en_core_web_lg")

spaCy: similarity

import spacy nlp = spacy.load("en_core_web_lg") doc1 = nlp("dog") doc2 = nlp("cat") doc3 = nlp("apple") print("similarity ({},{}): {} ".format(doc1.text, doc2.text, doc1.similarity(doc2))) print("similarity ({},{}): {} ".format(doc2.text, doc3.text, doc2.similarity(doc3))) print("similarity ({},{}): {} ".format(doc1.text, doc3.text, doc1.similarity(doc3)))

Affichage

similarity (dog,cat): 0.8016854705531046 similarity (cat,apple): 0.28213841802558415 similarity (dog,apple): 0.2633902481063797

spaCy: vector

import spacy nlp = spacy.load("en_core_web_sm") doc = nlp("cat") for token in doc: print(token.vector)

Word Embeddings

gensim: cbow

import gensim from nltk.tokenize import sent_tokenize, word_tokenize data = "This is a class. This is a table" sentences = [] for sentence in sent_tokenize(data): words = [] for word in word_tokenize(sentence): words.append(word.lower()) sentences.append(words)

Word Embeddings

gensim: cbow

# min_count: Ignorer tous les mots dont la fréquence totale est inférieure à cette valeur. # window: Distance maximale entre le mot courant et le mot prédit dans une phrase cbow = gensim.models.Word2Vec(sentences, min_count=1, size=100, window=3) # afficher la valeur du vecteur print(cbow.wv["this"]) # similarité entre deux mots print(cbow.wv.similarity("this", "class")) # prédire deux mots print(cbow.predict_output_word(["is"], topn=2))

Word Embeddings

gensim: skip-gram

# min_count: Ignorer tous les mots dont la fréquence totale est inférieure à cette valeur. # window: Distance maximale entre le mot courant et le mot prédit dans une phrase # sg: 1 pour skip-gram ; sinon CBOW. sgram = gensim.models.Word2Vec(sentences, min_count=1, size=100, window=5, sg=1) # afficher la valeur du vecteur print(sgram.wv["this"]) # similarité entre deux mots print(sgram.wv.similarity("this", "class")) # prédire deux mots print(sgram.predict_output_word(["is"], topn=2))

Reconnaissance d'entités nommées

Extraire les entités nommées et les assigner à des catégories spécifiques.

spaCy: Reconnaissance d'entités nommées

import spacy nlp = spacy.load("en_core_web_sm") doc = nlp("Paris is the capital of France. In 2015, its population was recorded as 2,206,488") for entity in doc.ents: print(entity.text, entity.start_char, entity.end_char, entity.label_)

Paris 0 5 GPE France 24 30 GPE 2015 35 39 DATE 2,206,488 72 81 CARDINAL

spaCy: Reconnaissance d'entités nommées

import spacy nlp = spacy.load("en_core_web_sm") doc = nlp("Paris is the capital of France. In 2015, its population was recorded as 2,206,488") displacy.serve(doc, style="ent")

spaCy: Reconnaissance d'entités nommées

Paris GPE is the capital of France GPE . In 2015 DATE , its population was recorded as 2,206,488 CARDINAL

Balise	Signification
GPE	Pays, villes, états.
DATE	Dates ou périodes absolues ou relatives
CARDINAL	Les chiffres qui ne correspondent à aucun autre type.

Analyse des sentiments

Installation

import nltk nltk.download('vader_lexicon')

Usage

from nltk.sentiment.vader import SentimentIntensityAnalyzer sia = SentimentIntensityAnalyzer() sentiment = sia.polarity_scores("this movie is good") print(sentiment) sentiment = sia.polarity_scores("this movie is not very good") print(sentiment) sentiment = sia.polarity_scores("this movie is bad") print(sentiment)

Analyse des sentiments

Affichage

{'neg': 0.0, 'neu': 0.508, 'pos': 0.492, 'compound': 0.4404} {'neg': 0.344, 'neu': 0.656, 'pos': 0.0, 'compound': -0.3865} {'neg': 0.538, 'neu': 0.462, 'pos': 0.0, 'compound': -0.5423}

Traduction automatique

l'utilisation de logiciels pour traduire un texte ou un discours d'une langue à une autre.
approches:
- approche manuelle (règles)
- approche statistique
- approche hybride: règles et approches statistique
- apprentissage machine

Transformer

BERT (Bidirectional Encoder Representations from Transformers)
GPT (Generative Pre-trained Transformer)

Système de recommandation

Objectif principal : réduire la surcharge d'informations en fournissant des informations filtrées et pertinentes
Prévoir la préférence de l'utilisateur
aide à gérer la surcharge d'informations
Recommandations personnalisées et non personnalisées
Applications
- les générateurs de playlists pour les services de vidéo et de musique
- les recommandations de produits
- les recommandations de livres
- les recommandations de contenu pour les plateformes de médias sociaux

Système de recommandation

Réalisation [Pazzani 2007, Ricci 2011]

Hypothèse: les individus suivent souvent les recommandations des autres utilisateurs
Sources des données:
- Utilisateurs
- Articles ou objets
- Transactions
Recueillir les préférences des utilisateurs
- les préférences explicitement exprimées: les évaluations et les actions des utilisateurs comme les avis favorables et défavorables
- l'interprétation des actions des utilisateurs: navigation web

Système de recommandation

Fonctions [Ricci 2011]

Augmenter le nombre d'articles vendus.
Vendre des articles plus variés.
Augmenter la satisfaction des utilisateurs
Augmenter la fidélité des utilisateurs.
Mieux comprendre ce que veut l'utilisateur.

Système de recommandation

Objectifs [Herlocker 2000, Ricci 2011]

Trouver de bons objets
Trouver tous les bons articles
Annotation dans le contexte
Recommander une séquence: des livres, des vidéos sur un sujet donné
Recommander une combinaison: plan de voyage
Navigation (consultation)
Trouver un système de recommandation crédible
Améliorer le profil
S'exprimer
Aider les autres
Influencer les autres

Système de recommandation

Approches [Pazzani 2007, Ricci 2011]

Filtrage collaboratif : basé sur les évaluations de plusieurs utilisateurs
Filtrage basé sur le contenu : basé sur les profils des utilisateurs
Démographiques: le profil démographique de l'utilisateur, par exemple le lieu et la langue
Basé sur la connaissance: des recommandations basées sur la connaissance du domaine
Basé sur la communauté: des recommandations basées sur les préférences des amis des utilisateurs
Systèmes hybrides de recommandation [Gomez-Uribe 2016]

Système de recommandation

Filtrage collaboratif

Transactions
Algorithmes
- Règles de l'association

Système de recommandation

Filtrage basé sur le contenu [Pazzani 2007]

Recommandation basée sur une description de l'objet et un profil des intérêts de l'utilisateur
profil utilisateur
- Un modèle des préférences de l'utilisateur
- l'historique des interactions de l'utilisateur avec le système de recommandation.
Algorithmes
- Arbres de décision
- Méthodes du plus proche voisin
- Classificateurs linéaires

Système de recommandation

Systèmes hybrides [Gomez-Uribe 2016]

Filtrage basé sur le contenu et filtrage collaboratif
Filtrage basé sur le contenu, filtrage collaboratif et démographique

Système de recommandation

Mesures de performance [Ziegler 2005, Ricci 2011]

Précision et efficacité [Beel 2013a]
Diversité
Persistance de la recommandation
Vie privée [Pu 2012]
Démographie des utilisateurs
Robustesse (lutte contre la fraude) [Konstan 2012]
Sérendipité
Confiance
Étiquetage (recommandations organiques ou sponsorisées) [Beel 2013b]

Système de recommandation

Domaines à haut risque [Herlocker 2000]

Par exemple, assurance
la nécessité de disposer d'indicateurs permettant de faire confiance ou de douter d'une recommandation
Intégrer les capacités d'explication aux systèmes de recommandation
Avantages des explications
- Justification
- Participation des utilisateurs
- Éducation
- Acceptation

Représentation des connaissances et raisonnement

Une forme de représentation lisible par machine de la connaissance d'un monde ou d'un domaine.
Exemple : réseaux sémantiques, ontologies
Un compromis entre expressivité et praticité

Web sémantique

Semantic Web Stack (https://commons.wikimedia.org/wiki/File:Semantic_web_stack.svg)

Moteur de règles

Constitué de règles et de contraintes
Vérifie qu'à un moment donné, le système est cohérent

Programmation logique

Logique propositionnelle
Logique du premier ordre (FOL, logique des prédicats)

Prolog

Langage de programmation déclaratif
Langage de programmation logique : basé sur la logique du premier ordre
Développé en 1972 par Alain Colmerauer
Exprimé en termes de relations : faits et règles
Utilisé pour la démonstration de théorèmes, les systèmes experts et le traitement du langage naturel

Prolog: types de données

Atome
Nombres
Variables
Terme composé (par exemple, chaînes, listes)

Prolog: règles

Un programme Prolog contient des clauses de la forme suivante.


                          Tête : - Corps.

Le corps peut contenir un ou plusieurs prédicats utilisant la conjonction et la disjonction
La tête ne contient aucune conjonction et disjonction

Prolog: faits

Une clause avec un corps vide est appelée fait.


                          cat(bob).

                          cat(alice).

Prolog: Installation

Sur une machine Ubuntu


                          $ sudo apt install gprolog

Prolog: GNU Prolog


$ prolog

GNU Prolog 1.4.5 (64 bits)

Compiled Feb  5 2017, 10:30:08 with gcc

By Daniel Diaz

Copyright (C) 1999-2016 Daniel Diaz

| ?- [user].

compiling user for byte code...

cat(tom).

cat(alice).



user compiled, 2 lines read - 241 bytes written, 12239 ms



(4 ms) yes

| ?-

Prolog: GNU Prolog: interrogation


?- cat(X).



X = tom ? 



yes

| ?- cat(bob).



no

Prolog: GNU Prolog: interrogation


| ?- [user].                             

compiling user for byte code...

cat(tom).                           

cat(alice).                         

allcats(L) :- findall(X, cat(X), L).



user compiled, 3 lines read - 490 bytes written, 10638 ms



yes

| ?- allcats(L).                         



L = [tom,alice]



yes

Prolog: GNU Prolog: interrogation


| ?- [user].              

compiling user for byte code...

friend(bob, alice).  

friend(alice, kevin).

friend(bob, thomas).                

friend(bob, peter).  



user compiled, 4 lines read - 486 bytes written, 77256 ms



(10 ms) yes

| ?- friend(bob, X).      



X = alice ? a



X = thomas



X = peter



(1 ms) yes

Prolog: GNU Prolog: interrogation

			
$ cat friend.pl
friend(bob, alice).
friend(alice, kevin).
friend(bob, thomas).
friend(bob, peter).
human(X):-friend(X,_).
human(Y):-friend(_,Y).

Prolog: GNU Prolog: interrogation

			
$ prolog --consult-file friend.pl
GNU Prolog 1.4.5 (64 bits)
Compiled Feb 23 2020, 20:14:50 with gcc
By Daniel Diaz
Copyright (C) 1999-2020 Daniel Diaz
compiling /home/user/friend.pl for byte code...
/home/user/friend.pl compiled, 4 lines read - 515 bytes written, 22 ms
| ?- friend(bob,alice).

true ?

yes

Prolog: GNU Prolog: interrogation

			
$ prolog --consult-file friend.pl
| ?- human(X).
X = bob ? a
X = alice
X = bob
X = bob
X = alice
X = kevin
X = thomas
X = peter

yes
| ?-

Articles de recherche

[Beel 2013a] Beel, Joeran, et al. “A Comparative Analysis of Offline and Online Evaluations and Discussion of Research Paper Recommender System Evaluation.” Proceedings of the International Workshop on Reproducibility and Replication in Recommender Systems Evaluation, Association for Computing Machinery, 2013
[Beel 2013b] Beel, Joeran, et al. “Sponsored vs. Organic (Research Paper) Recommendations and the Impact of Labeling.” Research and Advanced Technology for Digital Libraries, edited by Trond Aalberg et al., Springer, 2013, pp. 391–95.
[Chrupała 2006] Chrupała, Grzegorz. Simple Data-Driven Context-Sensitive Lemmatization. 2006. doras.dcu.ie, http://www.unizar.es/departamentos/filologia_inglesa/sepln2006/.
[Frakes 2003] Frakes, William B., and Christopher J. Fox. “Strength and Similarity of Affix Removal Stemming Algorithms.” ACM SIGIR Forum, vol. 37, no. 1, Apr. 2003, pp. 26–30. Spring 2003
[Gomez-Uribe 2016] Gomez-Uribe, Carlos A., and Neil Hunt. “The Netflix Recommender System: Algorithms, Business Value, and Innovation.” ACM Transactions on Management Information Systems, vol. 6, no. 4, Dec. 2016, p. 13:1–13:19. January 2016

Articles de recherche

[Gesmundo 2012] Gesmundo, Andrea, and Tanja Samardžić. “Lemmatisation as a Tagging Task.”
[Herlocker 2000] Herlocker, Jonathan L., et al. “Explaining Collaborative Filtering Recommendations.” Proceedings of the 2000 ACM Conference on Computer Supported Cooperative Work, Association for Computing Machinery, 2000, pp. 241–250. ACM
[Konstan 2012] Konstan, Joseph A., and John Riedl. “Recommender Systems: From Algorithms to User Experience.” User Modeling and User-Adapted Interaction, vol. 22, no. 1–2, Apr. 2012, pp. 101–123.
[Màrquez 2000] Màrquez, Lluís, et al. “A Machine Learning Approach to POS Tagging.” Machine Learning, vol. 39, no. 1, Apr. 2000, pp. 59–91.
[Mikolov 2013] Mikolov, Tomas, et al. “Efficient Estimation of Word Representations in Vector Space.” ArXiv:1301.3781 [Cs], Sept. 2013.
[Miller 1995] Miller, George A. “WordNet: A Lexical Database for English.” Communications of the ACM, vol. 38, no. 11, Nov. 1995, pp. 39–41. Nov. 1995

Articles de recherche

[Pazzani 2007] Pazzani, Michael J., and Daniel Billsus. “Content-Based Recommendation Systems.” The Adaptive Web: Methods and Strategies of Web Personalization, edited by Peter Brusilovsky et al., Springer, 2007, pp. 325–41.
[Porter 1980] Porter, M. F. “An Algorithm for Suffix Stripping.” Program, vol. 14, no. 3, Jan. 1980, pp. 130–37. Emerald Insight
[Pu 2012] Pu, Pearl, et al. “Evaluating Recommender Systems from the User’s Perspective: Survey of the State of the Art.” User Modeling and User-Adapted Interaction, vol. 22, no. 4, Oct. 2012, pp. 317–55.
[Ricci 2011] Ricci, Francesco, et al. “Introduction to Recommender Systems Handbook.” Recommender Systems Handbook, edited by Francesco Ricci et al., Springer US, 2011, pp. 1–35.
[Ziegler 2005] Ziegler, Cai-Nicolas, et al. “Improving Recommendation Lists through Topic Diversification.” Proceedings of the 14th International Conference on World Wide Web, Association for Computing Machinery, 2005, pp. 22–32.

Intelligence artificielle

2.1. Apprentissage machine

Intelligence artificielle

2.1. Intelligence artificielle

Traitement automatique des langues

2.1. Intelligence artificielle

Traitement automatique des langues

Analyse de systèmes

2.1. Intelligence artificielle

Traitement automatique des langues

Racinisation [Frakes 2003]

2.1. Intelligence artificielle

Traitement automatique des langues

Racinisation: mesures d'évaluation [Frakes 2003]

2.1. Intelligence artificielle

Traitement automatique des langues

Racinisation: distance de Hamming [Frakes 2003]

2.1. Intelligence artificielle

Traitement automatique des langues

Racinisation: force [Frakes 2003]

2.1. Intelligence artificielle

Traitement automatique des langues

Racinisation: similarité [Frakes 2003]

2.1. Intelligence artificielle

Traitement automatique des langues

Racinisation: ntlk

2.1. Intelligence artificielle

Traitement automatique des langues

Racinisation: Porter

2.1. Intelligence artificielle

Traitement automatique des langues

Racinisation: Snowball

2.1. Intelligence artificielle

Traitement automatique des langues

Étiquetage morpho-syntaxique [Màrquez 2000]

2.1. Intelligence artificielle

Étiquetage morpho-syntaxique [Màrquez 2000]

Construction de modèles linguistiques

2.1. Intelligence artificielle

Étiquetage morpho-syntaxique

nltk: ngrams

2.1. Intelligence artificielle

Étiquetage morpho-syntaxique

nltk: ngrams

2.1. Intelligence artificielle

Étiquetage morpho-syntaxique

nltk: pos_tag

2.1. Intelligence artificielle

nltk: pos_tag

2.1. Intelligence artificielle

spaCy

2.1. Intelligence artificielle

Étiquetage morpho-syntaxique

spaCy

2.1. Intelligence artificielle

Étiquetage morpho-syntaxique

spaCy: mots vides, forme, PoS, lemme

2.1. Intelligence artificielle

Traitement automatique des langues

Lemmatisation [Gesmundo 2012]

2.1. Intelligence artificielle

Traitement automatique des langues

Lemmatisation [Chrupała 2006, Gesmundo 2012]

2.1. Intelligence artificielle

Lemmatisation

nltk: WordNetLemmatizer

2.1. Intelligence artificielle

Lemmatisation

nltk: WordNetLemmatizer (sans les balises PoS)

2.1. Intelligence artificielle

Lemmatisation

nltk: WordNetLemmatizer (avec les balises PoS)

2.1. Intelligence artificielle

Lemmatisation

nltk: WordNetLemmatizer (avec les balises PoS)

2.1. Intelligence artificielle

Étiquetage morpho-syntaxique

spaCy: mots vides, forme, PoS, lemme

2.1. Intelligence artificielle

Traitement automatique des langues