Hyperbase

Analyse de données textuelles

Laurent.Vanni @unice.fr

Historique

+50 ans de travaux

Punched_card
Hyperbase
Hyperbase
HyperbaseWeb2015
1967
1989
1999
2025

Concepteurs et développeurs : Etienne Brunet depuis 1967, Laurent Vanni depuis 2013

1989

Première version du logiciel Hyperbase

Sur Apple Macintosh

Punched_card
Hyperbase
HyperbaseWeb
Environement monochrome
MacOS 9
Nouveau langage de programmation
Hypercard
Premiers outils documentaires et
statistiques

1999

Hyperbase version 2

Sur Windows (version 98 et ultérieur)

Punched_card
Hyperbase
HyperbaseWeb
Recherches documentaires
Recherches statistiques
Outils graphiques

2015

Hyperbase version 10 et version Web

Toutes plateformes confondues

HyperbaseV10
HyperbaseWeb
Gratuit et téléchargeable
Gratuit et surfable

2025

Mise à jour ergonomique + intégration d'un module d'IA

Hyperbase2025

Hyperbase

Logiciel d'analyse de données textuelles



Données, textes ou corpus ?

L'unité : le texte

Du texte brut, exemple : monfichier.txt

De Gaulle, Allocution radiotélévisée, 13 Juin 1958

Méthode : Logométrie

Sémantique de corpus / Linguistique (outillée) de corpus

Approche corpus-driven (Tognini, 2002):
  • Herméneutique matérielle
  • Statistique exploratoire
  • Parcours interprétatifs


Le corpus est la seule source d'hypothèses (linguistiques).

Elena Tognini-Bonelli. 2002. Corpus linguistics at work. Computational Linguistics, 28:583–583.

Du texte au corpus

Structurer des textes selon des hypothèses

tout regroupement de textes ne mérite pas le nom de corpus ... Un corpus est un regroupement structuré de textes intégraux, documentés, éventuellement enrichis par des étiquetages, et rassemblés : (i) de manière théorique réflexive en tenant compte des discours et des genres, et (ii) de manière pratique en vue d’une gamme d’applications.

F. Rastier 2001, Arts et sciences du texte p. 34.

Composition d'un corpus

Numérique pour Hyperbase

rechercheNOM

Structure du corpus

Ajout de métadonnées : les hypothèses de travail

Métadonnées = Informations / Descriptions du texte
rechercheNOM



Exemple :
Titre = Allocution
Auteur = De Gaulle
Jour = 13
Mois = Juin
Année = 1958
Bonne pratique : Nom de fichier = méta-données (sans accents, sans espaces)

Composition d'un corpus

Exemple : corpus presdentiel

rechercheNOM
Bonne pratique : Nom de fichier = méta-données (sans accent, sans espace)

Composition d'un corpus

Plusieurs Métadonnées => Plusieurs représentations

arboree arboree

Hyperbase

Logiciel d'analyse de données textuelles



Quels types d'analyses dans Hyperbase ?

Recherches documentaires

Contexte


Exemple : recherche du mot "France"

Contexte

Recherches documentaires

Concordance

Exemple : recherche du mot "France"

concordance

Recherches documentaires avancées

Lemmatisation + annotations morpho-syntaxiques


Hyperbase : processus automatique par défaut
Annotation du texte, détection automatique des parties du discours et des lemmes
Multi-langues : Francais, Anglais, Portugais, ... (+- 10% d'erreurs)

Latin et Grec, lemmatisation proposée par le : L.A.S.L.A

Alternative : annotations manuelles (format TSV)

Recherches documentaires avancées

Codes grammaticaux

Exemple : recherche du code NOM

rechercheNOM

Recherches documentaires avancées

Lemmes

Exemple : recherche du lemme AVOIR

rechercheNOM

Recherches documentaires avancées

Recherche complexe et motifs


Exemple : recherche de l'expression : LEM:un NOM ??? VER

rechercheNOM

Recherche statistique

Spécificité

Il représente le nombre d’occurrences du mot exprimé par un écart par rapport à la norme (usage « moyen ») du corpus
rechercheNOM

Recherche statistique

Analyse factorielle des correspondances (AFC)

rechercheNOM

Recherche statistique

Analyse arborée


rechercheNOM

Recherche statistique

Cooccurences


rechercheNOM

A vous de jouer

Créez votre base en ligne ou en local

HyperbaseV10
HyperbaseWeb