MCPcopy Index your code
hub / github.com/axa-group/Parsr

github.com/axa-group/Parsr @v1.2.2

repository ↗ · DeepWiki ↗ · release v1.2.2 ↗ · + Follow
1,255 symbols 2,874 edges 226 files 210 documented · 17%
README

Transformez vos documents en données!

<a href="https://cloud.drone.io/axa-group/Parsr"><img src="https://cloud.drone.io/api/badges/axa-group/Parsr/status.svg"></a>







<a href="https://github.com/axa-group/Parsr/raw/v1.2.2/README.md">English</a> |

Portuguese | Spanish | 中文

Parsr est une chaîne d'outils de nettoyage, d'analyse et d'extraction de documents (image, pdf) qui génère des données facilement disponibles, organisées et utilisables pour les développeurs et les scientifiques de données (data scientists).

Il fournit aux utilisateurs un ensemble d'informations structurées et enrichies de label propres pour des applications prêtes à l'emploi allant de l'automatisation de la saisie de données à l'analyse de documents, en passant par l'archivage et bien d'autres.

Actuellement, Parsr peut effectuer:

  • Régénération de la hiérarchie des documents
  • Mots, lignes et paragraphes
  • Détection des titres
  • Détection et reconstruction des tableaux
  • Détection des listes
  • Détection de l'ordre des paragraphes
  • Reconnaissance des entités nommées (dates, pourcentages, etc.)
  • Détection de paires clé-valeur (pour l'extraction d'entrées spécifiques basées sur un formulaire)
  • Détection des numéros de page
  • Détection d'entête et pied de page
  • Détections de liens
  • Suppression des espaces blancs

Parsr prend en entrée une image (.jpg, .png, .tiff, ...) ou un pdf et génère les formats de sortie suivants:

  • JSON
  • Markdown
  • Texte
  • CSV (pour les tableaux) ou Pandas Dataframes (voir ici)
  • PDF

Table des matières

Débuter avec Parsr

Installation

-- Le guide d'installation avancé est disponible ici --

Le moyen le plus rapide pour installer et exécuter l'API Parsr est via l'image docker:

docker pull axarev/parsr

Si vous souhaitez également installer l'interface graphique pour l'envoi de documents et la visualisation des résultats:

docker pull axarev/parsr-ui-localhost

Remarque: Parsr peut également être installé directement sur la machine (sans Docker)" - voir la procédure sur guide d'installation.

Utilisation

-- Le guide d'utilisation avancé est disponible ici --

Pour exécuter l'API, lancez:

docker run -p 3001:3001 axarev/parsr

qui le lancera sur http://localhost:3001. Consultez la documentation sur l'utilisation de l'API.

  1. Pour utiliser le client python de Parsr:

sh pip install parsr-client

Pour utiliser le Jupyter Notebook utilisant ce client, cliquez ici.

  1. Pour utiliser l'outil GUI (l'API doit déjà être en cours d'exécution), lancez: sh docker run -t -p 8080:80 axarev/parsr-ui-localhost:latest Ensuite, accédez-y via http://localhost:8080.

Reportez-vous à la Documentation de configuration pour interpréter les options configurables dans l'interface graphique.

Utilisation basée sur l'API et utilisation en ligne de commande sont documentées dans utilisation avancée.

Documentation

Tous les fichiers de documentation peuvent être trouvés ici - actuellement en anglais seulement.

Comment contribuer

Veuillez vous référer aux directives de contribution.

Licences tierces

Licences de bibliothèques tierces pour ces dépendances:

  1. QPDF: Apache http://qpdf.sourceforge.net
  2. ImageMagick: Apache 2.0 https://imagemagick.org/script/license.php
  3. Pdfminer.six: MIT https://github.com/pdfminer/pdfminer.six/blob/master/LICENSE
  4. PDF.js: Apache 2.0 https://github.com/mozilla/pdf.js
  5. Tesseract: Apache 2.0 https://github.com/tesseract-ocr/tesseract
  6. Camelot: MIT https://github.com/camelot-dev/camelot
  7. MuPDF (Dépendance optionnelle): AGPL https://mupdf.com/license.html
  8. Pandoc (Dépendance optionnelle): GPL https://github.com/jgm/pandoc

Licence

Copyright 2019 AXA Group Operations S.A. Sous licence Apache 2.0 (voir le fichier LICENSE).

Extension points exported contracts — how you extend this code

Metadata (Interface)
(no doc) [2 implementers]
server/src/types/Metadata/Metadata.ts
ConfigFile (Interface)
(no doc)
api/server/src/ServerManager.ts
Options (Interface)
* Stability: Experimental * Characterize marginals (header and footer) in a document. The word marginals comes * from
server/src/processing/HeaderFooterDetectionModule/HeaderFooterDetectionModule.ts
TableExtractor (Interface)
(no doc) [2 implementers]
server/src/processing/TableDetectionModule/TableDetectionModule.ts
Options (Interface)
* Stability: Stable * Detect the reading order of the document. * Add a property order tag to every text block: `{ 'or
server/src/processing/ReadingOrderDetectionModule/ReadingOrderDetectionModule.ts
Options (Interface)
* Stability: Experimental * Merge elements or replace contents to make some words look like numbers when * they are ma
server/src/processing/NumberCorrectionModule/NumberCorrectionModule.ts

Core symbols most depended-on inside this repo

toString
called by 110
server/src/types/DocumentRepresentation/Line.ts
info
called by 100
server/src/utils/Logger.ts
join
called by 81
server/src/types/DocumentRepresentation/Word.ts
debug
called by 62
server/src/utils/Logger.ts
getElementsOfType
called by 58
server/src/types/DocumentRepresentation/Page.ts
findMax
called by 51
server/src/processing/MlHeadingDetectionModule/train_model/model.js
pf
called by 48
server/src/input/pdf.js/operators/helper.ts
warn
called by 41
server/src/utils/Logger.ts

Shape

Method 610
Function 392
Class 209
Interface 34
Route 9
Enum 1

Languages

TypeScript90%
Python10%

Modules by API surface

server/src/utils.ts50 symbols
demo/vue-viewer/src/vuex/store.js44 symbols
api/server/src/api.ts31 symbols
server/src/utils/CommandExecuter.ts28 symbols
server/src/processing/TableDetectionModule/TableDetectionModule.ts26 symbols
server/src/types/DocumentRepresentation/Paragraph.ts25 symbols
server/src/types/DocumentRepresentation/Page.ts24 symbols
server/src/input/pdfminer/pdfminer.ts24 symbols
server/src/input/abbyy/AbbyyTools.ts23 symbols
server/src/types/DocumentRepresentation/Table.ts22 symbols
server/src/processing/WordsToLineNewModule/WordsToLineNew.ts22 symbols
demo/doc-versioning/doc_versioning/src/backend/server.py22 symbols

Dependencies from manifests, versioned

@fortawesome/fontawesome-free5.12.1 · 1×
@mdi/font4.9.95 · 1×
@mdi/js4.9.95 · 1×
@types/archiver3.1.0 · 1×
@types/chai4.2.11 · 1×
@types/clone0.1.30 · 1×
@types/concaveman1.1.3 · 1×
@types/express4.17.3 · 1×
@types/file-type10.9.1 · 1×
@types/gapi.client.vision1.0.1 · 1×
@types/html-entities1.2.16 · 1×

For agents

$ claude mcp add Parsr \
  -- python -m otcore.mcp_server <graph>

⬇ download graph artifact