$83571.608249 USD

-1.38%

ethereum

$1826.028236 USD

-3.02%

tether

$0.999839 USD

-0.01%

xrp

$2.053149 USD

-2.48%

bnb

$601.140115 USD

-0.44%

solana

$120.357332 USD

-3.79%

usd-coin

$0.999833 USD

-0.02%

dogecoin

$0.166175 USD

-3.43%

cardano

$0.652521 USD

-3.00%

tron

$0.236809 USD

-0.59%

toncoin

$3.785339 USD

-5.02%

chainlink

$13.253231 USD

-3.91%

unus-sed-leo

$9.397427 USD

-0.19%

stellar

$0.266444 USD

-1.00%

sui

$2.409007 USD

1.15%

Articles d’actualité sur les crypto-monnaies

Identifier le client associé à un document juridique

Nov 19, 2024 at 05:02 am

L’objectif principal était d’identifier le(s) client(s) associé(s) à chaque document grâce à l’un des identifiants suivants :

The goal was to extract client names from legal documents using Named Entity Recognition (NER). Here's how I approached the task:

L'objectif était d'extraire les noms des clients des documents juridiques à l'aide de la reconnaissance d'entités nommées (NER). Voici comment j'ai abordé la tâche :

Data: I had a collection of legal documents in PDF format. The task was to identify the clients mentioned in each document using one of the following identifiers:

Données : J'avais une collection de documents juridiques au format PDF. La tâche consistait à identifier les clients mentionnés dans chaque document à l'aide de l'un des identifiants suivants :

Approximate client name (e.g., "John Doe")

Nom approximatif du client (par exemple, « John Doe »)

Precise client name (e.e., "Doe, John A.")

Nom précis du client (ee, « Doe, John A. »)

Approximate firm name (e.g., "Doe Law Firm")

Nom approximatif du cabinet (par exemple, « Doe Law Firm »)

Precise firm name (e.g., "Doe, John A. Law Firm")

Nom précis du cabinet (par exemple, « Doe, John A. Law Firm »)

About 5% of the documents didn't include any identifying entities.

Environ 5 % des documents ne comportaient aucune entité permettant d'identifier les personnes.

Dataset: For developing the model, I used 710 "true" PDF documents, which were split into three sets: 600 for training, 55 for validation, and 55 for testing.

Ensemble de données : Pour développer le modèle, j'ai utilisé 710 « vrais » documents PDF, qui ont été divisés en trois ensembles : 600 pour la formation, 55 pour la validation et 55 pour les tests.

Labels: I was given an Excel file with entities extracted as plain text, which needed to be manually labeled in the document text. Using the BIO tagging format, I performed the following steps:

Étiquettes : j'ai reçu un fichier Excel avec des entités extraites sous forme de texte brut, qui devaient être étiquetées manuellement dans le texte du document. En utilisant le format de balisage BIO, j'ai effectué les étapes suivantes :

Mark the beginning of an entity with "B-".

Marquez le début d'une entité avec "B-".

Continue marking subsequent tokens within the same entity with "I-".

Continuez à marquer les jetons suivants au sein de la même entité avec "I-".

If a token doesn't belong to any entity, mark it as "O".

Si un jeton n'appartient à aucune entité, marquez-le comme "O".

Alternative Approach: Models like LayoutLM, which also consider bounding boxes for input tokens, could potentially enhance the performance of the NER task. However, I opted not to use this approach because, as is often the case, I had already spent the majority of the project time on preparing the data (e.g., reformatting Excel files, correcting data errors, labeling). To integrate bounding box-based models, I would have needed to allocate even more time.

Approche alternative : des modèles tels que LayoutLM, qui prennent également en compte les cadres de délimitation pour les jetons d'entrée, pourraient potentiellement améliorer les performances de la tâche NER. Cependant, j'ai choisi de ne pas utiliser cette approche car, comme c'est souvent le cas, j'avais déjà consacré la majorité du temps du projet à préparer les données (par exemple, reformater les fichiers Excel, corriger les erreurs de données, étiqueter). Pour intégrer des modèles basés sur des boîtes englobantes, j'aurais dû y consacrer encore plus de temps.

While regex and heuristics could theoretically be applied to identify these simple entities, I anticipated that this approach would be impractical, as it would necessitate overly complex rules to precisely identify the correct entities among other potential candidates (e.g., lawyer name, case number, other participants in the proceedings). In contrast, the model is capable of learning to distinguish the relevant entities, rendering the use of heuristics superfluous.

Bien que les expressions rationnelles et les heuristiques puissent théoriquement être appliquées pour identifier ces entités simples, j'anticipais que cette approche serait peu pratique, car elle nécessiterait des règles trop complexes pour identifier précisément les entités correctes parmi d'autres candidats potentiels (par exemple, le nom de l'avocat, le numéro de dossier, d'autres participants à la procédure). En revanche, le modèle est capable d’apprendre à distinguer les entités pertinentes, rendant superflu le recours à l’heuristique.

Clause de non-responsabilité:info@kdj.com

Les informations fournies ne constituent pas des conseils commerciaux. kdj.com n’assume aucune responsabilité pour les investissements effectués sur la base des informations fournies dans cet article. Les crypto-monnaies sont très volatiles et il est fortement recommandé d’investir avec prudence après une recherche approfondie！

Si vous pensez que le contenu utilisé sur ce site Web porte atteinte à vos droits d’auteur, veuillez nous contacter immédiatement (info@kdj.com) et nous le supprimerons dans les plus brefs délais.

Autres articles publiés sur Apr 03, 2025

Plus