|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Articles d’actualité sur les crypto-monnaies
Identifier le client associé à un document juridique
Nov 19, 2024 at 05:02 am
L’objectif principal était d’identifier le(s) client(s) associé(s) à chaque document grâce à l’un des identifiants suivants :
The goal was to extract client names from legal documents using Named Entity Recognition (NER). Here's how I approached the task:
L'objectif était d'extraire les noms des clients des documents juridiques à l'aide de la reconnaissance d'entités nommées (NER). Voici comment j'ai abordé la tâche :
Data: I had a collection of legal documents in PDF format. The task was to identify the clients mentioned in each document using one of the following identifiers:
Données : J'avais une collection de documents juridiques au format PDF. La tâche consistait à identifier les clients mentionnés dans chaque document à l'aide de l'un des identifiants suivants :
Approximate client name (e.g., "John Doe")
Nom approximatif du client (par exemple, « John Doe »)
Precise client name (e.e., "Doe, John A.")
Nom précis du client (ee, « Doe, John A. »)
Approximate firm name (e.g., "Doe Law Firm")
Nom approximatif du cabinet (par exemple, « Doe Law Firm »)
Precise firm name (e.g., "Doe, John A. Law Firm")
Nom précis du cabinet (par exemple, « Doe, John A. Law Firm »)
About 5% of the documents didn't include any identifying entities.
Environ 5 % des documents ne comportaient aucune entité permettant d'identifier les personnes.
Dataset: For developing the model, I used 710 "true" PDF documents, which were split into three sets: 600 for training, 55 for validation, and 55 for testing.
Ensemble de données : Pour développer le modèle, j'ai utilisé 710 « vrais » documents PDF, qui ont été divisés en trois ensembles : 600 pour la formation, 55 pour la validation et 55 pour les tests.
Labels: I was given an Excel file with entities extracted as plain text, which needed to be manually labeled in the document text. Using the BIO tagging format, I performed the following steps:
Étiquettes : j'ai reçu un fichier Excel avec des entités extraites sous forme de texte brut, qui devaient être étiquetées manuellement dans le texte du document. En utilisant le format de balisage BIO, j'ai effectué les étapes suivantes :
Mark the beginning of an entity with "B-
Marquez le début d'une entité avec "B-".
Continue marking subsequent tokens within the same entity with "I-
Continuez à marquer les jetons suivants au sein de la même entité avec "I-".
If a token doesn't belong to any entity, mark it as "O".
Si un jeton n'appartient à aucune entité, marquez-le comme "O".
Alternative Approach: Models like LayoutLM, which also consider bounding boxes for input tokens, could potentially enhance the performance of the NER task. However, I opted not to use this approach because, as is often the case, I had already spent the majority of the project time on preparing the data (e.g., reformatting Excel files, correcting data errors, labeling). To integrate bounding box-based models, I would have needed to allocate even more time.
Approche alternative : des modèles tels que LayoutLM, qui prennent également en compte les cadres de délimitation pour les jetons d'entrée, pourraient potentiellement améliorer les performances de la tâche NER. Cependant, j'ai choisi de ne pas utiliser cette approche car, comme c'est souvent le cas, j'avais déjà consacré la majorité du temps du projet à préparer les données (par exemple, reformater les fichiers Excel, corriger les erreurs de données, étiqueter). Pour intégrer des modèles basés sur des boîtes englobantes, j'aurais dû y consacrer encore plus de temps.
While regex and heuristics could theoretically be applied to identify these simple entities, I anticipated that this approach would be impractical, as it would necessitate overly complex rules to precisely identify the correct entities among other potential candidates (e.g., lawyer name, case number, other participants in the proceedings). In contrast, the model is capable of learning to distinguish the relevant entities, rendering the use of heuristics superfluous.
Bien que les expressions rationnelles et les heuristiques puissent théoriquement être appliquées pour identifier ces entités simples, j'anticipais que cette approche serait peu pratique, car elle nécessiterait des règles trop complexes pour identifier précisément les entités correctes parmi d'autres candidats potentiels (par exemple, le nom de l'avocat, le numéro de dossier, d'autres participants à la procédure). En revanche, le modèle est capable d’apprendre à distinguer les entités pertinentes, rendant superflu le recours à l’heuristique.
Clause de non-responsabilité:info@kdj.com
Les informations fournies ne constituent pas des conseils commerciaux. kdj.com n’assume aucune responsabilité pour les investissements effectués sur la base des informations fournies dans cet article. Les crypto-monnaies sont très volatiles et il est fortement recommandé d’investir avec prudence après une recherche approfondie!
Si vous pensez que le contenu utilisé sur ce site Web porte atteinte à vos droits d’auteur, veuillez nous contacter immédiatement (info@kdj.com) et nous le supprimerons dans les plus brefs délais.
-
- Bitcoin (BTC) entre dans une phase sans précédent alors que les réserves de change atteignent des plus bas historiques et que les avoirs de MicroStrategy grimpent à 331,2 000
- Nov 19, 2024 at 09:26 am
- L'animateur de CryptosRus, George Tung, a récemment souligné la convergence de développements révolutionnaires, notamment les candidats à la présidentielle discutant du bitcoin et de son adoption comme actif de réserve stratégique.
-
- Rexas Finance (RXS) – Un projet DeFi basé sur Ethereum avec un rendement potentiel de 18 777 % qui pourrait surpasser Cardano (ADA)
- Nov 19, 2024 at 09:15 am
- Avec une forte tendance à la hausse au cours des derniers mois, Cardano (ADA) est devenu plutôt populaire sur le marché de la cryptographie. Poussées par un mélange de développement de base et de nouvel intérêt des investisseurs, ces augmentations exceptionnelles indiquent que Cardano s'approche d'une poussée parabolique. Mais même Cardano se prépare pour une belle course, un projet DeFi basé sur Ethereum appelé Rexas Finance (RXS) pourrait monter sur scène avec un rendement prévu de 18 777 % dans les prochaines semaines.
-
- MicroStrategy va lever 1,75 milliard de dollars auprès de billets convertibles de premier rang sans intérêt pour acheter plus de Bitcoin
- Nov 19, 2024 at 09:11 am
- MicroStrategy, la plus grande entreprise détentrice de Bitcoin, s'apprête à lever 1,75 milliard de dollars pour acheter davantage de Bitcoin sous forme de billets convertibles de premier rang à un taux d'intérêt de 0 %.
-
- Les géants de Wall Street, dont Vanguard et Morgan Stanley, font le plein d'actions MicroStrategy (MSTR) alors que Bitcoin (BTC) monte en flèche
- Nov 19, 2024 at 09:11 am
- La société de veille économique MicroStrategy était considérée comme une sorte de proxy Bitcoin depuis qu’elle est devenue la principale entreprise détentrice de Bitcoin en août 2020.
-
- Les mineurs de Bitcoin et les détenteurs à long terme se préparent à la correction du marché alors que Bitcoin entre dans la zone de « cupidité extrême »
- Nov 19, 2024 at 09:11 am
- Bitcoin est récemment entré dans ce que beaucoup appellent la zone « Extreme Greed », comme l’observe l’indice de peur et de cupidité.
-
- Le jeton SUI vise la barre des 4 $ alors que le fondateur de Cardano, Charles Hoskinson, applaudit les innovations du réseau
- Nov 19, 2024 at 08:40 am
- Le jeton natif de la blockchain de couche 1, Sui, a connu une course parabolique tout au long du mois, abandonnant sa sous-performance de plusieurs mois pour de nouveaux gains.
-
- Paul Tudor Jones étend son pari Bitcoin, ce qui en fait la troisième plus grande position hors options de son portefeuille
- Nov 19, 2024 at 08:40 am
- Le gestionnaire de fonds spéculatifs milliardaire Paul Tudor Jones a considérablement élargi sa participation dans les instruments financiers liés au Bitcoin BTC/USD, soulignant sa confiance continue dans le potentiel de la crypto-monnaie.