$87959.907984 USD

1.34%

ethereum

$2920.497338 USD

3.04%

tether

$0.999775 USD

0.00%

xrp

$2.237324 USD

8.12%

bnb

$860.243768 USD

0.90%

solana

$138.089498 USD

5.43%

usd-coin

$0.999807 USD

0.01%

tron

$0.272801 USD

-1.53%

dogecoin

$0.150904 USD

2.96%

cardano

$0.421635 USD

1.97%

hyperliquid

$32.152445 USD

2.23%

bitcoin-cash

$533.301069 USD

-1.94%

chainlink

$12.953417 USD

2.68%

unus-sed-leo

$9.535951 USD

0.73%

zcash

$521.483386 USD

-2.87%

Nachrichtenartikel zu Kryptowährungen

Identifizieren des mit einem Rechtsdokument verbundenen Kunden

Nov 19, 2024 at 05:02 am

Das Hauptziel bestand darin, den/die mit jedem Dokument verbundenen Kunden anhand einer der folgenden Kennungen zu identifizieren:

The goal was to extract client names from legal documents using Named Entity Recognition (NER). Here's how I approached the task:

Ziel war es, mithilfe der Named Entity Recognition (NER) Mandantennamen aus juristischen Dokumenten zu extrahieren. So bin ich an die Aufgabe herangegangen:

Data: I had a collection of legal documents in PDF format. The task was to identify the clients mentioned in each document using one of the following identifiers:

Daten: Ich hatte eine Sammlung juristischer Dokumente im PDF-Format. Die Aufgabe bestand darin, die in jedem Dokument genannten Kunden anhand einer der folgenden Kennungen zu identifizieren:

Approximate client name (e.g., "John Doe")

Ungefährer Name des Kunden (z. B. „John Doe“)

Precise client name (e.e., "Doe, John A.")

Präziser Kundenname (ee, „Doe, John A.“)

Approximate firm name (e.g., "Doe Law Firm")

Ungefährer Firmenname (z. B. „Doe Law Firm“)

Precise firm name (e.g., "Doe, John A. Law Firm")

Präziser Firmenname (z. B. „Doe, John A. Law Firm“)

About 5% of the documents didn't include any identifying entities.

Etwa 5 % der Dokumente enthielten keine identifizierenden Personen.

Dataset: For developing the model, I used 710 "true" PDF documents, which were split into three sets: 600 for training, 55 for validation, and 55 for testing.

Datensatz: Für die Entwicklung des Modells habe ich 710 „echte“ PDF-Dokumente verwendet, die in drei Sätze aufgeteilt wurden: 600 für das Training, 55 für die Validierung und 55 für Tests.

Labels: I was given an Excel file with entities extracted as plain text, which needed to be manually labeled in the document text. Using the BIO tagging format, I performed the following steps:

Beschriftungen: Ich erhielt eine Excel-Datei mit als Klartext extrahierten Entitäten, die manuell im Dokumenttext beschriftet werden mussten. Unter Verwendung des BIO-Tagging-Formats habe ich die folgenden Schritte ausgeführt:

Mark the beginning of an entity with "B-".

Markieren Sie den Anfang einer Entität mit „B-“.

Continue marking subsequent tokens within the same entity with "I-".

Markieren Sie nachfolgende Token innerhalb derselben Entität weiterhin mit „I-“.

If a token doesn't belong to any entity, mark it as "O".

Wenn ein Token zu keiner Entität gehört, markieren Sie es als „O“.

Alternative Approach: Models like LayoutLM, which also consider bounding boxes for input tokens, could potentially enhance the performance of the NER task. However, I opted not to use this approach because, as is often the case, I had already spent the majority of the project time on preparing the data (e.g., reformatting Excel files, correcting data errors, labeling). To integrate bounding box-based models, I would have needed to allocate even more time.

Alternativer Ansatz: Modelle wie LayoutLM, die auch Begrenzungsrahmen für Eingabetokens berücksichtigen, könnten möglicherweise die Leistung der NER-Aufgabe verbessern. Ich habe mich jedoch gegen diesen Ansatz entschieden, da ich, wie so oft, bereits den Großteil der Projektzeit mit der Aufbereitung der Daten verbracht hatte (z. B. Excel-Dateien neu formatieren, Datenfehler korrigieren, Beschriftung). Um Bounding-Box-basierte Modelle zu integrieren, hätte ich noch mehr Zeit einplanen müssen.

While regex and heuristics could theoretically be applied to identify these simple entities, I anticipated that this approach would be impractical, as it would necessitate overly complex rules to precisely identify the correct entities among other potential candidates (e.g., lawyer name, case number, other participants in the proceedings). In contrast, the model is capable of learning to distinguish the relevant entities, rendering the use of heuristics superfluous.

Während Regex und Heuristik theoretisch zur Identifizierung dieser einfachen Entitäten eingesetzt werden könnten, ging ich davon aus, dass dieser Ansatz unpraktisch wäre, da übermäßig komplexe Regeln erforderlich wären, um die richtigen Entitäten unter anderen potenziellen Kandidaten (z. B. Name des Anwalts, Fallnummer usw.) genau zu identifizieren Teilnehmer des Verfahrens). Im Gegensatz dazu kann das Modell lernen, die relevanten Entitäten zu unterscheiden, wodurch der Einsatz von Heuristiken überflüssig wird.

Originalquelle：towardsdatascience

Haftungsausschluss:info@kdj.com

Die bereitgestellten Informationen stellen keine Handelsberatung dar. kdj.com übernimmt keine Verantwortung für Investitionen, die auf der Grundlage der in diesem Artikel bereitgestellten Informationen getätigt werden. Kryptowährungen sind sehr volatil und es wird dringend empfohlen, nach gründlicher Recherche mit Vorsicht zu investieren！

Wenn Sie glauben, dass der auf dieser Website verwendete Inhalt Ihr Urheberrecht verletzt, kontaktieren Sie uns bitte umgehend (info@kdj.com) und wir werden ihn umgehend löschen.

Weitere Artikel veröffentlicht am Jun 12, 2026

Mehr