|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Nachrichtenartikel zu Kryptowährungen
Identifizieren des mit einem Rechtsdokument verbundenen Kunden
Nov 19, 2024 at 05:02 am
Das Hauptziel bestand darin, den/die mit jedem Dokument verbundenen Kunden anhand einer der folgenden Kennungen zu identifizieren:

The goal was to extract client names from legal documents using Named Entity Recognition (NER). Here's how I approached the task:
Ziel war es, mithilfe der Named Entity Recognition (NER) Mandantennamen aus juristischen Dokumenten zu extrahieren. So bin ich an die Aufgabe herangegangen:
Data: I had a collection of legal documents in PDF format. The task was to identify the clients mentioned in each document using one of the following identifiers:
Daten: Ich hatte eine Sammlung juristischer Dokumente im PDF-Format. Die Aufgabe bestand darin, die in jedem Dokument genannten Kunden anhand einer der folgenden Kennungen zu identifizieren:
Approximate client name (e.g., "John Doe")
Ungefährer Name des Kunden (z. B. „John Doe“)
Precise client name (e.e., "Doe, John A.")
Präziser Kundenname (ee, „Doe, John A.“)
Approximate firm name (e.g., "Doe Law Firm")
Ungefährer Firmenname (z. B. „Doe Law Firm“)
Precise firm name (e.g., "Doe, John A. Law Firm")
Präziser Firmenname (z. B. „Doe, John A. Law Firm“)
About 5% of the documents didn't include any identifying entities.
Etwa 5 % der Dokumente enthielten keine identifizierenden Personen.
Dataset: For developing the model, I used 710 "true" PDF documents, which were split into three sets: 600 for training, 55 for validation, and 55 for testing.
Datensatz: Für die Entwicklung des Modells habe ich 710 „echte“ PDF-Dokumente verwendet, die in drei Sätze aufgeteilt wurden: 600 für das Training, 55 für die Validierung und 55 für Tests.
Labels: I was given an Excel file with entities extracted as plain text, which needed to be manually labeled in the document text. Using the BIO tagging format, I performed the following steps:
Beschriftungen: Ich erhielt eine Excel-Datei mit als Klartext extrahierten Entitäten, die manuell im Dokumenttext beschriftet werden mussten. Unter Verwendung des BIO-Tagging-Formats habe ich die folgenden Schritte ausgeführt:
Mark the beginning of an entity with "B-
Markieren Sie den Anfang einer Entität mit „B-“.
Continue marking subsequent tokens within the same entity with "I-
Markieren Sie nachfolgende Token innerhalb derselben Entität weiterhin mit „I-“.
If a token doesn't belong to any entity, mark it as "O".
Wenn ein Token zu keiner Entität gehört, markieren Sie es als „O“.
Alternative Approach: Models like LayoutLM, which also consider bounding boxes for input tokens, could potentially enhance the performance of the NER task. However, I opted not to use this approach because, as is often the case, I had already spent the majority of the project time on preparing the data (e.g., reformatting Excel files, correcting data errors, labeling). To integrate bounding box-based models, I would have needed to allocate even more time.
Alternativer Ansatz: Modelle wie LayoutLM, die auch Begrenzungsrahmen für Eingabetokens berücksichtigen, könnten möglicherweise die Leistung der NER-Aufgabe verbessern. Ich habe mich jedoch gegen diesen Ansatz entschieden, da ich, wie so oft, bereits den Großteil der Projektzeit mit der Aufbereitung der Daten verbracht hatte (z. B. Excel-Dateien neu formatieren, Datenfehler korrigieren, Beschriftung). Um Bounding-Box-basierte Modelle zu integrieren, hätte ich noch mehr Zeit einplanen müssen.
While regex and heuristics could theoretically be applied to identify these simple entities, I anticipated that this approach would be impractical, as it would necessitate overly complex rules to precisely identify the correct entities among other potential candidates (e.g., lawyer name, case number, other participants in the proceedings). In contrast, the model is capable of learning to distinguish the relevant entities, rendering the use of heuristics superfluous.
Während Regex und Heuristik theoretisch zur Identifizierung dieser einfachen Entitäten eingesetzt werden könnten, ging ich davon aus, dass dieser Ansatz unpraktisch wäre, da übermäßig komplexe Regeln erforderlich wären, um die richtigen Entitäten unter anderen potenziellen Kandidaten (z. B. Name des Anwalts, Fallnummer usw.) genau zu identifizieren Teilnehmer des Verfahrens). Im Gegensatz dazu kann das Modell lernen, die relevanten Entitäten zu unterscheiden, wodurch der Einsatz von Heuristiken überflüssig wird.
Haftungsausschluss:info@kdj.com
Die bereitgestellten Informationen stellen keine Handelsberatung dar. kdj.com übernimmt keine Verantwortung für Investitionen, die auf der Grundlage der in diesem Artikel bereitgestellten Informationen getätigt werden. Kryptowährungen sind sehr volatil und es wird dringend empfohlen, nach gründlicher Recherche mit Vorsicht zu investieren!
Wenn Sie glauben, dass der auf dieser Website verwendete Inhalt Ihr Urheberrecht verletzt, kontaktieren Sie uns bitte umgehend (info@kdj.com) und wir werden ihn umgehend löschen.
-
-
- Konsens 2026 Miami: Web3, Blockchain, Kryptowährung, NFTs, Metaverse, Konferenz, 5. Mai – Wo die Wall Street auf die digitale Grenze trifft
- May 01, 2026 at 11:27 pm
- In Miami herrscht Aufregung, während sich am 5. Mai der Konsens 2026 nähert, der Web3, Blockchain, Krypto, NFTs und den Wandel des Metaversums vom Hype zur institutionellen und nachhaltigen Realität hervorhebt.
-
- Die Fed hält die Zinsen stabil, was inmitten geopolitischer Spannungen einen Bitcoin-Preisverfall auslöst
- May 01, 2026 at 04:04 am
- Die Entscheidung der Federal Reserve, die Zinssätze beizubehalten, wirkt sich in Verbindung mit dem Nahostkonflikt auf den Preis von Bitcoin aus. Analyse aktueller Trends und Marktreaktionen.
-
- Bitcoin-Miner elektrifizieren das Netz: Der Erwerb eines Gaskraftwerks in Ohio läutet eine neue Ära für digitales Gold ein
- Apr 30, 2026 at 10:38 pm
- Die Bitcoin-Mining-Branche befindet sich in einem erheblichen Wandel, wobei große Akteure ihre Aktivitäten aggressiv ausweiten und strategisch Energieanlagen wie Gaskraftwerke in Ohio erwerben, um ihre Zukunft in der digitalen Wirtschaft zu festigen.
-
- Der MEGA-Token von MegaETH erreicht den Big Apple: Er setzt neue Leistungsmaßstäbe für Echtzeit-Blockchain
- Apr 30, 2026 at 09:11 pm
- Der MEGA-Token von MegaETH wurde offiziell eingeführt und bestätigt seine „Echtzeit“-Blockchain-Vision mit einem leistungsorientierten Verteilungsmodell und einer schnellen USDM-Stablecoin-Einführung.
-
- Solanas rutschiger Abhang: Die Preisprognose deutet auf einen Widerstandsverlust und mögliche weitere Rückgänge hin
- Apr 30, 2026 at 09:08 pm
- Solana kämpft darum, wichtige Widerstände zu durchbrechen, was auf einen möglichen Abwärtstrend hindeutet. Wiederholte Ablehnungen bei 86 bis 88 US-Dollar, gepaart mit einem unterbrochenen kurzfristigen Muster, deuten auf Ziele von nur 67 US-Dollar oder sogar 40 US-Dollar hin, da die Verkäufer die Kontrolle behalten. Anleger sollten die kritischen Unterstützungsniveaus genau beobachten.
-
- BTC, Öl, Gewinne: Geopolitik treibt Rohöl an, Kryptos rutschen ab, Triumphe und Prüfungen der Technologie
- Apr 30, 2026 at 04:51 pm
- Die globalen Märkte sind ein Wirbelsturm: BTC sinkt, während der Ölpreis aufgrund geopolitischer Spannungen Mehrjahreshöchststände erreicht, während Technologiegiganten gemischte Gewinne verbuchen, was ein Zeichen für eine komplexe Finanzlandschaft ist.
-
- New York Citys neuer Trend: Abstecksysteme, USD1 und Governance treiben die nächste Welle von Krypto voran
- Apr 30, 2026 at 03:02 pm
- Von lukrativen 1-Dollar-Verdienstveranstaltungen bis hin zu robusten Governance-Modellen wimmelt es im Kryptobereich von Innovationen, die die Art und Weise, wie wir mit digitalen Vermögenswerten umgehen, neu gestalten und sich dabei auf langfristiges Engagement und den Nutzen stabiler Münzen konzentrieren.
-
- OKX stellt Agent Payments Protocol vor: läutet eine neue Ära der KI-Transaktionen ein
- Apr 30, 2026 at 02:53 pm
- OKX führt sein Agent Payments Protocol (APP) ein, einen offenen Standard für KI-gesteuerten Handel, der es Agenten ermöglicht, komplette Geschäftszyklen zu verwalten. Entdecken Sie die Auswirkungen auf KI-Transaktionen und Agentenzahlungen.

































