Apache OpenNLP
Den här artikeln kan behöva språkvård eller korrekturläsning. (2025-01) Motivering: Artikeln innehåller bitvis många engelska termer, finns det inga motsvarande svenska begrepp att använda i stället? Hjälp gärna Wikipedia med att förbättra språket i texten eller diskutera saken på diskussionssidan. |
Den här artikeln behöver fler eller bättre källhänvisningar för att kunna verifieras. Motivering: Alla referenser som används nu verkar vara från bolaget självt, finns ingen oberoende källa? (2025-01) Åtgärda genom att lägga till pålitliga källor (gärna som fotnoter). Uppgifter utan källhänvisning kan ifrågasättas och tas bort utan att det behöver diskuteras på diskussionssidan. |
Apache OpenNLP | |
![]() | |
Utvecklare | The Apache Software Foundation |
---|---|
Senaste utgåva | 2.5.4 (16 april 2025) |
Skriven i | Java (programmeringsspråk) |
Operativsystem | multiplattform |
Typ | Naturlig språkbehandling |
Licens | Apache Software License |
Webbplats | https://opennlp.apache.org/ |
Apache OpenNLP är en verktygslåda som utnyttjar maskininlärning för naturligt språk behandling (NLP). Den stöder de vanligaste uppgifterna inom NLP, till exempel språkdetektering, tokenisering, meningssegmentering, part-of-speech labelling, named entity extraction, chunking, parsing och coreference resolution. Dessa typer av uppgifter behövs vanligtvis för att utveckla mer avancerade textbehandlingstjänster.[1]
Biblioteket är skrivet i Java och kan enkelt integreras i Java-projekt eller projekt som använder Java Virtual Machine (JVM)[2].
De medföljande komponenterna möjliggör utförandet av respektive språkbehandlingsuppgift, träning och ofta utvärdering av en modell. Var och en av dessa komponenter kan nås via applikationsprogrammets anslutning (API).[3][4] Dessutom kan de alla nås via kommandoradsgränssnittet (CLI) för att underlätta experiment och utbildning.[5]
Detaljer
[redigera | redigera wikitext]- Språkidentifiering: "LanguageDetector" kräver en tränad modell. OpenNLP själv erbjuder den fullt utbildade modellen langdetect-183.bin som en nedladdning. Denna kan identifiera 103 språk.[6].
- Meningsigenkänning: "SentenceDetector" känner igen om en punkt markerar slutet på en mening eller om den har en annan betydelse. Här krävs återigen specifikationen av en utbildad mall. OpenNLP tillhandahåller mallar för olika språk, t.ex. opennlp-sv-ud-talbanken-sentence-1.2-2.5.0.bin för igenkänning av meningar i svenska texter.[7]
- Tokenisering: tokenizer delar upp en teckensträng i tokens. Tokens är vanligtvis ord, skiljetecken, siffror etc.
- Part-of-speech labelling: OpenNLP har ett urval av förutbildade mallar för 32 språk (tyska, engelska, spanska, portugisiska, danska etc.). Dessa mallar kan användas för att automatiskt märka en textkorpus på ett av dessa språk.[8]
- Extrahering av namngivna enheter: "TokenNameFinder" kan känna igen namngivna enheter och siffror i text. En mall krävs för att känna igen enheter. Modellen beror på språket och vilken typ av entitet den är tränad för. OpenNLP-projektet erbjuder en rad olika förtränade modeller som har tränats på olika fritt tillgängliga korpusar. De kan laddas ner från sidan för nedladdning av mallar.
Källor
[redigera | redigera wikitext]- ^ ”Natural language processing with Apache OpenNLP” (på amerikansk engelska). https://www.infoworld.com/article/3675893/natural-language-processing-with-apache-opennlp.html. Läst 10 januari 2025.
- ^ ”Apache OpenNLP - Building from Source” (på amerikansk engelska). https://opennlp.apache.org/building.html. Läst 5 januari 2025.
- ^ Hombergs, Tom (30 augusti 2024). ”Intro till Apache OpenNLP - Baeldung” (på amerikansk engelska). https://www.baeldung.com/apache-open-nlp. Läst 10 januari 2025.
- ^ Sakar, Mani (3 december 2019). ”Exploring NLP concepts using Apache OpenNLP inside a Java-enabled Jupyter notebook” (på amerikansk engelska). https://towardsdatascience.com/exploring-nlp-concepts-using-apache-opennlp-inside-a-jupyter-notebook-e53489ba2bd8. Läst 5 januari 2025.
- ^ ”How to use command line tools in Apache OpenNLP?” (på amerikansk engelska). 3 december 2019. https://www.tutorialkart.com/opennlp/use-command-line-tools-in-apache-opennlp/. Läst 10 januari 2025.
- ^ ”Apache OpenNLP - Language Detection Model” (på amerikansk engelska). https://opennlp.apache.org/models.html#language_detection. Läst 5 januari 2025.
- ^ ”Apache OpenNLP - Sentence Detection Models” (på amerikansk engelska). https://opennlp.apache.org/models.html#sentence_detection. Läst 5 januari 2025.
- ^ ”Apache Stanbol - OpenNLP POS Tagging Engine” (på amerikansk engelska). https://stanbol.apache.org/docs/trunk/components/enhancer/engines/opennlppos.html. Läst 5 januari 2025.