Trekke ut informasjon fra tekst i python

stemmer
-1

Jeg er ny på teksten gruvedrift. Jeg har en CSV-fil. Jeg trenger å gå gjennom hver linje og trekke ut litt informasjon og deretter skrive dem inn i en annen CSV-fil. Jeg leter etter spesifikk informasjon som jeg har i en ordbok. Tenk nedenfor setning:

Programversjon er 1.8.2 og den variable skt.len passerer den nødvendige informasjonen. Inngi ReadMe.txt har spesifikasjonene.

Min ordbok er: [ søknad versjon, variable, file]

Jeg trenger å trekke ut:

  • Programversjon: 1.8.2
  • variabel: skt.len
  • file: ReadMe.txt

Hva er den beste måten å hente ut slik informasjon fra tekst? Jeg spiller med NLTK og StanfordCoreNLP funksjoner. Men, jeg kunne ikke trekke ut informasjon ennå. Jeg tenker å bruke regex til å trekke søknaden versjon. Noen ide?

PS: Jeg vet at dette kan gjøre oppgaven mer komplisert. Men, kan setninger i hver linje i CSV-filen har ulike strukturer. For eksempel: program versjon på én linje, kan være app versjon i en annen tråd. Eller fil i en tråd kan være filnavn i en annen tråd.

Publisert på 02/09/2018 klokken 05:25
kilden bruker
På andre språk...                            


1 svar

stemmer
1

Jeg bruker r og under er en av veien (ikke den beste men bare for å vise hvordan det fungerer) til å trekke ut verdien av variabelen:

>> str_extract(text, '(?<=variable\\s)(\\w+)(.)?(\\w+)?')

her teksten er hele strengen som du har delt. Dette gir meg en utgang

>> skt.len

Jeg er sikker på at det finnes lignende funksjoner i Python for å få dette gjort, og får resultatet i ønsket format.

Svarte 04/09/2018 kl. 11:32
kilden bruker

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more