(.+?)<', line)) != 0
+ and re.findall('(.+?)<', line)[0] in to_comment_out
+ else line for line in lines]
+ with codecs.open(bidix + '.new', 'w', 'utf-8') as new_file:
+ for line in new_lines:
+ new_file.write(line)
+
+commenting_out('../apertium-pol-rus.pol-rus.dix', ['ktokolwiek'])
\ No newline at end of file
Index: incubator/apertium-pol-rus/dev/finding_repetitions.py
===================================================================
--- incubator/apertium-pol-rus/dev/finding_repetitions.py (nonexistent)
+++ incubator/apertium-pol-rus/dev/finding_repetitions.py (revision 71014)
@@ -0,0 +1,9 @@
+import codecs
+
+f = codecs.open('nouns2dictionary_07.07.xml', 'r', 'utf-8')
+lines = f.readlines()
+
+for i in range(len(lines)):
+ for j in range(len(lines)):
+ if lines[i] == lines[j] and i != j and '<' in lines[i]:
+ print(str(i) + ', ' + str(j) + ':\n' + lines[i])
Index: incubator/apertium-pol-rus/dev/not_in_bidix.py
===================================================================
--- incubator/apertium-pol-rus/dev/not_in_bidix.py (nonexistent)
+++ incubator/apertium-pol-rus/dev/not_in_bidix.py (revision 71014)
@@ -0,0 +1,18 @@
+import codecs
+
+wordclass = {'dotopić', 'odstąpić', 'podławić', 'strupić', 'zagrabić', 'odgrzybić', 'przygarbić', 'odkarmić', 'zniecierpliwić', 'okrzewić', 'pokupić', 'oszołomić', 'obrąbić', 'ukrwawić', 'zglebić', 'otrupić', 'rozziewić', 'nałupić', 'potłumić', 'zaplamić', 'wykoślawić', 'wykrwawić', 'nadymić', 'obłatwić', 'pogrubić', 'usklepić', 'rozjawić', 'wytrawić', 'wymartwić', 'zakrwawić', 'zatrąbić', 'rozsępić', 'rozbarwić', 'pokwapić', 'uskąpić', 'pochlebić', 'znieprawić', 'zabarwić', 'zagapić', 'przeżywić', 'rozmdławić', 'zadawić', 'ułatwić', 'dotrawić', 'zadymić', 'włupić', 'oblepić', 'zgłupić', 'utrapić', 'skarmić', 'odkropić', 'skoszlawić', 'zgarbić', 'rozstrzępić', 'skulawić', 'schłopić', 'poślubić', 'wtopić', 'dobarwić', 'oniemić', 'wykarmić', 'oźrebić', 'stopić', 'poskromić', 'oczepić', 'dograbić', 'zadławić', 'zakwefić', 'pokoślawić', 'przewabić', 'nalepić', 'załomić', 'rozstąpić', 'wprawić', 'rozczepić', 'otrzebić', 'zaciekawić', 'odplamić', 'obznajomić', 'wygurbić', 'rozłzawić', 'wyślepić', 'utrefić', 'rozszczepić', 'zakatrupić', 'wysławić', 'zdumić', 'zatrapić', 'wystawić', 'wyczubić', 'zasyfić', 'pomówić', 'złzawić', 'oprawić', 'uprawić', 'zaplugawić', 'zagubić', 'zwątpić', 'przytłumić', 'nagubić', 'strąbić', 'wykoszlawić', 'poszczerbić', 'dolepić', 'uszczerbić', 'ukrzepić', 'uwrażliwić', 'otropić', 'objawić', 'uwiadomić', 'naczubić', 'odmówić', 'rozchamić', 'wyłzawić', 'przełzawić', 'rozznajomić', 'przypławić', 'zgrabić', 'upieszczotliwić', 'zaszybić', 'umówić', 'nakarmić', 'wściubić', 'unieszczęśliwić', 'odwszawić', 'osępić', 'przebawić', 'zniesławić', 'złakomić', 'naprawić', 'ogłupić', 'odszczepić', 'wścibić', 'wytrapić', 'zolbrzymić', 'wysklepić', 'skędzierzawić', 'ostawić', 'wykatrupić', 'skrzepić', 'poprawić', 'rozgrabić', 'oszwabić', 'roześpiewić', 'przydupić', 'przeplewić', 'roztopić', 'wykropić', 'naczepić', 'zaczepić', 'wygrabić', 'zestawić', 'wykorbić', 'przebarwić', 'wyskorupić', 'ubawić', 'ukropić', 'posępić', 'wygarbić', 'wyplewić', 'uniemożliwić', 'olepić', 'zaszumić', 'wymamić', 'ugrabić', 'obsłupić', 'przetropić', 'rozleniwić', 'otorbić', 'podwabić', 'zadzierżawić', 'odbarwić', 'przywabić', 'umożliwić', 'zlepić', 'zaskarbić', 'obabić', 'zmówić', 'splamić', 'ubarwić', 'nadszczerbić', 'rozdziewić', 'ukarmić', 'udupić', 'utrafić', 'obmówić', 'zadziwić', 'powabić', 'zmamić', 'obstąpić', 'wyolbrzymić', 'złatwić', 'rozplemić', 'wdławić', 'dokarmić', 'ordzawić', 'nadstawić', 'zaszczepić', 'utożsamić', 'zadumić', 'nakrzywić', 'zacapić', 'wytopić', 'ukatrupić', 'przyprawić', 'zamówić', 'przetrawić', 'przeprawić', 'wyprawić', 'nabawić', 'przetopić', 'wymówić', 'podlepić', 'zakarmić', 'obczepić', 'zaprawić', 'złupić', 'odrybić', 'wyrdzawić', 'przykupić', 'przydymić', 'skrzywić', 'przesklepić', 'podkarmić', 'zgapić', 'przegapić', 'natopić', 'nakropić', 'odoliwić', 'ulubić', 'pogromić', 'odtrąbić', 'wywabić', 'okwefić', 'zakrzepić', 'przeciwstawić', 'odrzewić', 'odżywić', 'rozckliwić', 'wyrzepić', 'naszczepić', 'rozlepić', 'trafić', 'przekropić', 'obkarmić', 'zestrzępić', 'wybarwić', 'nasępić', 'podczepić', 'postawić', 'ukwefić', 'uświadomić', 'uniewątpliwić', 'zatłumić', 'popławić', 'odsklepić', 'przekupić', 'osławić', 'przyczepić', 'załzawić', 'doczepić', 'zamgławić', 'wykupić', 'zaniwić', 'zakupić', 'rozdziawić', 'wytrzebić', 'ograbić', 'rozciekawić', 'udławić', 'przestawić', 'wyścibić', 'ułaskawić', 'roztrąbić', 'okulawić', 'zostawić', 'dożywić', 'sczepić', 'używić', 'ujedwabić', 'zesłupić', 'pokropić', 'zakopić', 'rozbabić', 'zmartwić', 'skropić', 'usprawiedliwić', 'odymić', 'podsiwić', 'poskąpić', 'wytłumić', 'polepić', 'obkupić', 'wyczepić', 'wkropić', 'ustawić', 'ołupić', 'unieszkodliwić', 'rozchciwić', 'ulepić', 'polubić', 'osiwić', 'ułapić', 'poszkapić', 'zakantopić', 'pokrzepić', 'zszczerbić', 'omówić', 'wtrąbić', 'rozkupić', 'wrzepić', 'obłapić', 'przekrzywić', 'ukędzierzawić', 'wyplamić', 'pobłogosławić', 'przydławić', 'nastawić', 'oddymić', 'poplamić', 'załupić', 'wykrzywić', 'rozkrwawić', 'domówić', 'pozostawić', 'pomartwić', 'wybawić', 'wsłupić', 'przylepić', 'przycupić', 'oświadomić', 'pożywić', 'wgapić', 'rozbawić', 'zaskorupić', 'wtrawić', 'zstrzępić', 'wystrzępić', 'zalepić', 'wygromić', 'nadtopić', 'odgromić', 'ujaskrawić', 'rozstawić', 'wyżywić', 'podżywić', 'odlepić', 'rozżywić', 'wytropić', 'nadtrawić', 'przyhołubić', 'zacietrzewić', 'pobawić', 'strefić', 'namartwić', 'odtopić', 'pograbić', 'strawić', 'przyłomić', 'rozkrzewić', 'odchamić', 'wszczepić', 'ogumić', 'uskorupić', 'zakorbić', 'nagrabić', 'pozbawić', 'uwidomić', 'ucapić', 'przeoliwić', 'otrąbić', 'ochłopić', 'zgrubić', 'zwabić', 'przetrzebić', 'prześlepić', 'rozpławić', 'odszumić', 'wskarbić', 'zastąpić', 'dotropić', 'odrdzewić', 'podmówić', 'osłupić', 'poczepić', 'umartwić', 'wykursywić', 'powiadomić', 'wczepić', 'okarmić', 'utopić', 'okrwawić', 'ostąpić', 'wydzierżawić', 'przytępić', 'naoliwić', 'oplamić', 'zasępić', 'obsprawić', 'pogurbić', 'uszczęśliwić', 'połupić', 'przedziurawić', 'przekarmić', 'odwabić', 'odplewić', 'omamić', 'skoślawić', 'stępić', 'wmówić', 'zatorfić', 'odprawić', 'udawić', 'rozsiąpić', 'zagrzybić', 'wypławić', 'oślepić', 'zabawić', 'zadrzewić', 'przycapić', 'otrawić', 'ześcibić', 'ustąpić', 'zagrypić', 'podstawić', 'podprawić', 'ożywić', 'poddzierżawić', 'pokrzywić', 'dodrzewić', 'zasklepić', 'zardzawić', 'zastawić', 'wślepić', 'znielubić', 'odstawić', 'przeczepić', 'okropić', 'uwabić', 'pogubić', 'przykropić', 'pokoszlawić', 'wstawić', 'przestąpić', 'pogarbić', 'skwapić', 'wytrąbić', 'przeszczepić', 'obtopić', 'zeskorupić', 'okupić', 'zdławić', 'ołzawić', 'zeszkliwić', 'obłaskawić', 'wytępić', 'zbawić', 'okrzepić', 'podtopić', 'wygubić', 'znieruchomić', 'przejaskrawić', 'przystawić', 'osłabić', 'zgurbić', 'oplewić', 'wylepić', 'wyjawić', 'wsławić', 'doślepić', 'przejawić', 'sprawić', 'zawabić', 'natrapić', 'podkupić', 'nagromić', 'skrwawić', 'dostawić', 'oskorupić', 'postrzępić', 'zsiwić', 'rozsławić', 'zakrzewić', 'wlepić', 'przybarwić', 'obstawić', 'zakrzywić', 'wygapić', 'uskromić', 'obstrzępić', 'poszramić', 'potropić', 'namówić', 'przyskrzybić', 'skaprawić', 'zgubić', 'poznajomić', 'wyszczerbić', 'przyżywić', 'zarybić', 'wyhołubić', 'zaślubić', 'przepławić', 'zaskrzepić', 'unieruchomić', 'podbawić', 'obsyfić', 'przewrażliwić', 'zaciemić', 'spławić', 'potępić', 'zestrupić', 'przyłaskawić', 'ubłogosławić', 'wyściubić', 'wysępić', 'obłupić', 'dokupić', 'zaszołomić', 'uniewrażliwić', 'przerdzawić', 'zaznajomić', 'obramić', 'oszkapić', 'okłębić', 'zatopić', 'uherbić', 'nastrzępić', 'zalubić', 'pokarmić', 'zarobaczywić', 'utłumić', 'otępić', 'podbarwić', 'ogromić', 'uczepić', 'skupić', 'pokrwawić', 'przedstawić', 'wyskrzypić', 'narybić', 'chybić', 'zaoliwić', 'odkupić', 'obtropić', 'strapić', 'uskarbić', 'ujawić', 'stłumić', 'rozglifić', 'wydławić', 'rozłakomić', 'upupić', 'splugawić', 'wyłupić', 'oznajomić', 'zakropić', 'przekrwawić', 'przyziemić', 'przygubić', 'zjawić', 'załatwić', 'wyjaskrawić', 'zaślepić', 'przegrabić', 'potopić', 'rozełzawić', 'zmarnotrawić', 'zażywić', 'roztkliwić', 'rozgromić', 'uziemić', 'odczepić', 'zawszawić', 'uwłaściwić', 'nakupić', 'uruchomić', 'zesłabić', 'obtrąbić', 'zgromić', 'doprawić', 'wyrybić', 'zatępić', 'zdziwić', 'utrupić', 'roztrzebić', 'rozłupić', 'oszczerbić', 'ojedwabić', 'ugubić', 'podziurawić', 'ochromić', 'podtrawić', 'zawiadomić'}
+f = codecs.open('../apertium-pol-rus.pol-rus.dix', 'r', 'utf-8')
+bi = f.readlines()
+f.close()
+there = set()
+for word in wordclass:
+ for line in bi:
+ if word in line:
+ there.add(word)
+f2 = codecs.open('new.txt', 'w', 'utf-8')
+for el in wordclass.difference(there):
+ f2.write(el + '\n')
+
+f2.close()
+
+
Index: incubator/apertium-pol-rus/dev/translator.py
===================================================================
--- incubator/apertium-pol-rus/dev/translator.py (nonexistent)
+++ incubator/apertium-pol-rus/dev/translator.py (revision 71014)
@@ -0,0 +1,89 @@
+# -*- coding: utf-8 -*-
+
+import urllib.request
+import urllib
+import lxml
+import lxml.html
+import codecs
+import time
+import re
+import random
+
+# tags = ''
+tags1 = ''
+tags2 = ''
+
+def translation_getter_globse(noun, dictionary):
+ # time.sleep(random.choice(range(10)))
+ print('entered globse')
+ link_noun = urllib.parse.quote(noun)
+ noun_page = urllib.request.urlopen('https://glosbe.com/pl/ru/ ' + link_noun).read().decode('utf-8')
+ translations = lxml.html.fromstring(noun_page).xpath('.//strong[@class=" phr"]')
+ for tr in translations:
+ dictionary.write('' + noun + tags1 + ''
+ + tr.text.replace(' ', '') + tags2 + '
\n')
+
+def translation_getter_babla(noun, dictionary):
+ # time.sleep(random.choice(range(10)))
+ print('entered babla')
+ link_noun = urllib.parse.quote(noun)
+ noun_page = urllib.request.urlopen('http://pl.bab.la/slownik/polski-rosyjski/' + link_noun).read().decode('utf-8')
+ translations = lxml.html.fromstring(noun_page).xpath('.//a[@class="result-link"]')
+ for tr in translations:
+ print(tr.text)
+ if tr.text is not None:
+ if tr.text[0] not in 'qwertyuiopasdfghjklzxcvnm':
+ got_it = True
+ dictionary.write('' + noun + tags1 + ''
+ + tr.text.replace(' ', '') + tags2 + '
\n')
+ got_it
+
+
+def translation_getter_wiki(noun, dictionary):
+ # time.sleep(random.choice(range(10)))
+ print('entered wiki')
+ link_noun = urllib.parse.quote(noun)
+ print(link_noun)
+ noun_page = urllib.request.urlopen('https://pl.wiktionary.org/wiki/' + link_noun + '#pl').read().decode('utf-8')
+ translations = lxml.html.fromstring(noun_page).xpath('.//li')
+ # poss_tr = lxml.etree.fromstring(the_prep_page).xpath('.//li')
+ for hyp in translations:
+ if hyp.text is not None and hyp.text.startswith('rosyjski:'):
+ got_it = True
+ print('got it!')
+ for tr in hyp:
+ print(tr.text)
+ dictionary.write('' + noun + tags1 + ''
+ + tr.text.replace(' ', '') + tags2 + '
\n')
+ got_it
+
+
+def writer(nouns_from_pol):
+ print('entered writer')
+ with codecs.open('../apertium-pol-rus.pol-rus.dix', 'r', 'utf-8') as f:
+ hyp = [re.findall('(\\w+)', line) for line in f]
+ already_there = set([h[0] for h in hyp if len(h) > 0])
+ dictionary = codecs.open('nouns2dictionary_07.07.xml', 'w', 'utf-8')
+ for noun in nouns_from_pol:
+ if noun not in already_there:
+ try:
+ translation_getter_wiki(noun, dictionary)
+ print('wiki: ' + noun)
+ except Exception as e:
+ print(e)
+ try:
+ translation_getter_babla(noun, dictionary)
+ print('babla: ' + noun)
+ except Exception as e:
+ print(e)
+ try:
+ translation_getter_globse(noun, dictionary)
+ print('classes')
+ except Exception as e:
+ print('something is wrong: ' + noun)
+ print(e)
+ dictionary.close()
+
+with codecs.open('new.txt', 'r', 'utf-8') as f:
+ lines = [line.strip() for line in f.readlines()]
+writer(lines)
Index: languages/apertium-pol/apertium-pol.pol.dix
===================================================================
--- languages/apertium-pol/apertium-pol.pol.dix (revision 71012)
+++ languages/apertium-pol/apertium-pol.pol.dix (revision 71014)
@@ -2005,7 +2005,7 @@
anaścieanaście