Index: branches/apertium-tagger/experiments/evaluate_tagger.py
===================================================================
--- branches/apertium-tagger/experiments/evaluate_tagger.py	(revision 71356)
+++ branches/apertium-tagger/experiments/evaluate_tagger.py	(revision 71357)
@@ -219,7 +219,10 @@
             ref_msd = ''
 
             if tst_w.count('/*') < 1 and tst_w[0] == '^':  # {
+                print('tst_w', tst_w)
                 tst_readings, tst_removed = readings(tst_w, testFunc)
+                print('tst_readings', tst_readings)
+                print('tst_removed', tst_removed)
                 tst_lema = reading_lemma(tst_readings[0])
                 tst_pos = reading_pos(tst_readings[0])
                 tst_func = reading_func(tst_readings[0])
Index: branches/apertium-tagger/experiments/experiments.py
===================================================================
--- branches/apertium-tagger/experiments/experiments.py	(revision 71356)
+++ branches/apertium-tagger/experiments/experiments.py	(revision 71357)
@@ -4,7 +4,8 @@
 
 from evaluate_tagger import TaggerEvaluator
 from shell_wrappers import (cg_proc, extract_first_analysis, tagger_tag,
-                            tagger_train_sup, tagger_train_unsup)
+                            tagger_train_sup, tagger_train_unsup,
+                            tagger_train_percep)
 
 # Experiment registry
 experiments = {}
@@ -215,3 +216,30 @@
             count += 1
             ambg_classes.add(line)
     return count, len(ambg_classes)
+
+
+for do_cg in [False, True]:
+    for mtx_basename in ['kaztags', 'unigram_model3', 'spacyflattags']:
+        mtx_fn = 'mtx/' + mtx_basename + '.mtx'
+        name = ('cg_' if do_cg else '') + mtx_basename + '_percep'
+
+        @reg
+        @group('percep')
+        @xval_experiment
+        @exp_name(name)
+        def percep_experiment(lab, xval_fns,
+                              do_cg=do_cg, mtx_fn=mtx_fn):
+            tagger_train_percep(xval_fns['model'],
+                                train_fn=xval_fns['train'],
+                                trainsrc_fn=xval_fns['trainsrc'],
+                                mtx_fn=mtx_fn,
+                                sent_seg=lab.sent_seg)
+            if do_cg:
+                tagger_input = xval_fns['cgtag']
+            else:
+                tagger_input = xval_fns['src']
+            print('tagger_input', tagger_input, 'model', xval_fns['model'])
+            tagger_tag(
+                'percep', xval_fns['model'], input=tagger_input,
+                output=xval_fns['test']
+            ).check_returncode()
Index: branches/apertium-tagger/experiments/mtx/allflattagswrdbigram.mtx
===================================================================
--- branches/apertium-tagger/experiments/mtx/allflattagswrdbigram.mtx	(revision 71356)
+++ branches/apertium-tagger/experiments/mtx/allflattagswrdbigram.mtx	(revision 71357)
@@ -1,5 +1,7 @@
+<?xml version="1.0" ?>
 <!-- Per-wordoid bigrams of a flattened version of all tags -->
-<feats>
+<metatag>
+  <feats>
   <!-- Unigram -->
   <feat>
     <out>
@@ -17,6 +19,7 @@
     <out>
       <join sep="|">
         <ex-tags>
+            <get-wordoid>
           <adjust>
             <add>
               <get-addr />
@@ -26,6 +29,7 @@
               </addr-of-ints>
             </add>
           </adjust>
+            </get-wordoid>
         </ex-tags>
       </join>
     </out>
@@ -32,9 +36,12 @@
     <out>
       <join sep="|">
         <ex-tags>
+            <get-wordoid>
           <get-addr />
+            </get-wordoid>
         </ex-tags>
       </join>
     </out>
   </feat>
-</feats>
+  </feats>
+</metatag>
Index: branches/apertium-tagger/experiments/mtx/commondefns.mtx
===================================================================
--- branches/apertium-tagger/experiments/mtx/commondefns.mtx	(revision 71356)
+++ branches/apertium-tagger/experiments/mtx/commondefns.mtx	(revision 71357)
@@ -2,11 +2,14 @@
   <join>
     <for-each as="wordoid">
       <ex-wordoids>
-        <get-tokaddr />
+        <add>
+          <tokaddr />
+          <int val="-1" />
+        </add>
       </ex-wordoids>
       <join>
         <ex-tags>
-          <var name="wordoid">
+          <var name="wordoid" />
         </ex-tags>
       </join>
     </for-each>
@@ -17,13 +20,13 @@
     <for-each as="wordoid">
       <ex-wordoids>
         <add>
-          <get-tokaddr />
+          <tokaddr />
           <int val="-1" />
         </add>
       </ex-wordoids>
       <join>
         <ex-tags>
-          <var name="wordoid">
+          <var name="wordoid" />
         </ex-tags>
       </join>
     </for-each>
@@ -34,15 +37,104 @@
     <for-each as="wordoid">
       <ex-wordoids>
         <add>
-          <get-tokaddr />
+          <tokaddr />
           <int val="-2" />
         </add>
       </ex-wordoids>
       <join>
         <ex-tags>
-          <var name="wordoid">
+          <var name="wordoid" />
         </ex-tags>
       </join>
     </for-each>
   </join>
 </def-global>
+<def-global as="surf_0_s3">
+  <slice start="-3">
+    <ex-surf>
+      <tokaddr />
+    </ex-surf>
+  </slice>
+</def-global>
+<def-global as="surf_0">
+  <ex-surf>
+    <tokaddr />
+  </ex-surf>
+</def-global>
+<def-global as="surf_m1">
+  <ex-surf>
+    <add>
+      <tokaddr />
+      <int val="-1" />
+    </add>
+  </ex-surf>
+</def-global>
+<def-global as="surf_m1_s3">
+  <slice start="-3">
+    <ex-surf>
+      <add>
+        <tokaddr />
+        <int val="-1" />
+      </add>
+    </ex-surf>
+  </slice>
+</def-global>
+<def-global as="surf_m2">
+  <ex-surf>
+    <add>
+      <tokaddr />
+      <int val="-1" />
+    </add>
+  </ex-surf>
+</def-global>
+<def-global as="surf_p1">
+  <ex-surf>
+    <add>
+      <tokaddr />
+      <int val="1" />
+    </add>
+  </ex-surf>
+</def-global>
+<def-global as="surf_p1_s3">
+  <slice start="-3">
+    <ex-surf>
+      <add>
+        <tokaddr />
+        <int val="1" />
+      </add>
+    </ex-surf>
+  </slice>
+</def-global>
+<def-global as="surf_p2">
+  <ex-surf>
+    <add>
+      <tokaddr />
+      <int val="2" />
+    </add>
+  </ex-surf>
+</def-global>
+<def-global as="lemma_0">
+  <ex-lemma>
+    <ex-wordoid>
+      <wrdaddr />
+    </ex-wordoid>
+  </ex-lemma>
+</def-global>
+<def-global as="suffix_1_0">
+  <slice end="1">
+    <ex-lemma>
+      <ex-wordoid>
+        <wrdaddr />
+      </ex-wordoid>
+    </ex-lemma>
+  </slice>
+</def-global>
+<def-global as="suffix_3_0">
+  <slice end="1">
+    <ex-lemma>
+      <ex-wordoid>
+        <wrdaddr />
+      </ex-wordoid>
+    </ex-lemma>
+  </slice>
+</def-global>
Index: branches/apertium-tagger/experiments/mtx/kaztags.mtx
===================================================================
--- branches/apertium-tagger/experiments/mtx/kaztags.mtx	(nonexistent)
+++ branches/apertium-tagger/experiments/mtx/kaztags.mtx	(revision 71357)
@@ -0,0 +1,192 @@
+<?xml version="1.0" ?>
+<!DOCTYPE metatag [
+  <!ENTITY commondefns SYSTEM "commondefns.mtx">
+]>
+<!--
+Feature template for Kazak based on Unigram type features 
+-->
+<metatag>
+  <defns>
+    &commondefns;
+    <def-str name="plus" val="+" />
+    <def-global as="wrd_flattags_0">
+      <join>
+        <ex-tags>
+          <ex-wordoid>
+            <wrdaddr />
+          </ex-wordoid>
+        </ex-tags>
+      </join>
+    </def-global>
+    <def-global as="wrd_flattags_0">
+      <join>
+        <ex-tags>
+          <ex-wordoid>
+            <wrdaddr />
+          </ex-wordoid>
+        </ex-tags>
+      </join>
+    </def-global>
+    <def-global as="headword_major_tag_0">
+      <subscript idx="0">
+        <ex-tags>
+          <ex-wordoid>
+            <addr-of-ints>
+              <tokaddr />
+              <int val="0" />
+            </addr-of-ints>
+          </ex-wordoid>
+        </ex-tags>
+      </subscript>
+    </def-global>
+    <def-global as="headword_major_tag_m1">
+      <subscript idx="0">
+        <ex-tags>
+          <ex-wordoid>
+            <addr-of-ints>
+              <add>
+                <tokaddr />
+                <int val="-1" />
+              </add>
+              <int val="0" />
+            </addr-of-ints>
+          </ex-wordoid>
+        </ex-tags>
+      </subscript>
+    </def-global>
+    <def-global as="headword_flattags_m1">
+      <subscript idx="0">
+        <ex-tags>
+          <ex-wordoid>
+            <addr-of-ints>
+              <add>
+                <tokaddr />
+                <int val="-1" />
+              </add>
+              <int val="0" />
+            </addr-of-ints>
+          </ex-wordoid>
+        </ex-tags>
+      </subscript>
+    </def-global>
+    <def-global as="major_tag_0">
+      <subscript idx="0">
+        <ex-tags>
+          <ex-wordoid>
+            <wrdaddr />
+          </ex-wordoid>
+        </ex-tags>
+      </subscript>
+    </def-global>
+    <def-global as="major_tag_m1">
+      <subscript idx="0">
+        <ex-tags>
+          <ex-wordoid>
+            <wrdaddr />
+          </ex-wordoid>
+        </ex-tags>
+      </subscript>
+    </def-global>
+    <def-global as="is_dmorph">
+      <neq>
+        <int val="0" />
+        <wrdidx />
+      </neq>
+    </def-global>
+    <def-global as="is_headword">
+      <eq>
+        <int val="0" />
+        <wrdidx />
+      </eq>
+    </def-global>
+  </defns>
+  <feats>
+    <!-- Major tag (all wordoids) -->
+    <feat>
+      <out>
+        <var name="major_tag_0" />
+      </out>
+    </feat>
+    <!-- Full tag (all wordoids) -->
+    <feat>
+      <out>
+        <var name="wrd_flattags_0" />
+      </out>
+    </feat>
+    <!-- Lemma, Major tag (headwords) -->
+    <feat>
+      <pred>
+        <var name="is_headword" />
+      </pred>
+      <out>
+        <var name="lemma_0" />
+      </out>
+      <out>
+        <var name="major_tag_0" />
+      </out>
+    </feat>
+    <!-- Lemma, Full tag (headwords) -->
+    <feat>
+      <pred>
+        <var name="is_headword" />
+      </pred>
+      <out>
+        <var name="lemma_0" />
+      </out>
+      <out>
+        <var name="wrd_flattags_0" />
+      </out>
+    </feat>
+    <!-- Cur headword major tag, major tag (non headwords only only) -->
+    <feat>
+      <pred>
+        <var name="is_dmorph" />
+      </pred>
+      <out>
+        <var name="headword_major_tag_0" />
+      </out>
+      <out>
+        <var name="major_tag_0" />
+      </out>
+    </feat>
+    <!-- Prev headword major tag, cur headword major tag, major tag (non headwords only only) -->
+    <feat>
+      <pred>
+        <var name="is_dmorph" />
+      </pred>
+      <out>
+        <var name="headword_major_tag_m1" />
+      </out>
+      <out>
+        <var name="headword_major_tag_0" />
+      </out>
+      <out>
+        <var name="major_tag_0" />
+      </out>
+    </feat>
+    <!-- Prev headword major tag, major tag (non headwords only only) -->
+    <feat>
+      <pred>
+        <var name="is_dmorph" />
+      </pred>
+      <out>
+        <var name="headword_major_tag_m1" />
+      </out>
+      <out>
+        <var name="major_tag_0" />
+      </out>
+    </feat>
+    <!-- Prev headword full tag, full tag (non headwords only only) -->
+    <feat>
+      <pred>
+        <var name="is_dmorph" />
+      </pred>
+      <out>
+        <var name="headword_flattags_m1" />
+      </out>
+      <out>
+        <var name="wrd_flattags_0" />
+      </out>
+    </feat>
+  </feats>
+</metatag>
Index: branches/apertium-tagger/experiments/mtx/morphodita.mtx
===================================================================
--- branches/apertium-tagger/experiments/mtx/morphodita.mtx	(revision 71356)
+++ branches/apertium-tagger/experiments/mtx/morphodita.mtx	(revision 71357)
@@ -1,3 +1,7 @@
+<?xml version="1.0" ?>
+<!DOCTYPE doc [
+  <!ENTITY commondefns SYSTEM "commondefns.mtx">
+]>
 <!--
 Feature templates copied from MorphoDiTa. From here:
 https://github.com/ufal/udpipe/blob/1a3c3977c47a0bc03b41135d538e10454386b60f/src/trainer/trainer_morphodita_parsito.cpp#L760
@@ -20,11 +24,8 @@
 "Tag 0,Cap 0\n"
 "Tag 0,Dash 0\n"
 -->
-<?xml version="1.1"?>
-<!DOCTYPE doc [
-  <!ENTITY commondefns SYSTEM "commondefns.mtx">
-]>
-<defns>
+<metatag>
+  <defns>
   <def-set name="genders">
     <set-member tag="f" />
     <set-member tag="m" />
@@ -64,9 +65,9 @@
     <set-member tag="soc" />
     <set-member tag="prl" />
   </def-set>
-
+  
   &commondefns;
-
+  
   <def-global as="upos_m1">
     <join>
       <for-each as="wordoid">
@@ -102,20 +103,20 @@
     </join>
   </def-global>
   <def-str name="neg" tag="neg" />
-</defns>
-<global-pred>
+  </defns>
+  <global-pred>
   <eq>
     <get-wrdaddr />
     <int val="0" />
   </eq>
-</global-pred>
-<feats>
+  </global-pred>
+  <feats>
   <feat>
     <out>
       <var name="flattags_0" />
     </out>
   </feat>
-<!-- "Tag 0,Tag -1\n" -->
+  <!-- "Tag 0,Tag -1\n" -->
   <feat>
     <out>
       <var name="flattags_0" />
@@ -122,7 +123,7 @@
       <var name="flattags_m1" />
     </out>
   </feat>
-<!-- "Tag 0,TagUPos -1\n" -->
+  <!-- "Tag 0,TagUPos -1\n" -->
   <feat>
     <out>
       <var name="flattags_0" />
@@ -129,7 +130,7 @@
       <var name="upos_m1" />
     </out>
   </feat>
-<!-- "Tag 0,Tag -1,Tag -2\n" -->
+  <!-- "Tag 0,Tag -1,Tag -2\n" -->
   <feat>
     <out>
       <var name="flattags_0" />
@@ -137,7 +138,7 @@
       <var name="flattags_m2" />
     </out>
   </feat>
-<!-- "Tag 0,TagUPos -1,TagUPos -2\n" -->
+  <!-- "Tag 0,TagUPos -1,TagUPos -2\n" -->
   <feat>
     <out>
       <var name="flattags_0" />
@@ -145,7 +146,7 @@
       <var name="upos_m2" />
     </out>
   </feat>
-<!-- "Tag 0,Tag -2\n" -->
+  <!-- "Tag 0,Tag -2\n" -->
   <feat>
     <out>
       <var name="flattags_0" />
@@ -152,7 +153,7 @@
       <var name="flattags_m2" />
     </out>
   </feat>
-<!-- "Tag 0,Form 0\n" -->
+  <!-- "Tag 0,Form 0\n" -->
   <feat>
     <out>
       <var name="flattags_0" />
@@ -159,7 +160,7 @@
       <var name="form_0" />
     </out>
   </feat>
-<!-- "Tag 0,Form 0,Form -1\n" -->
+  <!-- "Tag 0,Form 0,Form -1\n" -->
   <feat>
     <out>
       <var name="flattags_0" />
@@ -167,7 +168,7 @@
       <var name="form_m1" />
     </out>
   </feat>
-<!-- "Tag 0,Form -1\n" -->
+  <!-- "Tag 0,Form -1\n" -->
   <feat>
     <out>
       <var name="flattags_0" />
@@ -174,7 +175,7 @@
       <var name="form_m1" />
     </out>
   </feat>
-<!-- "Tag 0,Form -2\n" -->
+  <!-- "Tag 0,Form -2\n" -->
   <feat>
     <out>
       <var name="flattags_0" />
@@ -181,7 +182,7 @@
       <var name="form_m2" />
     </out>
   </feat>
-<!-- "Tag 0,Form -1,Form -2\n" -->
+  <!-- "Tag 0,Form -1,Form -2\n" -->
   <feat>
     <out>
       <var name="flattags_0" />
@@ -189,7 +190,7 @@
       <var name="form_m2" />
     </out>
   </feat>
-<!-- "Tag 0,Form 1\n" -->
+  <!-- "Tag 0,Form 1\n" -->
   <feat>
     <out>
       <var name="flattags_0" />
@@ -196,7 +197,7 @@
       <var name="form_p1" />
     </out>
   </feat>
-<!-- "Tag 0,Form 1,Form 2\n" -->
+  <!-- "Tag 0,Form 1,Form 2\n" -->
   <feat>
     <out>
       <var name="flattags_0" />
@@ -204,7 +205,7 @@
       <var name="form_p2" />
     </out>
   </feat>
-<!-- "Tag 0,Lemma -1\n" -->
+  <!-- "Tag 0,Lemma -1\n" -->
   <feat>
     <out>
       <var name="flattags_0" />
@@ -211,7 +212,7 @@
       <var name="lemma_m1" />
     </out>
   </feat>
-<!-- "Tag 0,Form 1\n" -->
+  <!-- "Tag 0,Form 1\n" -->
   <feat>
     <out>
       <var name="flattags_0" />
@@ -218,7 +219,7 @@
       <var name="form_p1" />
     </out>
   </feat>
-<!-- "Lemma 0,Tag -1\n" -->
+  <!-- "Lemma 0,Tag -1\n" -->
   <feat>
     <out>
       <var name="lemma_0" />
@@ -225,7 +226,7 @@
       <var name="flattags_m1" />
     </out>
   </feat>
-<!-- "Tag 0,Prefix1 0\n" -->
+  <!-- "Tag 0,Prefix1 0\n" -->
   <feat>
     <out>
       <var name="flattags_0" />
@@ -232,7 +233,7 @@
       <var name="prefix_1_0" />
     </out>
   </feat>
-<!-- "Tag 0,Prefix2 0\n" -->
+  <!-- "Tag 0,Prefix2 0\n" -->
   <feat>
     <out>
       <var name="flattags_0" />
@@ -239,7 +240,7 @@
       <var name="prefix_2_0" />
     </out>
   </feat>
-<!-- "Tag 0,Prefix3 0\n" -->
+  <!-- "Tag 0,Prefix3 0\n" -->
   <feat>
     <out>
       <var name="flattags_0" />
@@ -246,7 +247,7 @@
       <var name="prefix_3_0" />
     </out>
   </feat>
-<!-- "Tag 0,Prefix4 0\n" -->
+  <!-- "Tag 0,Prefix4 0\n" -->
   <feat>
     <out>
       <var name="flattags_0" />
@@ -253,7 +254,7 @@
       <var name="prefix_4_0" />
     </out>
   </feat>
-<!-- "Tag 0,Prefix5 0\n" -->
+  <!-- "Tag 0,Prefix5 0\n" -->
   <feat>
     <out>
       <var name="flattags_0" />
@@ -260,7 +261,7 @@
       <var name="prefix_5_0" />
     </out>
   </feat>
-<!-- "Tag 0,Prefix6 0\n" -->
+  <!-- "Tag 0,Prefix6 0\n" -->
   <feat>
     <out>
       <var name="flattags_0" />
@@ -267,7 +268,7 @@
       <var name="prefix_6_0" />
     </out>
   </feat>
-<!-- "Tag 0,Prefix7 0\n" -->
+  <!-- "Tag 0,Prefix7 0\n" -->
   <feat>
     <out>
       <var name="flattags_0" />
@@ -274,7 +275,7 @@
       <var name="prefix_7_0" />
     </out>
   </feat>
-<!-- "Tag 0,Prefix8 0\n" -->
+  <!-- "Tag 0,Prefix8 0\n" -->
   <feat>
     <out>
       <var name="flattags_0" />
@@ -281,7 +282,7 @@
       <var name="prefix_8_0" />
     </out>
   </feat>
-<!-- "Tag 0,Prefix9 0\n" -->
+  <!-- "Tag 0,Prefix9 0\n" -->
   <feat>
     <out>
       <var name="flattags_0" />
@@ -288,7 +289,7 @@
       <var name="prefix_9_0" />
     </out>
   </feat>
-<!-- "Tag 0,Suffix1 0\n" -->
+  <!-- "Tag 0,Suffix1 0\n" -->
   <feat>
     <out>
       <var name="flattags_0" />
@@ -295,7 +296,7 @@
       <var name="suffix_1_0" />
     </out>
   </feat>
-<!-- "Tag 0,Suffix2 0\n" -->
+  <!-- "Tag 0,Suffix2 0\n" -->
   <feat>
     <out>
       <var name="flattags_0" />
@@ -302,7 +303,7 @@
       <var name="suffix_2_0" />
     </out>
   </feat>
-<!-- "Tag 0,Suffix3 0\n" -->
+  <!-- "Tag 0,Suffix3 0\n" -->
   <feat>
     <out>
       <var name="flattags_0" />
@@ -309,7 +310,7 @@
       <var name="suffix_3_0" />
     </out>
   </feat>
-<!-- "Tag 0,Suffix4 0\n" -->
+  <!-- "Tag 0,Suffix4 0\n" -->
   <feat>
     <out>
       <var name="flattags_0" />
@@ -316,7 +317,7 @@
       <var name="suffix_4_0" />
     </out>
   </feat>
-<!-- "Tag 0,Suffix5 0\n" -->
+  <!-- "Tag 0,Suffix5 0\n" -->
   <feat>
     <out>
       <var name="flattags_0" />
@@ -323,7 +324,7 @@
       <var name="suffix_5_0" />
     </out>
   </feat>
-<!-- "Tag 0,Suffix6 0\n" -->
+  <!-- "Tag 0,Suffix6 0\n" -->
   <feat>
     <out>
       <var name="flattags_0" />
@@ -330,7 +331,7 @@
       <var name="suffix_6_0" />
     </out>
   </feat>
-<!-- "Tag 0,Suffix7 0\n" -->
+  <!-- "Tag 0,Suffix7 0\n" -->
   <feat>
     <out>
       <var name="flattags_0" />
@@ -337,7 +338,7 @@
       <var name="suffix_7_0" />
     </out>
   </feat>
-<!-- "Tag 0,Suffix8 0\n" -->
+  <!-- "Tag 0,Suffix8 0\n" -->
   <feat>
     <out>
       <var name="flattags_0" />
@@ -344,7 +345,7 @@
       <var name="suffix_8_0" />
     </out>
   </feat>
-<!-- "Tag 0,Suffix9 0\n" -->
+  <!-- "Tag 0,Suffix9 0\n" -->
   <feat>
     <out>
       <var name="flattags_0" />
@@ -351,37 +352,50 @@
       <var name="suffix_9_0" />
     </out>
   </feat>
-<!-- "TagUPos 0\n" -->
-<!-- "TagUPos 0,TagUPos -1\n" -->
-<!-- "TagUPos 0,TagUPos -1,TagUPos -2\n" -->
-<!-- "TagCase 0,TagCase -1\n" -->
-<!-- "TagCase 0,TagCase -1,TagCase -2\n" -->
-<!-- "TagGender 0,TagGender -1\n" -->
-<!-- "TagGender 0,TagGender -1,TagGender -2\n" -->
-<!-- "TagUPos 0,Prefix1 0\n" -->
-<!-- "TagUPos 0,Prefix2 0\n" -->
-<!-- "TagUPos 0,Prefix3 0\n" -->
-<!-- "TagUPos 0,Prefix4 0\n" -->
-<!-- "TagUPos 0,Prefix5 0\n" -->
-<!-- "TagUPos 0,Prefix6 0\n" -->
-<!-- "TagUPos 0,Prefix7 0\n" -->
-<!-- "TagUPos 0,Prefix8 0\n" -->
-<!-- "TagUPos 0,Prefix9 0\n" -->
-<!-- "TagUPos 0,Suffix1 0\n" -->
-<!-- "TagUPos 0,Suffix2 0\n" -->
-<!-- "TagUPos 0,Suffix3 0\n" -->
-<!-- "TagUPos 0,Suffix4 0\n" -->
-<!-- "TagUPos 0,Suffix5 0\n" -->
-<!-- "TagUPos 0,Suffix6 0\n" -->
-<!-- "TagUPos 0,Suffix7 0\n" -->
-<!-- "TagUPos 0,Suffix8 0\n" -->
-<!-- "TagUPos 0,Suffix9 0\n" -->
-<!-- "TagNegative 0,Prefix1 0\n" -->
-<!-- "TagNegative 0,Prefix2 0\n" -->
-<!-- "TagNegative 0,Prefix3 0\n" -->
-<!-- "TagCase 0,Suffix1 0\n" -->
-<!-- "TagCase 0,Suffix2 0\n" -->
-<!-- "TagCase 0,Suffix3 0\n" -->
-<!-- "TagCase 0,Suffix4 0\n" -->
-<!-- "TagCase 0,Suffix5 0\n"; -->
-</feats>
+  <!-- "TagUPos 0\n" -->
+  <!-- "TagUPos 0,TagUPos -1\n" -->
+  <!-- "TagUPos 0,TagUPos -1,TagUPos -2\n" -->
+  <!-- "TagCase 0,TagCase -1\n" -->
+  <!-- "TagCase 0,TagCase -1,TagCase -2\n" -->
+  <!-- "TagGender 0,TagGender -1\n" -->
+  <!-- "TagGender 0,TagGender -1,TagGender -2\n" -->
+  <!-- "TagUPos 0,Prefix1 0\n" -->
+  <!-- "TagUPos 0,Prefix2 0\n" -->
+  <!-- "TagUPos 0,Prefix3 0\n" -->
+  <!-- "TagUPos 0,Prefix4 0\n" -->
+  <!-- "TagUPos 0,Prefix5 0\n" -->
+  <!-- "TagUPos 0,Prefix6 0\n" -->
+  <!-- "TagUPos 0,Prefix7 0\n" -->
+  <!-- "TagUPos 0,Prefix8 0\n" -->
+  <!-- "TagUPos 0,Prefix9 0\n" -->
+  <!-- "TagUPos 0,Suffix1 0\n" -->
+  <!-- "TagUPos 0,Suffix2 0\n" -->
+  <!-- "TagUPos 0,Suffix3 0\n" -->
+  <!-- "TagUPos 0,Suffix4 0\n" -->
+  <!-- "TagUPos 0,Suffix5 0\n" -->
+  <!-- "TagUPos 0,Suffix6 0\n" -->
+  <!-- "TagUPos 0,Suffix7 0\n" -->
+  <!-- "TagUPos 0,Suffix8 0\n" -->
+  <!-- "TagUPos 0,Suffix9 0\n" -->
+  <!-- "TagNegative 0,Prefix1 0\n" -->
+  <!-- "TagNegative 0,Prefix2 0\n" -->
+  <!-- "TagNegative 0,Prefix3 0\n" -->
+  <!-- "TagCase 0,Suffix1 0\n" -->
+  <!-- "TagCase 0,Suffix2 0\n" -->
+  <!-- "TagCase 0,Suffix3 0\n" -->
+  <!-- "TagCase 0,Suffix4 0\n" -->
+    <feat>
+      <out>
+        <var name="flattags_0" />
+        <var name="suffix_4_0" />
+      </out>
+    </feat>
+  <!-- "TagCase 0,Suffix5 0\n"; -->
+    <feat>
+      <out>
+        <var name="flattags_0" />
+        <var name="suffix_5_0" />
+      </out>
+    </feat>
+  </feats>
+</metatag>
Index: branches/apertium-tagger/experiments/mtx/proposed.mtx
===================================================================
--- branches/apertium-tagger/experiments/mtx/proposed.mtx	(revision 71356)
+++ branches/apertium-tagger/experiments/mtx/proposed.mtx	(revision 71357)
@@ -37,6 +37,8 @@
 
 <!-- General memoized functions? -->
 
+<!-- They're not functions - they're more like templates -->
+
 <!-- Should compute predicates for globals and memoized functions?! -->
 
 <!-- A "proper" dataflow language? -->
@@ -48,3 +50,9 @@
 <!-- One possibility simpler than full dataflow would be to simply not include
 globals which aren't referenced at compile time, to allow feature libraries to
 be included -->
+
+<!- This would also work for templates - in fact globals are just nullary templates -->
+
+<!-- To make out-many more useful gen-prefixes and gen-suffixes methods -->
+
+<!-- Vector literals -->
Index: branches/apertium-tagger/experiments/mtx/spacyflattags.mtx
===================================================================
--- branches/apertium-tagger/experiments/mtx/spacyflattags.mtx	(revision 71356)
+++ branches/apertium-tagger/experiments/mtx/spacyflattags.mtx	(revision 71357)
@@ -1,15 +1,22 @@
+<?xml version="1.0" ?>
+<!DOCTYPE metatag [
+  <!ENTITY commondefns SYSTEM "commondefns.mtx">
+]>
 <!--
 Feature templates copied from the spaCy part of speech tagger. From here:
 https://spacy.io/blog/part-of-speech-pos-tagger-in-python#features-and-pre-processing
 -->
-<?xml version="1.1"?>
-<!DOCTYPE doc [
-  <!ENTITY commondefns SYSTEM "commondefns.mtx">
-]>
-<defns>
+<metatag>
+  <defns>
   &commondefns;
-</defns>
-<feats>
+  </defns>
+  <global-pred>
+    <eq>
+      <wrdidx />
+      <int val="0" />
+    </eq>
+  </global-pred>
+  <feats>
   <!-- add('bias') # This acts sort of like a prior -->
   <feat>
     <out>
@@ -20,122 +27,124 @@
   <feat>
     <out>
       <var name="flattags_0" />
-      <sliceend int="3">
-        <getwrdlf wrdaddr="-1 A X" />
-      </sliceend>
     </out>
+      <out>
+        <var name="suffix_3_0" />
+      </out>
   </feat>
   <!-- add('i pref1', word[0]) -->
   <feat>
-    <concat>
-      <gettagsflat />
-      <slicebegin int="1">
-        <getwrdlf>
-      </slicebegin>
-    </concat>
+      <out>
+        <var name="flattags_0" />
+      </out>
+      <out>
+        <var name="suffix_1_0" />
+      </out>
   </feat>
   <!-- add('i-1 tag', prev) -->
   <feat>
-    <concat>
-      <gettagsflat />
-      <gettagsflat wrdaddr="-1 A X" />
-    </concat>
+      <out>
+        <var name="flattags_0" />
+      </out>
+      <out>
+        <var name="flattags_m1" />
+      </out>
   </feat>
   <!-- add('i-2 tag', prev2) -->
   <feat>
-    <concat>
-      <gettagsflat />
-      <gettagsflat wrdaddr="-2 A X" />
-    </concat>
+      <out>
+        <var name="flattags_0" />
+      </out>
+      <out>
+        <var name="flattags_m2" />
+      </out>
   </feat>
   <!-- add('i-1 tag+i-2 tag', prev, prev2) -->
   <feat>
-    <concat>
-      <gettagsflat />
-      <gettagsflat wrdaddr="-1 A X" />
-      <gettagsflat wrdaddr="-2 A X" />
-    </concat>
+      <out>
+        <var name="flattags_0" />
+      </out>
+      <out>
+        <var name="flattags_m1" />
+      </out>
+      <out>
+        <var name="flattags_m2" />
+      </out>
   </feat>
   <!-- add('i word', context[i]) -->
   <feat>
-    <concat>
-      <gettagsflat />
-      <lower>
-        <getwrdlf />
-      </lower>
-    </concat>
+      <out>
+        <var name="flattags_0" />
+      </out>
+      <out>
+        <var name="surf_0" />
+      </out>
   </feat>
   <!-- add('i-1 tag+i word', prev, context[i]) -->
   <feat>
-    <concat>
-      <gettagsflat />
-      <gettagsflat wrdaddr="-1 A X" />
-      <lower>
-        <getwrdlf />
-      </lower>
-    </concat>
+      <out>
+        <var name="flattags_0" />
+      </out>
+      <out>
+        <var name="flattags_m1" />
+      </out>
+      <out>
+        <var name="surf_0" />
+      </out>
   </feat>
   <!-- add('i-1 word', context[i-1]) -->
   <feat>
-    <concat>
-      <gettagsflat />
-      <lower>
-        <getwrdlf wrdaddr="-1 A X" />
-      </lower>
-    </concat>
+      <out>
+        <var name="flattags_0" />
+      </out>
+      <out>
+        <var name="surf_m1" />
+      </out>
   </feat>
   <!-- add('i-1 suffix', context[i-1][-3:]) -->
   <feat>
-    <concat>
-      <gettagsflat />
-      <lower>
-        <sliceend int="3">
-          <getwrdlf wrdaddr="-1 A X" />
-        </sliceend>
-      </lower>
-    </concat>
+      <out>
+        <var name="flattags_0" />
+      </out>
+      <out>
+        <var name="surf_m1_s3" />
+      </out>
   </feat>
   <!-- add('i-2 word', context[i-2]) -->
   <feat>
-    <concat>
-      <gettagsflat />
-      <lower>
-        <getwrdlf wrdaddr="-2 A X" />
-      </lower>
-    </concat>
+      <out>
+        <var name="flattags_0" />
+      </out>
+      <out>
+        <var name="surf_m2" />
+      </out>
   </feat>
   <!-- add('i+1 word', context[i+1]) -->
   <feat>
-    <concat>
-      <gettagsflat />
-      <lower>
-        <gettoklf tokaddr="+1 X" />
-      </lower>
-    </concat>
+      <out>
+        <var name="flattags_0" />
+      </out>
+      <out>
+        <var name="surf_p1" />
+      </out>
   </feat>
   <!-- add('i+1 suffix', context[i+1][-3:]) -->
   <feat>
-    <concat>
-      <gettagsflat />
-      <lower>
-        <sliceend int="3">
-          <gettoklf tokaddr="+1 X" />
-        </sliceend>
-      </lower>
-    </concat>
+      <out>
+        <var name="flattags_0" />
+      </out>
+      <out>
+        <var name="surf_p1_s3" />
+      </out>
   </feat>
   <!-- add('i+2 word', context[i+2]) -->
   <feat>
-    <concat>
-      <gettagsflat />
-      <lower>
-        <sliceend int="3">
-          <ex-surf>
-            <add>
-            </add>
-          </ex-surf>
-        </sliceend>
-      </lower>
-    </concat>
+      <out>
+        <var name="flattags_0" />
+      </out>
+      <out>
+        <var name="surf_p2" />
+      </out>
   </feat>
-</feats>
+  </feats>
+</metatag>
Index: branches/apertium-tagger/experiments/mtx/unigram_model3.mtx
===================================================================
--- branches/apertium-tagger/experiments/mtx/unigram_model3.mtx	(revision 71356)
+++ branches/apertium-tagger/experiments/mtx/unigram_model3.mtx	(revision 71357)
@@ -1,20 +1,41 @@
-<feats>
+<?xml version="1.0" ?>
+<!DOCTYPE metatag>
+<!--
+Feature template for Kazak based on Unigram type features 
+-->
+<metatag>
+  <feats>
   <feat>
     <!-- Output the lemma -->
     <out>
       <ex-lemma>
-        <get-addr />
+          <ex-wordoid>
+            <wrdaddr />
+          </ex-wordoid>
       </ex-lemma>
     </out>
     <!-- Output the tags -->
     <out>
-      <join sep="|">
+        <join sep=".">
         <ex-tags>
           <ex-wordoid>
-            <get-addr />
+              <wrdaddr />
           </ex-wordoid>
         </ex-tags>
       </join>
     </out>
   </feat>
-</feats>
+    <feat>
+      <!-- Output the tags -->
+      <out>
+        <join sep=".">
+          <ex-tags>
+            <ex-wordoid>
+              <wrdaddr />
+            </ex-wordoid>
+          </ex-tags>
+        </join>
+      </out>
+    </feat>
+  </feats>
+</metatag>
Index: branches/apertium-tagger/experiments/run_experiment.py
===================================================================
--- branches/apertium-tagger/experiments/run_experiment.py	(revision 71356)
+++ branches/apertium-tagger/experiments/run_experiment.py	(revision 71357)
@@ -16,7 +16,7 @@
 from shell_utils import cd, check_run
 from shell_wrappers import (cg_proc, copy_blanks, extract_src, fix_dix,
                             cg_conv_clean, split_n_r, strip_blanks,
-                            strip_unknown_sent)
+                            strip_unknown_sent, strip_cg_comments)
 
 loop = asyncio.get_event_loop()
 
@@ -131,6 +131,16 @@
         '--notify',
         help="Produce a desktop notification when done",
         action='store_true')
+    parser.add_argument(
+        '--sent-seg',
+        help="Segment input sentences on blank lines rather than on <sent> "
+             "tags",
+        action='store_true')
+    parser.add_argument(
+        '--use-cg-src',
+        help="Get ambiguous stream by uncommenting commented out lines in "
+             "input CG",
+        action='store_true')
 
     return parser.parse_args()
 
@@ -154,6 +164,7 @@
     #'rus': cleanup_rus,
 #}
 
+
 def invalidate_por(line):
     return ('/$' in line or
             # gets analysed as two words
@@ -163,16 +174,20 @@
             # ends up as an <abbr><sent> multiword
             ('./' in line and '<sent>' not in line))
 
+
 def invalidate_hbs(line):
     return line.startswith('+')
 
+
 def invalidate_kaz(line):
     # Odd...
     if '/' not in line:
         return True
     left, right = line.split('/', 1)
+    # '-' in line or
     return '<' in left or '<' not in right
 
+
 LANGUAGE_INVALIDATOR_MAP = {
     'por': invalidate_por,
     'kaz': invalidate_kaz,
@@ -187,6 +202,7 @@
 
 class LanguageTaggerLab:
     def __init__(self, lang, lang_root, texts, folds,
+                 sent_seg=False, use_cg_src=False,
                  reuse=False, reuse_dic=False):
         self.lang = lang
         self.work_dir = pjoin(WORK_DIR, lang)
@@ -243,6 +259,9 @@
 
         self.validate()
 
+        self.sent_seg = sent_seg
+        self.use_cg_src = use_cg_src
+
         if not reuse:
             self.do_preprocessing(reuse_dic=reuse_dic)
 
@@ -281,6 +300,31 @@
             invalidate_func=LANGUAGE_INVALIDATOR_MAP.get(
                 self.lang, lambda x: False))
         strip_blanks(self.joined_fn, self.ref_fn)
+        if self.use_cg_src:
+            assert all(pp_name in ['cg', 'cgr']
+                       for (pp_name, _) in self.text_fns),\
+                   "Can only get ambiguous input from CG "\
+                   "if all input files are in CG format"
+            texts = []
+            for i, (preprocessor_name, fn) in enumerate(self.text_fns):
+                ambg_cg_text = pjoin(
+                    self.work_dir,
+                    'ambg.{}.{}.txt'.format(
+                        i, preprocessor_name))
+                strip_cg_comments(fn, ambg_cg_text)
+                preprocessor = PREPROCESSOR_MAP.get(preprocessor_name)
+                cleaned_fn = pjoin(
+                    self.work_dir,
+                    'cleaned.src.{}.{}.txt'.format(i, preprocessor_name))
+                preprocessor(input=ambg_cg_text, output=cleaned_fn)
+                texts.append(cleaned_fn)
+            joined = itertools.chain(*(open(fn).readlines() for fn in texts))
+            strip_unknown_sent(
+                joined, self.src_blanks_fn,
+                invalidate_func=LANGUAGE_INVALIDATOR_MAP.get(
+                    self.lang, lambda x: False))
+            strip_blanks(self.src_blanks_fn, self.src_fn)
+        else:
         extract_src(self.morphology_fn,
                     input_fn=self.ref_fn, output_fn=self.src_fn)
         copy_blanks(self.joined_fn, self.src_fn, self.src_blanks_fn)
@@ -292,11 +336,12 @@
 
         for i, xval_fn in enumerate(self.xval_fns):
             split_n_r(self.joined_fn, xval_fn['train'], xval_fn['ref'],
-                      self.folds, i)
+                      self.folds, i, write_blanks=self.sent_seg)
             split_n_r(self.src_blanks_fn, xval_fn['trainsrc'], xval_fn['src'],
-                      self.folds, i)
+                      self.folds, i, write_blanks=self.sent_seg)
             split_n_r(self.cgtag_blanks_fn, xval_fn['traincgtag'],
-                      xval_fn['cgtag'], self.folds, i)
+                      xval_fn['cgtag'], self.folds, i,
+                      write_blanks=self.sent_seg)
 
     def can_run_experiment(self, experiment_func):
         if self.no_tsx and getattr(experiment_func, 'needs_tsx', False):
@@ -318,9 +363,10 @@
             lang_root = pjoin(args.languagesdir, 'apertium-' + lang)
 
             def mk_lab():
-                return LanguageTaggerLab(lang, lang_root, taggers,
-                                         args.folds, reuse=args.reuse,
-                                         reuse_dic=args.reuse_dic)
+                return LanguageTaggerLab(
+                    lang, lang_root, taggers, args.folds,
+                    sent_seg=args.sent_seg, use_cg_src=args.use_cg_src,
+                    reuse=args.reuse, reuse_dic=args.reuse_dic)
             try:
                 lab = mk_lab()
             except MissingLanguageDataException as e:
@@ -329,6 +375,7 @@
                     check_run(['./autogen.sh'])
                     check_run(['make'])
                 lab = mk_lab()
+
             def run_tagger(tagger):
                 experiment = experiments[tagger]
                 if lab.can_run_experiment(experiment):
@@ -336,7 +383,8 @@
                         print("Running {}/{}".format(lang, tagger))
                     else:
                         try:
-                            languages_tagger_accuracies[lang][tagger] = experiment(lab)
+                            languages_tagger_accuracies[lang][tagger] = \
+                                    experiment(lab)
                         except:
                             languages_tagger_accuracies[lang][tagger] = None
                             traceback.print_exc()
Index: branches/apertium-tagger/experiments/shell_wrappers.py
===================================================================
--- branches/apertium-tagger/experiments/shell_wrappers.py	(revision 71356)
+++ branches/apertium-tagger/experiments/shell_wrappers.py	(revision 71357)
@@ -12,7 +12,7 @@
 
 BYTES_SENT_END_RE = re.compile(br'/[.!?]<sent>\$$')
 SENT_END_RE = re.compile(r'/[.!?]<sent>\$$')
-SELECT_RE = re.compile(br'<SELECT:[0-9]+>')
+CG_TAG_RE = re.compile(br'(<SELECT:[0-9]+>)|(<REMOVE:[0-9]+>)')
 
 
 def run(func):
@@ -92,6 +92,8 @@
         cmd.insert(3, model[7:])
     elif model == 'lwsw':
         cmd.insert(2, '--sliding-window')
+    elif model == 'percep':
+        cmd.insert(2, '--perceptron')
     return cmd
 
 
@@ -104,6 +106,23 @@
 
 
 @proc_filter
+def tagger_train_percep(model_fn, train_fn, sent_seg=False,
+                        trainsrc_fn=None, mtx_fn=None, iterations=10):
+    cmd = [
+        'apertium-tagger',
+        '--skip-on-error',
+        '-xs',
+        str(iterations),
+        model_fn,
+        train_fn,
+        trainsrc_fn,
+        mtx_fn]
+    if sent_seg:
+        cmd.insert(1, '--sent-seg')
+    return cmd
+
+
+@proc_filter
 def tagger_train_sup(model_type, model_fn, train_fn,
                      trainsrc_fn=None, dic_fn=None, tsx_fn=None, iterations=0,
                      ambg_classes=10, cg_aug=0, cgtrain_fn=None):
@@ -187,7 +206,7 @@
     output_f = open(output, 'wb')
     await cleanstream_proc.stdout.readline()
     async for line in cleanstream_proc.stdout:
-        line = SELECT_RE.sub(b'', line)
+        line = CG_TAG_RE.sub(b'', line)
         output_f.write(line)
         if BYTES_SENT_END_RE.search(line):
             output_f.write(b'\n')
@@ -199,6 +218,16 @@
         return line
 
 
+@filter
+def strip_cg_comments(line):
+    # Empty analysis will get stripped from ref
+    # so must also be stripped from src
+    if line.startswith(';') and '""' not in line:
+        return line[1:]
+    else:
+        return line
+
+
 filter_dix = functools.partial(
     MapFilter,
     pred=lambda line: b"__REGEXP__" not in line and b":<:" not in line,
@@ -260,6 +289,7 @@
             valid_sent = True
         else:
             buff.append(line)
+            # XXX: Perceptron should be trained with unknowns
             if '/*' in line:
                 valid_sent = False
             if invalidate_func is not None and invalidate_func(line):
@@ -266,7 +296,7 @@
                 valid_sent = False
 
 
-def split_n_r(corpus_fn, train_fn, ref_fn, n, r):
+def split_n_r(corpus_fn, train_fn, ref_fn, n, r, write_blanks=True):
     sentences = 0
     with open(corpus_fn) as corpus_file:
         for line in corpus_file.readlines():
@@ -283,6 +313,11 @@
         with open(train_fn, 'w') as train_file, open(ref_fn, 'w') as ref_file:
             for line in corpus_file.readlines():
                 if line.strip() == '':
+                    if write_blanks:
+                        if split_left <= index < split_right:
+                            ref_file.write('\n')
+                        else:
+                            train_file.write('\n')
                     index += 1
                 elif split_left <= index < split_right:
                     ref_file.write(line)