Index: branches/apertium-tagger/experiments/add_to_wikitable.py
===================================================================
--- branches/apertium-tagger/experiments/add_to_wikitable.py	(revision 70990)
+++ branches/apertium-tagger/experiments/add_to_wikitable.py	(nonexistent)
@@ -1,231 +0,0 @@
-# -- encoding: utf-8 --
-
-import sys
-import locale
-import mwparserfromhell
-from mwparserfromhell.nodes.tag import Tag
-from mwparserfromhell.wikicode import Wikicode
-
-TAGGER_ORDER = ['1st', 'unigram1', 'unigram2', 'unigram3', 'bigram', 'lwsw']
-
-
-def rdict(d):
-    return {v: k for k, v in d.items()}
-
-LANG_CODE_NAME_MAP = {
-    'cat': 'Catalan',
-    'spa': 'Spanish',
-    'hbs': 'Serbo-Croatian',
-    'rus': 'Russian',
-    'kaz': 'Kazakh',
-    'por': 'Portuguese',
-    'swe': 'Swedish',
-}
-LANG_NAME_CODE_MAP = rdict(LANG_CODE_NAME_MAP)
-
-
-def name_to_attrs(name):
-    attrs = {}
-    for tagger in TAGGER_ORDER:
-        if tagger in name:
-            attrs['tagger'] = tagger
-
-    if 'cg' in name:
-        attrs['cg'] = True
-    else:
-        attrs['cg'] = False
-
-    if attrs['tagger'] == 'lwsw':
-        attrs['sup'] = None
-    elif 'unsup' in name:
-        attrs['sup'] = False
-    elif 'sup' in name:
-        attrs['sup'] = True
-    else:
-        attrs['sup'] = None
-
-    if '_i' in name:
-        attrs['iters'] = int(name.split('_i')[1])
-    else:
-        attrs['iters'] = None
-
-    return attrs
-
-
-def attrs_to_sort_tuple(attrs):
-    # tagger; unsup, sup; nocg, cg; iters
-    return (TAGGER_ORDER.index(attrs['tagger']),
-            attrs['sup'], attrs['cg'], attrs['iters'])
-
-
-def attrs_to_str(attrs):
-    if attrs['tagger'].startswith('unigram'):
-        out = 'Unigram model ' + attrs['tagger'][len('unigram'):]
-    elif attrs['tagger'] == '1st':
-        out = attrs['tagger']
-    else:
-        out = attrs['tagger'].title()
-
-    if (attrs['cg']):
-        out = "CG→" + out
-
-    if attrs['sup'] is not None or attrs['iters'] is not None:
-        bits = []
-        if attrs['sup'] is not None:
-            bits.append('sup' if attrs['sup'] else 'unsup')
-        if attrs['iters'] is not None:
-            bits.append('{} iters'.format(attrs['iters']))
-        out += ' ({})'.format(', '.join(bits))
-
-    return out
-
-
-def value_to_str(value):
-    if hasattr(value, "__getitem__"):
-        return "{2:.2f}±{3:.2f}".format(*(v * 100 for v in value))
-    else:
-        return "{0:.2f}".format(value * 100)
-
-
-def result_to_str(result):
-    return '{}, {}'.format(value_to_str(result[0]), value_to_str(result[1]))
-
-
-def mk_title_td(title):
-    return Tag(
-        'td',
-        wiki_markup='|',
-        contents=" '''{}''' ".format(title),
-        closing_wiki_markup='')
-
-
-def mk_val_td(val, is_last=False):
-    return Tag(
-        'td',
-        wiki_markup='||',
-        attrs=['align=right'],
-        contents=" {} {}".format(val, "\n" if is_last else ""),
-        wiki_style_separator='|',
-        closing_wiki_markup='')
-
-
-def mk_empty_td(is_last=False):
-    return Tag(
-        'td',
-        wiki_markup='||',
-        contents="\n" if is_last else "",
-        closing_wiki_markup='')
-
-
-def mk_wc_td(val, is_first=False, is_last=False):
-    return Tag(
-        'td',
-        wiki_markup='!' if is_first else '!!',
-        contents=" <small>{}</small>{}".format(val, "\n" if is_last else " "),
-        closing_wiki_markup='')
-
-
-def mk_initial_tr(title):
-    return Tag(
-        'tr',
-        wiki_markup='|-\n',
-        contents=Wikicode([mk_title_td(title), mk_empty_td(is_last=True)]),
-        closing_wiki_markup='')
-
-input_table = sys.stdin.read()
-
-lang_order = []
-
-table = mwparserfromhell.parse(input_table.strip())
-table_inner = table.get(0).contents
-headings = table_inner.get(2).contents.nodes
-for tag in headings:
-    if not isinstance(tag, Tag):
-        continue
-    title = tag.contents.strip()
-    if not title:
-        continue
-    lang_order.append(LANG_NAME_CODE_MAP[title])
-
-
-def insert_into_tr(tr, col_idx, val_str):
-    if len(tr.contents.nodes) <= col_idx:
-        last_td = tr.contents.get(-1)
-        if last_td.contents.endswith('\n'):
-            last_td.contents = last_td.contents[:-1]
-        while len(tr.contents.nodes) < col_idx:
-            tr.contents.append(mk_empty_td())
-        tr.contents.append(mk_empty_td(is_last=True))
-    target_cell = tr.contents.get(col_idx)
-    has_newline = target_cell.contents.endswith('\n')
-    val_td = mk_val_td(val_str, is_last=has_newline)
-    tr.contents.set(col_idx, val_td)
-
-
-def insert_into_wc(tr, col_idx, val_str):
-    target_cell = tr.contents.get(col_idx)
-    has_newline = target_cell.contents.endswith('\n')
-    is_first = len(target_cell.wiki_markup) == 1
-    val_td = mk_wc_td(val_str, is_first=is_first, is_last=has_newline)
-    tr.contents.set(col_idx, val_td)
-
-
-def format_word_count(word_count):
-    locale.setlocale(locale.LC_ALL, 'en_US')
-    number = locale.format("%d", word_count, grouping=True)
-    return "{}".format(number)
-
-if sys.argv[1] in LANG_CODE_NAME_MAP:
-    # blank out column
-    col_idx = lang_order.index(sys.argv[1]) + 1
-    table_idx = 3
-    while table_idx < len(table_inner.nodes):
-        tr = table_inner.get(table_idx)
-        if len(tr.contents.nodes) > col_idx:
-            if tr.contents.get(col_idx).contents.endswith('\n'):
-                tr.contents.get(col_idx).contents = '\n'
-            else:
-                tr.contents.get(col_idx).contents = ''
-        table_idx += 1
-    print(table)
-    sys.exit()
-
-input_data = {}
-
-for arg in sys.argv[1:]:
-    i = eval(open(arg).read())
-    for k in i:
-        input_data[k] = i[k]
-
-for lang, data in input_data.items():
-    lang_idx = lang_order.index(lang)
-    col_idx = lang_idx + 1
-    word_count = data.pop('word_count', None)
-    if word_count is not None:
-        word_count_tr = table_inner.get(3)
-        insert_into_wc(word_count_tr, col_idx, format_word_count(word_count))
-    data = [(name_to_attrs(name), result_to_str(value))
-            for name, value in data.items()]
-    data = sorted(data, key=lambda pair: attrs_to_sort_tuple(pair[0]))
-    table_idx = 4
-    for attrs, val_str in data:
-        title_str = attrs_to_str(attrs)
-        while table_idx < len(table_inner.nodes):
-            tr = table_inner.get(table_idx)
-            if len(tr.contents) > 1:
-                cell_contents = tr.contents.get(0).contents
-                existing_title_str = str(cell_contents).strip(' ').strip("'")
-                if existing_title_str == title_str:
-                    # insert into existing
-                    insert_into_tr(tr, col_idx, val_str)
-                    break
-            else:
-                table_inner.remove(tr, recursive=False)
-            table_idx += 1
-        else:
-            # append to end
-            tr = mk_initial_tr(title_str)
-            insert_into_tr(tr, col_idx, val_str)
-            table_inner.append(tr)
-
-print(table)
Index: branches/apertium-tagger/experiments/mtx/allflattagswrdbigram.mtx
===================================================================
--- branches/apertium-tagger/experiments/mtx/allflattagswrdbigram.mtx	(nonexistent)
+++ branches/apertium-tagger/experiments/mtx/allflattagswrdbigram.mtx	(revision 70993)
@@ -0,0 +1,40 @@
+<!-- Per-wordoid bigrams of a flattened version of all tags -->
+<feats>
+  <!-- Unigram -->
+  <feat>
+    <out>
+      <join sep="|">
+        <ex-tags>
+          <get-wordoid>
+            <get-addr />
+          </get-wordoid>
+        </ex-tags>
+      </join>
+    </out>
+  </feat>
+  <!-- Bigram -->
+  <feat>
+    <out>
+      <join sep="|">
+        <ex-tags>
+          <adjust>
+            <add>
+              <get-addr />
+              <addr-of-ints>
+                <int val="0" />
+                <int val="-1" />
+              </addr-of-ints>
+            </add>
+          </adjust>
+        </ex-tags>
+      </join>
+    </out>
+    <out>
+      <join sep="|">
+        <ex-tags>
+          <get-addr />
+        </ex-tags>
+      </join>
+    </out>
+  </feat>
+</feats>
Index: branches/apertium-tagger/experiments/mtx/carttagswrdbigram.mtx
===================================================================
--- branches/apertium-tagger/experiments/mtx/carttagswrdbigram.mtx	(nonexistent)
+++ branches/apertium-tagger/experiments/mtx/carttagswrdbigram.mtx	(revision 70993)
@@ -0,0 +1,32 @@
+<!-- Per-wordoid bigrams of the cartesian product of all tags -->
+<feats>
+  <!-- Unigram -->
+  <feat>
+    <out-many>
+      <ex-tags>
+        <get-addr>
+      </ex-tags>
+    </out-many>
+  </feat>
+  <!-- Bigram -->
+  <feat>
+    <out-many>
+      <ex-tags>
+        <adjust>
+          <add>
+            <get-addr />
+            <addr-of-ints>
+              <int val="0" />
+              <int val="-1" />
+            </addr-of-ints>
+          </add-addr>
+        </adjust>
+      </ex-tags>
+    </out-many>
+    <out-many>
+      <ex-tags>
+        <get-addr />
+      </ex-tags>
+    </out-many>
+  </feat>
+</feats>
Index: branches/apertium-tagger/experiments/mtx/commondefns.mtx
===================================================================
--- branches/apertium-tagger/experiments/mtx/commondefns.mtx	(nonexistent)
+++ branches/apertium-tagger/experiments/mtx/commondefns.mtx	(revision 70993)
@@ -0,0 +1,48 @@
+<def-global as="flattags_0">
+  <join>
+    <for-each as="wordoid">
+      <ex-wordoids>
+        <get-tokaddr />
+      </ex-wordoids>
+      <join>
+        <ex-tags>
+          <var name="wordoid">
+        </ex-tags>
+      </join>
+    </for-each>
+  </join>
+</def-global>
+<def-global as="flattags_m1">
+  <join>
+    <for-each as="wordoid">
+      <ex-wordoids>
+        <add>
+          <get-tokaddr />
+          <int val="-1" />
+        </add>
+      </ex-wordoids>
+      <join>
+        <ex-tags>
+          <var name="wordoid">
+        </ex-tags>
+      </join>
+    </for-each>
+  </join>
+</def-global>
+<def-global as="flattags_m2">
+  <join>
+    <for-each as="wordoid">
+      <ex-wordoids>
+        <add>
+          <get-tokaddr />
+          <int val="-2" />
+        </add>
+      </ex-wordoids>
+      <join>
+        <ex-tags>
+          <var name="wordoid">
+        </ex-tags>
+      </join>
+    </for-each>
+  </join>
+</def-global>
Index: branches/apertium-tagger/experiments/mtx/majortagsbigram.mtx
===================================================================
--- branches/apertium-tagger/experiments/mtx/majortagsbigram.mtx	(nonexistent)
+++ branches/apertium-tagger/experiments/mtx/majortagsbigram.mtx	(revision 70993)
@@ -0,0 +1,38 @@
+<!-- Per-wordoid bigrams of major (1st) pos only -->
+<feats>
+  <!-- Unigram -->
+  <feat>
+    <out>
+      <slice start="0" end="1">
+        <ex-tags>
+          <get-addr>
+        </ex-tags>
+      </slice>
+    </out>
+  </feat>
+  <!-- Bigram -->
+  <feat>
+    <out>
+      <slice start="0" end="1">
+        <ex-tags>
+          <adjust>
+            <add-addr>
+              <get-addr />
+              <addr-of-ints>
+                <int val="0" />
+                <int val="-1" />
+              </addr-of-ints>
+            </add-addr>
+          </adjust>
+        </ex-tags>
+      </slice>
+    </out>
+    <out>
+      <slice start="0" end="1">
+        <ex-tags>
+          <get-addr>
+        </ex-tags>
+      </slice>
+    </out>
+  </feat>
+</feats>
Index: branches/apertium-tagger/experiments/mtx/morphodita.mtx
===================================================================
--- branches/apertium-tagger/experiments/mtx/morphodita.mtx	(nonexistent)
+++ branches/apertium-tagger/experiments/mtx/morphodita.mtx	(revision 70993)
@@ -0,0 +1,387 @@
+<!--
+Feature templates copied from MorphoDiTa. From here:
+https://github.com/ufal/udpipe/blob/1a3c3977c47a0bc03b41135d538e10454386b60f/src/trainer/trainer_morphodita_parsito.cpp#L760
+
+Caveat: Martin Popel described MorphoDiTa as looking within a token but I can't
+see how this works so this template is in "whole token" mode (see
+<global-pred>).
+
+Caveat: Not using actual UPOS, just using Apertium major POS
+
+Missing:
+Can't express in MTX currently
+"Tag 0,PreviousVerbTag 0\n"
+"Tag 0,PreviousVerbForm 0\n"
+"Tag 0,FollowingVerbTag 0\n"
+"Tag 0,FollowingVerbForm 0\n"
+
+Laziness/TODO:
+"Tag 0,Num 0\n"
+"Tag 0,Cap 0\n"
+"Tag 0,Dash 0\n"
+-->
+<?xml version="1.1"?>
+<!DOCTYPE doc [
+  <!ENTITY commondefns SYSTEM "commondefns.mtx">
+]>
+<defns>
+  <def-set name="genders">
+    <set-member tag="f" />
+    <set-member tag="m" />
+    <set-member tag="nt" />
+    <set-member tag="ma" />
+    <set-member tag="mi" />
+    <set-member tag="mp" />
+    <set-member tag="mn" />
+    <set-member tag="fn" />
+    <set-member tag="ut" />
+    <set-member tag="mf" />
+    <set-member tag="mfn" />
+    <set-member tag="un" />
+    <set-member tag="GD" />
+  </def-set>
+  <def-set name="cases">
+    <set-member tag="nom" />
+    <set-member tag="acc" />
+    <set-member tag="dat" />
+    <set-member tag="gen" />
+    <set-member tag="dg" />
+    <set-member tag="voc" />
+    <set-member tag="abl" />
+    <set-member tag="ins" />
+    <set-member tag="loc" />
+    <set-member tag="prp" />
+    <set-member tag="tra" />
+    <set-member tag="ill" />
+    <set-member tag="ine" />
+    <set-member tag="ade" />
+    <set-member tag="all" />
+    <set-member tag="abe" />
+    <set-member tag="ess" />
+    <set-member tag="par" />
+    <set-member tag="dis" />
+    <set-member tag="com" />
+    <set-member tag="soc" />
+    <set-member tag="prl" />
+  </def-set>
+
+  &commondefns;
+
+  <def-global as="upos_m1">
+    <join>
+      <for-each as="wordoid">
+        <ex-wordoids>
+          <add>
+            <get-tokaddr />
+            <int val="-1" />
+          </add>
+        </ex-wordoids>
+        <subscript idx="0">
+          <ex-tags>
+            <var name="wordoid">
+          </ex-tags>
+        </subscript>
+      </for-each>
+    </join>
+  </def-global>
+  <def-global as="upos_m2">
+    <join>
+      <for-each as="wordoid">
+        <ex-wordoids>
+          <add>
+            <get-tokaddr />
+            <int val="-2" />
+          </add>
+        </ex-wordoids>
+        <subscript idx="0">
+          <ex-tags>
+            <var name="wordoid">
+          </ex-tags>
+        </subscript>
+      </for-each>
+    </join>
+  </def-global>
+  <def-str name="neg" tag="neg" />
+</defns>
+<global-pred>
+  <eq>
+    <get-wrdaddr />
+    <int val="0" />
+  </eq>
+</global-pred>
+<feats>
+  <feat>
+    <out>
+      <var name="flattags_0" />
+    </out>
+  </feat>
+<!-- "Tag 0,Tag -1\n" -->
+  <feat>
+    <out>
+      <var name="flattags_0" />
+      <var name="flattags_m1" />
+    </out>
+  </feat>
+<!-- "Tag 0,TagUPos -1\n" -->
+  <feat>
+    <out>
+      <var name="flattags_0" />
+      <var name="upos_m1" />
+    </out>
+  </feat>
+<!-- "Tag 0,Tag -1,Tag -2\n" -->
+  <feat>
+    <out>
+      <var name="flattags_0" />
+      <var name="flattags_m1" />
+      <var name="flattags_m2" />
+    </out>
+  </feat>
+<!-- "Tag 0,TagUPos -1,TagUPos -2\n" -->
+  <feat>
+    <out>
+      <var name="flattags_0" />
+      <var name="upos_m1" />
+      <var name="upos_m2" />
+    </out>
+  </feat>
+<!-- "Tag 0,Tag -2\n" -->
+  <feat>
+    <out>
+      <var name="flattags_0" />
+      <var name="flattags_m2" />
+    </out>
+  </feat>
+<!-- "Tag 0,Form 0\n" -->
+  <feat>
+    <out>
+      <var name="flattags_0" />
+      <var name="form_0" />
+    </out>
+  </feat>
+<!-- "Tag 0,Form 0,Form -1\n" -->
+  <feat>
+    <out>
+      <var name="flattags_0" />
+      <var name="form_0" />
+      <var name="form_m1" />
+    </out>
+  </feat>
+<!-- "Tag 0,Form -1\n" -->
+  <feat>
+    <out>
+      <var name="flattags_0" />
+      <var name="form_m1" />
+    </out>
+  </feat>
+<!-- "Tag 0,Form -2\n" -->
+  <feat>
+    <out>
+      <var name="flattags_0" />
+      <var name="form_m2" />
+    </out>
+  </feat>
+<!-- "Tag 0,Form -1,Form -2\n" -->
+  <feat>
+    <out>
+      <var name="flattags_0" />
+      <var name="form_m1" />
+      <var name="form_m2" />
+    </out>
+  </feat>
+<!-- "Tag 0,Form 1\n" -->
+  <feat>
+    <out>
+      <var name="flattags_0" />
+      <var name="form_p1" />
+    </out>
+  </feat>
+<!-- "Tag 0,Form 1,Form 2\n" -->
+  <feat>
+    <out>
+      <var name="flattags_0" />
+      <var name="form_p1" />
+      <var name="form_p2" />
+    </out>
+  </feat>
+<!-- "Tag 0,Lemma -1\n" -->
+  <feat>
+    <out>
+      <var name="flattags_0" />
+      <var name="lemma_m1" />
+    </out>
+  </feat>
+<!-- "Tag 0,Form 1\n" -->
+  <feat>
+    <out>
+      <var name="flattags_0" />
+      <var name="form_p1" />
+    </out>
+  </feat>
+<!-- "Lemma 0,Tag -1\n" -->
+  <feat>
+    <out>
+      <var name="lemma_0" />
+      <var name="flattags_m1" />
+    </out>
+  </feat>
+<!-- "Tag 0,Prefix1 0\n" -->
+  <feat>
+    <out>
+      <var name="flattags_0" />
+      <var name="prefix_1_0" />
+    </out>
+  </feat>
+<!-- "Tag 0,Prefix2 0\n" -->
+  <feat>
+    <out>
+      <var name="flattags_0" />
+      <var name="prefix_2_0" />
+    </out>
+  </feat>
+<!-- "Tag 0,Prefix3 0\n" -->
+  <feat>
+    <out>
+      <var name="flattags_0" />
+      <var name="prefix_3_0" />
+    </out>
+  </feat>
+<!-- "Tag 0,Prefix4 0\n" -->
+  <feat>
+    <out>
+      <var name="flattags_0" />
+      <var name="prefix_4_0" />
+    </out>
+  </feat>
+<!-- "Tag 0,Prefix5 0\n" -->
+  <feat>
+    <out>
+      <var name="flattags_0" />
+      <var name="prefix_5_0" />
+    </out>
+  </feat>
+<!-- "Tag 0,Prefix6 0\n" -->
+  <feat>
+    <out>
+      <var name="flattags_0" />
+      <var name="prefix_6_0" />
+    </out>
+  </feat>
+<!-- "Tag 0,Prefix7 0\n" -->
+  <feat>
+    <out>
+      <var name="flattags_0" />
+      <var name="prefix_7_0" />
+    </out>
+  </feat>
+<!-- "Tag 0,Prefix8 0\n" -->
+  <feat>
+    <out>
+      <var name="flattags_0" />
+      <var name="prefix_8_0" />
+    </out>
+  </feat>
+<!-- "Tag 0,Prefix9 0\n" -->
+  <feat>
+    <out>
+      <var name="flattags_0" />
+      <var name="prefix_9_0" />
+    </out>
+  </feat>
+<!-- "Tag 0,Suffix1 0\n" -->
+  <feat>
+    <out>
+      <var name="flattags_0" />
+      <var name="suffix_1_0" />
+    </out>
+  </feat>
+<!-- "Tag 0,Suffix2 0\n" -->
+  <feat>
+    <out>
+      <var name="flattags_0" />
+      <var name="suffix_2_0" />
+    </out>
+  </feat>
+<!-- "Tag 0,Suffix3 0\n" -->
+  <feat>
+    <out>
+      <var name="flattags_0" />
+      <var name="suffix_3_0" />
+    </out>
+  </feat>
+<!-- "Tag 0,Suffix4 0\n" -->
+  <feat>
+    <out>
+      <var name="flattags_0" />
+      <var name="suffix_4_0" />
+    </out>
+  </feat>
+<!-- "Tag 0,Suffix5 0\n" -->
+  <feat>
+    <out>
+      <var name="flattags_0" />
+      <var name="suffix_5_0" />
+    </out>
+  </feat>
+<!-- "Tag 0,Suffix6 0\n" -->
+  <feat>
+    <out>
+      <var name="flattags_0" />
+      <var name="suffix_6_0" />
+    </out>
+  </feat>
+<!-- "Tag 0,Suffix7 0\n" -->
+  <feat>
+    <out>
+      <var name="flattags_0" />
+      <var name="suffix_7_0" />
+    </out>
+  </feat>
+<!-- "Tag 0,Suffix8 0\n" -->
+  <feat>
+    <out>
+      <var name="flattags_0" />
+      <var name="suffix_8_0" />
+    </out>
+  </feat>
+<!-- "Tag 0,Suffix9 0\n" -->
+  <feat>
+    <out>
+      <var name="flattags_0" />
+      <var name="suffix_9_0" />
+    </out>
+  </feat>
+<!-- "TagUPos 0\n" -->
+<!-- "TagUPos 0,TagUPos -1\n" -->
+<!-- "TagUPos 0,TagUPos -1,TagUPos -2\n" -->
+<!-- "TagCase 0,TagCase -1\n" -->
+<!-- "TagCase 0,TagCase -1,TagCase -2\n" -->
+<!-- "TagGender 0,TagGender -1\n" -->
+<!-- "TagGender 0,TagGender -1,TagGender -2\n" -->
+<!-- "TagUPos 0,Prefix1 0\n" -->
+<!-- "TagUPos 0,Prefix2 0\n" -->
+<!-- "TagUPos 0,Prefix3 0\n" -->
+<!-- "TagUPos 0,Prefix4 0\n" -->
+<!-- "TagUPos 0,Prefix5 0\n" -->
+<!-- "TagUPos 0,Prefix6 0\n" -->
+<!-- "TagUPos 0,Prefix7 0\n" -->
+<!-- "TagUPos 0,Prefix8 0\n" -->
+<!-- "TagUPos 0,Prefix9 0\n" -->
+<!-- "TagUPos 0,Suffix1 0\n" -->
+<!-- "TagUPos 0,Suffix2 0\n" -->
+<!-- "TagUPos 0,Suffix3 0\n" -->
+<!-- "TagUPos 0,Suffix4 0\n" -->
+<!-- "TagUPos 0,Suffix5 0\n" -->
+<!-- "TagUPos 0,Suffix6 0\n" -->
+<!-- "TagUPos 0,Suffix7 0\n" -->
+<!-- "TagUPos 0,Suffix8 0\n" -->
+<!-- "TagUPos 0,Suffix9 0\n" -->
+<!-- "TagNegative 0,Prefix1 0\n" -->
+<!-- "TagNegative 0,Prefix2 0\n" -->
+<!-- "TagNegative 0,Prefix3 0\n" -->
+<!-- "TagCase 0,Suffix1 0\n" -->
+<!-- "TagCase 0,Suffix2 0\n" -->
+<!-- "TagCase 0,Suffix3 0\n" -->
+<!-- "TagCase 0,Suffix4 0\n" -->
+<!-- "TagCase 0,Suffix5 0\n"; -->
+</feats>
Index: branches/apertium-tagger/experiments/mtx/proposed.mtx
===================================================================
--- branches/apertium-tagger/experiments/mtx/proposed.mtx	(nonexistent)
+++ branches/apertium-tagger/experiments/mtx/proposed.mtx	(revision 70993)
@@ -0,0 +1,50 @@
+<!-- Define a map backed by an tag globbing somehow (fst?, linear scan?, allow general regex?) -->
+<def-map name="coarsen">
+  <map-member key="vblex" val="" />
+  <map-member pat="vblex.past.*.*" val="" />
+</def-set>
+<!-- Apply a map (works for str or str[]) -->
+<apply-map>
+<!-- Test map membership (possibly overload set membership test ) -->
+<in-map>
+
+<!-- Define a single regex -->
+<def-regex name="neg_regex" val="^un" />
+<!-- Test match -->
+<pred>
+  <matches name="neg_regex">
+    ...
+  </matches>
+</pred>
+<!--  -->
+
+<!-- Memoised backwards scan (for getting previous verb), lives in defns -->
+<scan-backwards as="foo">
+  <pred>
+  </pred>
+</scan-backwards>
+
+<!-- Memoised forwards scan (for getting next verb), lives in defns -->
+<scan-forwards as="bar">
+  <pred>
+  </pred>
+</scan-forwards>
+
+<!-- Globals, live in defns, to avoid recomputing and to make DRY -->
+<def-global as="baz">
+
+</def-global>
+
+<!-- General memoized functions? -->
+
+<!-- Should compute predicates for globals and memoized functions?! -->
+
+<!-- A "proper" dataflow language? -->
+
+<!-- Maybe build on top of excel? -->
+
+<!-- XSLT! -->
+
+<!-- One possibility simpler than full dataflow would be to simply not include
+globals which aren't referenced at compile time, to allow feature libraries to
+be included -->
Index: branches/apertium-tagger/experiments/mtx/spacyflattags.mtx
===================================================================
--- branches/apertium-tagger/experiments/mtx/spacyflattags.mtx	(revision 70990)
+++ branches/apertium-tagger/experiments/mtx/spacyflattags.mtx	(revision 70993)
@@ -1,17 +1,31 @@
+<!--
+Feature templates copied from the spaCy part of speech tagger. From here:
+https://spacy.io/blog/part-of-speech-pos-tagger-in-python#features-and-pre-processing
+-->
+<?xml version="1.1"?>
+<!DOCTYPE doc [
+  <!ENTITY commondefns SYSTEM "commondefns.mtx">
+]>
+<defns>
+  &commondefns;
+</defns>
 <feats>
+  <!-- add('bias') # This acts sort of like a prior -->
   <feat>
-    <concat>
-      <gettagsflat />
-    </concat>
+    <out>
+      <var name="flattags_0" />
+    </out>
   </feat>
+  <!-- add('i suffix', word[-3:]) -->
   <feat>
-    <concat>
-      <gettagsflat />
+    <out>
+      <var name="flattags_0" />
       <sliceend int="3">
-        <getwrdlf />
+        <getwrdlf wrdaddr="-1 A X" />
       </sliceend>
-    </concat>
+    </out>
   </feat>
+  <!-- add('i pref1', word[0]) -->
   <feat>
     <concat>
       <gettagsflat />
@@ -20,6 +34,7 @@
       </slicebegin>
     </concat>
   </feat>
+  <!-- add('i-1 tag', prev) -->
   <feat>
     <concat>
       <gettagsflat />
@@ -26,6 +41,7 @@
       <gettagsflat wrdaddr="-1 A X" />
     </concat>
   </feat>
+  <!-- add('i-2 tag', prev2) -->
   <feat>
     <concat>
       <gettagsflat />
@@ -32,6 +48,7 @@
       <gettagsflat wrdaddr="-2 A X" />
     </concat>
   </feat>
+  <!-- add('i-1 tag+i-2 tag', prev, prev2) -->
   <feat>
     <concat>
       <gettagsflat />
@@ -39,22 +56,16 @@
       <gettagsflat wrdaddr="-2 A X" />
     </concat>
   </feat>
+  <!-- add('i word', context[i]) -->
   <feat>
     <concat>
       <gettagsflat />
       <lower>
-        <getwrdlf wrdaddr="-1 A X" />
-      </lower>
-    </concat>
-  </feat>
-  <feat>
-    <concat>
-      <gettagsflat />
-      <lower>
         <getwrdlf />
       </lower>
     </concat>
   </feat>
+  <!-- add('i-1 tag+i word', prev, context[i]) -->
   <feat>
     <concat>
       <gettagsflat />
@@ -64,6 +75,7 @@
       </lower>
     </concat>
   </feat>
+  <!-- add('i-1 word', context[i-1]) -->
   <feat>
     <concat>
       <gettagsflat />
@@ -72,6 +84,7 @@
       </lower>
     </concat>
   </feat>
+  <!-- add('i-1 suffix', context[i-1][-3:]) -->
   <feat>
     <concat>
       <gettagsflat />
@@ -82,6 +95,7 @@
       </lower>
     </concat>
   </feat>
+  <!-- add('i-2 word', context[i-2]) -->
   <feat>
     <concat>
       <gettagsflat />
@@ -90,6 +104,7 @@
       </lower>
     </concat>
   </feat>
+  <!-- add('i+1 word', context[i+1]) -->
   <feat>
     <concat>
       <gettagsflat />
@@ -98,6 +113,7 @@
       </lower>
     </concat>
   </feat>
+  <!-- add('i+1 suffix', context[i+1][-3:]) -->
   <feat>
     <concat>
       <gettagsflat />
@@ -108,12 +124,16 @@
       </lower>
     </concat>
   </feat>
+  <!-- add('i+2 word', context[i+2]) -->
   <feat>
     <concat>
       <gettagsflat />
       <lower>
         <sliceend int="3">
-          <gettoklf tokaddr="+2 X" />
+          <ex-surf>
+            <add>
+            </add>
+          </ex-surf>
         </sliceend>
       </lower>
     </concat>
Index: branches/apertium-tagger/experiments/mtx/unigram_model1.mtx
===================================================================
--- branches/apertium-tagger/experiments/mtx/unigram_model1.mtx	(nonexistent)
+++ branches/apertium-tagger/experiments/mtx/unigram_model1.mtx	(revision 70993)
@@ -0,0 +1,32 @@
+<feats>
+  <feat>
+    <!-- Must be the first wordoid of a token -->
+    <pred>
+      <eq>
+        <get-wrdaddr />
+        <int val="0" />
+      </eq>
+    </pred>
+    <!-- For every wordoid -->
+    <for-each var="wordoid">
+      <ex-wordoids>
+        <get-tokaddr />
+      </ex-wordoids>
+      <!-- Output the lemma -->
+      <out>
+        <ex-lemma>
+          <var name="wordoid" />
+        </ex-lemma>
+      </out>
+      <!-- and the tags -->
+      <for-each var="tag">
+        <ex-tags>
+          <var name="wordoid">
+        </ex-tags>
+        <out>
+          <var name="tag">
+        </out>
+      </for-each>
+    </for-each>
+  </feat>
+</feats>
Index: branches/apertium-tagger/experiments/mtx/unigram_model2.mtx
===================================================================
--- branches/apertium-tagger/experiments/mtx/unigram_model2.mtx	(nonexistent)
+++ branches/apertium-tagger/experiments/mtx/unigram_model2.mtx	(revision 70993)
@@ -0,0 +1,56 @@
+<feats>
+  <feat>
+    <!-- Must be the first wordoid of a token -->
+    <pred>
+      <eq>
+        <get-wrdaddr />
+        <int val="0" />
+      </eq>
+    </pred>
+    <!-- Output the lemma of the first wordoid -->
+    <out>
+      <ex-lemma>
+        <get-addr />
+      </ex-lemma>
+    </out>
+  </feat>
+  <feat>
+    <!-- Must be the first wordoid of a token -->
+    <pred>
+      <eq>
+        <get-wrdaddr />
+        <int val="0" />
+      </eq>
+    </pred>
+    <!-- Output the tags for the first wordoid -->
+    <out>
+      <join sep="|">
+        <ex-tags>
+          <ex-wordoid>
+            <get-addr />
+          </ex-wordoid>
+        </ex-tags>
+      </join>
+    </out>
+    <!-- Output the lemma and tags for the remaining wordoids -->
+    <for-each var="wordoid">
+      <slice start="1">
+        <ex-wordoids>
+          <get-tokaddr />
+        </ex-wordoids>
+      </slice>
+      <out>
+        <ex-lemma>
+          <var name="wordoid">
+        </ex-lemma>
+      </out>
+      <out>
+        <join sep="|">
+          <ex-tags>
+            <var name="wordoid">
+          </ex-tags>
+        </join>
+      </out>
+    </for-each>
+  </feat>
+</feats>
Index: branches/apertium-tagger/experiments/mtx/unigram_model3.mtx
===================================================================
--- branches/apertium-tagger/experiments/mtx/unigram_model3.mtx	(nonexistent)
+++ branches/apertium-tagger/experiments/mtx/unigram_model3.mtx	(revision 70993)
@@ -0,0 +1,20 @@
+<feats>
+  <feat>
+    <!-- Output the lemma -->
+    <out>
+      <ex-lemma>
+        <get-addr />
+      </ex-lemma>
+    </out>
+    <!-- Output the tags -->
+    <out>
+      <join sep="|">
+        <ex-tags>
+          <ex-wordoid>
+            <get-addr />
+          </ex-wordoid>
+        </ex-tags>
+      </join>
+    </out>
+  </feat>
+</feats>
Index: branches/apertium-tagger/experiments/run_experiment.py
===================================================================
--- branches/apertium-tagger/experiments/run_experiment.py	(revision 70990)
+++ branches/apertium-tagger/experiments/run_experiment.py	(revision 70993)
@@ -55,8 +55,11 @@
         'cg:texts/raio.tagged.txt',
     ],
     'swe': [
-        'cgr:texts/tid.tagged.txt'
+        'cgr:texts/tid.tagged.txt',
     ],
+    'ita': [
+        'cg:texts/puupankki/puupankki.ita.vislcg',
+    ],
 }
 TSX_MAP = {
     'hbs': 'apertium-hbs.hbs-coarse.tsx',
@@ -132,7 +135,7 @@
     return parser.parse_args()
 
 
-PREPROCESSER_MAP = {
+PREPROCESSOR_MAP = {
     'cg': cg_conv_clean,
     'cgr': functools.partial(cg_conv_clean, rtl=True),
 }
@@ -209,10 +212,10 @@
         self.text_fns = []
         for text in texts:
             if ':' in text:
-                preprocesser_name, text = text.split(':', 1)
+                preprocessor_name, text = text.split(':', 1)
             else:
-                preprocesser_name = None
-            self.text_fns.append((preprocesser_name,
+                preprocessor_name = None
+            self.text_fns.append((preprocessor_name,
                                   pjoin(lang_root, text)))
         self.joined_fn = pjoin(self.work_dir, 'joined')
         self.ref_fn = pjoin(self.work_dir, 'ref')
@@ -260,13 +263,13 @@
             mkdir(self.work_dir)
 
         preprocessed_texts = []
-        for i, (preprocesser_name, fn) in enumerate(self.text_fns):
-            if preprocesser_name:
-                preprocesser = PREPROCESSER_MAP.get(preprocesser_name)
+        for i, (preprocessor_name, fn) in enumerate(self.text_fns):
+            if preprocessor_name:
+                preprocessor = PREPROCESSOR_MAP.get(preprocessor_name)
                 cleaned_fn = pjoin(
                     self.work_dir,
-                    'cleaned.{}.{}.txt'.format(i, preprocesser_name))
-                preprocesser(input=fn, output=cleaned_fn)
+                    'cleaned.{}.{}.txt'.format(i, preprocessor_name))
+                preprocessor(input=fn, output=cleaned_fn)
                 preprocessed_texts.append(cleaned_fn)
             else:
                 preprocessed_texts.append(fn)
Index: languages/apertium-ita/texts/puupankki/puupankki.ita.vislcg
===================================================================
--- languages/apertium-ita/texts/puupankki/puupankki.ita.vislcg	(revision 70990)
+++ languages/apertium-ita/texts/puupankki/puupankki.ita.vislcg	(revision 70993)
@@ -13209,7 +13209,6 @@
 	"," cm
 "<AT>"
 	"*AT"
-&$ 
 "<amp>"
 	"*amp"
 "<;>"