KI-Einsatz für Effizienzgewinne bei Benchmark-studien im Bereich Transfer Pricing - WTS Global

Die Seite wird erstellt Lenja Neubauer
 
WEITER LESEN
KI-Einsatz für Effizienzgewinne bei Benchmark-studien im Bereich Transfer Pricing - WTS Global
BETRIEBSWIRTSCHAFT                                      Effizienzgewinne durch KI bei Benchmarkstudien im Transfer Pricing

 KI-Einsatz für Effizienzgewinne bei Benchmark-
 studien im Bereich Transfer Pricing
 Mittels Web Crawling und Natural Language Under-
 standing
 Mittels KI zur Teilautomatisierung des qualitativen Screenings bei der Erstellung von TP Benchmarkstudien
 entwickeln die Fachexperten der WTS und das DFKI gemeinsam einen Software-Prototyp – auch um so dem
 kompetitiven Umfeld mit einer digitalen Lösung entgegenzutreten.

                                                                           ses und das hohe Potential von Künstlicher Intelligenz
 ALEXANDER BEUTHER, PROF. DR. PETER FETTKE,                                (KI) in diesem Zusammenhang sorgt hier für euphori-
 DR. VANESSA JUST UND ANDREAS RIEDL                                        sche Aussichten.3

 1. Einleitung                                                             Digitale Technologien haben bereits in vielen Bereichen
 „Transfer Pricing – it’s an art, not a science!“ besagt ein               Revolutionen ausgelöst. Digitale Fotografie beispiels-
 bekanntes Zitat. Die angesprochene Kunst stößt jedoch                     weise lässt analoge Fotografie antiquarisch wirken. On-
 manchmal an äußerst unsanfte Restriktionen. In der Pra-                   line-Handel hängt den stationären Handel seit Jahren
 xis der Verrechnungspreisarbeit gibt es einige Heraus-                    hinsichtlich des Umsatzwachstums ab. Diese Verände-
 forderungen bei der Bestimmung von Fremdvergleichs-                       rungen haben die jeweiligen Strukturen auf den Märk-
 daten. Im Rahmen der Ermittlung angemessener Trans-                       ten nachhaltig verändert. Auch Steuerabteilungen und
 ferpreise ist der international anerkannte Maßstab des                    Steuerberatungen müssen sich ebenso verändern, um
 Fremdvergleichsgrundsatzes anzuwenden. Typischer-                         wettbewerbsfähig zu bleiben.4 Vor allem bei Verrech-
 weise erfordert der Grundsatz des Fremdvergleichs ba-                     nungspreisen trifft dies besonders zu, da das Volumen
 sierend auf § 1 Abs. 1 AStG, dass Transaktionen zwi-                      interner Transaktionen laut Schätzungen des BMF und
 schen verbundenen Unternehmen mit denen von un-                           der OECD etwa 60 % des weltweiten Handels aus-
 abhängigen Unternehmen vergleichbar sind. Die Ana-                        macht. Es handelt sich um eine signifikant hohe Anzahl
 lysen, die in diesem Zusammenhang angefertigt werden,                     an internen Transaktionen, hohe Volumina und erheb-
 stoßen schnell an ihre Grenzen.1                                          liche Prozesskosten.5 Aufgrund des enormen tech-
                                                                           nischen Potentials in diesem Zusammenhang erforschen
 Ganz konkret geht es um sog. „Benchmarkstudien“.                          die Autoren innovative Konzepte zur Digitalisierung
 In den Studien fällt regelmäßig der größte Teil der                       aller Aufgaben, die im Zusammenhang mit Verrech-
 Arbeit für das manuelle Screening der Vergleichsunter-                    nungspreisen stehen. Hierzu wurde insbesondere auch
 nehmen an. In der Praxis werden Webseiten angesteu-                       ein Prototyp entwickelt, der basierend auf jahrzehnte-
 ert, beurteilt und Screenshots gemacht; nicht selten                      langer Erfahrung bei der Erstellung von Benchmarkstu-
 von mehreren hundert Unternehmen. Dabei ist die                           dien den Arbeitsschritt des manuellen Screenings unter-
 Beurteilung der Webseiten subjektiv und – durch den                       stützt.
 Zeitaufwand für das Screening – die Suchmöglichkei-
 ten beschränkt. Insgesamt ist dem Prozess so inhärent,
                                                                           3 Zur Verbesserung der Qualität hat die OECD ansonsten ein Toolkit
 dass die Ergebnisse durch eine Verbesserung des ma-                         veröffentlicht (A Toolkit for Addressing Difficulties in Accessing Com-
 nuellen Screening-Prozesses verbessert werden kön-                          parables Data for Transfer Pricing Analyses in https://www.oecd.org/
                                                                             tax/toolkit-on-comparability-and-mineral-pricing.pdf). Die grundsätzli-
 nen.2 Gerade die weitere Automatisierung des Prozes-                        che Problematik im Rahmen des manuellen Screenings wird hierdurch
                                                                             jedoch nicht beseitigt.
                                                                           4 Fettke/Herzog/Lahann/Maus/Neumann, Künstliche Intelligenz im Steu-
 1 Zu den Grenzen von Benchmarkstudien ua Krüger/Nientimp/Schwarz            erbereich: Innovationsstudie zur Digitalisierung und den Potentialen
   Ubg 2016, 221.                                                            Künstlicher Intelligenz im Bereich Steuer, WTS Group AG Steuerbera-
 2 Zu den weiteren Suchkriterien im Rahmen der Erstellung von Bench-         tungsgesellschaft, Deutsches Forschungszentrum für Künstliche Intelli-
   markstudien ua Vögele/Borstell/Bernhardt, Verrechnungspreise, Kap. H:     genz, 2017.
   Berechnung, Benchmarking, Profit Split für Gewinnmethoden,              5 Kleinhietpaß/Hanken, Verrechnungspreise – inkl. eBook: im Spannungs-
   Rn. 123–125.                                                              feld von Controlling und Steuern, 2014, Vol. 1207.

 316                                                                                                                            beck.digitax 5/2020
KI-Einsatz für Effizienzgewinne bei Benchmark-studien im Bereich Transfer Pricing - WTS Global
Effizienzgewinne durch KI bei Benchmarkstudien im Transfer Pricing                  BETRIEBSWIRTSCHAFT

Abb. 1: Überblick global verwendeter Datenbanken

Dieser von DFKI und WTS Service Line Transfer Pricing       beteiligt sind. Allerdings umfassen die damit zusammen-
entwickelte Prototyp soll die Benchmarking-Experten         hängenden Aufgaben, das sog. Verrechnungspreis-Ma-
der WTS bei der Selektion von vergleichbaren Unterneh-      nagement, weitaus mehr als die Festlegung der Methodik
men aus Transfer Pricing-Datenbanken unterstützen, in-      oder die Erstellung der Dokumentation. Dies bedeutet,
dem der manuelle Schritt der Bestimmung der Unterneh-       dass bei der Digitalisierung der Verrechnungspreise eine
mensfunktion durch eine automatische Textanalyse er-        Fülle von Aufgaben und Daten zu berücksichtigen ist.
gänzt wird. Dadurch wird eine Steigerung der Geschwin-
digkeit sowie eine Reduktion von manuellem Aufwand          Besonders Verrechnungspreise unterliegen höchsten An-
und damit einhergehend eine Kostenreduktion bei der         forderungen an die Steuer-Compliance, da diese Preise
Erstellung von Benchmarkstudien erwartet.                   von mehreren Parteien, den zwei Ländern, die von der
                                                            Transaktion betroffen sind, akzeptiert werden müssen.
Im folgenden Beitrag wird das Vorhaben zuerst in einen      Zusätzliche Auflagen durch das BEPS-Projekt, das
größeren wissenschaftlichen Kontext eingeordnet und         Country-by-Country-Reporting und ein zunehmender
die Problemstellung beschrieben, anschließend wird ein      Fokus auf Vergleichbarkeit bedeuten, dass Steuerzahler
konkreter Anwendungsfall dargestellt, bevor der tech-       sicherstellen müssen, dass die internationalen Trans-
nische Prototyp im Allgemeinen und die Technik dahin-       aktionen verteidigt werden können. Ansonsten drohen
ter vorgestellt wird. Der Vorstellung schließt sich eine    Doppelbesteuerung, Strafzuschläge oder gar strafrecht-
Einordnung des Umgangs in einem Praxisbeispiel sowie        liche Verfahren.7 Gleichzeitig existieren aber ein größer
die Evaluation der Methodik an. Anschließend werden         werdender Kostendruck und die Erwartung von mehr
besondere neue Nutzungsmöglichkeiten und Herausfor-         Leistungen der Steuerfunktion sowie eine zunehmende
derungen dargestellt sowie diskutiert.                      Deregulierung des Marktes.8

2. Herausforderungen und Problemstellung                    Eine Möglichkeit zum Nachweis und zur Dokumentati-
Verrechnungspreise sind in steuerlicher Hinsicht „Preise    on der Angemessenheit konzerninterner Verrechnungs-
und Konditionen für grenzüberschreitende Geschäfts-         preise sind Benchmarkstudien. Die Prüfung und Doku-
beziehungen zwischen verbundenen Unternehmen sowie          mentation der Angemessenheit erfolgt dabei ua anhand
zwischen Stammhaus und Betriebsstätte“6; es geht also       von GuV-Daten öffentlicher Jahresabschlüsse einer Peer-
speziell um die wertschöpfungsadäquate Allokation des       group, denn als Maßstab für den Fremdvergleich (arm’s
Steuersubstrats auf die Staaten, die an einer Transaktion
                                                            7   Kleinhietpaß/Hanken (Fn. 5).
                                                            8   Fettke, Künstliche Intelligenz für die Digitalisierung der Steuerfunktion,
6   Kleinhietpaß/Hanken (Fn. 5).                                REthinking: Tax 01/2019, 12–22.

beck.digitax 5/2020                                                                                                                317
KI-Einsatz für Effizienzgewinne bei Benchmark-studien im Bereich Transfer Pricing - WTS Global
BETRIEBSWIRTSCHAFT                           Effizienzgewinne durch KI bei Benchmarkstudien im Transfer Pricing

 length principle) dienen Finanzkennzahlen vergleich-          te Vorlagen verwendet, so dass der Report automatisch
 barer Unternehmen. Für die Zugehörigkeit zu einer Peer-       generiert werden kann.
 group ist eine Vergleichbarkeit in Bezug auf die ausgeüb-
 ten Funktionen und Risiken, aber zB auch der angebote-        4. Prototyp – Technische Unterstützung des
 nen Produkte und Dienstleistungen erforderlich. Diese         Anwendungsfalls
 Daten finden sich in Verrechnungspreisdatenbanken,
 wie AMADEUS und Royalty Range, müssen aber zu-
 sätzlich geprüft werden, da die entsprechenden Einträge
 („Handelsbeschreibung“, „Überblick“) oft unpräzise,
 veraltet oder schlicht nicht vorhanden sind. Deshalb
 müssen diese Informationen durch eine aufwendige Ana-
 lyse externer Quellen beschafft und ausgewertet werden.
 Insbesondere, wenn so mehrere hundert Unternehmen
 geprüft werden müssen, um einige wenige vergleichbare
 Unternehmen zu finden, ergibt sich ein hoher manueller
 Aufwand mit entsprechenden Kosten.

 3. Ein Anwendungsfall
 Der Prozess zur Erstellung von Benchmarkstudien be-
 steht aus drei Schritten: Dem quantitativen Screening,
 dem qualitativen Screening und der Anfertigung eines
                                                               Abb. 2: Konsolidierung zum Fremdvergleich
 Reports. Beim quantitativen Screening werden Datensät-
 ze aus externen Datenbanken (zB TP Catalyst von Bu-
 reau van Dijk) extrahiert. Gefiltert werden diese Daten-      Um den Aufwand bei der Erstellung von Benchmark-
 sätze nach individualisierten Suchparametern, die an das      studien zu reduzieren, liegt es nahe, den manuellen
 zu untersuchende Unternehmen des Auftraggebers ange-          Screening-Prozess vom Umfang der zu testenden Einhei-
 passt werden. Die Datensätze enthalten neben Finanz-          ten aus der Datenbanksuche her möglichst klein zu hal-
 kennzahlen ua auch Unabhängigkeitskriterien und Un-           ten. Dazu muss die Anzahl der zu prüfenden Unterneh-
 ternehmensbeschreibungen. Alleinstehend sind diese Da-        men weiter reduziert werden. Konkret soll hier eine Vor-
 tensätze noch nicht aussagekräftig für eine Benchmark-        auswahl getroffen werden, welche Unternehmen eine
 studie. Die Vergleichbarkeitsanalyse muss erst noch           von der Suche abweichende Unternehmensfunktion be-
 durchgeführt werden, und dafür ist ein weiterer Schritt       sitzen und diese ausgeschlossen werden. Dadurch
 erforderlich.                                                 schrumpft die Anzahl möglicher Kandidaten, die manu-
                                                               ell geprüft werden müssen, und damit die Arbeitslast der
 Im zweiten Schritt erfolgt ein manuelles Screening der
                                                               Experten.
 gefilterten Datensätze. Der Schwerpunkt liegt dabei auf
 der Untersuchung der Webseiten der potentiellen Ver-          Diese Reduzierung der möglichen Kandidaten erfolgt
 gleichsunternehmen. Das Ziel ist es, Unternehmen zu           durch einen Zwischenschritt zwischen Datenbanksuche
 finden, deren Spektrum ausgeübter Funktionen und Tä-          und manuellem Screening. Dabei werden die gefundenen
 tigkeitsschwerpunkte mit der zu testenden Einheit der         Kandidaten hinsichtlich ihrer Unternehmensfunktion
 Unternehmensgruppe (möglichst weit) übereinstimmen.           klassifiziert. Dies erfolgt analog zur manuellen Bearbei-
 Diese manuelle Suche nach einer passenden Peergroup           tung, die das Aufrufen der Unternehmenswebseite, das
 ist derzeit mit einem hohen personellen Aufwand ver-          Übersetzen der Inhalte und das Lesen und Verstehen der
 bunden. Sowohl das manuelle Aufrufen der Webseiten            Webseitentexte, inkl. der Bewertung umfasst. Dazu wird
 als auch die Klassifizierung der Unter-
 nehmen ist enorm zeitintensiv. Darüber
 hinaus muss der gesamte Prozess prü-
 fungssicher (zB über das Anfertigen von
 Screenshots) dokumentiert werden.

 Der dritte Schritt besteht aus der Doku-
 mentation des Prozessablaufs und der
 gewonnenen Ergebnisse. Für die Erstel-
 lung des Reports werden standardisier-     Abb. 3: Upload der Input-Daten in den Demonstrator

 318                                                                                                       beck.digitax 5/2020
KI-Einsatz für Effizienzgewinne bei Benchmark-studien im Bereich Transfer Pricing - WTS Global
Effizienzgewinne durch KI bei Benchmarkstudien im Transfer Pricing                                 BETRIEBSWIRTSCHAFT

Abb. 4: Tabelle mit beispielhaften Ergebnissen

erst der Datenbankauszug als Excel-Datei in den Pro-                       den, die bestehende Texte inklusive einer Annotation der
totypen geladen (s. Abb. 3 auf S. 318). Anschließend                       Unternehmensfunktion enthalten. Dieser Textkorpus
werden die drei Module für jeden Eintrag in der Excel-                     dient dann als Referenz für eine Unternehmensfunktion.
Datei durchlaufen.                                                         Neue, unbekannte Texte können dann anhand ihrer
                                                                           Ähnlichkeit zu den Texten einer Unternehmensfunktion
Das Modul „Webseiten Aufrufen“ oder auch „Web                              ebendieser zugeordnet werden.
Crawling“ steuert automatisiert eine Instanz eines de-
                                                                           Dazu wurden in früheren Benchmarkstudien akzeptierte
finierbaren Browsers, wie Google Chrome, Microsoft
                                                                           Unternehmen als Referenz für die Unternehmen einer
Edge oder Mozilla Firefox, und imitiert das menschliche
                                                                           Geschäftsfunktion herangezogen. Die Texte wurden aus
Verhalten, indem die URL aus dem Datenbankauszug
                                                                           den zugehörigen Webseiten kopiert und dem jeweiligen
kopiert und aufgerufen wird sowie der angezeigte Text
                                                                           Cluster hinzugefügt. Damit wurde ein Wort-Vektor-Mo-
in den Prototypen kopiert wird. Links zu Unterseiten
                                                                           dell erstellt, das Merkmale der eingegebenen Texte einer
werden identifiziert, aufgerufen und ebenfalls kopiert.9
                                                                           Kategorie enthält und mit dessen Hilfe Unternehmen
Das zweite Modul übersetzt maschinell Texte10 und ent-
                                                                           gleicher Funktion klassifiziert werden können. Grund-
fernt irrelevante Passagen, die zuvor definierte Schlag-
                                                                           lage dazu sind die Häufigkeiten von Wörtern und das
worte enthalten oder weiteren Selektionskriterien (Zei-
                                                                           inverse der Dokumentenhäufigkeit.12 Mit diesem Maß
chen- und Wortanzahl, Vorkommen von Zahlen, Son-
                                                                           von Häufigkeiten von Wörtern und Dokumenten lässt
derzeichen etc) entsprechen.11 Das dritte Modul, das
                                                                           sich der Abstand von Dokumenten messbar machen.
Lesen und Verstehen der Webseitentexte, ist technolo-
                                                                           Das nutzen die Modelle, um neue, bisher nicht gesehene
gisch nicht mit dem menschlichen Verstehen von Texten
                                                                           Texte analysieren und Texte zu der am besten passenden
gleichzusetzen. Es können jedoch Modelle trainiert wer-
                                                                           Kategorie zuordnen zu können.

9  Vgl. Liu, Web Data Mining: Exploring Hyperlinks, Contents, and Usage
                                                                           Diese Einschätzung der Unternehmensfunktion soll den
   Data, 2007.                                                             TP-Spezialisten bei der Selektion von passenden Unter-
10 Hierfür können sowohl kommerziell vorhandene Dienste wie DeepL
   oder Google Translate als auch speziell für den Steuerbereich von der
                                                                           nehmen unterstützen. Dies geschieht mit dem Ergebnis
   WTS und dem DFKI entwickelte maschinelle Übersetzer zum Einsatz
   kommen.
11 Vgl. Vijayarani/Ilamathi/Nithya, Preprocessing Techniques for Text      12   Vgl. Qaiser/Ali, Text mining: Use of TF-IDF to Examine the Relevance
   Mining – an Overview, International Journal of Computer Science &            of Words to Documents, International Journal of Computer Applica-
   Communication Networks 2015, 5(1), 7–16.                                     tions 2018, 181(1), 25–29.

beck.digitax 5/2020                                                                                                                           319
BETRIEBSWIRTSCHAFT                                              Effizienzgewinne durch KI bei Benchmarkstudien im Transfer Pricing

 der Prototypen in Form einer tabellarischen Auflistung,                         dungsfall verändert sich, aber die Zahl der zu testen-
 die die Datenbankeinträge Unternehmensname, Han-                                den Unternehmen bleibt gleich.
 delsbeschreibung und Überblick sowie die vorhergesag-                        3. Der Prototyp schließt selbständig Unternehmen mit
 ten prozentualen Werte für die jeweilige Unternehmens-                          eindeutig nicht passender Unternehmensfunktion aus.
 funktion und den aus dem Internet kopierten Text aus-                           Der Anwendungsfall ändert sich, indem ein Teil des
 gibt.                                                                           manuellen Screenings ersetzt wird. Die Zahl der ma-
                                                                                 nuell zu testenden Unternehmen verringert sich.
 Dieser Prototyp soll zwei grundlegende Charakteristika                       Dadurch wird der außerordentlich zeitintensive manuel-
 abdecken: Erstens hat er einen explorativen Charakter                        le Screening-Prozess zur Auswahl der geeigneten Ver-
 und soll dazu dienen, nachzuweisen, dass die verwende-                       gleichsunternehmen zu einem Großteil durch KI ersetzt.
 ten Techniken und zugrunde liegenden Ideen zur Lösung                        Nach Schätzungen der Mitarbeiter der Service Line wird
 des (Teil-)Problems tauglich sind. Zweitens sollen auch                      eine Zeitersparnis von bis zu 80 % erwartet, denn der
 erste praktische Erfahrungen mit dem Prototyp gesam-                         Spezialist für Transferpricing hat am Ende lediglich die
 melt werden, welche dann in umfangreiche Problemana-                         Aufgabe, das manuelle Screening von ca. 30 Unterneh-
 lysen und Systemspezifikationen für die Weiterentwick-                       men zu verproben, anstatt mehrere hundert Unterneh-
 lung eingehen.13                                                             men selbst zu screenen.

 5. Praxisbeispiel                                                            6. Evaluation
 Im Einsatz des Prototyps in der Praxis wurden eine ak-                       Die verwendeten Textklassifikationsmodelle nutzen
 tuelle Benchmarkstudie auf dem Bereich „Management                           verschiedene Maße zur Beurteilung der Relevanz von
 Services“ herangezogen und die Ergebnisse der manuel-                        Termen in Dokumenten einer Dokumentensammlung.
 len Suche mit den Ergebnissen des Prototyps verglichen.                      Nach einem Vergleich der Methoden TF, TF-IDF und
 Dazu wurde die Benchmarkstudie um eine erste Auswer-                         Word2Vec erweist sich hier die TF-IDF-Methode am
 tung der Ergebnisse erweitert, da in der klassischen Ana-                    effektivsten. TF steht hierbei für die Term Frequency,
 lyse nur das Ergebnis Unternehmensfunktion „stimmt                           also die (relative) Häufigkeit von Wörtern in einem
 überein“ oder „weicht ab“ eingetragen wird. Dazu wur-                        Text, welche durch Berücksichtigung der inversen Do-
 de die gefundene Unternehmensfunktion für jedes zu                           kumentenhäufigkeit (IDF – Inverse Document Frequen-
 testende Unternehmen in das Kommentarfeld eingetra-                          cy), also der Spezifität eines Terms für die Gesamtmen-
 gen. Führen Unternehmen mehrere Unternehmensfunk-                            ge der betrachteten Dokumente multipliziert wird.
 tionen aus, wurden sie im manuellen Screening der                            Durch diese Verrechnung wird verhindert, dass ein viel-
 vermeintlich am stärksten ausgeprägten Funktion zu-                          fach vorkommender, aber irrelevanter Term nicht auch
 geordnet. Als Vergleichswert wurde die von der Text-                         in gleichem Maße zur Relevanz der Klassifikation bei-
 klassifikation am wahrscheinlichsten angesehene Unter-                       trägt.14
 nehmensfunktion verwendet. Die Ergebnisse dieses ers-
 ten Tests wurden zur Validierung des Prototyps verwen-                       Für das Clustern selbst, also die Gruppierung von Tex-
 det (siehe Evaluation).                                                      ten zu einer Kategorie und auch die gezielte Abgrenzung
                                                                              zu einer anderen Kategorie, stellten sich nach einem Ver-
 Mit dem ersten Einsatz des Prototyps konnten die Fach-                       gleich der Methoden SVM, KNN, MNB und labled-
 experten der WTS-Service Line Transfer Pricing folgen-                       LDA die „support vector machines“ als besonders geeig-
 de drei Möglichkeiten zum Einsatz im Anwendungsfall                          net heraus. Zur Evaluation wurde der og Trainings-
 identifizieren:                                                              datensatz in 85 % Trainingsdaten und 15 % Testdaten
 1. Die Klassifizierungsergebnisse werden in einer Art                        aufgeteilt. Damit wurde auf den Trainingsdaten eine
    Cockpit angezeigt und bieten einen weiteren Indikator                     Treffergenauigkeit („accuracy“) von 97 % und eine
    zur Bewertung des Sachverhalts. Der Economist der                         Trefferquote („recall“) von 95 % erreicht. Auf den Test-
    Service Line führt weiterhin die manuellen Analysen                       daten wurde eine Treffergenauigkeit von 80 % und eine
    durch. Der Anwendungsfall ändert sich in diesem Fall                      Trefferquote von 77 % erreicht. Die Analyse der Ergeb-
    nicht.                                                                    nisse ist in der Wahrheitsmatrix (Konfusionsmatrix,
 2. Die Klassifizierungsergebnisse werden durch einen                         „confusion matrix“) in Abb. 5 (S. 321) zu sehen, in der
    Fachexperten final genehmigt bzw. eingegrenzt. Hier                       die Anzahl richtig und falsch klassifizierter Dokumente
    führt der Prototyp die Bewertung und ein Fachexperte                      erkennbar ist. Das zuvor beschriebene Praxisbeispiel
    einen Review der Klassifikation durch. Der Anwen-

                                                                              14   Vgl. Felden/Bock/Gräning/Molotowa/Saat, Evaluation von Algorithmen
 13   Vgl. Warfel, Prototyping: A Practitioner’s Guide, 2009.                      zur Textklassifikation, No. 10/2006, Freiberger Arbeitspapiere.

 320                                                                                                                              beck.digitax 5/2020
Effizienzgewinne durch KI bei Benchmarkstudien im Transfer Pricing                               BETRIEBSWIRTSCHAFT

                                                                                                       Klassifikation zu berechnen. Wei-
                                                                                                       ter müssen hier die Umfänge der
                                                                                                       einzelnen Kategorien gleich häu-
                                                                                                       fig sein, um eine Über- bzw. Un-
                                                                                                       terrepräsentation zu vermeiden.
                                                                                                       Ebenfalls müssen neue Daten zur
                                                                                                       Klassifikation diesen Ansprüchen
                                                                                                       in ähnlicher Weise gerecht wer-
                                                                                                       den.

                                                                                                   H3–H5 betreffen die Extraktion
                                                                                                   von Webseiteninhalten von realen
                                                                                                   Unternehmenswebseiten. Dabei
                                                                                                   sind vor allem sog. „Spider
                                                                                                   Traps“ zu beachten, die diesen
                                                                                                   Vorgang bewusst verhindern sol-
Abb. 5: Die Wahrheitsmatrix zeigt die richtig und falsch klassifizierten Texte.15
                                                                                                   len. Dabei werden beispielsweise
                                                                                                   versteckte Texte in den Webcraw-
diente als eine Validierung, und es wurde eine Treffer- ler eingeführt, die irreführende Informationen enthalten
quote von 72 % erreicht.                                                     oder falsche Links ausgeben.17 Ein solider Webcrawler
                                                                             muss diese Manipulationen erkennen und umgehen oder
7. Herausforderungen                                                         blockieren können. Zudem ist ein dynamischer Websei-
Der Prototyp hat einen explorativen und experimentel- teninhalt problematisch. Hier wird Inhalt kontextabhän-
len Anspruch, woraus sich Herausforderungen an ver- gig erzeugt und weist mit jedem Aufrufen der Webseite
schiedene Module ergeben. Für eine bessere Übersicht Unterschiede auf. Ein Beispiel sind Online-Shops, die
zeigt Abb. 6 die einzelnen Schritte des Prototyps mit den jedem Kunden andere Produkte auf der Startseite prä-
zugehörigen Herausforderungen in der Praxis an.                              sentieren. Des Weiteren gibt es Unterschiede in der Qua-
                                                                                                   lität und Relevanz von Textpassa-
                                                                                                   gen und Unterwebseiten. Hier
                                                                                                   muss ein Verfahren irrelevante
                                                                                                   und qualitativ weniger gute Pas-
                                                                                                   sagen erkennen und ausschließen
                                                                                                   (zB AGBs).18

                                                                                                Die Herausforderungen H6–H8
                                                                                                betreffen die Verarbeitung des
                                                                                                Textes in ein einheitliches, ma-
                                                                                                schinell verwertbares Format.
                                                                                                Herausfordernd ist hier eine so-
Abb. 6: Übersicht über aktuelle Herausforderungen                                               lide Übersetzung der Texte in
                                                                                                eine einheitliche Sprache, selbst
Die Herausforderungen H1 und H2 betreffen die Daten,                      wenn der gesamte Text zwischen unterschiedlichen
die in das System eingegeben werden. Das sind zum                         Passagen in der Sprache wechselt. In der anschließen-
einen die annotierten Daten zum Training der Modelle,                     den Vorverarbeitung werden definierte Stoppwörter
zum anderen Daten, die einer Kategorie zugeordnet wer-                    und Muster ausgeschlossen. Die Wahl der Worte und
den sollen. Es wurde ersichtlich, dass die Daten zum                      Muster ist hier von entscheidendem Interesse, um irre-
Training hohe Qualitätsanforderungen erfüllen müs-                        levante Passagen auf sehr feingranularer Ebene aus-
sen16, ua Verfügbarkeit, Umfang und maschinelle Aus-                      schließen zu können. Zudem müssen die Texte in ein
wertbarkeit, um später für neue Daten eine zuverlässige                   maschinell verwertbares Format gebracht werden.

15 X-Achse = die tatsächlichen Kategorien; y-Achse = die vorhergesagten   17   Vgl. Pant/Srinivasan/Menczer, Crawling the Web, Web dynamics 2004,
   Kategorien.                                                                 153–177.
16 Vgl. Knight/Burn, Developing a Framework for Assessing Information     18   Vgl. Hernández/Rivero/Ruiz, Deep Web Crawling: A Survey, World
   Quality on the World Wide Web, Informing Science 2005, Vol. 8.              Wide Web 2019, 22(4), 1577–1610.

beck.digitax 5/2020                                                                                                                        321
BETRIEBSWIRTSCHAFT                                        Effizienzgewinne durch KI bei Benchmarkstudien im Transfer Pricing

 Hier ist zwischen verschiedenen Repräsentationen zu                         3. Die hier vorgeschlagenen Vektor-Modelle zur Text-
 wählen.19                                                                      verarbeitung betten sich derzeit in die bestehenden
                                                                                Prozesse ein. Jedoch liegt hier auch das Potential, um
 H9–H11 sind Herausforderungen bei der Modellerstel-                            diese völlig unabhängig von der Unternehmensfunk-
 lung. Dafür müssen relevante Qualitäts-Metriken fest-                          tion anzuwenden. Beispielsweise könnten diese Mo-
 gelegt werden20 und verschiedene Klassifizierungsstrate-                       delle generell zu der zu testenden Entität möglichst
 gien und -modelle21 optimiert und verglichen werden, so                        ähnliche Unternehmen finden. Damit würde die Ähn-
 dass die Qualitäts-Metriken bestmögliche Werte messen.                         lichkeit zwischen zwei Unternehmen für den Fremd-
 Die Herausforderung besteht dabei in der geschickten                           vergleich nicht mehr auf Basis der Datenbanksuche
 Parameteroptimierung, um die Verfahren bestmögliche                            und damit der Branchencodes, sondern auf Basis des
 Ergebnisse erzeugen zu lassen. Ebenfalls von hohem In-                         Wort-Vektors bestimmt werden. Das ist eine radikal
 teresse sind hier die Identifikation und Analyse von Do-                       neue Herangehensweise bei der Suche nach vergleich-
 kumenten, die zu einer Kategorie gehören, aber missver-                        baren Unternehmen.
 ständliche Werte liefern, beispielsweise durch eine große                   4. Der erzeugte Datensatz ist derzeit stark unterschied-
 Distanz zum Cluster.                                                           lich verteilt; die Kategorie „Dienstleistungen“ enthält
                                                                                322 Texte, während die Kategorie „Forschung“ nur
 H12–H14 betreffen die Klassifikation von neuen, unbe-
                                                                                56 Texte umfasst. Das hat zur Folge, dass es zur Über-
 kannten Texten. Hier muss die Klassifikation mittels der
                                                                                bzw. Unterrepräsentation von Kategorien kommt.
 vorher definierten Qualitäts-Metriken bestimmt und
 evaluiert werden. Ein Feedback bzw. eine Interpretation
 über die Ergebnisse vom Anwender (H15) bzgl. der Klas-                      9. Resümee
 sifikation kann zusätzlich zum Verbessern des Modells                       Um sich der Herausforderung der Verbesserung des ma-
 einfließen (sog. „Reinforcement Learning“). Hier müs-                       nuellen Screenings bei der Erstellung von Benchmark-
 sen auch Erfahrungen darüber gewonnen werden, unter                         studien via KI zu stellen, wurde ein Webcrawler ent-
 welchen Bedingungen gute Ergebnisse erzielt werden                          wickelt, der die Webseiten der zu untersuchenden Unter-
 und wo genau Verbesserungsbedarf besteht. Auch die                          nehmen eigenständig aufruft und aus dem Text relevante
 Ergebnisse, die üblicherweise aus Wahrscheinlichkeiten                      Inhalte extrahiert. Zusätzlich wurden verschiedene Text-
 bestehen, müssen in geeigneter Weise interpretiert wer-                     klassifikationsverfahren erprobt, die bisher unbekannte
 den.                                                                        Texte automatisiert einer Unternehmensfunktion zuord-
                                                                             nen sowie deren Klassifikationsleistung miteinander ver-
                                                                             gleichen. Grundlage waren die Ergebnisse von bereits
 8. Diskussion
                                                                             abgeschlossenen Benchmarkstudien, die jeweils nur Un-
 Die vorgestellten Arbeiten sind technisch innovativ und
                                                                             ternehmen einer bestimmten Unternehmensfunktion ent-
 haben einen prototypischen Charakter. Erste Ergebnisse
                                                                             halten.
 sind vielversprechend, und es wird weiter an Verbes-
 serungen gearbeitet. Dabei zeigen sich folgende Ergeb-                      Mit dieser Einschätzung der Unternehmensfunktion und
 nisse:                                                                      einem Webcrawler ist eine erste Einschätzung zur Bewer-
 1. Die Unternehmensfunktionen sind nicht einheitlich                        tung des Sachverhalts möglich und kann direkt durch
    definiert. Die hier verwendete Definition entstammt                      den Webseitentext bestätigt oder im Falle einer Falsch-
    der Benchmarking-Praxis und soll hauptsächlich zwi-                      klassifikation widerlegt werden. Aufgrund dessen wird
    schen groben Unternehmensfunktionen unterschei-                          eine wesentliche Reduktion des Zeitaufwands für die
    den. Daneben existieren viele weitere Definitionen,                      Erstellung von Benchmarkstudien erwartet.
    beispielsweise die des Statistischen Bundesamtes. In-
    wieweit eine feingranulare Unterteilung weitere Vor-                     Die durch den KI-Einsatz realisierten Effizienzgewinne
    teile bringen könnte, ist zukünftige Forschungsarbeit.                   im Rahmen der Erstellung von Benchmarkstudien mit-
 2. Es ist derzeit noch unklar, ob und wie der maschinelle                   tels Webcrawler und maschinellem Natural Language
    Arbeitsschritt von den Steuerbehörden akzeptiert                         Understanding im Bereich Transfer Pricing gründen sich
    wird.                                                                    dabei maßgeblich auf die folgenden drei Punkte:
                                                                             1. erhebliche Zeit- und Kostenersparnis auf Seiten der
 19 Siehe Uysal/Gunal, The impact of Preprocessing on Text Classification,      steuerlichen Fachkollegen;
    Information Processing & Management 2014, 50(1), 104–112.
 20 Vgl. Forman, An Extensive Empirical Study of Feature Selection Metrics
                                                                             2. einheitliche, standardisierte und technologiegestützte
    for Text Classification, Journal of Machine Learning Research 2003, 3       Herangehensweise;
    (Mar), 1289–1305.
 21 Vgl. Aggarwal/Zhai, A Survey of Text Classification Algorithms, Mining   3. Compliance-Anforderungen bleiben gewahrt durch
    text data 2012, 163–222.                                                    4-Augen-Prinzip (Maschine-Mensch).

 322                                                                                                                   beck.digitax 5/2020
Effizienzgewinne durch KI bei Benchmarkstudien im Transfer Pricing                               BETRIEBSWIRTSCHAFT

Derzeit wird eine gute Gesamtgenauigkeit bei der ma-                        überwindliche „Compliance-Berg“ bezwingbar werden
schinellen Klassifikation erreicht, wobei es sich hierbei                   könnte – „Step ahead in tax and finance“.
erst um einen aktuellen Arbeitsstand handelt. In der Ent-
wicklung sind zudem noch weitere Ansätze für State-of-
the-Art-Klassifikationsverfahren, die unter Einbeziehung                                             ALEXANDER BEUTHER
externer Daten eine noch höhere Gesamtgenauigkeit er-
warten lassen. Da es sich hierbei um eine kontinuierliche
Weiterentwicklung handelt, werden des Weiteren die
gefundenen Potentiale und Herausforderungen der ein-
                                                                                                     Wissenschaftler am Deutschen Forschungs-
zelnen Komponenten weiter ausgenutzt und optimiert.
                                                                                                     zentrum für Künstliche Intelligenz (DFKI),
Neben der reinen Zeit- und Kostenersparnis ist somit                                                 Saarbrücken.
damit zu rechnen, dass im Bereich der Erstellung von
Benchmarkstudien die Qualität der Ergebnisse erhöht                                                  PROF. DR. PETER FETTKE
werden kann. Dadurch, dass durch den KI-gestützten
Screeningprozess deutlich mehr Daten untersucht wer-
den können, steigt auch die Chance auf eine bessere Ver-                                             Professor an der Universität des Saarlandes
gleichbarkeit der finalen Ergebnisse. Langfristig sollte                                             und Leiter des Competence Centers Tax
somit das Risiko steuerlicher Anpassungen im Rahmen                                                  Technology am Deutschen Forschungszen-
                                                                                                     trum für Künstliche Intelligenz (DFKI), Saar-
von Verrechnungspreisprüfungen gesenkt werden kön-
                                                                                                     brücken.
nen. Dies könnte auch den Umgang mit Interquartils-
bandbreiten in der Zukunft verändern.22 Wie allerdings                                               DR. VANESSA JUST
Betriebsprüfer mit KI-gestützten Benchmarkergebnissen
umgehen werden, bleibt in diesem Zusammenhang ab-
zuwarten.

Die Reise ist noch lange nicht zu Ende. Wir werden
weiter mittels der Erforschung innovativer Anwendun-
gen der KI und der Begleitung des Innovationstransfers                                               Geschäftsführerin wtsAI, Hamburg.
zur Gestaltung des Steuerarbeitsplatzes der Zukunft bei-
                                                                                                     ANDREAS RIEDL
tragen. Dabei sehen wir in der Zukunft das Potential,
dass wir über hochwertige Massendaten verfügen, um so
die Treffergenauigkeit der eingesetzten Tools weiter zu
erhöhen. Auch der Austausch der interdisziplinären
Fachteams wird eine zusätzliche Bereicherung darstellen.
Gerade in Zeiten von weiteren regulatorischen Verschär-                                              Partner Transfer Pricing und Head of TP
fungen im Bereich der Verrechnungspreise sollten die                                                 Technology WTS GmbH, Frankfurt a. M..
vorgestellten Ansätze die Hoffnung vermitteln, dass
                                                                            Die Autoren danken den Kolleginnen Dr. Birgit Friederike Makowsky
durch zukünftige technische Lösungen der schier un-                         (Director WTS GmbH), Andrea Groiß (Senior Manager WTS GmbH),
                                                                            Christina Derer (Manager WTS GmbH) und Lisa Ziegler (Professional
22
                                                                            WTS GmbH) für ihre wertvollen Beiträge.
     Zur Diskussion von Interquartilsbandbreiten ua OECD Guidelines, July
     2017, Chapter III, Paragraph 3.57; Heidecke/Sachs IWB 2019, 716;                                        Feedback bitte an digitax@beck.de.
     Schwarz/Stein/Flanderova/Hoffmann Ubg 2017, 638.

beck.digitax 5/2020                                                                                                                         323
Sie können auch lesen