생성형 AI는 지식 작업을 재편할 수 있는 대형 언어 모델(LLM)의 중요한 발전에 힘입어 기술 분야에서 중심적인 위치를 차지하고 있다.
2022년 말 이후, LLM이 복잡한 언어 기반 작업을 처리할 수 있다는 잠재력이 확산되면서 이 분야는 빠르게 투자가 증가했다.
그러나 모든 획기적인 기술과 마찬가지로, LLM을 실제 작업 환경에 통합하는 과정에서는 이제 막 완전히 이해되기 시작한 과제가 드러나고 있다.
앤트로픽(Anthropic)의 CEO인 다리오 아모데이(Dario Amodei)는 이러한 모델의 훈련 비용이 현재 10억 달러에 가까워졌으며, 2026년에는 100억 달러에 이를 수 있다고 언급했다.
이러한 높은 비용에도 불구하고, 기업들은 LLM을 운영에 통합할 방법을 적극 모색하고 있으며, 기대와 신중함 속에서 실질적인 적용을 위한 길을 찾고 있다.
생성형 AI 통합의 핵심 과제
기업들이 LLM을 운영 프레임워크에 내재화하면서 배포 및 확장을 복잡하게 만드는 다양한 문제에 직면하고 있다.
와튼 경영대학원의 연구원인 피터 카펠리(Peter Cappelli), 프라산나 탐베(Prasanna Tambe), 발레리 야쿠보비치(Valery Yakubovich)는 비즈니스에서 LLM 채택을 위한 다섯 가지 핵심 과제를 다음과 같이 제시한다:
1. 지식 수집 문제
2. 출력 검증 문제
3. 출력 조정 문제
4. 비용-편익 문제
5. 직무 전환 문제
이 각 과제는 LLM 기술의 조직적 이점을 지연시키거나 방해할 수 있는 고유한 장애물로 작용한다.
여기서는 각 과제를 살펴보고 이를 극복하기 위한 실질적인 해결책을 제안한다.
1. 지식 수집 문제
LLM을 구현할 때 조직이 직면하는 주요 문제 중 하나는 지식 수집의 과제이다.
단순한 자동화 도구와 달리, LLM은 효과적으로 작동하기 위해 방대한 양의 고품질 데이터에 의존한다.
기업 내에서 중요한 정보는 종종 부서별로 분리되어 있거나 전략 계획, 회의 노트, 직원 평가와 같은 비정형 형식으로 존재한다.
따라서 LLM에 관련 데이터를 식별하고 선별하며 제공하는 일은 결코 쉬운 작업이 아니다.
최근 조사에 따르면, 데이터 과학자 중 11%만이 조직에 맞춤화된 통찰력을 제공하도록 LLM을 미세 조정할 수 있었다.
이 과정에는 강력한 프로세서, 광범위한 엔지니어링 리소스, 그리고 훈련 및 검증을 위한 수천 개의 예시가 필요하다.
게다가 많은 조직은 내부 지식에 대한 문서화가 부족하여 관련 데이터를 가지고 LLM을 훈련하는 데 어려움이 더욱 커지고 있다.
예를 들어 깃허브(GitHub)의 코파일럿(Copilot) 및 허깅 페이스(Hugging Face)의 스타코더(StarCoder)는 코드 작성 지원을 간소화했지만, 이러한 도구는 일반화된 LLM 훈련의 한계를 보여준다.
이 도구들은 프로그래머가 기존 코드를 빠르게 수정할 수 있게 해주지만, 종종 디버깅이 필요하여 분야별 지식의 필요성을 강조한다.
이는 LLM 성능을 최적화하기 위해 데이터 입력을 카탈로그화하고 관리하는 데이터 사서와 같은 새로운 역할의 필요성을 암시한다.
기업은 이러한 전문가를 채용함으로써 데이터를 더 잘 관리하고 궁극적으로 LLM 출력의 관련성과 정확성을 향상시킬 수 있다.
2. 출력 검증 문제
LLM을 고위험 의사 결정에 사용하는 기업에게 또 다른 주요 관심사는 출력 검증 문제이다.
프로그래밍 분야에서는 LLM이 생성한 출력을 정확성과 유용성으로 직접 테스트할 수 있어 성공 기준이 명확하다.
그러나 전략적 통찰력, 창의적 콘텐츠 및 시장 분석과 같은 출력은 이진적 정확성으로 검증하기 어렵다.
이러한 명시적인 검증 부족은 잠재적 함정을 초래할 수 있다.
연구에 따르면 LLM 사용자는 출력 검토를 생략하고 AI가 생성한 응답을 비판적 검토 없이 받아들이는 경우가 많다.
사무직 근로자를 대상으로 한 연구에서 대부분의 사용자가 AI 생성 텍스트를 편집 없이 제출한 것으로 나타났다.
이는 LLM 응답이 언제 “충분히 좋다”라고 간주되는지, 그 기준을 누가 결정하는지에 대한 질문을 불러일으킨다.
더욱이, LLM은 종종 “블랙박스”로 설명되며, 결정 과정에서 투명성이 부족하다.
인간 직원과 달리 LLM은 응답에 대한 설명을 제공하지 않는다.
이러한 불투명성은 책임 한계를 제한하고 조직이 시간 경과에 따른 신뢰성을 평가하기 어렵게 만든다.
따라서 기업은 특히 복잡하거나 중요한 작업의 경우 LLM 출력이 조직 표준에 부합하는지 평가할 수 있는 숙련된 전문가를 확보해야 한다.
중요한 기능에서는 LLM 출력을 효과적으로 검증할 수 있는 미묘한 지식을 가진 인간 전문가가 여전히 필수적이다.
3. 출력 조정 문제
LLM은 방대한 양의 정보를 처리하고 요약하는 데 능숙하지만, 해석상의 유연성으로 인해 상충되는 출력을 생성할 수 있다.
예를 들어, 직원 피드백 요약이나 설문 조사 결과 해석은 프롬프트의 맥락이나 문구에 따라 다른 결론을 도출할 수 있다.
이러한 변동성은 추가적인 조정 계층을 필요로 하며, 조직은 신뢰할 수 있는 출력을 선택하고 표준화할 방법을 결정해야 한다.
조정 문제는 또한 분야별 전문 지식의 중요성을 강조한다.
하위 직원이 LLM 출력을 자율적으로 처리할 수 있다는 생각은 실제로 존재하지 않을 수 있는 전문성을 가정한다.
직무 계층은 일반적으로 LLM이 단순한 데이터 제공만으로 대체할 수 없는 경험과 판단력을 요구한다.
따라서 법률, 의료, 금융과 같이 정확성이 중요한 산업에서는 AI 출력을 관리하기 위해 추가 교육이나 전담 팀이 필요할 수 있다.
LLM은 강력한 기능을 제공하지만, 이 작업을 신뢰할 수 있는 전문가에게 위임해야 할 필요성은 여전히 존재하며, 성공적인 통합 전략은 이러한 한계를 고려해야 한다.
4. 비용-편익 문제
LLM은 생산성을 향상시키는 데 상당한 가능성을 가지고 있지만, 구현 비용이 그 이점을 상쇄하는 경우가 많다.
LLM이 뛰어난 작업인 단순한 서신 작성, 보고서 생성 또는 고객 응답 자동화는 이미 기존 기술, 예를 들어 챗봇 및 자동화된 이메일 응답을 통해 관리되고 있다.
또한, 시스템을 LLM에 맞게 업그레이드하는 것은 인프라 투자에서 직원 교육에 이르기까지 광범위한 리소스를 요구할 수 있다.
고객 서비스 담당자를 대상으로 한 연구에 따르면 LLM 기반 도구가 문제 해결률을 14% 향상시켰다.
이 개선은 가치가 있지만 이러한 향상이 비용 효율성을 의미하는지에 대한 의문을 제기한다.
일부 경우에는 생산성 증대가 상당한 구현 비용을 정당화하지 못할 수 있다.
예를 들어, 보스턴 컨설팅 그룹(Boston Consulting Group)의 GPT-4에 대한 연구는 컨설턴트의 생산성 결과가 혼재되어 있는 것으로 나타났으며, 일부 작업에서는 생산성이 증가한 반면 다른 작업에서는 감소했다.
따라서 LLM은 특정 응용 분야에서 명확한 이점을 제공할 수 있지만, 포괄적인 비용-편익 분석이 필수적이다.
5. 직무 전환 문제
마지막 과제는 LLM이 기존 직무 역할에 어떤 영향을 미칠지 이해하는 것이다.
직장에 자동화 도입은 역사적으로 일자리를 제거하기보다는 재편했다.
예를 들어, ATM이 도입되었을 때 은행원은 사라지지 않고 추가 책임을 맡게 되었다.
마찬가지로 LLM은 역할을 완전히 대체하기보다는 변화시킬 가능성이 높으며, 특히 높은 가변성과 대인 관계가 요구되는 직무에서 더욱 그렇다.
또한, LLM 대체에 가장 적합한 작업은 일관되게 자동화할 수 있는 좁은 범위의 반복 작업인 경우가 많다.
---
미래 발전을 위한 전략적 예측과 시사점
기업들이 LLM을 통합함에 따라 선견지명과 유연성을 가지고 이러한 문제를 해결해야 한다.
다음의 예측은 기업들이 LLM 잠재력을 효과적으로 활용할 수 있도록 가이드를 제공한다.
1. 2025년까지 시장 조정
2025년까지 생성형 AI 시장은 비용 상승과 기대에 못 미치는 수익으로 인해 큰 조정을 겪을 것으로 예상된다.
이러한 구조 조정은 생존한 기업들이 운영을 간소화하여 소비자에게 더 정제된 제품과 저렴한 가격을 제공하게 할 것이다.
엔비디아(Nvidia)와 같은 하드웨어 공급업체는 고급 LLM에 필요한 인프라를 지원하여 번창할 가능성이 크다.
2. 사용 프로토콜 설정
독점 정보를 보호하기 위해 기업들은 제3자 LLM과의 민감한 데이터 공유를 방지하고 공공 문서에서 AI 사용을 명확히 하는 엄격한 사용 프로토콜을 구현할 가능성이 높다.
아마존 큐(Amazon Q)와 같은 맞춤형 생성형 AI 도구는 사용 지침을 시행할 모델을 제공하며, 조직이 접근 매개변수를 정의하고 AI 시스템에 입력되는 데이터 유형을 제어할 수 있도록 한다.
3. 중앙화된 LLM 관리 사무소
기업들은 프로세스를 간소화하고 품질 관리를 유지하기 위해 LLM 관리를 중앙화함으로써 이점을 얻을 것이다.
LLM 출력을 생성하는 중앙 사무소는 데이터 사용을 표준화하고 “데이터 오염”과 같은 위험을 완화할 수 있다.
이러한 접근 방식은 효율성과 일관성을 개선할 수 있으며, 조직 전반에 걸쳐 데이터 입력을 감독하는 데이터 사서를 두어 중복을 줄일 수 있다.
4. LLM 이해력 및 교육 프로그램
검증 문제를 해결하기 위해 기업들은 직원 교육에 투자하여 도구의 한계, 예를 들어 환각 경향 및 정확도 평가에 대한 이해를 높일 필요가 있다.
이 교육에는 프롬프트 설계 및 평가 기법도 포함되며, 직원들이 AI 생성 출력에 대해 정보에 입각한 판단을 내릴 수 있도록 한다.
중앙 사무소에서 교육을 조정함으로써 조직에 적합한 명확한 기준을 설정할 수 있다.
5. AI 붐 속에서 직무 기대 관리
LLM이 대규모 일자리를 대체할 것이라는 언론의 주장은 조직이 채용 관행을 재평가하거나 일자리를 줄여야 한다는 압박을 초래할 수 있다.
그러나 이러한 예측은 직장 역학의 미묘한 현실을 간과하는 경우가 많다.
역사가 보여주듯이 기술은 직무를 재구성할 뿐, 완전히 제거하지 않는다.
이해 관계자들에게 이전의 부정확한 일자리 감소 예측을 상기시키면 기대치를 관리하고 역할을 제거하기보다는 적응시키는 것이 중요하다는 점을 강조하는 데 도움이 될 수 있다.
결론: 생성형 AI의 혁신적 잠재력에 적응하기
생성형 AI는 생산성을 향상시키고 창의성을 촉진하며 조직이 지식 작업에 접근하는 방식을 변화시킬 수 있는 새로운 지평을 열어준다.
그러나 LLM의 실질적인 통합 과정에서 신중히 다루어야 할 한계와 과제가 드러난다.
지식 수집과 검증에서부터 출력 조정과 비용 분석에 이르기까지, 기업들은 인간과 기술적 자원 모두에 대한 전략적 투자가 필요한 복잡한 상황에 직면해 있다.
기업들이 LLM 응용 프로그램을 실험함에 따라 AI가 운영 방식을 변화시키는 속도와 규모를 더욱 잘 이해하게 될 것이다.
선견지명과 유연성, 책임 있는 구현에 중점을 두어, 생성형 AI는 현대 직장에서 인간의 전문 지식을 보완하는 강력한 도구가 될 것이다.
신중한 적응을 통해 기업은 LLM의 혁신적 잠재력을 활용하고, 혁신과 조직의 요구 사항 및 기대치를 균형 있게 맞출 수 있다.
Generative AI Fantasy Meets the Reality of the Way People Work
Since late 2022, we’ve seen an extraordinary boom in Generative AI investment. No doubt, large language models (or LLMs) represent a genuine paradigm-changing innovation in data science. They extend the capabilities of machine learning models to generating relevant text and images in response to a wide array of qualitative prompts.
In a podcast interview in early April, Dario Amodei, the chief executive officer of OpenAI rival Anthropic, said the current crop of AI models on the market cost around $100 million to train. Looking ahead, “The models that are in training now and that will come out at various times later this year or early next year are closer in cost to $1 billion. And then, I think in 2025 and 2026, we’ll get more towards $5-to-$10 billion.”
Yet despite their high cost and difficulty to build, LLMs have become “the next big thing.” Multitudes of users use them to quickly and cheaply perform some of the language-based tasks that only humans could formerly do.
This raises the possibility that many human jobs will soon be performed by LLMs. However, these new tools have yet to demonstrate that they can satisfactorily perform all of the tasks that knowledge workers execute in any given job.
Unlike conventional automation tools which presume a fixed input, an explicit process, and a single correct outcome, LLM tools’ input and output can vary, and the process through which the response is produced is a “black box.” Managers can’t evaluate and control these tools the same way they do conventional machines. That means there are serious problems which enterprises must resolve before using these tools in a mainstream organizational context.
According to Wharton-based technology gurus Peter Cappelli, Prasanna (Sonny) Tambe, and Valery Yakubovich, the top five challenges are:
1. The Knowledge Capture Problem
2. The Output Verification Problem
3. The Output Adjudication Problem
4. The Cost-Benefit Problem
5. The Job Transformation Problem
Any combination of these can potentially derail or seriously delay a generative AI initiative. The big insight here is that these five problems are making it more challenging than expected for companies to bring mainstream LLM-based business solutions online, limiting the explosive take-off of user-based revenues.
Let’s examine each of these problems and how they might be resolved in the real world. Let’s start with…
1. The Knowledge Capture Problem
The humans in organizations produce huge volumes of proprietary, written information that they cannot easily process themselves, including strategic plans, job descriptions, organizational and process charts, product documentation, performance evaluations, and so on. An LLM trained on such data can produce insights that the organization likely did not have access to before. And this may prove to be the company’s most important advantage in using LLMs.
That’s because the organizations that make the most of LLMs will use them to generate outputs that pertain specifically to their needs and are informed by their data sources.
Feeding the right information to the LLM is no small task, given the considerable effort required to sort out the volumes of irrelevant data organizations produce. Useful knowledge about organizational culture and survey results from employees take time to assemble and organize. Even then, a lot of important knowledge might be known to individuals but not documented. In one recent study, only about 11% of data scientists reported that they have been able to fine-tune their LLMs with the data needed to produce good and appropriate answers specific to their organization. The process is expensive and requires powerful processors, thousands of high-quality training and verification examples, extensive engineering, and ongoing updates.
LLMs are already very helpful with some applications such as answering programming questions. And there are numerous LLM-based tools, like GitHub’s Copilot and Hugging Face’s StarCoder, that assist human programmers in real time. One study suggests that programmers prefer using LLM-based tools for generating code because they provide a better starting point than the alternative of searching online for existing code to reuse. But surprisingly, this approach alone does not improve the success rate of programming tasks. That’s because additional time is required to debug and understand the code the LLM has generated.
What does this tell us? Rather than eliminate jobs, the difficulty of the knowledge capture task for organizations is likely to drive the creation of new jobs. For instance, data librarians, who catalog and curate organization-specific data that can be used to train LLM applications, could become critical in some contexts.
With that in mind, let’s consider…
2. The Output Verification Problem
All applications of LLMs are not created equal; therefore, success in some areas is racing ahead of those in others. Computer programming is an area where explicit knowledge can be particularly important. The kinds of LLM outputs used in programming tasks have the advantage of being tested for correctness and usefulness before they are rolled out and used in situations with real consequences. Unfortunately, most LLM outputs are not in that category.
For instance, strategic recommendations or marketing ideas are not outputs that can be tested or verified easily. For these kinds of prompts, the output simply has to be “good enough” rather than perfectly correct in order to be useful. That begs the question, “When is an LLM answer good enough?” For simple tasks, employees with the relevant knowledge can judge for themselves simply by reading the LLM’s answer.
Unfortunately, research on whether users will take the task of checking LLM output seriously is not encouraging. In one experiment, white-collar workers were given the option to use an LLM for a writing task. Those who chose to use the tool could then opt to either edit the text or turn it in unedited. Most participants chose the latter.
Worse yet, what happens if employees lack the knowledge required to judge an LLM’s more complicated, unusual, and consequential outputs? They may realistically ask questions for which they do not know what good enough answers look like. This calls for a higher degree of skilled human judgment in assessing and implementing LLM outputs.
A key problem is that LLMs are algorithmic “black boxes,” unlike humans. For example, an LLM, unlike a human employee, is unaccountable for its outputs. A track record of accuracy or good judgment can allow the human’s employer to gauge their future outputs. A human can also explain how they reached certain conclusions or made certain decisions. This is not the case with LLMs. Each prompt sends a question on a complex path through its body of knowledge to produce a response that is unique and unexplainable. Further, LLMs can “forget” how to do tasks that they previously did well, making it hard to provide a reliability guarantee for these models.
Ultimately, a human is needed to assess whether LLM output is good enough, and they must take that task seriously. One challenge when integrating LLM output with human oversight is that in many contexts, the human must know something about the domain to be able to assess whether the LLM output is valuable. This suggests that specific knowledge cannot be “outsourced” to an LLM. So, when it comes to important functions, human domain experts are still needed to evaluate whether LLM output is any good before it is put into use.
3. The Output Adjudication Problem
LLMs excel at summarizing large volumes of text. This might help bring valuable data to bear on decision-making and allow managers to check the state of knowledge on a particular topic, such as what employees have said about a particular benefit in past surveys. However, that does not mean that LLM responses are more reliable or less biased than human decisions. That’s because LLMs can be prompted to draw different conclusions based on the same data, and their responses can vary even when they’re given the same prompt at different times.
This makes it easy for different parties within an organization to generate conflicting outputs, and that requires companies to develop means of adjudicating between LLM outputs.
Whether the task of adjudicating LLM outputs is added to existing jobs or will create new ones will depend on how easy it is to learn. The hopeful idea that lower-level employees will be empowered by access to LLMs to take on more of the tasks of higher-level employees requires particularly optimistic assumptions. The long-standing view about job hierarchies is that incumbents need skills and judgment that are acquired through practice, and the disposition to handle certain jobs, not just textbook knowledge made available on the fly by LLMs. The challenge has long been to get managers to empower employees to use more of that knowledge as opposed to making decisions for them. That reluctance has been much more about a lack of trust than a lack of employee knowledge or ability. As just discussed, effective adjudication of LLM output might also require a great deal of domain expertise, which further limits the extent to which this task can be delegated to lower-level employees.
At this point, the output adjudication problem is one of the thorniest aspects of using LLMs to eliminate jobs. There are no widely accepted methods for selecting among competing outputs in high-stakes situations.
Understanding the costs of input prep as well as output verification and adjudication provides half the solution to…
4. The Cost-Benefit Problem
The incremental benefits of using LLM output within an organization can be even more unpredictable than the costs. For instance, LLMs are terrific at drafting simple correspondence, which often just needs to be good enough. But simple correspondence that occurs repeatedly, such as customer notifications about late payments, has already been automated with form letters. Interactive connections with customers and other individuals are already handled rather well with simple bots that direct them to solutions the organization wants them to have (though not necessarily what those customers actually want). And call centers are already replete with templates and prepared text tailored to the most common questions that customers ask.
So, it’s obvious that the additional time and cost savings enabled by many LLM solutions could realistically be undone by the other costs they impose.
Consider some real-world research.
A study of customer service representatives where some computer-based aids were already in place found that the addition of a combination of LLM and machine learning algorithms that had been trained on successful interactions with customers improved problem resolution by 14%. But that begs the questions, “Is that a lot or a little for a job often described as uniquely suited to LLM output?” and “Is the result enough to justify the cost of implementation?”
The Wharton-based experts cite a preregistered experiment with 758 consultants from Boston Consulting Group which showed that GPT-4 drastically increased consultants’ productivity on some tasks, but it significantly decreased it on others. These were jobs where the central tasks were well suited to being done by LLMs, and the productivity effects were real but well short of impressive. That leaves the cost-benefit case ambiguous.
Additional analysis also implies that the time and cost savings afforded by LLMs in various contexts might be undone by the other costs they impose. For instance, converting chatbots to leverage LLMs is a considerable undertaking, even if it might eventually prove useful.
And even if customers and Generative AI vendors can overcome the four problems we’ve examined, they still face…
5. The Job Transformation Problem
That challenge requires figuring out how LLMs will work with workers.
Answering this question is far from straightforward. First, given that employees are typically engaged in multiple tasks and responsibilities that are dynamic in nature, LLMs that take over one task cannot replace the whole job and all of its separate subtasks. Consider the effects of introducing ATMs; even though the machines were able to do many of the tasks that bank tellers performed, they did not significantly reduce the number of human workers because tellers had other tasks besides handling cash and were freed up to take on new responsibilities.
The variability and unpredictability of the need for LLMs in any given workflow is a factor that essentially protects existing jobs. At this point, it seems that most jobs don’t have a need to use LLMs very often, and it can be difficult to predict when they will need them.
The jobs that LLMs are most likely to replace are, of course, those where the tasks that take up most of people’s time can consistently be done correctly by Generative AI. But even in those cases, there are serious caveats. The projections of enormous job losses from LLMs rely on the unstated assumption that tasks can simply be redistributed among workers. This might have worked with old-fashioned typing pools, where all of the employees performed identical tasks. If the pool’s productivity increased by 10%, it would be possible to reallocate the work and cut the number of typists by 10%. The variability and unpredictability of the need for LLMs in any given workflow is a factor that essentially protects existing jobs.
Another possibility is that LLMs could improve productivity enough across an entire organization that it has an effect not on specific occupations but on the overall need for labor. There is no evidence of this yet, but it would be a welcome effect for many business leaders, given how slow productivity growth has been in the US and elsewhere and the difficulty so many employers report in expanding their workforces.
So, what’s the bottom line?
At Trends, we believe Generative AI is the next big thing. However, that’s mostly because it will contribute to fully exploiting Analytic AI and provide a real-world pathway to realizing the potential of robotics in the 2030s and beyond. Meanwhile, companies will be able to address many important revenue and cost-saving opportunities in the shorter term. However, we believe it will not be as easy as most managers expect for companies to solve the Knowledge Capture Problem, the Output Verification Problem, the Output Adjudication Problem, the Cost-Benefit Problem, and especially the Job Transformation Problem.
As history shows, the impact of IT-related innovations varies enormously depending on the job, organization, and industry; and they typically take a lot longer than expected to play out. The fact that LLM tools are constantly becoming easier to use, and that they are being incorporated into widely adopted software products like Microsoft Office, makes it likely that they will see faster uptake than with previous waves of IT innovation.
As of mid-year 2024, it seems that most organizations are simply experimenting with LLMs in small ways. That implies we’ll soon see the real pace and scale of this transformation.
Given this trend, we offer the following forecasts for your consideration
First, the generative AI market will experience its first shakeout by sometime in 2025. That’s because costs will prove higher and revenues more elusive than most investors expect. Such a shake-out is natural and healthy for both the consumers and the survivors. It helps rapidly redeploy talent and capital to new opportunities. Hardware suppliers like Nvidia will continue to prosper in spite of the shakeout. Meanwhile, end users will benefit from dramatically falling prices.
Second, most companies that hope to effectively leverage LLMs will start by establishing ground rules for their use, such as prohibiting proprietary data from being uploaded to third-party LLMs, and disclosing whether and how LLMs were used in preparing any documents that are being shared. In most companies, “acceptable use policies” already limit how employees can use company equipment and tools. Some experts suggest that this be augmented by the use of a tool like Amazon Q, a generative AI-powered chatbot that can be customized to adhere to an organization’s acceptable use policies around who can access an LLM and what data can be used.
Third, to address the Knowledge Capture Problem, successful companies will typically create a central office to produce all important LLM output, at least initially, to help ensure that acceptable use standards are followed and to help manage problems like “data pollution.” Central offices can provide guidance in “best practices” for creating prompts and interpreting the variability of answers. They also offer the opportunity for economies of scale. Having one data librarian in charge of all the company data that could be used in analyses is far more efficient and easier to manage than having each possible user manage it themselves.
Fourth, in order to get ahead of the Output Verification Problem, successful companies will require everyone who is likely to use LLM reports to receive basic training on understanding the quirks of the tool. This must involve its ability to hallucinate as well as how to evaluate AI-generated documents and reports. The next step should be to train employees in prompt design and refinement. It is also important to articulate and communicate a standard for what constitutes clearing the organization’s “good enough bar” for using LLM output. A central LLM office could facilitate training that best fits the organization.
And, fifth, the many claims in the popular media about how Generative AI will eliminate enormous numbers of jobs will create pressure from investors and other stakeholders to change company hiring criteria for future jobs or start making plans for where they can cut jobs. In most cases, those discussions will prove premature. It might help to remind those stakeholders how inaccurate similar forecasts have been; for example, predictions that truck drivers would be largely replaced by robotic drivers by now have not come to pass.
In the longer term, once the company figures out the different ways in which LLMs might be put to work, it will become clearer whether tasks can be reorganized to create efficiencies. In the meantime, it would be more prudent to begin to rewrite contracts with vendors to maximize flexibility.